99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

與 Koji 的 2025 開年對(duì)談:AI 關(guān)鍵之年,Agent 開啟元年|此話當(dāng)真 EP35

0
分享至

用聲音,聽見真格。

「此話當(dāng)真」是一檔泛商業(yè)類播客,我們希望搭建這樣一個(gè)分享和交流的平臺(tái),讓每一個(gè)對(duì)商業(yè)、科技、創(chuàng)投充滿好奇的人都能在這里有所收獲。每期播客將會(huì)由不同的真格投資人擔(dān)任主持,和各領(lǐng)域的領(lǐng)軍人物一起帶大家深入了解科技趨勢(shì),以及創(chuàng)新技術(shù)的影響力。交流科技熱點(diǎn),我們只想給你最專業(yè)的解讀。

當(dāng)然,我們希望這不僅僅是一個(gè)播客,更是一次創(chuàng)業(yè)的探索。真格,你的創(chuàng)業(yè)第一站!我們期待與你相遇,一同發(fā)現(xiàn)新的可能。

2025 年第一期,是「此話當(dāng)真」與「十字路口」的串臺(tái)節(jié)目。站在新年年初的時(shí)間點(diǎn),雨森和 Koji 最近都很興奮,因?yàn)楦械秸谟H歷科技史上一個(gè)重要時(shí)刻。這種感覺源自兩個(gè)重大事件的發(fā)生:一是 Devin 的公開,二是 OpenAI o3 模型的發(fā)布。

Devin 為何如此令人興奮?就在半年前,雨森在做客「十字路口」時(shí)曾打過一個(gè)比方,「大模型還是小學(xué)生,別著急讓它去打工。」而就在親自體驗(yàn)過后,雨森認(rèn)為,Devin 作為第一個(gè)真正能用的 Agent 產(chǎn)品,讓人們看到了工作的 Scaling Law。從「你問我答」到「你問我做」,在 AI 能夠異步自主完成計(jì)劃與執(zhí)行后,擺在每個(gè)「人類」面前的新問題已經(jīng)變成:如何學(xué)會(huì)當(dāng) AI 的老板。

本期內(nèi)容,在深度探討 Devin 的使用感受與技術(shù)飛躍以外,我們回顧了過去一年 AI 行業(yè)的快速發(fā)展,并想象著 2025 年屬于 AI 創(chuàng)業(yè)的大機(jī)會(huì)將是什么。

新年宜暢想。AI 技術(shù)的發(fā)展波濤洶涌,然而只要深入其中就能看到,令人驚嘆的進(jìn)步總發(fā)生在一次次具體而微的努力中。新的一年,就讓我們繼續(xù)滿懷期待,且看這滔天巨浪,將帶人們駛向何方。

01

2024 回顧:AI 技術(shù)爆發(fā),模型進(jìn)步超預(yù)期,應(yīng)用增長(zhǎng)顯著

Koji:我們先來問雨森的第一個(gè)問題:2024 年這一年下來,你的整體感受是什么?

雨森:非常高興能夠跟 Koji 再次合作,分享我們對(duì) AI 發(fā)展和投資的感受,和大家有機(jī)會(huì)交流。

2024 年這一年下來,整體感覺我覺得是一個(gè)字,「快」。因?yàn)槲覀兛吹?AI 的模型以及產(chǎn)品的迭代速度都很快。

我記得在 24 年年初時(shí),最先進(jìn)的模型是 GPT-4。那個(gè)時(shí)候有個(gè)新的基準(zhǔn)測(cè)試(Benchmark)叫 SWE-bench,是把 GitHub 上常見的任務(wù)類型拿下來讓 AI 去嘗試完成。當(dāng)時(shí)最先進(jìn)的模型 GPT-4 在這上面的得分是 2.8 分,滿分是 100 分。到 24 年年底時(shí),大家可以用到的 Sonnet 3.5 能夠得到 50 分,也就是能解決一半的任務(wù)。而剛剛發(fā)布的 o3 在初步評(píng)測(cè)里已經(jīng)得了 71.7 分。

樂觀來講,以這個(gè)速度在一年的時(shí)間內(nèi),也就是 25 年,我們就可以看到人類絕大部分 GitHub 上的任務(wù)都能被 AI 解決了。這也意味著現(xiàn)有程序員的單個(gè)任務(wù),雖然不是整體工作,但確實(shí)有很多都可以被解決。24 年年初時(shí),ChatGPT 還不太會(huì)做四則運(yùn)算,那時(shí)候大家經(jīng)??妓粩?shù)乘三位數(shù),它可能也會(huì)算錯(cuò)。但現(xiàn)在解答 IMO 級(jí)別的題目已經(jīng)得心應(yīng)手,甚至在對(duì)數(shù)學(xué)家來說都很難的 Frontier Math 測(cè)試集上,o3 也得到了 25 分的成績(jī)。這是陶哲軒背書的,他認(rèn)為這些題目簡(jiǎn)單的是 IMO 級(jí)別,難的是前沿研究級(jí)別,現(xiàn)在 AI 也能做得不錯(cuò)。

Koji:這對(duì)應(yīng)用帶來了哪些影響?

雨森:比如我們投資的 Kimi,他們的產(chǎn)品是 23 年 10 月 9 號(hào),差不多在 24 年開始前一點(diǎn)時(shí)間上線的。到 24 年年底已經(jīng)有 4000 萬月活用戶。考慮到它是一個(gè)一年左右時(shí)間的新應(yīng)用,這個(gè)用戶增長(zhǎng)速度非???。

我還記得在 24 年 2 月份春節(jié)假期時(shí),看到 Sora 的發(fā)布宣傳片覺得非常震撼。當(dāng)時(shí)想著產(chǎn)品要過多久、以什么樣的成本才能用到這樣的視頻生成模型。但在 24 年底時(shí),大家已經(jīng)可以用上了。像可靈、混元等一系列產(chǎn)品,包括 Google 也出了 Veo 2,都是比當(dāng)時(shí)的 Sora 可能更好的視頻生成模型,而且是免費(fèi)的,讓大家覺得不過如此。所以大家對(duì)于 AI 產(chǎn)品的標(biāo)準(zhǔn)提高很快,一年前讓人驚嘆的東西,現(xiàn)在可能就覺得平常。但我們始終覺得還有更多可以做的事情,還有很多東西沒落地,實(shí)際上進(jìn)展是非??斓?。

同時(shí)我覺得也有很多觀點(diǎn)和看法被打臉。我記得在 24 年開始時(shí),如果你去問中國(guó)的投資人、創(chuàng)業(yè)者,很多人都要做中國(guó)的 Character AI,當(dāng)時(shí)大家都覺得這好像是一個(gè) To C 應(yīng)用,又有很多人用,還說要「百 C 大戰(zhàn)」。

Koji:年初很多人預(yù)測(cè) 2024 年一定會(huì)發(fā)生的一個(gè)趨勢(shì)是 「百 C 大戰(zhàn)」。

雨森:反正我沒有那么預(yù)測(cè),但有很多人這么預(yù)測(cè)。在 24 年 8 月份,Character AI 就宣布被 Google 收購(gòu),大家發(fā)現(xiàn)要破圈也不是那么容易。3 月份,Cognition 這家公司,也就是 Devin 的開發(fā)者,他們發(fā)了一個(gè) demo 視頻。那時(shí)候大家都不相信,覺得這個(gè)公司是忽悠人,甚至有人說是騙子,還有打假的視頻。結(jié)果 12 月 Devin 這個(gè)產(chǎn)品出來,大家大為震驚,發(fā)現(xiàn)居然是真的,可以做到很多 AI 的功能。

我還記得在 23 年年底 OpenAI 的宮斗事件,那個(gè)時(shí)候整個(gè) OpenAI 的員工都集體在 Twitter 上發(fā)聲支持 Sam Altman,說「OpenAI is nothing without its people」,是刷屏的內(nèi)容。但到 24 年底,走了不知道多少人。最后連元老 Alec Radford,OpenAI 的核心研究員也走了。那中間基本上大部分早期員工都走了。包括在年初時(shí),大家覺得 GPT-5 很快要出來,但一直到年底 GPT-4.5 也沒有出來。等來的是另外一條路線,就是 o1、o3 這條在推理(Inference)的路線。

一年下來有很多變化,不管是快速的變化,還是很多讓人想不到或沒有預(yù)計(jì)到的變化。這可能就是一個(gè)行業(yè)早期變化的常態(tài)。


Koji:半年前在十字路口那期播客里,雨森有一個(gè)核心觀點(diǎn)是說「大模型還是小學(xué)生,不要急著讓它去打工賺錢,給它多一些耐心?!?/p>

說這句話的時(shí)候,背后暗示著認(rèn)為技術(shù)的進(jìn)步雖然很快,但離商業(yè)化還很遠(yuǎn),離 To C 的大規(guī)模應(yīng)用還很遠(yuǎn)。在今天你還是這么認(rèn)為嗎?還是你覺得進(jìn)化的速度比你當(dāng)時(shí)理解的要快?

雨森:首先當(dāng)時(shí)說這句話其實(shí)有一個(gè)上下文,就是大家在問「訓(xùn)練模型花了這么多錢,什么時(shí)候才能賺回來?」在討論訓(xùn)練模型投資回報(bào)周期時(shí),我覺得這符合每次技術(shù)革命的相似模式:先投入資金進(jìn)行基礎(chǔ)建設(shè)和科研,然后產(chǎn)品逐漸找到落地場(chǎng)景,最終產(chǎn)生商業(yè)化收入。

那么一年下來,在一些具體模型能力比較擅長(zhǎng)的具體領(lǐng)域,比如編程領(lǐng)域,大模型的能力確實(shí)已經(jīng)超過了可以「打工」的閾值。就像我之前提到的,在 SWE-bench 測(cè)試上,年初只能解決 2% 的問題,顯然還無法勝任工作,但現(xiàn)在已經(jīng)能解決 50% 的問題。尤其是在 ChatGPT 3.5 出現(xiàn)后,我們看到像 Cursor、Windsurf 以及 Devin 這樣的產(chǎn)品開始涌現(xiàn),它們能夠真正幫助程序員解決很多問題,為生產(chǎn)力帶來實(shí)質(zhì)性提升。

從收入角度看,一些 AI Native 應(yīng)用在找到產(chǎn)品市場(chǎng)契合點(diǎn)(PMF)后增長(zhǎng)迅速。比如 Cursor 現(xiàn)在的年度經(jīng)常性收入(ARR)已接近 1 億美元。另一家針對(duì)技術(shù)小白用戶的 AI 編程公司 bolt.new,在四個(gè)星期達(dá)到 400 萬美元的 ARR、兩個(gè)月內(nèi)達(dá)到了 2000 萬美元的 ARR,這是企業(yè)服務(wù)應(yīng)用有史以來最快的增長(zhǎng)。還有斯德哥爾摩的一家公司 Lovable 在四周內(nèi)就達(dá)到 400 萬美元的年化收入。

包括我們投資的 AI 應(yīng)用 HeyGen,在 23 年年中拿到 1M ARR,在 18 個(gè)月內(nèi)增長(zhǎng)了幾十倍,24 年年底達(dá)到近 50M ARR。我們投資的 Monica 也已超過千萬美元的 ARR,這些都是在短短十幾個(gè)月內(nèi)實(shí)現(xiàn)的。無論是海外創(chuàng)業(yè)公司還是我們投資的項(xiàng)目,在用戶增長(zhǎng)方面都取得了顯著進(jìn)展。比如前面提到的 Kimi 已經(jīng)擁有 4000 萬用戶。

我認(rèn)為,在某些領(lǐng)域 AI 已經(jīng)具備了「打工」能力,但整體收入仍遠(yuǎn)低于成本。我們需要保持耐心,畢竟 ChatGPT 問世也才兩年。我們?nèi)蕴幵谝粋€(gè)模型能力不斷提升、解鎖新應(yīng)用場(chǎng)景的階段。只有在應(yīng)用場(chǎng)景產(chǎn)生足夠多的價(jià)值之后,才能逐步開展商業(yè)化。

Koji:其實(shí)我覺得這一波技術(shù)擴(kuò)散的速度非??臁偛盘岬降?Cursor、bolt.new,包括 HeyGen 和 Monica,除了 Monica 因?yàn)樾ず胨土宋?VIP 會(huì)員,另外三個(gè)我都是付費(fèi)用戶。這些技術(shù)擴(kuò)散起來,我覺得比上一波更快。即便它們并沒有網(wǎng)絡(luò)效應(yīng),但今天有一幫非常熱情的技術(shù)前沿探索者,大家在不斷嘗試新事物,并且熱情洋溢地去傳播。其實(shí)十字路口也是這樣的一員,我和雨森每次用到什么興奮的東西,也都會(huì)第一時(shí)間分享。

我有一個(gè)強(qiáng)烈的感受,也是我們錄這一期的原因,就是希望讓大家不要隔岸觀火,不要覺得看到的只是各種版本號(hào)的新發(fā)布,好像對(duì)自己沒什么影響。我特別希望大家能夠跳到浪潮里面去,下載這些應(yīng)用體驗(yàn)一下,早一點(diǎn)感受,早一點(diǎn)用起來。

雨森:我覺得有一句話說得特別好,是科幻作家 Gibson 說的:「未來已經(jīng)到來了,只是沒有均勻分布而已。」如果日常只是用一個(gè)簡(jiǎn)單的 Chatbot,甚至還有很多人都沒怎么用上 AI 產(chǎn)品,那可能就覺得這都是一些新聞?lì)^條而已。但在某些特定領(lǐng)域,比如對(duì)程序員或者數(shù)字藝術(shù)創(chuàng)作者而言,我相信很多時(shí)候 AI 工具已經(jīng)成為他們生產(chǎn)中不可或缺的一部分。我一直覺得,花一點(diǎn)時(shí)間或者花一點(diǎn)小錢去體驗(yàn)最新的 AI 產(chǎn)品,是非常值得的。因?yàn)檫@是一個(gè)很好的方式,可以直觀感受到我們?cè)谀承╊I(lǐng)域的進(jìn)步,也是看見未來的一個(gè)好辦法。

02

AI 技術(shù)擴(kuò)散:如何讓人人都能創(chuàng)造,而不只是使用

Koji:剛才提到不管是數(shù)字藝術(shù)創(chuàng)作者還是程序員這兩個(gè)群體應(yīng)用的大規(guī)模進(jìn)步,我認(rèn)為它們的意義并不僅僅是在幫助這兩個(gè)群體。更重要的是在幫助普通人也能夠去做原來只有程序員和藝術(shù)創(chuàng)作者才能做的創(chuàng)造,這才是更大的意義。

我們?cè)僬f回來,雨森你去年在真格大概聊了多少個(gè) AI 應(yīng)用的創(chuàng)業(yè)項(xiàng)目?有什么整體感受?你覺得 AI 應(yīng)用落地的速度在加速嗎?

雨森:我們團(tuán)隊(duì)加起來應(yīng)該聊了上千個(gè) AI 應(yīng)用的創(chuàng)業(yè)項(xiàng)目,我自己大概接近 200 個(gè)創(chuàng)業(yè)者。我們確實(shí)覺得隨著技術(shù)的進(jìn)展,AI 應(yīng)用的落地速度在加快。

具體來說,我覺得三個(gè)進(jìn)展很重要:

第一個(gè)是模型的推理能力。像 GPT-4o、o1 這類的發(fā)布讓模型的推理能力變強(qiáng)后,它的幻覺會(huì)減少,所以可以去規(guī)劃和完成更加復(fù)雜的任務(wù)。

第二個(gè)是模型的編程能力提高。因?yàn)樵跀?shù)字世界,大量任務(wù)可以通過編寫程序來完成。我們開始也提到,編程能力的增長(zhǎng)速度非??臁.?dāng)這些常見任務(wù)能夠被編程解決的時(shí)候,至少在編程這個(gè)領(lǐng)域,以及可以被泛化為編程的其他領(lǐng)域,執(zhí)行任務(wù)能力會(huì)強(qiáng)很多。

第三是 Anthropic 首先提出的工具計(jì)算機(jī)使用(Computer Use)。AI 能夠使用我們已有的軟件,從瀏覽器開始到其他軟件。人類社會(huì)造的這些軟件都可以被 AI 用來解決任務(wù)。所以這幾個(gè)加起來,我覺得對(duì)于 AI 完成任務(wù)的能力提高很多。

我覺得在 2025 年,Devin 的發(fā)布很重要,因?yàn)樗堑谝粋€(gè)把 Agent 從大家的想象、從原型變成現(xiàn)實(shí)落地的產(chǎn)品。我們會(huì)很快看到各個(gè)領(lǐng)域的 Agent 嘗試都會(huì)出來。當(dāng)然很多還是在比較初級(jí)的階段,但我覺得會(huì)有很多很有意思的思考得以落地。

Koji:所以我們待會(huì)兒會(huì)花很大的篇幅來和大家聊 Devin,以及聊我們對(duì)以 Agent 為代表的 AI 在明年發(fā)展的一些預(yù)期。

雨森:我們看到在美國(guó)和中國(guó),AI 應(yīng)用的創(chuàng)業(yè)方向是挺不一樣的。在國(guó)內(nèi)由于企業(yè)服務(wù)落地還是有些難度,導(dǎo)致很多創(chuàng)業(yè)者想做的還是 To C 的應(yīng)用。而 To C 應(yīng)用里面,很多都傾向于做殺時(shí)間的應(yīng)用,比如各種情感陪伴、AI 聊天這樣的變體。在美國(guó)我們看到的是各個(gè)細(xì)分領(lǐng)域,大家都在想去替代部分人類的工作,讓工作變得更加降本增效。這是中國(guó)和美國(guó)創(chuàng)業(yè)方向的很大反差。

當(dāng)然國(guó)內(nèi)還有一個(gè)大方向就是機(jī)器人,整個(gè)具身智能領(lǐng)域有非常多的新公司出來,拿了很多融資,甚至我們覺得有點(diǎn)過熱。但整體來講,我覺得大家還是非常興奮的。尤其是對(duì)年輕創(chuàng)業(yè)者來說,因?yàn)橹按蠹铱赡苡X得互聯(lián)網(wǎng)時(shí)代已經(jīng)快結(jié)束了,我們 80 后都是互聯(lián)網(wǎng)時(shí)代的紅利獲得者,但是 00 后可以干什么呢?AI 沒興起之前,他們覺得在互聯(lián)網(wǎng)領(lǐng)域確實(shí)沒什么可干的。但現(xiàn)在 AI 讓大家看到了很多新機(jī)會(huì),也是屬于他們這一代年輕創(chuàng)業(yè)者的機(jī)會(huì)。所以我們作為一個(gè)始終關(guān)注年輕人的基金,還是覺得有很多有意思的創(chuàng)業(yè)者在出來,有意思的項(xiàng)目也在出來。

Koji:說到這一波的創(chuàng)業(yè)者,你覺得他們身上有哪些典型的共同點(diǎn)嗎?除了對(duì)年輕更友好之外?

雨森:年輕是隨著不同時(shí)代進(jìn)展必然具有的特點(diǎn)。

他們普遍更加具有國(guó)際化視野。信息傳播現(xiàn)在越來越快了。在互聯(lián)網(wǎng)時(shí)代,海外一個(gè)應(yīng)用火了,中國(guó)可能要過個(gè)三到六個(gè)月才有對(duì)標(biāo)的產(chǎn)品出來。而現(xiàn)在基本上海外出現(xiàn)什么新事物,當(dāng)天就會(huì)有新聞報(bào)道,很多還是通過 AI 去總結(jié)翻譯的。所以大家對(duì)模型海外應(yīng)用的進(jìn)展普遍都很了解。

同樣,因?yàn)樽龅漠a(chǎn)品往往都是國(guó)際化的,出海也成了很大的主題。本來模型就具備很強(qiáng)的多語言能力,所以不少一開始做產(chǎn)品就是全球化的。這個(gè)在互聯(lián)網(wǎng)時(shí)代比較難以看到,那時(shí)大家往往都是說「我就做一個(gè)針對(duì)中國(guó)市場(chǎng)的產(chǎn)品」。而現(xiàn)在大家一開始就是兩條路一起走,既有國(guó)內(nèi)的也有國(guó)外的。我看到很多創(chuàng)業(yè)者和團(tuán)隊(duì)也更加 AI Native,不少人都有做 AI Research 或者工程實(shí)踐的經(jīng)驗(yàn),這也是他們能夠更早看到機(jī)會(huì)并把機(jī)會(huì)落地實(shí)施的原因。

但同時(shí),我覺得對(duì)于年輕的創(chuàng)業(yè)者來說,因?yàn)樗麄兛赡軟]有經(jīng)歷過互聯(lián)網(wǎng)很多業(yè)務(wù)的流程,所以在推廣、做商業(yè)化這些領(lǐng)域有些課需要補(bǔ)。在這個(gè)時(shí)候,一些老司機(jī),比如像我們投資的 Monica 這樣的團(tuán)隊(duì),他們之前經(jīng)歷過很多互聯(lián)網(wǎng)領(lǐng)域的增長(zhǎng),所以這方面的經(jīng)驗(yàn)確實(shí)有一些優(yōu)勢(shì)。但我覺得這些都是可以學(xué)習(xí)的,并且也可以通過招人、通過團(tuán)隊(duì)的補(bǔ)充來提高,所以我們?cè)谶@方面還是長(zhǎng)期很有信心。我們相信新一代 AI Native 的創(chuàng)業(yè)者能夠做出很有意思的產(chǎn)品,并且在該補(bǔ)的課上也能補(bǔ)回來。

Koji:我們接下來聊一聊從去年到今年,整個(gè) AI 的技術(shù)突破、行業(yè)變化和創(chuàng)業(yè)機(jī)會(huì)在這些方面認(rèn)知上的變遷。首先想問的是,有哪些觀點(diǎn)是一年前你還蠻認(rèn)可,但一年之后你自己已經(jīng)不再認(rèn)可的?

雨森:我覺得太多了,所以后來我都不太想錄播客了,因?yàn)槊看沃v了就容易被打臉。但要做早期投資,尤其是看早期技術(shù),打臉是常態(tài),只有不怕打臉才能夠繼續(xù)學(xué)習(xí)成長(zhǎng)。

一年多以前,大家強(qiáng)調(diào)的都是 Pre-training,大家講的都是說你需要有多少顯卡、要有多大集群,這也是 NVIDIA 股價(jià)暴漲的原因。因?yàn)榇蠹液?jiǎn)單地把它理解為:你有更多的顯卡、更多的算力,丟更多的數(shù)據(jù)進(jìn)去,很好的模型就會(huì)出來。

到 2024 年底 2025 年初來看,在 Pre-training 上確實(shí)從 OpenAI 以及各個(gè)行業(yè)領(lǐng)先團(tuán)隊(duì)來看,已經(jīng)到了一個(gè)相對(duì)的瓶頸。

如果我們說 Pre-training 是對(duì)智能的壓縮,那現(xiàn)在以文本等這些形式容易被壓縮的智能已經(jīng)壓得差不多了。Ilya 在發(fā)言時(shí)說,「互聯(lián)網(wǎng)的這些文本就像化石燃料,是人類這么多年積累下來的文本,現(xiàn)在已經(jīng)被我們都訓(xùn)練到模型里去了。接下來就需要新知識(shí),不管是在我們腦子里面還沒被提取出來的知識(shí),或者是通過 AI 去產(chǎn)生的新知識(shí),這樣的知識(shí)增長(zhǎng)速度其實(shí)沒那么快?!顾晕矣X得 Pre-training 大力出奇跡,這是今年大家都意識(shí)到要發(fā)生改變的一個(gè)過程。

一年前我確實(shí)也聊到一些 Agent 的內(nèi)容。當(dāng)時(shí)我覺得在大模型普遍存在很多幻覺的情況下,這種自主智能體(Autonomous Agent)或者說 L4 級(jí)別的 Agent 落地時(shí)間會(huì)需要比較長(zhǎng)。但目前來看,模型的推理能力、代碼生成能力和工具使用能力確實(shí)進(jìn)展很快。這使得在數(shù)字世界里面,如果我們對(duì)于一些目標(biāo)結(jié)果比較確定的任務(wù),比如說編程,Agent 落地的速度確實(shí)變快了很多。我們已經(jīng)看到像 Devin 這樣的產(chǎn)品已經(jīng)不只是一個(gè)想法,而是成為了事實(shí)。

這里面有兩個(gè)要點(diǎn):一是如何更好地規(guī)劃任務(wù),能夠做更長(zhǎng)周期的任務(wù);二是使用工具,包括寫代碼去使用和用已有的工具。這兩個(gè)能力都變得很強(qiáng)的時(shí)候,Agent 的落地速度可能會(huì)比大家想的要快,尤其是在數(shù)字世界里面。

第三點(diǎn)是,一年前大家普遍認(rèn)為模型會(huì)越來越大,之前說是 7B、70B、甚至 700B。但目前來看,先進(jìn)模型的大小提升其實(shí)不用那么快。我們可以用 70B 的模型得到越來越好的結(jié)果,同時(shí)我們也能夠把同樣的能力放在更小的模型上去運(yùn)行。

實(shí)際上,這種真正的超大模型可能主要用于對(duì)使用模型的對(duì)齊,或者說作為 Teacher Model(教師模型)。這其實(shí)有點(diǎn)像最早個(gè)人電腦的時(shí)代。大家一開始都覺得 CPU 的處理器頻率要越來越高,但實(shí)際上到了 3GHz 之后,單核頻率就不怎么單獨(dú)增長(zhǎng)了,而是通過更好的架構(gòu)、更低的能耗去提升性能。就像人的大腦一樣,不是要越來越大,而是在同樣的大小下,學(xué)到更多知識(shí)和技能,變得更加聰明。在這方面,我覺得模型成本的下降是超出預(yù)期的。雖然大家一直都知道模型的成本會(huì)越來越低,但現(xiàn)在我們看到每年同樣的模型或同樣的智能,它的成本能下降到原來的十分之一。這會(huì)解鎖很多應(yīng)用機(jī)會(huì),這些都是在 2024 年初時(shí)大家可能沒有那么明顯意識(shí)到,或者說在過程中發(fā)生改變的觀點(diǎn)。

Koji:還有一個(gè)關(guān)于認(rèn)知變遷的問題:有沒有哪些是你在 2024 年初覺得值得關(guān)注但沒那么重要,但到今天卻變成了特別重要的認(rèn)知?

雨森:我覺得首先作為投資人,我們對(duì)于前沿研究的認(rèn)知往往是有些滯后的。有些事情可能在研究員群體中已經(jīng)形成共識(shí),但我們還處于后知后覺的狀態(tài)。

2024 年有個(gè)重點(diǎn),就是強(qiáng)化學(xué)習(xí)(Reinforcement Learning ,RL)的興起。前面提到 Pre-training 已經(jīng)到了一個(gè)瓶頸,而在 Post-training 里面通過 RL 讓模型能力持續(xù)變強(qiáng),尤其是在 o1 和 o3 發(fā)布之后,大家發(fā)現(xiàn)在 RL 這條路上還可以走很遠(yuǎn),模型的能力可以提高很多。在 2024 年初的時(shí)候,這一點(diǎn)其實(shí)還只在很小的范圍內(nèi)討論,還沒有成為業(yè)界甚至研究界之外的普遍共識(shí)。所以我們發(fā)現(xiàn)預(yù)測(cè)大模型或者 AI 的技術(shù)路線永遠(yuǎn)是一件很難的事情。RL 這個(gè)方面的人才其實(shí)也很稀缺,所以大家都在做這樣的團(tuán)隊(duì)建設(shè)和技術(shù)儲(chǔ)備。

與此同時(shí)提出了一個(gè)非常重要的 Scaling Law,就是推理擴(kuò)展定律(Inference Scaling Law):如何把推理時(shí)間延長(zhǎng),得到更好的結(jié)果。

這在去年是一個(gè)非常重要的進(jìn)展,不僅體現(xiàn)在模型的設(shè)計(jì)上,也包括我們?nèi)绾卧O(shè)計(jì)產(chǎn)品。因?yàn)楝F(xiàn)在大部分產(chǎn)品像 ChatGPT、Claude 或者像 Cursor 這樣,都是要跟人進(jìn)行實(shí)時(shí)互動(dòng),我說一句它回一句。那這個(gè)時(shí)候,如何讓它每一步能夠做更長(zhǎng)的時(shí)間,甚至讓它自己能夠通過計(jì)劃使用工具持續(xù)地去做事情,而不需要我持續(xù)輸入。這種「慢思考」的思維方式不是張口就來,而是經(jīng)過深思熟慮之后得到更好的結(jié)果。這方面如何獲得更好的表現(xiàn)會(huì)是今年非常重要的一點(diǎn)。

還有一個(gè)是,模型之前是沒有太多背景信息的。比如當(dāng)我問 ChatGPT 一個(gè)問題,它實(shí)際上只有我的這個(gè)輸入作為它的背景信息。事實(shí)上任何一個(gè)聰明人,如果只有一句話來回答問題,都是很難的。但我們現(xiàn)在看到,比如 Cursor 可以把整個(gè)組織的 Codebase 作為背景信息。而 Devin 是整合在 Slack 里邊,它能把組織里面已有的對(duì)話記錄、功能記錄作為背景信息。當(dāng)模型在同樣的智能水平下,有了更多的信息,就能夠更好地理解意圖,更好地回答問題。

我覺得在這個(gè)方面,新的產(chǎn)品設(shè)計(jì)如何讓用戶能夠無痛、簡(jiǎn)單地把更多背景信息帶進(jìn)去,會(huì)變得很重要。所以我們現(xiàn)在看到的像 ChatGPT 這種一問一答的方式,我覺得還是一個(gè)非常原始的方式。大家都在思考新的產(chǎn)品形態(tài)是什么樣子,這些都是今年大家逐漸意識(shí)到并浮出水面的東西。

Koji:我們?cè)谏弦黄诘摹甘致房凇估镎昧牡搅?OpenAI 過去 12 天的連環(huán)發(fā)布會(huì)發(fā)布了什么。關(guān)于前面提到的第三點(diǎn),即如何獲得更多的背景信息,OpenAI 也發(fā)布了一個(gè)新功能:ChatGPT 的 Mac 版本現(xiàn)在可以讀取你的屏幕,把屏幕上的內(nèi)容作為背景信息,結(jié)合你的問題來給出回復(fù)。

這個(gè)讀屏功能并不是簡(jiǎn)單的截屏,它可以讀取三個(gè)層面的內(nèi)容。第一個(gè)層面是截圖式理解,即屏幕上顯示什么它就理解什么。第二個(gè)層面是它可以讀取程序窗口里的所有內(nèi)容,哪怕這些內(nèi)容現(xiàn)在并沒有顯示在屏幕上,需要滾動(dòng)才能看到,它也可以獲取這些信息。第三個(gè)層面是最厲害的,它可以知道你的光標(biāo)位置。因?yàn)楣鈽?biāo)在哪里,往往表明你當(dāng)前的注意力最集中在哪里。因此當(dāng)你問問題或與它討論時(shí),它會(huì)結(jié)合你的光標(biāo)位置或你選中的文字來進(jìn)行回復(fù)。

所以我覺得哪怕是在 Chatbot 這樣的模式下,能讀取更多背景信息的應(yīng)用也會(huì)讓 AI 能力變得更強(qiáng)。

雨森:對(duì),原來的 ChatGPT 有點(diǎn)像是你的一個(gè)筆友,你只能給它寫郵件,你寫一封它回一封。但如果這個(gè)「筆友」不是在郵件的另一端,而是站在你電腦后面,看著你如何使用電腦,甚至是住在你的電腦里面,能看到屏幕上看不到的東西,它顯然會(huì)變得更有用。

所以我覺得如何把 AI 與用戶的背景信息、用戶已有的知識(shí)、組織已有的知識(shí)結(jié)合起來,對(duì) AI 的作用是巨大的。因?yàn)樗F(xiàn)在能夠消化這么多的信息,這當(dāng)然也得益于模型技術(shù)的進(jìn)步。

Koji:不僅是這些,最近剛發(fā)布兩周的 Gemini 2.0 也推出了多模態(tài)理解功能。你可以直接打開攝像頭,然后指著攝像頭看到的東西問「這是什么」。比如我試了一下,就問墻上一張電影節(jié)的海報(bào):這是什么電影節(jié)、哪一屆的海報(bào)。類似這樣的問題在過去都只存在于科幻電影中,但在今天已經(jīng)變成現(xiàn)實(shí),而且這個(gè)現(xiàn)實(shí)是在可接受的成本之內(nèi),并且能以非??斓乃俣确祷卮鸢?。當(dāng)然它還沒有特別好地變成一個(gè) C 端產(chǎn)品,但大家去試用一下,我覺得這個(gè)效果真的很讓人驚艷。

03

從 ChatGPT 到 Devin:AI 編程的四個(gè)發(fā)展階段與范式轉(zhuǎn)變

Koji:我們?cè)倭囊涣?AI 編程。編程領(lǐng)域今年取得了非常令人興奮的進(jìn)展。雨森一直有很強(qiáng)的框架歸納和總結(jié)能力。前不久你跟我分享過你提煉出來的 AI 編程發(fā)展四段論,要不要在播客里和大家分享一下?

雨森:這其實(shí)是和很多朋友一起探討得出的結(jié)果,是大家智慧的結(jié)晶。AI 編程從 ChatGPT 出現(xiàn)到現(xiàn)在也就兩年出頭的時(shí)間,但已經(jīng)經(jīng)歷了四個(gè)階段。

第一個(gè)階段是讓 AI 直接寫代碼,典型代表是早期的 ChatGPT、Claude。我們給它一個(gè)需求,比如「幫我寫個(gè)貪吃蛇」,它就給出一段代碼。在這個(gè)過程中,它既不知道我為什么要寫貪吃蛇,也不知道代碼運(yùn)行情況如何??赡芤胰ケ镜鼐幾g運(yùn)行后發(fā)現(xiàn)報(bào)錯(cuò),再把錯(cuò)誤告訴它,它才能給出調(diào)試后的結(jié)果。這時(shí)的 AI 完全就像一個(gè)只能通過郵件交流的筆友,是簡(jiǎn)單的問答模式。

第二階段是以 GitHub Copilot 為代表,AI 開始擁有上下文,它可以把整個(gè)組織的代碼庫(kù)作為 context。這樣 AI 就獲得了大量新的背景信息。但這時(shí)用戶還是需要手動(dòng)把代碼貼到 IDE 里面進(jìn)行調(diào)試。我覺得這是 2.0 階段,就是我們讓 AI 擁有了 codebase 作為上下文。

2024 年一個(gè)非常大的進(jìn)步是以 Cursor 為代表的編程 Copilot 的出現(xiàn)。它的核心理念是預(yù)測(cè)用戶未來要寫什么代碼。根據(jù)你的代碼庫(kù)以及剛才寫的代碼,它預(yù)測(cè)你接下來要寫什么代碼、創(chuàng)建什么文件、做什么操作。這里面對(duì)于生成代碼的質(zhì)量和數(shù)量,以及文件的創(chuàng)建和修改都有很大提升。后來 Windsurf 還加入了對(duì)命令行操作的自動(dòng)化,這樣 AI 就能很好地使用我的電腦。原來的 AI 是在一張紙上寫代碼,我把代碼抄走運(yùn)行;現(xiàn)在 AI 可以在我的電腦上創(chuàng)建文件、執(zhí)行命令行操作,進(jìn)入到「我為你寫」的階段。

當(dāng)我們覺得這已經(jīng)很令人興奮時(shí),Devin 的出現(xiàn)帶來了幾個(gè)重要突破:首先,它可以異步工作。Cursor、Windsurf 這些工具雖然一步操作做的事情比較多,但仍然需要持續(xù)的注意力,即「我說一步它做一步」。而 Devin 可以持續(xù)工作,把用戶的注意力釋放出來。這是因?yàn)樗嗔艘粋€(gè) Planner,可以規(guī)劃任務(wù)。

其次,它可以通過虛擬機(jī)執(zhí)行更多操作,做更多調(diào)試工作。比如你寫個(gè)網(wǎng)站,它可以自己用虛擬機(jī)去訪問這個(gè)網(wǎng)站,檢查前端后端的業(yè)務(wù)邏輯是否正確,并且可以隨時(shí)打斷和調(diào)整。大家用 Cursor 或者 ChatGPT 都知道,你無法在它輸出的中間做調(diào)整,必須等它輸出完后才能修改。但 Devin 就像真人一樣,你可以在它完成任務(wù)時(shí)給出新指令,它會(huì)把這個(gè)結(jié)合到已有的 Planner 里調(diào)整計(jì)劃。這就從「為你寫」進(jìn)化到了「為你做」。

總結(jié)一下這四個(gè)階段:第一階段是讓 AI 寫代碼,代表是 ChatGPT;第二階段是 AI 開放代碼庫(kù),代表是 GitHub Copilot;第三階段是 AI 可以自動(dòng)寫代碼并執(zhí)行,代表是 Cursor 和 Windsurf;第四階段是 AI 虛擬員工,Devin 開創(chuàng)了一個(gè)很好的先例。

04

AI 出海攻略:深耕用戶需求,巧用內(nèi)容營(yíng)銷,避免簡(jiǎn)單投放

Koji:這很像一個(gè)比喻:1.0 時(shí)代的 AI 是「讀萬卷書」來回答問題,到了 4.0 時(shí)代則變成了「行萬里路」。它成為一個(gè)真實(shí)的員工,你給它下達(dá)任務(wù),它就去外面完成一圈,再回來向你匯報(bào)。這是我們親眼見證的、在這一年中發(fā)生的躍遷式四階段變化。

真格在過去投資了不少出海的 AI 創(chuàng)業(yè)團(tuán)隊(duì),其中非常典型的代表是 HeyGen 和 Monica,都表現(xiàn)得超級(jí)優(yōu)秀。所以也想和你探討一下出海的話題。

今年在整個(gè)行業(yè)里有一句廣為流傳的說法是「不出海就出局」,出海似乎變得非常重要,甚至是至關(guān)重要。所以首先想問你的是,為什么海外 AI 的落地和國(guó)內(nèi)的反差這么大?以至于我們都鼓勵(lì)英語都說不好的國(guó)內(nèi)創(chuàng)業(yè)者去勇敢嘗試,做一做 AI 的出海?

雨森:最核心的原因是 AI 目前主要是一個(gè)提高生產(chǎn)力的技術(shù),而在人均工資高很多的歐美地區(qū),他們對(duì)工具的付費(fèi)意愿更強(qiáng)。

所以當(dāng)你做一個(gè)生產(chǎn)力工具時(shí),比如像我們投資的 HeyGen、Monica 還有 Oculus、Max AI 等一系列提高生產(chǎn)力的工具,海外用戶尤其是歐美用戶對(duì)于生產(chǎn)力付費(fèi)的意愿比較強(qiáng),而且他們付的是美元,所以這個(gè)絕對(duì)金額更高。這是最重要的因素。

同時(shí)也有一些其他原因:比如說去海外能夠使用能力更強(qiáng)的模型,如 Sonnet 3.5 或者 GPT-4o,所以能夠解鎖更多的應(yīng)用場(chǎng)景,而國(guó)內(nèi)大家能用到的模型確實(shí)還有一些差距。另外,當(dāng)一個(gè)產(chǎn)品做好之后,因?yàn)榇竽P捅旧砜梢蕴幚矶嗾Z言的輸入和輸出,既然已經(jīng)做了,為什么不把它面向全球化推廣呢?

我覺得現(xiàn)在普遍采用了訂閱制,這在國(guó)內(nèi)確實(shí)比較難推行,但是海外訂閱已經(jīng)被廣泛接受了。這樣對(duì)于創(chuàng)業(yè)團(tuán)隊(duì)來說,他們做商業(yè)收入的能力也提高了很多。

Koji:所以你認(rèn)為這一代的 AI 創(chuàng)業(yè)者,他需要具備哪些特點(diǎn)?然后你會(huì)鼓勵(lì)他出海嗎?因?yàn)槲蚁肽阋膊粫?huì)鼓勵(lì)所有人出海。

雨森:其實(shí)我們現(xiàn)在覺得當(dāng)所有 VC 都勸創(chuàng)業(yè)者出海的時(shí)候,這往往就說明市場(chǎng)太熱了。

因?yàn)槲覀円恢痹诰柽@種所謂特別共識(shí)性的觀點(diǎn)。而且我們覺得大部分中國(guó)創(chuàng)業(yè)者出海肯定是一個(gè) debuff 而不是 buff,因?yàn)楫吘故强蛨?chǎng)作戰(zhàn),你要解決很多在國(guó)內(nèi)不需要解決的問題,以及去了解很多原來并不了解的用戶。

中國(guó)的機(jī)會(huì)其實(shí)很多,像我們?cè)趪?guó)內(nèi)投的 Kimi、與愛為舞這些 AI 公司,其實(shí)增長(zhǎng)得更快。只是說它的商業(yè)化可能會(huì)稍微慢一點(diǎn)。但是我覺得這也是互聯(lián)網(wǎng)時(shí)代我們學(xué)到的一點(diǎn)。其實(shí)想想看互聯(lián)網(wǎng)時(shí)代,當(dāng) eBay 那個(gè)時(shí)候很早商業(yè)化、抽傭金的時(shí)候,淘寶先免費(fèi),然后最后做成了更牛的商業(yè)模式。在中國(guó)和歐美市場(chǎng),本來適合的商業(yè)模式就不太一樣,并不是每個(gè)團(tuán)隊(duì)都要去出海。

Koji:在今天已經(jīng)選擇要出海的中國(guó)創(chuàng)業(yè)者,我相信有很多人在聽我們這期播客內(nèi)容。那雨森,你會(huì)有什么樣的建議給到他們嗎?

雨森:我覺得出海其實(shí)跟在任何地方做產(chǎn)品一樣,首先要非常了解用戶的真實(shí)需求。在出海的過程中,因?yàn)楦糁Z言和地理位置的障礙,所以這一點(diǎn)變得更加重要,尤其在企業(yè)服務(wù)領(lǐng)域。因?yàn)橹拔覀円姷叫U多中國(guó)做企業(yè)服務(wù)的創(chuàng)業(yè)者,覺得我們的工程師能力很強(qiáng),解決問題的能力很強(qiáng),所以他們覺得出??梢匀コ礁?jìng)爭(zhēng)對(duì)手。

雖然我們的團(tuán)隊(duì)執(zhí)行力很強(qiáng),但定義關(guān)鍵問題需要實(shí)地調(diào)研和真正了解客戶。所以尤其是在這種需要以銷售驅(qū)動(dòng)的領(lǐng)域,我們覺得一定要找到有 Go-to-Market 經(jīng)驗(yàn)的專家,甚至團(tuán)隊(duì)要去到對(duì)應(yīng)的目的地。像 Monica 這樣偏用戶端的產(chǎn)品,需求可能相對(duì)比較普世或容易理解,那這個(gè)倒不一定。但對(duì)于企業(yè)服務(wù)來說,人一定要出去。

當(dāng)然我們看到有很多做小眾市場(chǎng)的,因?yàn)檫@類需求理解起來最容易,可能全人類都差不多。這是第一點(diǎn),就是真的要搞清楚用戶和需求。第二點(diǎn),我覺得普遍做得好的團(tuán)隊(duì)的共性,就是要想清楚并找到一個(gè)低成本高回報(bào)的營(yíng)銷策略。比如我們看到 HeyGen、Monica、Viggle 這些中國(guó)出海比較好的產(chǎn)品,其實(shí)往往都是把 SEO、社交媒體傳播,或者優(yōu)質(zhì)內(nèi)容的病毒式傳播這些營(yíng)銷策略用得比較好,而不是簡(jiǎn)單地去做投放的打法。當(dāng)然如果你的產(chǎn)品變現(xiàn)能力很強(qiáng),這個(gè)時(shí)候也許做投放能把 ROI 算過來,但基本上現(xiàn)在投放都很貴。

所以如何巧妙地做營(yíng)銷,尤其是通過產(chǎn)品特性實(shí)現(xiàn)病毒式營(yíng)銷,變得非常重要。

把海外的 Twitter 這些平臺(tái)用好,其實(shí)跟國(guó)內(nèi)很不一樣。因?yàn)樵趪?guó)內(nèi)大家可能習(xí)慣了去投信息流、做投放,通過很厲害的投放方式去做。而在海外我覺得更要巧妙地去做。國(guó)內(nèi)團(tuán)隊(duì)的產(chǎn)品執(zhí)行力往往都很強(qiáng),所以無非就是說做什么和怎么推廣這兩點(diǎn),可能是大家普遍遇到比較有挑戰(zhàn),或者說做好了就會(huì)比較加分的地方。

05

AI 硬件創(chuàng)業(yè):看上去很美,但需要謹(jǐn)慎對(duì)待

Koji:其實(shí)大家還有一個(gè)觀點(diǎn),就是覺得這一波做 AI 硬件的也蠻多的。做 AI 硬件可以特別好地利用到中國(guó)的優(yōu)勢(shì)資源。那在 AI 硬件領(lǐng)域,雨森你們?cè)谶^去一年看過或投資了什么項(xiàng)目嗎?

雨森:AI 硬件我們看了蠻多項(xiàng)目,但說實(shí)話我覺得硬件看上去很美,卻不一定真的那么好落地。

過去落地比較好的還是這種,比如說海外已經(jīng)把產(chǎn)品原型打出來了,我們?nèi)グ阉龅酶?、更便宜,或者更小。?dāng)然我們也看到一些團(tuán)隊(duì),比如像 Plaud,確實(shí)做出了很有創(chuàng)意的產(chǎn)品。但我覺得整體來說,硬件的擴(kuò)展速度其實(shí)都沒有那么快,軟件反而還是更加適合現(xiàn)在 AI 擴(kuò)散的載體。所以我們對(duì)于硬件一直都是比較謹(jǐn)慎的。

當(dāng)然我們也有投這樣的創(chuàng)業(yè)者,但我們整體并沒有像有的基金那樣投了很多。我自己對(duì)于 AI 硬件一直覺得,包括像當(dāng)時(shí)的 Rabbit、Humane 剛出來的時(shí)候,我自己都是持比較謹(jǐn)慎的態(tài)度。

06

Devin:不只是一個(gè)編程工具,而是首個(gè)真實(shí)可用的AI Agent

Koji:好,我們進(jìn)到今天的第二部分,我們將和雨森一起來聊一聊 Devin。首先要和大家特別說明的是,我們今天會(huì)用非開發(fā)者的視角來聊。因?yàn)槲覀z都不是專業(yè)的工程師,雖然學(xué)了七年的計(jì)算機(jī)科學(xué),但畢業(yè)之后就一直做產(chǎn)品經(jīng)理。也是直到半年前 Cursor 發(fā)布之后,才重新開始寫代碼,應(yīng)該說是重新開始命令 AI 幫我寫代碼(笑)。

但另一方面,正是因?yàn)槲液陀晟际欠情_發(fā)者的背景,這反而讓我們可以用獨(dú)特的視角去感受和體驗(yàn) Devin,并且去預(yù)測(cè) AI Coding Agent 乃至更廣義的 AI Agent 將如何改變每個(gè)人未來的生活和工作。

因?yàn)槲覀冋J(rèn)為這一代 AI 編程技術(shù)最終會(huì)沿著兩個(gè)方向發(fā)展:一個(gè)是服務(wù)專業(yè)的程序員和開發(fā)者,第二是賦能所有像我們這樣的非開發(fā)者。而后者的商業(yè)價(jià)值和應(yīng)用前景可能更加深遠(yuǎn)而廣泛。

那第一個(gè)問題想問一下雨森,我們?cè)诎l(fā)布的第一天,你其實(shí)就花了 500 美金去充值。那你充值了 Devin 之后,第一個(gè)用 Devin 做的事情是什么?以及你用它做的讓你印象最深刻的事情是什么?

雨森:Devin 在安裝完成之后,它有一些推薦的任務(wù)。其中有一個(gè)就是它會(huì)把你的名字帶進(jìn)去,在網(wǎng)上找你的信息,給你做個(gè)人網(wǎng)站。之后我讓它做了我通常讓實(shí)習(xí)生做的典型工作,我給它一個(gè)任務(wù):我們要改一改我們的創(chuàng)投基金的價(jià)值觀宣言(Manifesto)。然后,我說你去找一找美國(guó)有哪些頂級(jí) VC,他們的 Manifesto 是什么?這是一個(gè)典型的任務(wù),你大概知道需要找什么,但這需要有信息收集整理和解決問題的能力。

我看它去做,發(fā)現(xiàn)很多有意思的點(diǎn)。它首先要確定什么是美國(guó)的 Top VC,所以先去 Pitchbook、CB Insights 這些網(wǎng)站找有沒有 Top VC 的列表。它先找到了它認(rèn)為 Top 的十幾家 VC,我看了看列表確實(shí)是比較頂級(jí)的十家,它就一個(gè)個(gè)去官網(wǎng)找他們的 Manifesto。但是 Manifesto 這個(gè)東西在 VC 里邊其實(shí)有不同的叫法。比如說紅杉叫 Ethos,在 Founders Fund 叫 Manifesto,在別的地方可能叫 About 或者 Philosophy。并且還有幾個(gè) VC 的網(wǎng)站上沒有這樣的內(nèi)容,就是沒有一個(gè)關(guān)于「我是誰,我的價(jià)值觀」的描述。所以我看到 Devin 在這個(gè)過程中,它在嘗試?yán)斫膺@個(gè)任務(wù),找到最符合的內(nèi)容。

比如說它在找 Accel 這家 VC(也是美國(guó)非常有名的 VC)時(shí),發(fā)現(xiàn)官網(wǎng)上沒有這樣的內(nèi)容。但它就去 News 里面找,找來找去找了兩三年,他們有篇文章里面介紹了 Accel 的價(jià)值觀方法論。它把那個(gè)內(nèi)容拿出來作為它要找的內(nèi)容。所以你可以看到它像一個(gè)初級(jí)人類員工一樣去解決問題,不是很機(jī)械地說你網(wǎng)站上有沒有個(gè)叫 Manifesto 的東西,沒有就沒找到。而是說我需要去看看你整個(gè)網(wǎng)站上面有沒有比較符合這個(gè)內(nèi)容定位的內(nèi)容,然后去尋找。

它最后給我一個(gè)包含 10 個(gè) VC 對(duì)應(yīng) Manifesto 的 Markdown 文件,但這里面有很多 AI 模型現(xiàn)在常見的問題。比如說它有時(shí)候容易偷懶,因?yàn)槲乙讶哪孟聛?,但在幾個(gè) VC 的內(nèi)容里面,它就給自己做了個(gè)總結(jié)。這是我們很多時(shí)候用現(xiàn)在 AI 的 Chatbot 也會(huì)遇到的問題,就是因?yàn)?Token 數(shù)的原因不給你全文,而是給你一個(gè)縮略。這個(gè)時(shí)候就要告訴它說,你要給我完整的文本內(nèi)容。所以它其實(shí)跟真正的實(shí)習(xí)生一樣需要教導(dǎo)。但我覺得這里面它體現(xiàn)的規(guī)劃能力,以及對(duì)于不能直接解決的任務(wù)去創(chuàng)造性解決的能力,是非常有意思的。

當(dāng)然這可能不是大家使用 Devin 的典型場(chǎng)景,因?yàn)槲覜]有讓它去編程,而是讓它來做一個(gè)語言模型 AI 的常見事情。所以我完全可以想到,現(xiàn)在我們有適合編程的 Devin,那么我們完全可以有適合做文本工作、適合金融界或法律界工作的對(duì)應(yīng) Agent 產(chǎn)品。

在這里面我認(rèn)為,只要我定義的工作是一個(gè)人坐在電腦前,通過使用電腦、上網(wǎng)、使用軟件能夠解決的工作,那么它大概率都能被或多或少地在這個(gè)工作流程里得到體現(xiàn)。這個(gè)還是蠻讓我覺得驚艷的。

Koji:所以你從第一天到現(xiàn)在,在兩周左右的時(shí)間里,你感覺自己體驗(yàn)到了一個(gè)什么樣的未來?

雨森:在體驗(yàn) Devin 之后,我感覺它作為第一個(gè)真正能用的 Agent 產(chǎn)品,可能標(biāo)志著人類歷史的一個(gè)重要時(shí)刻。

為什么這么說呢?因?yàn)槿祟悮v史上發(fā)明了很多工具,有人說「人就是能夠使用工具的動(dòng)物。」但所有這些工具基本上都可以分為兩類:第一種是需要持續(xù)注意力的工具,比如電鉆、錘子或鍵盤鼠標(biāo),它需要我們持續(xù)的注意力關(guān)注和輸入;第二種是機(jī)械重復(fù)的自動(dòng)化工具,比如洗衣機(jī)、自動(dòng)售貨機(jī)、流水線,它可以不需要我們關(guān)注,但只能解決重復(fù)的任務(wù)。

我們一直在尋找第三種——不需要持續(xù)注意力,但同時(shí)能自己規(guī)劃去解決問題的工具。這就是所謂的 Autonomous Agent。

在原來的構(gòu)想里,可能只有像 Viggle 這樣的產(chǎn)品在硬件上實(shí)現(xiàn)了。在軟件層面,我們一直沒有看到這樣的產(chǎn)品出現(xiàn)。去年有一些像 AutoGPT 這樣的嘗試,但都還停留在產(chǎn)品原型階段。

我發(fā)現(xiàn) Cursor 定義了真正的 Agent 產(chǎn)品需要具備的幾個(gè)特點(diǎn):

第一是由于強(qiáng)大的任務(wù)規(guī)劃能力帶來的異步體驗(yàn)。它原來設(shè)計(jì)的場(chǎng)景是在 Slack 里你可以 @Devin 說幫我改這個(gè) Bug,然后它自己就去改了。只有在它真的需要幫助或完成任務(wù)時(shí)才會(huì)來找我。這跟實(shí)習(xí)生很像,交代任務(wù)后他會(huì)自己工作,只在遇到解決不了的問題時(shí)才來找我。與此同時(shí),我可以給多個(gè)實(shí)習(xí)生派活,讓我能專注做真正重要的事情。

第二是在云端部署的虛擬機(jī)。它可以使用瀏覽器,未來還能使用更多軟件,從而完成更多任務(wù)。這和原來的 Cursor 和 Windsurf 用我自己的電腦完全不一樣。如果大家之前用過類似于 RPA 的軟件,大家會(huì)發(fā)現(xiàn) RPA 在操作的時(shí)候,你是什么都不敢操作的,因?yàn)槟愕牟僮鲿?huì)打斷它的流程。AI 是在用你的電腦。但 Devin 是在用虛擬機(jī),就像我們給實(shí)習(xí)生配電腦一樣,AI 用自己的虛擬機(jī)帶來的靈活性非常不同。

第三,Devin 做事時(shí)像真實(shí)員工一樣會(huì)學(xué)習(xí)和成長(zhǎng)。比如說我們招個(gè)實(shí)習(xí)生,他第一天肯定會(huì)搞砸很多事情,因?yàn)樗恢涝谖覀冞@個(gè)組織里面該如何處理很多社交行為。當(dāng)他做一件事情的時(shí)候,會(huì)逐漸意識(shí)到自己需要積累相關(guān)經(jīng)驗(yàn),這些經(jīng)驗(yàn)被稱為「知識(shí)」。他會(huì)主動(dòng)提示說自己學(xué)到了某個(gè)知識(shí)點(diǎn),比如在找信息時(shí)要盡量去官網(wǎng)查找。我會(huì)確認(rèn)他學(xué)到了這些好的知識(shí),這個(gè)過程和我們跟實(shí)習(xí)生、員工做評(píng)估很像。就像員工寫工作總結(jié)說學(xué)到了哪幾點(diǎn),我們會(huì)肯定說「對(duì),這幾點(diǎn)做得很對(duì)」。這樣理論上就可以不斷積累組織內(nèi)的專有知識(shí),讓他變得更加適應(yīng)這個(gè)團(tuán)隊(duì)。

其實(shí)我們?cè)谡腥藭r(shí)也是這樣。一個(gè)員工剛來的時(shí)候,他的價(jià)值相對(duì)有限,需要持續(xù)學(xué)習(xí)才能更好地適應(yīng)組織。但之前在使用工具時(shí),我們都希望這個(gè)工具一打開就能用,不會(huì)期待說一臺(tái)電腦要不斷學(xué)習(xí)才能越來越好用。

在 Devin 這里,我們真正看到了它具備類似人類員工的成長(zhǎng)曲線。雖然這還比較早期,但我們發(fā)現(xiàn)這樣的范式轉(zhuǎn)變非常重要。

第四,Devin 提出了根據(jù)完成任務(wù)進(jìn)行收費(fèi)的模式。500 美元對(duì)應(yīng) 250 個(gè) ACU,每個(gè) ACU 約 15 分鐘工作,換算下來每小時(shí) 8 美元。這已經(jīng)低于加州最低工資標(biāo)準(zhǔn)(16 美元/小時(shí))的一半。隨著 AI 算力提高、成本下降,這筆投入在未來能做更多事情。相比招人還要處理人事、場(chǎng)地、管理等問題,AI 是 7×24 小時(shí)不知疲倦的員工。

有朋友說得很有意思:程序員喜歡 Cursor,因?yàn)樗浅绦騿T的 Copilot,能幫助提升效率;老板喜歡 Devin,因?yàn)槔习蹇紤]如何花錢買到生產(chǎn)力。Devin 展示了一個(gè)潛在的范式變化,就是通過花錢去擴(kuò)展生產(chǎn)力。我認(rèn)為 Devin 讓我看到了工作的 Scaling Law。

在很多 Coding Agent 里,第一個(gè)任務(wù)往往是做個(gè)人網(wǎng)站,我們開玩笑說「這就是新時(shí)代的 Hello World?!惯@個(gè)任務(wù)它完成得不錯(cuò),因?yàn)閺木W(wǎng)上找我的信息比較容易,它能快速搭建網(wǎng)站。

Koji:Devin 的出現(xiàn),不僅讓大家覺得 AI 編程變得很厲害,更是定義了一個(gè)新的交互方式。大家可以看到,AI Agent 可以如此工作。因?yàn)槲液陀晟?Devin 里面用一個(gè)團(tuán)隊(duì)賬號(hào),我能看到他所有任務(wù)的進(jìn)展,能看到他怎么用 Devin,Devin 又怎么回應(yīng)他。

這真的有一種在辦公室里的感覺。有一個(gè)實(shí)習(xí)生一開始在幫雨森做事,現(xiàn)在他做了一個(gè)報(bào)告。正好雨森下樓吃飯了,我看到了他的報(bào)告,就給他建議說,其實(shí)雨森想要的是這樣,你再去完善一下,等他回來就可以看了。這種真的像是在用一個(gè)人,這也是為什么我們說它是一個(gè)真正的 Agent。因?yàn)?Agent 翻譯過來是「人」,而不僅僅是機(jī)器,它是某種助理的意思。這是為什么我感覺 Devin 產(chǎn)生了一個(gè)新的、像用助理一樣的范式。

雨森:對(duì),這里面還有很多細(xì)節(jié)挺有意思的。我再舉一個(gè)例子,在我們另外一個(gè)朋友的任務(wù)里,他要 Devin 去 LinkedIn 上抓一些人的信息。比如說 OpenAI 的中國(guó)員工,但 Devin 顯然沒有 LinkedIn 賬號(hào),所以它需要找用戶說,你能不能幫我登錄一下 LinkedIn 賬號(hào)。這時(shí)候,因?yàn)?Devin 運(yùn)行在虛擬機(jī)上,所以它有個(gè)互動(dòng)模式。作為用戶,我可以在虛擬機(jī)里輸入我的 LinkedIn 賬號(hào)和密碼,然后 Devin 就繼續(xù)使用。

這很像什么呢?比如我們招一個(gè)實(shí)習(xí)生,給他配了臺(tái)電腦,但他沒有特定軟件的訂閱賬號(hào),他就會(huì)說「老板你來輸一下你的賬號(hào)」,在我把賬號(hào)輸進(jìn)去之后,他就繼續(xù)用我登錄好的賬號(hào)工作。

這就是為什么虛擬機(jī)變得很重要,因?yàn)樗梢栽诶锩孀龊芏嗖僮鳎淮驍辔业墓ぷ髁鞒獭7駝t就像 Cursor 或 Windsurf 那樣借用我的電腦,那時(shí)我什么也干不了。這種異步的方式讓我可以同時(shí)給 Devin 布置很多任務(wù),它是個(gè)并行的工作模式,我只需要付出算力成本就行了。

這其實(shí)很重要。比如在日常生活中我有一個(gè)實(shí)習(xí)生,但如果我有十個(gè)實(shí)習(xí)生,每個(gè)人都能幫我做很多事情。這個(gè)工作效率的提升可能是指數(shù)級(jí)的。

Koji:就讓我想起了當(dāng)年說「人人都是產(chǎn)品經(jīng)理」,但今天就變成了「人人都是 CEO」。因?yàn)樵诤?AI 單位互動(dòng)的過程當(dāng)中,好像只需要做 CEO 最喜歡做的三件事:第一,下指令;第二,檢查工作;第三,高水平一點(diǎn)的 CEO 還可以給它一些啟發(fā)和指點(diǎn)。

雨森:其實(shí)很多人在使用 Devin 或其他 AI 產(chǎn)品時(shí),都會(huì)遇到一個(gè)問題:我要做什么,以及我該如何提出需求。想象一下,如果我們招一個(gè)員工,只對(duì)他說「幫我寫個(gè)淘寶」,那這個(gè)人肯定是做不出來的。但為什么我們對(duì) AI 常常會(huì)有一些不切實(shí)際的想法,認(rèn)為說「你給我做個(gè)淘寶」它就能做出來?這顯然是不對(duì)的。

確實(shí),我們每個(gè)人都要思考自己到底要做什么。很多人面對(duì)一個(gè)很強(qiáng)大的模型時(shí),雖然它具備很多能力,但關(guān)鍵在于你是否明確自己想做的事情,以及能否用更加合理、容易理解、更有結(jié)構(gòu)的方式提出需求。

就像我們自己在做產(chǎn)品經(jīng)理、設(shè)計(jì)師、程序員的時(shí)候,也很煩那種自己都沒搞懂需求的老板,比如提出「五彩斑斕的黑」這樣的需求。但當(dāng)我們自己成為 AI 的老板時(shí),我們能不能做一個(gè)好的老板?這其實(shí)是接下來每個(gè)人都要學(xué)會(huì)的過程:如何當(dāng)一個(gè)好老板。

Koji:其實(shí)在使用過程中還有一個(gè)很強(qiáng)的感受,這也是 hidecloud 前段時(shí)間提到的。他提醒大家,Devin 有一個(gè)非常厲害之處,在于它可以幫助我們調(diào)用人類歷史上的智慧結(jié)晶。這句話怎么理解呢?

就是說我們要完成一個(gè)任務(wù)時(shí),往往不知道世界上已經(jīng)存在這樣的輪子,不知道誰已經(jīng)開發(fā)了這樣的工具。因?yàn)楹芏喙ぞ呤且源a的形式,以代碼庫(kù)的形式放在 GitHub 或者 Hugging Face 上。要把這樣的代碼下載到本地,部署到機(jī)器上,并且和其他工作或軟件程序聯(lián)通運(yùn)行,這件事一千個(gè)人里可能只有一個(gè)人能做到。但今天有了 Devin 之后,理論上人人都可以做到,因?yàn)槟憧梢杂米匀徽Z言像老板一樣下指令。

舉一個(gè)具體的例子:比如說現(xiàn)在我們要做一個(gè)國(guó)際象棋應(yīng)用。在過去,僅僅是把國(guó)際象棋的規(guī)則寫出來,就需要花幾百行甚至上千行代碼。你可能會(huì)想說,我去搜索一下,看看是不是已經(jīng)有人把這個(gè)規(guī)則寫成了可調(diào)用的代碼庫(kù)。但你可能會(huì)搜出 Google 幾百頁的結(jié)果,在這里面什么是最好的、什么是最佳實(shí)踐也不知道。但有了 Devin 之后,你可以把這個(gè)命令下給它,它會(huì)用自己的分析方式幫你找到已經(jīng)存在的最適合的程序代碼庫(kù),然后直接用起來。

這帶來的價(jià)值是:所有前人開發(fā)過的、用于解決特定問題的工具或代碼庫(kù),你都可以直接使用,不必重新造輪子。你可以站在巨人的肩膀上,用這些經(jīng)過社區(qū)驗(yàn)證的最佳實(shí)踐來開發(fā)自己想要的工具。我覺得這也是 Devin 包括 Cursor 實(shí)現(xiàn)的一個(gè)價(jià)值,雖然可能不那么顯著,但影響很深遠(yuǎn)。

雨森:當(dāng) ChatGPT 剛出現(xiàn)時(shí),我就有一個(gè)很強(qiáng)烈的感覺:如果你的工作中有很多是復(fù)制粘貼或者「縫合怪」的部分,那這個(gè)是很容易被替代的。大家發(fā)現(xiàn)最早被 AI 大幅提效(說得好聽點(diǎn)是提效,說得不好聽是容易被替代)的工作,其實(shí)就是初級(jí)美工的這種剪貼型設(shè)計(jì)工作。比如把別人的設(shè)計(jì)抄過來,或者初級(jí)代碼工作者把某個(gè)庫(kù)簡(jiǎn)單修改后應(yīng)用到自己項(xiàng)目里。這樣的工作最容易被替代,所以前端程序員其實(shí)面臨很大的壓力,因?yàn)榍岸苏故敬蟛糠謺r(shí)候并不需要那么多創(chuàng)新的想法。

在這個(gè)過程中,我覺得對(duì)于大家來說,如何提出想法、如何創(chuàng)造性地解決問題,這些能力會(huì)變得越來越重要。

而找到已有的解決方案,把它們用膠水粘起來的工作,恰恰是 AI 最擅長(zhǎng)的。我們工作中的大部分內(nèi)容其實(shí)都是已經(jīng)被解決過的問題,或者已經(jīng)被發(fā)明的輪子,只是以前人類不知道這些輪子的存在,或者沒有辦法把它們很好地拼接起來。但現(xiàn)在 AI 能夠幫我們做到這一點(diǎn),讓我們能夠?qū)W⒂谒伎肌敢鍪裁础惯@件事情,這會(huì)變得越來越重要。

這也讓我想到對(duì)于教育的影響。我們之前大量的教育,包括培訓(xùn)都在教「怎么做執(zhí)行工作」。就好像當(dāng)沒有計(jì)算器的時(shí)候,我們要學(xué)大量的手算和心算。但現(xiàn)在,我們需要了解計(jì)算的原理,但未必要去做這些具體的計(jì)算。我們可以把更多的精力花在思考要做什么、提出正確的問題上。這也是我覺得未來教育體系需要做出重大變革的原因。

Koji:所以 2025 年是非常值得期待的。從 Devin 的發(fā)布,我們看到的不只是 AI 編程被 Agent 整個(gè)升級(jí)到下一個(gè)級(jí)別,這樣新范式的出現(xiàn)會(huì)給方方面面帶來顛覆式的革命,也意味著各種創(chuàng)業(yè)的機(jī)會(huì)。

剛才雨森提到了一個(gè)非常有趣的觀點(diǎn):Devin 是人類歷史上第一個(gè)既不需要持續(xù)注意力,又不只是機(jī)械重復(fù)的工具。這也讓我們看到了工作的某種 Scaling Law。您覺得可以再展開講解一下嗎?讓大家更好地理解這意味著怎樣的了不起的價(jià)值。

雨森:首先說說 Scaling Law,最直白的解釋就是我能夠通過投入更多的錢來獲得更多的生產(chǎn)力,這里的錢可以等價(jià)于算力。這其實(shí)很不容易,想想看,很多公司融了很多錢,但似乎并不能把錢有效地轉(zhuǎn)化為生產(chǎn)力——他們需要招人、搭建組織、做各種瑣事。但隨著這種可以異步工作的 AI Agent 的出現(xiàn),我們可以把很多任務(wù)分配給不同類型的 AI 去做。它們消耗的是算力和電力,就能完成任務(wù)本身,而且可以并行進(jìn)行。

你完全可以想象,會(huì)有一個(gè)更擅長(zhǎng)提出需求、拆解需求的「產(chǎn)品經(jīng)理型」AI 去指揮很多 AI 程序員工作,形成一個(gè)虛擬組織。在這個(gè)組織里,你更需要考慮兩件事:第一,你要做什么;第二,要有足夠的算力和資金投入。在這樣一個(gè)正在快速成為現(xiàn)實(shí)的組織里,我們可以通過投入更多的錢和算力,有效地把工作規(guī)?;瘮U(kuò)展。這就是所謂的工作的 Scaling Law。

第二點(diǎn)很有趣。我們經(jīng)常遇到創(chuàng)業(yè)者說「我有個(gè)很好的想法,但缺個(gè)程序員」。

優(yōu)秀的編程執(zhí)行能力現(xiàn)在還是稀缺資源。但當(dāng)執(zhí)行本身不再稀缺,「做什么」就變得尤為重要。就像剛才說的,每個(gè)人都要學(xué)會(huì)當(dāng)老板。這樣我們能看到更多的創(chuàng)業(yè)機(jī)會(huì),很多原本因?yàn)槿狈?yōu)秀程序員而被埋沒的創(chuàng)業(yè)者,現(xiàn)在可能會(huì)獲得更多機(jī)會(huì),更多創(chuàng)意可能被付諸實(shí)踐。這也是我們可以把創(chuàng)業(yè)這件事情規(guī)?;囊粋€(gè)原因:因?yàn)橥ㄟ^投入資金就能提高生產(chǎn)力。

這一切得以實(shí)現(xiàn)是因?yàn)?AI Agent 能夠并行工作。如果我們的注意力要放在工具上,那注意力是有限的。但現(xiàn)在我們的注意力可以分配到不同的 Agent 上,一個(gè)人可以同時(shí)給多個(gè) Agent 下達(dá)指令去完成任務(wù)。

Koji:其實(shí)說到 Scaling Law,我想到一個(gè)比喻。當(dāng)年王興讓我們看一本書叫「領(lǐng)導(dǎo)梯隊(duì)」,書中講到當(dāng)你第一次成為小團(tuán)隊(duì)的領(lǐng)導(dǎo)時(shí),你要有一個(gè)重要的認(rèn)知轉(zhuǎn)變:你的產(chǎn)出不再是你個(gè)人的產(chǎn)出,而是整個(gè)團(tuán)隊(duì)的產(chǎn)出。

在今天,我們從 Devin 身上看到的工作的 Scaling Law 其實(shí)也是類似的。這里的產(chǎn)出不再是你一個(gè)人專注在眼前工作的產(chǎn)出,而是取決于你如何把團(tuán)隊(duì)任務(wù)下達(dá)好,把檢查標(biāo)準(zhǔn)設(shè)定好。團(tuán)隊(duì)的所有產(chǎn)出,包括 Devin 的所有產(chǎn)出,最終都會(huì)成為你的產(chǎn)出。這意味著你可以用有限的注意力實(shí)現(xiàn)無限的 Scale-up。只要你能夠管理足夠多的人和 Agent,而且管理 AI Agent 比管理人要容易得多,因?yàn)楣芾砣松婕案嗟臏贤▍f(xié)調(diào)和情緒價(jià)值。我理解這可能就是雨森想說的工作的 Scaling Law。

雨森:這個(gè)概念沒有問題:設(shè)想如果你能成為一家跨國(guó)公司的 CEO,能夠指揮上千人、上萬人,你能做什么事情?以前我們沒有這樣的機(jī)會(huì),但現(xiàn)在可以通過管理 AI Agent、讓 Agent 去調(diào)動(dòng)其他 Agent 來獲得類似的機(jī)會(huì)。這所需要的就是錢和算力,而很多公司其實(shí)并不缺錢,他們?nèi)钡氖侨瞬?,是能把事情?zhí)行出來的組織結(jié)構(gòu)。

所以我相信在這種情況下會(huì)出現(xiàn)兩種趨勢(shì):一方面,有實(shí)力的公司和個(gè)人能做更多的事情;另一方面,很多有想法的人可以通過相對(duì)較少的成本,快速把想法實(shí)現(xiàn)出來,獲得用戶認(rèn)可或投資,這樣我們就會(huì)有更多創(chuàng)業(yè)者和創(chuàng)新空間。

Koji:對(duì),這就是今年最流行的說法之一:「超級(jí)個(gè)體」。因?yàn)橐粋€(gè)人在獲得越來越多工具的賦能之后,包括 AI Agent 的賦能,就可以做到原來需要十個(gè)人、二十個(gè)人才能完成的事情。

不過 Devin 發(fā)布后不久,也收到了很多吐槽和批評(píng)。對(duì)此你會(huì)怎么看?

雨森:很多批評(píng)都集中在 500 美金的價(jià)格上,大家把它和 Cursor 20 美金的價(jià)格進(jìn)行對(duì)比。首先,我認(rèn)為這是兩種不同的范式。

一種是需要用我的時(shí)間去使用的工具,它讓我的時(shí)間變得更高效,但并沒有省下時(shí)間。所以在使用 Cursor 這種工具型產(chǎn)品時(shí),因?yàn)槲业某杀静]有下降,實(shí)際上是我的成本加上工具的成本。但如果把它當(dāng)作一個(gè)員工,對(duì)比對(duì)象就變成了員工的工資。只要它能夠比同等價(jià)格招到的員工干更多的活,我認(rèn)為這個(gè)價(jià)格在歐美市場(chǎng)是可以接受的。很多人一看到價(jià)格就說這是不是在割韭菜,其實(shí)關(guān)鍵是看你怎么看待和使用它。

我和一些程序員討論他們使用 Cursor 和 Devin 的體驗(yàn),發(fā)現(xiàn)在 Devin 能力還不夠強(qiáng)的時(shí)候,使用 Devin 對(duì)于大多數(shù)程序員的工作流是一個(gè)很大的轉(zhuǎn)變。因?yàn)槌绦騿T自己懂得代碼如何運(yùn)行,他們往往希望自己能夠掌控全局,所以這個(gè)時(shí)候 Cursor 這樣的 Copilot 是一個(gè)更適合他們當(dāng)前工作流程的方案。已經(jīng)習(xí)慣了使用 IDE 工作的程序員,在有任務(wù)要完成時(shí),需要和 Devin 對(duì)話、等待 Devin 工作然后驗(yàn)收,這個(gè)過程并不那么高效。他們更希望自己去修 Bug 或者寫代碼,如果你是一個(gè)很厲害的程序員,你可能不會(huì)愿意必須帶一個(gè)能力有限的實(shí)習(xí)生。因?yàn)楝F(xiàn)在的 Devin 還只是個(gè)實(shí)習(xí)生水平,培養(yǎng)實(shí)習(xí)生需要時(shí)間和耐心。

這個(gè)時(shí)候程序員可能會(huì)覺得,與其等你寫代碼,還要幫你解決問題,不如自己寫。我覺得在技術(shù)早期階段這是完全可以理解的,我們要從人的角度去看待這個(gè)問題。如果一個(gè)人犯錯(cuò)誤,作為管理者我們往往會(huì)比較有耐心,因?yàn)槲覀冎廊耸菚?huì)學(xué)習(xí)和成長(zhǎng)的。今天指出他的問題,他可能就會(huì)記住,然后會(huì)有更多的動(dòng)力去工作,通過培訓(xùn)成為不錯(cuò)的程序員。

Devin 其實(shí)是可以學(xué)習(xí)的。但我們現(xiàn)在對(duì)于 AI 的軟件和產(chǎn)品還沒有建立起「它可以成長(zhǎng)、可以學(xué)習(xí)、可以被管理」的預(yù)期。

所以當(dāng)它出現(xiàn)問題時(shí),很多用戶的反應(yīng)就變成了「我買了一個(gè) 500 美金這么貴的工具,居然也會(huì)出問題」,感到失望。因此在企業(yè)引入 Devin 這樣的產(chǎn)品時(shí),對(duì)其期望值的管理變得很重要。包括 Devin 自己在文檔中也說明,它首先是做一些會(huì)安排給實(shí)習(xí)生做的事情,比如簡(jiǎn)單的前端任務(wù)、修改 Bug、給前端加一個(gè) Dark Mode 的開關(guān)之類的工作。

但是人類提出好問題的能力也是需要學(xué)習(xí)的。我經(jīng)??吹接腥颂岢觥笌臀覍憘€(gè)淘寶」「幫我做個(gè)微信」這樣的需求,這遠(yuǎn)超出它的能力范圍?,F(xiàn)在的 Devin 和所有 AI 產(chǎn)品一樣,會(huì)傻傻地接下這個(gè)任務(wù)說「好,我來幫你寫個(gè)淘寶」。這種情況下得到的結(jié)果肯定不會(huì)令人滿意。如何用好一個(gè)工具是需要學(xué)習(xí)的,現(xiàn)在還沒有到給什么需求都能直接完成的程度,那樣就不是實(shí)習(xí)生而是神了。

隨著 Devin 能力的提升,以及對(duì)組織環(huán)境理解的加深,我相信它會(huì)從實(shí)習(xí)生逐漸成長(zhǎng)為初級(jí)全職員工,然后變成資深全職員工,這需要一個(gè)接受的過程。

我覺得 Cursor 是在現(xiàn)有流程上的漸進(jìn)式創(chuàng)新,它沒有讓程序員的工作發(fā)生翻天覆地的改變。但 Devin 是一個(gè)顛覆式創(chuàng)新的邏輯,這往往需要很多適應(yīng)時(shí)間和不同的入職培訓(xùn)過程。第一個(gè)產(chǎn)品可能未必能做到這一點(diǎn),所以我并不覺得 Devin 就一定是最終答案。

很可能 Devin 只是展示了未來 AI 產(chǎn)品的一種形態(tài)。我們要真正學(xué)會(huì)適應(yīng)、使用 AI 型的產(chǎn)品,就像適應(yīng) SaaS 這個(gè)概念、適應(yīng)遠(yuǎn)程辦公這樣的分布式工作概念一樣,都需要很長(zhǎng)的時(shí)間和合適的契機(jī)。所以我覺得它在方向上給了我們很大的指示,但現(xiàn)在還是實(shí)習(xí)生水平。在這個(gè)過程中指出它的問題很容易,但更重要的是它提出了這樣一個(gè)未來的方向,從這里得到啟發(fā)去做更好的 Agent 才是關(guān)鍵。

Koji:這就像半杯水的理論,有人從半杯水里看到的是價(jià)值,有人看到的是問題。就像我們剛才討論 Devin 完成「尋找十個(gè)頂級(jí) VC 的 Manifesto」這個(gè)任務(wù)時(shí),它知道如何在 Accel 官網(wǎng)沒有相關(guān)背景的情況下,從新聞稿中找到這些內(nèi)容。這是一個(gè)巨大的亮點(diǎn),它會(huì)設(shè)定任務(wù)、會(huì)反思、會(huì)自檢查。另一方面確實(shí)也存在很多問題,比如它做出來的網(wǎng)頁非常不美觀。但看到亮點(diǎn)而不是問題,看到未來的可能性而不是當(dāng)下值得批評(píng)的點(diǎn),這讓我想到:批評(píng)者往往感到正確,但只有建造者雖然看上去笨拙,卻更有可能會(huì)成功。

這讓我想到王慧文說過的一句話:如果你相信一件事情終究會(huì)發(fā)生,那就每隔三年做一次。Agent 從人類有科幻開始就一直被認(rèn)為會(huì)出現(xiàn),也時(shí)不時(shí)會(huì)有人去嘗試。而在看到 Devin 之后,感覺這可能是我們最接近成功的一次。

我們?cè)賮砹牧?2025 年。整個(gè) 2024 年,雖然我們的討論也挺樂觀,但整個(gè)大環(huán)境時(shí)不時(shí)會(huì)出現(xiàn)各種悲觀的論調(diào)。我尤其記得在第二、三季度的時(shí)候,整個(gè)語境都在討論 AI 的 PMF 究竟在哪里,看上去這一波 AI 落地比預(yù)期要難。

現(xiàn)在站在 2025 年的開端,有一個(gè)非常簡(jiǎn)單的 Yes or No 的問題:雨森你對(duì) 2025 年是樂觀的嗎?

雨森:我其實(shí)還是很樂觀的。

第一,AI 應(yīng)用找 PMF 這件事本身就不應(yīng)該期待它那么快。我經(jīng)常打個(gè)比方,雖然很多人把 ChatGPT 的發(fā)布與 iPhone 發(fā)布做對(duì)比,說 AI 來到了 iPhone 時(shí)代,但我始終認(rèn)為它代表的是一個(gè)黑莓時(shí)代。

黑莓時(shí)代和 iPhone 時(shí)代有什么區(qū)別?黑莓時(shí)代可能很多聽眾還沒有用過黑莓,這屬于我們 80 后的記憶。在 iPhone 發(fā)布之前,智能手機(jī)的形態(tài)很不統(tǒng)一,因?yàn)槟菚r(shí)技術(shù)還比較早期,發(fā)展也比較分散,大家沒有找到一個(gè)收斂的路徑。這導(dǎo)致很多事情想做但做不到,技術(shù)本身也很貴,沒有統(tǒng)一的開發(fā)標(biāo)準(zhǔn)和產(chǎn)品標(biāo)準(zhǔn),開發(fā)者也比較少。所以在那個(gè)時(shí)候,想做移動(dòng)互聯(lián)網(wǎng)上真正火的應(yīng)用,比如抖音是很難做出來的。我反復(fù)提到過這個(gè)觀點(diǎn):在黑莓時(shí)代做不了抖音。隨著技術(shù)進(jìn)步,從黑莓時(shí)代到 iPhone 時(shí)代會(huì)解鎖更多的應(yīng)用機(jī)會(huì)。

iPhone 出現(xiàn)之后,首先技術(shù)發(fā)展足夠好了,很多應(yīng)用從「想做」變成「能做」,包括它有好的攝像頭、好的屏幕、好的處理器。其次技術(shù)變得標(biāo)準(zhǔn)化,iPhone 發(fā)布之后,手機(jī)都長(zhǎng)了一個(gè)樣子,大家發(fā)現(xiàn)技術(shù)方向收斂了。同時(shí)也誕生了更多的開發(fā)者,因?yàn)殚_發(fā)變得容易,技術(shù)也標(biāo)準(zhǔn)化和便宜了,大家更理解了,所以 iPhone 時(shí)代誕生了大量的應(yīng)用。

在 ChatGPT 剛出來時(shí),我們也發(fā)現(xiàn)很多事情想得到做不到。比如 Agent 就是個(gè)典型的例子,2023 年上半年有個(gè)嘗試叫 AutoGPT,它提出了很多很好的概念,也是用語言模型先做計(jì)劃,然后去檢查完成情況并迭代。但那時(shí)的模型太多幻覺,很難有效使用工具,也很難有效瀏覽網(wǎng)絡(luò),所以根本做不到。這是個(gè)典型的「在黑莓時(shí)代做抖音做不出來」的例子。

現(xiàn)在隨著 Agent 在推理能力、編程能力、工具使用能力上的進(jìn)步,Agent 的樣子就更加有模有樣了。雖然還有很多缺點(diǎn),但至少已經(jīng)達(dá)到實(shí)習(xí)生水平可用的第一步。這是技術(shù)進(jìn)步解鎖更多應(yīng)用機(jī)會(huì)的典型例子,我相信這是一個(gè)最終會(huì)把我們從黑莓時(shí)代帶到 iPhone 時(shí)代的例子。

從 ChatGPT 出現(xiàn)到現(xiàn)在這兩年,我們看到了巨大的進(jìn)步,這讓我很樂觀。僅僅兩年時(shí)間,AI 編程就從 ChatGPT 的「你問我答」變成了 Devin 的「你問我做」和 Cursor 的「你問我寫」,帶來了非常大的進(jìn)步,這個(gè)速度其實(shí)很快。

第二,很多時(shí)候 PMF 是來自于技術(shù)本身的進(jìn)步。比如 Cursor 這個(gè)產(chǎn)品其實(shí)在 2023 年就出現(xiàn)了,但當(dāng)時(shí)它提出的預(yù)測(cè)下一個(gè)行動(dòng),需要更強(qiáng)大的模型去進(jìn)行預(yù)測(cè)并寫出更好的代碼。可以說是 Sonnet 3.5 的出現(xiàn)造就了 Cursor 真正能夠完成它要做的事情。Sonnet 3.5 激活了 Cursor 想要交付的產(chǎn)品體驗(yàn),同時(shí) Cursor 的普及也讓 Sonnet 3.5 迅速成為 AI 編程領(lǐng)域最受歡迎的模型,這是個(gè)互相成就的關(guān)系。

同樣,Devin 這樣的產(chǎn)品要成功,也需要模型在推理、工具使用這些能力上的提高。Sonnet 3.5 或者 GPT 4o 現(xiàn)在可能還不足以把它做好。所以 Devin 這個(gè)產(chǎn)品形態(tài)可能需要一個(gè)更先進(jìn)的模型去激活它,這個(gè)模型可能是 o1、o3 或者是 Anthropic 的其他新模型。這是一個(gè)產(chǎn)品等待模型激活,然后讓模型得到廣泛使用的互惠過程,所以這個(gè)階段確實(shí)需要技術(shù)和模型本身的進(jìn)步。

我們剛剛經(jīng)歷的移動(dòng)互聯(lián)網(wǎng)成熟期有個(gè)特點(diǎn)是產(chǎn)品非常容易使用。比如抖音動(dòng)動(dòng)手指就可以了,微信、小紅書都很容易上手。但當(dāng)我們來到一個(gè)技術(shù)的早期,要用好一個(gè)產(chǎn)品是有門檻的。大家可以想想最早的智能手機(jī)、個(gè)人電腦、互聯(lián)網(wǎng),其實(shí)都需要學(xué)習(xí)才能使用。

現(xiàn)在很多人使用 AI 時(shí)遠(yuǎn)遠(yuǎn)沒有把產(chǎn)品里的智能提取出來。現(xiàn)在的大模型,不管是 OpenAI、Claude 還是 Kimi,其實(shí)模型里都已經(jīng)壓縮了大量的知識(shí)和智能。但我們有沒有學(xué)會(huì)正確地使用它,高效地提問,高效地提取模型里的智能。

我認(rèn)為大部分人還沒有學(xué)會(huì),包括我自己。我一直都在發(fā)現(xiàn)原來模型能夠?yàn)槲易鲞@樣的事情,回答這樣的問題。所以在這個(gè)過程中,我們經(jīng)歷了從易用產(chǎn)品的移動(dòng)互聯(lián)網(wǎng)時(shí)代到需要學(xué)習(xí)使用的深度 AI 時(shí)代。

這個(gè)時(shí)候大家一開始體驗(yàn)會(huì)有點(diǎn)挫敗感,覺得產(chǎn)品有點(diǎn)難用,這就是技術(shù)早期的特點(diǎn)。很多時(shí)候應(yīng)用已經(jīng)可以做很多事情了,只是我們還不太會(huì)用,還沒有變成一個(gè)好的提問者或者好的管理者。

這些都需要學(xué)習(xí),或者說需要等模型能力越來越強(qiáng)時(shí)幫我們做這些事情。到那時(shí)可能我們又會(huì)進(jìn)入到一個(gè)產(chǎn)品應(yīng)用期,但現(xiàn)在產(chǎn)品還處在和我們磨合的階段。

Koji:所以大家要在嘗試的過程中了解邊界在哪里,以及邊界現(xiàn)在如何不斷拓展。我想補(bǔ)充一下,除了剛才提到的技術(shù)和模型的新進(jìn)步所解鎖的新機(jī)會(huì),尤其在 Agent 這個(gè)領(lǐng)域,還有第四個(gè)方面。

在上一期「十字路口」,我們討論 OpenAI 12 天發(fā)布會(huì)時(shí),嘉賓大聰明提到,這次發(fā)布會(huì)其實(shí)有一些重磅內(nèi)容沒有公布,是出于 PR 考慮或是不想讓競(jìng)爭(zhēng)對(duì)手過度關(guān)注。其中有一個(gè)對(duì) Agent 至關(guān)重要的點(diǎn),就是現(xiàn)在 OpenAI 輸出的 Function Call 以及結(jié)構(gòu)化輸出的能力,能夠讓 Agent 得到更加精確的指令。這一點(diǎn)之前可能被忽略了,但說出來后非常合理。

再看 2025 年,雨森你認(rèn)為什么樣的應(yīng)用方向比較容易落地?這也是現(xiàn)在創(chuàng)業(yè)者非常關(guān)注的方向。

雨森:從過去兩年比較容易落地的方向來看,我覺得有幾個(gè)。

第一個(gè)是能幫客戶賺錢的。如果你的技術(shù)還不夠完善,但能直接幫我賺錢,或在商業(yè)化流程中直接提高效率就變得很重要。比如說像 Midjourney,它有幾億美金的年化收入,其中約一半收入來自廣告類需求,就是用它去生成商業(yè)用途的圖像來投放廣告。這是一個(gè)很實(shí)在的場(chǎng)景,我本來做這些廣告就是為了賺錢,現(xiàn)在能夠更快更好地制作廣告內(nèi)容。比如 HeyGen 主要也被用于營(yíng)銷場(chǎng)景,大家用它來制作宣傳型的視頻廣告內(nèi)容。所以首先,能幫客戶賺到錢的技術(shù),在早期階段大家就愿意花時(shí)間去使用、去琢磨。

第二個(gè)是能夠在重要任務(wù)上提高十倍以上生產(chǎn)力的。因?yàn)橐粋€(gè)好的技術(shù),如果只提高 50% 的生產(chǎn)力,那其實(shí)大家可能還會(huì)有很多阻力。一定是這個(gè)東西能帶來非常強(qiáng)的生產(chǎn)力提升,比如說像 Cursor、Devin 這種對(duì)程序員來說絕對(duì)是十倍生產(chǎn)力的提高。程序員花時(shí)間去找代碼庫(kù)可能就得花很長(zhǎng)時(shí)間,所以大家使用它的動(dòng)力才會(huì)變得非常強(qiáng)。

再比如 Perplexity 這樣的 AI 搜索引擎,對(duì)于傳統(tǒng)搜索引擎來說,它也是個(gè)十倍生產(chǎn)力的提升。因?yàn)樵瓉砦乙?Koji 資料,得去搜索很多內(nèi)容,要看十幾二十篇 「新世相」的文章?,F(xiàn)在我只要去問它,它會(huì)幫我去看這幾十篇網(wǎng)頁然后進(jìn)行總結(jié)。所以在信息收集提問類的問題上,比搜索引擎要高出十倍以上的效率。這種產(chǎn)品比較容易找到產(chǎn)品市場(chǎng)契合度。

第三點(diǎn)就是滿足人性基本需求,比如說 NSFW 內(nèi)容,大家也都看到了很多這樣的場(chǎng)景。整體來說,要么能賺錢,要么能幫我提高非常高的效率,這兩個(gè)能實(shí)現(xiàn)一個(gè)就非常好。

Koji:那有什么樣的應(yīng)用方向是你覺得大家要稍微回避一下,做起來有點(diǎn)難度的?

雨森:在移動(dòng)互聯(lián)網(wǎng)里,很多贏家都是「殺時(shí)間」的應(yīng)用。在中國(guó),大家習(xí)慣了做一個(gè)用戶粘性很高的應(yīng)用,用戶在上面花很多時(shí)間,然后通過投放廣告賺錢。字節(jié)、小紅書、快手都是這個(gè)范式。這是移動(dòng)互聯(lián)網(wǎng)已有的范式,因?yàn)樗且粋€(gè)新設(shè)備,讓用戶原來無法上網(wǎng)的時(shí)間變得可用,是一個(gè)從零到一的邏輯。

現(xiàn)在當(dāng)抖音這樣的應(yīng)用已經(jīng)占用我們大量時(shí)間的時(shí)候,如果 AI 應(yīng)用一開始就要和這些成熟玩家比拼「殺時(shí)間」,就會(huì)遇到競(jìng)爭(zhēng)對(duì)手已經(jīng)非常強(qiáng)大,并且已經(jīng)占據(jù)大部分時(shí)間的情況。這時(shí)再做「殺時(shí)間」的應(yīng)用是很難的。

最后能落地的只有相對(duì)小眾、面向特定人群的產(chǎn)品。而針對(duì)普通用戶的 AI 陪伴聊天很難比抖音這樣的視頻更有吸引力。與巨頭搶時(shí)間的應(yīng)用要謹(jǐn)慎。

第二,改變物理世界還是比較難的事情。我們剛才說到 AI 寫代碼、AI 使用工具都還是在數(shù)字世界里。在數(shù)字世界里 AI 可以做很多事情,但在物理世界,AI 現(xiàn)在連拿起一個(gè)杯子這樣基礎(chǔ)的動(dòng)作操作還是比較難的。

雖然我們現(xiàn)在看到人形機(jī)器人非常火爆,但在這個(gè)方向上,技術(shù)的實(shí)現(xiàn)路徑以及如何擴(kuò)展模型的數(shù)據(jù),還都是開放性問題。在未來三五年內(nèi),要改變物理世界的應(yīng)用還會(huì)遇到很多挑戰(zhàn)。

第三,這兩年有不少設(shè)備想要替代手機(jī),比如 Rabbit、Humane 這些。他們強(qiáng)調(diào)要做一個(gè)替代手機(jī)的產(chǎn)品,包括現(xiàn)在大約有 100 個(gè)團(tuán)隊(duì)在做智能眼鏡。我的看法是,如果你做的場(chǎng)景是手機(jī)已有場(chǎng)景中的一個(gè),比如打電話、搜索周邊信息、聽音樂等,那替代手機(jī)是非常難的事情。

目前來看,能與手機(jī)共存的硬件,基本都是在做手機(jī)完全做不到的事情。比如無人機(jī)可以飛,智能手表可以戴在手腕上,智能戒指可以套在手上,或者像 Insta360 可以在運(yùn)動(dòng)場(chǎng)景下使用。但像 Humane、Rabbit 這些產(chǎn)品,其實(shí)都是在做手機(jī)已經(jīng)做得很好的場(chǎng)景。這時(shí)用戶的切換動(dòng)力非常小,因?yàn)槭謾C(jī)在大多數(shù)場(chǎng)景下已經(jīng)至少能做到 80% 的程度。除非你做的這個(gè)產(chǎn)品好很多很多,或者是手機(jī)根本不能做的事情,否則要替代手機(jī)會(huì)很難。

我覺得 2025 年我們可以看到特別多的 Agent 產(chǎn)品出現(xiàn)。這里面很多會(huì)遇到一個(gè)挑戰(zhàn):當(dāng)你要對(duì)組織做出很大改變時(shí),能否實(shí)現(xiàn)這樣的改變。比如 Devin 就面臨著要改變程序員的工作方式,從自己寫代碼變成指揮別人寫代碼。這種工作流的改變對(duì)很多組織來說都有很多阻力,尤其是在大公司里。

我們發(fā)現(xiàn),在大公司推行 AI 還牽扯到很多數(shù)據(jù)權(quán)限、隱私安全等問題。如果要改變工作流,很多人的工作都會(huì)發(fā)生變化,那就會(huì)有更大的難度。所以我覺得要對(duì)組織做出很大改變,除非你能顯著提高生產(chǎn)力,讓組織有不得不用的理由,或者針對(duì)中小型企業(yè)去做。否則針對(duì)大組織做大改變,很多時(shí)候面臨的是人性的壁壘,而不是技術(shù)的壁壘。

07

2025 展望:Agent、個(gè)性化服務(wù)與超人類水平的突破

Koji:我們剛才聊到,技術(shù)的解鎖帶來了一些新的機(jī)會(huì),討論較多的是模型的推理能力、幻覺降低、計(jì)算機(jī)使用能力所帶來的 Agent 機(jī)會(huì)。除此之外,還有哪些技術(shù)的解鎖你認(rèn)為在 2025 年可能帶來浪潮式的 AI 創(chuàng)業(yè)機(jī)會(huì)?

雨森:我自己總結(jié)了幾個(gè) 2025 年可能帶來浪潮式 AI 創(chuàng)業(yè)機(jī)會(huì)的技術(shù)解鎖方向:

第一是 Agent。我們剛才討論過,未來會(huì)出現(xiàn)針對(duì)各個(gè)領(lǐng)域的 AI 產(chǎn)品。它們會(huì)借鑒 Devin 的思路,做異步的工具使用,按工作量收費(fèi)。

在美國(guó),有人把原來的 SaaS(Software as a Service)反過來叫「Service as Software」,即把服務(wù)變成軟件銷售,或者說是 sell work, not software,銷售的是工作結(jié)果而非工具本身。

2025 年可能會(huì)有很多這樣的嘗試,雖然很多會(huì)失敗,但也會(huì)有一些有意思的產(chǎn)品誕生。

第二是「Scalable Personalization(可擴(kuò)展的個(gè)性化)」?;仡櫥ヂ?lián)網(wǎng)內(nèi)容分發(fā)的發(fā)展歷程:先是門戶網(wǎng)站的「千人一面」,每個(gè)人看到的都一樣;然后是搜索引擎,針對(duì)關(guān)鍵詞提供個(gè)性化內(nèi)容,但同樣的關(guān)鍵詞得到相同結(jié)果;再到以抖音為代表的推薦算法,根據(jù)用戶背景信息主動(dòng)推送感興趣的內(nèi)容。

現(xiàn)在,我們?cè)谒伎几M(jìn)一步的個(gè)性化:如果用戶想看的內(nèi)容還不存在,就為他生成。比如 Sora 這樣的視頻生成技術(shù),就是要按照個(gè)性化需求生成內(nèi)容。最近增長(zhǎng)很快的應(yīng)用 bolt.new 和 Windsurf,都是通過文本 Prompt 生成個(gè)性化網(wǎng)站。在軟件開發(fā)領(lǐng)域,未來可能不再是像微信、抖音這樣的「好萊塢大片式」集中化開發(fā),而是為每類用戶提供更個(gè)性化的軟件 / 內(nèi)容體驗(yàn)。

Google 的 NotebookLM 也體現(xiàn)了這種趨勢(shì)。比如播客內(nèi)容,現(xiàn)在我們只能聽到已經(jīng)錄制的對(duì)話,但未來可能通過 AI 生成任意兩個(gè)人關(guān)于特定話題的對(duì)話。隨著 AI 能力提升,我們使用的軟件、消費(fèi)的內(nèi)容都將變得更加個(gè)性化。

第三是 在 o3 中我們能看到 AI 能力從「普通人水平」進(jìn)化到「超人水平」。早期的 MMLU 等測(cè)試還在評(píng)估 AI 是否達(dá)到普通人水平,現(xiàn)在已經(jīng)轉(zhuǎn)向針對(duì)精英人類的 Benchmark,如面向程序員的 SWE-bench、美國(guó)高中數(shù)學(xué)競(jìng)賽 AIME、PhD 資格考試 GPQA 等。在 2024 年初,o1、o3 等先進(jìn)模型在這些測(cè)試中已經(jīng)達(dá)到了 80 分左右的水平。

我們現(xiàn)在需要建立超人類水平的 Benchmark,比如陶哲軒背書的 FrontierMath。o3 最近在 Codeforces 上獲得 2700 分,這是全人類僅有 130 多人達(dá)到過的水平。這意味著 AI 在科學(xué)研究、前沿探索方面將發(fā)揮重要作用。

我看到 o3 出來之后,有人詬病說它做一個(gè)任務(wù)需要花很多錢,算力消耗很大。但 o3 的高算力模式本來就不是給普通任務(wù)用的,它的定位是解決人類前沿最難的研究和探索問題。這個(gè)東西貴是很正常的事情。

其實(shí)我們以后會(huì)發(fā)現(xiàn) AI 模型在日常任務(wù)和前沿研究上可能會(huì)有分叉。就像「生活大爆炸」里面的 Sheldon,他是個(gè)很厲害的科學(xué)家,但日常任務(wù)一塌糊涂。有的 AI 模型就更像 Sheldon,去解決前沿探索的問題;有的就像價(jià)廉物美的 o3 mini,主要用來干活的,可能就像一個(gè)程序員;還有更加簡(jiǎn)單的模型,就是為了回答一些端側(cè)的簡(jiǎn)單問題,比如說今天天氣怎么樣這樣的日常需求。

在這里,我們既可以看到日常需求被越來越高效便宜地解決,也能看到在真正的前沿研究里,AI 跟科學(xué)家一起協(xié)作,為人類獲得新的進(jìn)展,從而產(chǎn)生新的知識(shí)。這一點(diǎn)讓我覺得非常興奮。

Koji:今年在多模態(tài)方面還有一個(gè)較大的突破。除 4o 實(shí)時(shí)語音外,還有一點(diǎn)被 OpenAI 發(fā)布放在一個(gè)不太起眼的角落,但卻被認(rèn)為是 12 天來最值得關(guān)注的成果之一,即他們的多端到多端的多模態(tài)互動(dòng)。你認(rèn)為多模態(tài)在明年會(huì)帶來哪些值得期待的創(chuàng)業(yè)機(jī)會(huì)?

雨森:第一重要的是 AI 怎么理解這個(gè)多模態(tài)的世界。

對(duì)于文本來說,比如「今天天氣很好」這幾個(gè)字,是一個(gè)非常簡(jiǎn)單的句子,但它里面蘊(yùn)含了大量需要看到才能理解的東西,所以一圖勝千言。

圖片和影像中包含的信息特別多。如果 AI 不能充分理解這些信息,它的智能就會(huì)有很大的缺陷?,F(xiàn)在的 AI 就像一個(gè)瞎子,雖然瞎子也可以解很厲害的數(shù)學(xué)題,這可能并不妨礙什么,但要具備更完整的智能,多模態(tài)的理解能力確實(shí)很重要。

OpenAI 和海外的先進(jìn)研究者普遍認(rèn)為生成能力可能不是最重要的,所以 Sora 現(xiàn)在獲得的資源相對(duì)比較少。在美國(guó),多模態(tài)的生成是個(gè)相對(duì)平行的路線,因?yàn)樗穆涞貓?chǎng)景主要是娛樂內(nèi)容和內(nèi)容生產(chǎn),所以跟 AGI 似乎還是有些距離。像 Anthropic 這樣的公司因?yàn)椴蛔龆嗄B(tài)生成,他們認(rèn)為靠文本、代碼和 API 就能實(shí)現(xiàn) AGI,這是不同的觀點(diǎn)。

關(guān)于多模態(tài)這個(gè)話題,我覺得 NotebookLM 給我們一個(gè)很好的啟示:如何把一個(gè)模態(tài)的內(nèi)容轉(zhuǎn)換到另一個(gè)模態(tài)進(jìn)行消費(fèi)。

比如說我們?cè)瓉碜?TTS,是把文本直接轉(zhuǎn)成語音,但把文本轉(zhuǎn)成播客,不是簡(jiǎn)單地把它讀出來就完了,那只能叫讀書。播客需要把內(nèi)容變成更適合在音頻模態(tài)消費(fèi)的形式。同樣,從文本到視頻也是如此,我們把《三國(guó)演義》拍成電視劇,不是簡(jiǎn)單地還原,而是需要藝術(shù)改編。視頻到文本、視頻到聲音也是這樣。在不同模態(tài)之間自然轉(zhuǎn)換,并在每個(gè)模態(tài)中創(chuàng)造最適合該模態(tài)消費(fèi)的內(nèi)容,這是一個(gè)很令人激動(dòng)的過程。

假設(shè)我喜歡刷抖音,那我能把《三體》變成適合抖音消費(fèi)的內(nèi)容,或者變成適合播客消費(fèi)的內(nèi)容,這在內(nèi)容消費(fèi)上會(huì)帶來很多機(jī)會(huì)。

更進(jìn)一步說,大家認(rèn)為多模態(tài)的生成和理解對(duì)具身智能會(huì)有很大幫助。我們看到很多前沿研究,比如最近的 Genesis 項(xiàng)目,研究如何實(shí)現(xiàn)對(duì)物理世界的模擬,以及機(jī)器人如何操作現(xiàn)實(shí)生活中的物體,這些都是很有意思的研究。不過這個(gè)領(lǐng)域我最近研究得相對(duì)較少。

總的來說,多模態(tài)之間的轉(zhuǎn)換確實(shí)是一個(gè)非常重要的方向。就像你提到的 Gemini 2.0,它能夠高效理解接收到的視頻信號(hào)。這帶來一些很直觀的應(yīng)用場(chǎng)景,比如在生活中,有很多東西我們看到卻不會(huì)用,但如果它的視頻生成能力夠強(qiáng),就可以直接在視頻畫面上疊加使用指示。比如我們之前跟 Google 的研究員討論過這樣一個(gè)場(chǎng)景:我家有個(gè)咖啡機(jī),把手機(jī)對(duì)著它,視頻流里就會(huì)直接疊加一個(gè)「按這個(gè)按鈕開始煮咖啡」的視頻提示。這個(gè)提示視頻是生成的,但會(huì)疊加在現(xiàn)有視頻上。這些都是很有意思的想法,但目前可能還需要技術(shù)進(jìn)一步提升。

08

AI Native 應(yīng)用:等待深度技術(shù)擴(kuò)散后的新商業(yè)模式

Koji:我覺得 2025 年很可能會(huì)看到這樣的應(yīng)用出現(xiàn),包括它和 AI 硬件的結(jié)合。比如之前看到一個(gè) demo 是帶著 AI 眼鏡打網(wǎng)球,它可以給你實(shí)時(shí)指導(dǎo),告訴你對(duì)面球過來時(shí)如何調(diào)整姿態(tài)和接球方式,幫助你更好地提升水平。

關(guān)于多端到多端,我想再多說一點(diǎn),這是我最近感到非常驚喜的發(fā)展。就像上一期「十字路口」節(jié)目中嘉賓提到的,在 12 天發(fā)布會(huì)上,這項(xiàng)技術(shù)雖然發(fā)布了,但被放在一個(gè)不起眼的角落。他認(rèn)為這其實(shí)是最值得關(guān)注的突破。OpenAI 為了避免被競(jìng)爭(zhēng)對(duì)手關(guān)注,選擇低調(diào)地透露這一信息。不過在開發(fā)者群體中,他們還是在一些重點(diǎn)開發(fā)者那里進(jìn)行了一對(duì)一的推廣。

這項(xiàng)技術(shù)的特別之處在于可以同時(shí)接收多模態(tài)輸入,并同時(shí)輸出多模態(tài)內(nèi)容。而且這種輸入和輸出是多端到多端的。大家知道端到端的概念,那么多端到多端其實(shí)是端到端在級(jí)別上的幾個(gè)層次躍升。

另外還想問問雨森一個(gè)很有意思的問題,這應(yīng)該是所有人都關(guān)注的:你認(rèn)為 AI Native 應(yīng)用的大機(jī)會(huì)可能會(huì)是什么樣子?

雨森:首先我覺得大機(jī)會(huì)的出現(xiàn),應(yīng)該是在深度 AI 技術(shù)擴(kuò)散之后。如果現(xiàn)在使用的還是小眾人群,那大機(jī)會(huì)可能還沒有顯現(xiàn)。讓我們復(fù)盤一下歷史上互聯(lián)網(wǎng)原生應(yīng)用和移動(dòng)互聯(lián)網(wǎng)原生應(yīng)用的出現(xiàn)過程。

第一步是隨著技術(shù)擴(kuò)散,用新技術(shù)解決老問題。比如互聯(lián)網(wǎng)時(shí)代,我們有電子郵件解決通信問題,有門戶網(wǎng)站解決看新聞的問題,有自營(yíng)電商解決賣貨的問題。但隨著互聯(lián)網(wǎng)進(jìn)一步擴(kuò)張,當(dāng)人們都上網(wǎng)后才出現(xiàn)了社交網(wǎng)絡(luò);信息都上網(wǎng)后,才出現(xiàn)了搜索引擎的必要性;當(dāng)買家、賣家、支付和物流都建設(shè)完善后,才出現(xiàn)了平臺(tái)電商。這些平臺(tái)電商、社交網(wǎng)絡(luò)、搜索引擎才是真正的互聯(lián)網(wǎng)原生應(yīng)用,而且都是創(chuàng)業(yè)公司做的,最終占據(jù)了最大的市值。

移動(dòng)互聯(lián)網(wǎng)原生應(yīng)用也是類似,當(dāng)移動(dòng)互聯(lián)網(wǎng)(包括智能手機(jī)硬件和 4G 網(wǎng)絡(luò))普及后,內(nèi)容生產(chǎn)者和消費(fèi)者都用上了智能手機(jī),才會(huì)出現(xiàn)抖音、快手、小紅書這樣的移動(dòng)互聯(lián)網(wǎng)信息平臺(tái)。當(dāng)藍(lán)領(lǐng)工作者都用上智能手機(jī)后,才能誕生美團(tuán)外賣、滴滴這樣的應(yīng)用;當(dāng)游戲玩家都用上手機(jī)后,才能出現(xiàn)米哈游和王者榮耀這樣的移動(dòng)互聯(lián)網(wǎng)原生游戲。

AI Native 應(yīng)用的出現(xiàn)應(yīng)該也會(huì)遵循類似邏輯。首先可能是像 ChatGPT 這樣的應(yīng)用,讓每個(gè)人都有了 AI 助手,但它的擴(kuò)散規(guī)模還需要更大。當(dāng)我們每個(gè)人都有了自己的 AI 助手,用 AI 解決工作中的很多問題,甚至像現(xiàn)在這樣開會(huì),就會(huì)產(chǎn)生新的可能。

這時(shí) AI 與 AI 之間的互動(dòng)會(huì)產(chǎn)生什么樣的結(jié)果?比如在一個(gè)公司里,如果大部分工作執(zhí)行都由 AI 來完成,那么對(duì)生產(chǎn)力、對(duì)企業(yè)服務(wù)軟件可能產(chǎn)生巨大變化。因?yàn)槟悴粌H要執(zhí)行,還要管理這些 AI,為它們下達(dá)任務(wù)、進(jìn)行任務(wù)拆解。這些可能是人類完全做不到的,因?yàn)槿藳]有那么多注意力和精力。

另外一個(gè)重要主題是 AI 時(shí)代的商業(yè)化方式。在移動(dòng)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)時(shí)代,大量商業(yè)化都是通過廣告進(jìn)行的。但當(dāng)你用 Kimi 或 Perplexity 問問題時(shí),原來搜索引擎里的廣告、網(wǎng)頁上的廣告都不會(huì)被看到,因?yàn)槭?AI 幫你看了這些網(wǎng)頁。這就需要重構(gòu)價(jià)值獲取方式。我從 AI 那里得到答案的價(jià)值該如何提?。吭瓉韽V告是給人看的,但 AI 看到廣告就會(huì)把它們過濾掉。所以對(duì)廣告商業(yè)模式的顛覆,也會(huì)帶來很多 AI Native 應(yīng)用的機(jī)會(huì)。

Koji:我們最后一個(gè)問題,就是在 2025 年,真格基金和你最感興趣的投資方向會(huì)有哪些?尤其是這里面有沒有一些是行業(yè)的非共識(shí),是你們差異化的觀點(diǎn)?

雨森:我們的差異化觀點(diǎn)主要有三個(gè)方面:

第一,我們對(duì)「殺時(shí)間」類應(yīng)用會(huì)比較謹(jǐn)慎。現(xiàn)在很多人都在按照字節(jié)跳動(dòng)的經(jīng)驗(yàn)去找下一個(gè)字節(jié)跳動(dòng),尋找一個(gè)耗時(shí)高、靠投放起量的 To C 應(yīng)用。但我覺得當(dāng)用戶時(shí)長(zhǎng)已經(jīng)被字節(jié)占用這么多的情況下,下一個(gè)殺手級(jí)應(yīng)用未必會(huì)以這種范式出現(xiàn)。也就是說,下一個(gè)字節(jié)跳動(dòng)可能不會(huì)長(zhǎng)得像字節(jié)跳動(dòng)。

第二,相比當(dāng)下對(duì)人形機(jī)器人的熱情,我們保持相對(duì)冷靜。我們看到很多人形機(jī)器人本體公司獲得了大量融資,但通用型人形機(jī)器人的技術(shù)路徑,無論是 Sim-to-Real、從視頻角度訓(xùn)練...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)傳余承東在工作群內(nèi)發(fā)飆:這樣低水平的混蛋高管,要馬上淘汰!

網(wǎng)傳余承東在工作群內(nèi)發(fā)飆:這樣低水平的混蛋高管,要馬上淘汰!

可達(dá)鴨面面觀
2025-06-07 23:08:22
外媒爆:烏克蘭襲擊造成俄軍超過12架飛機(jī)受損,包括A-50預(yù)警機(jī)

外媒爆:烏克蘭襲擊造成俄軍超過12架飛機(jī)受損,包括A-50預(yù)警機(jī)

環(huán)球網(wǎng)資訊
2025-06-08 12:11:04
無意修復(fù)關(guān)系 特朗普警告馬斯克若資助民主黨將面臨“嚴(yán)重后果”

無意修復(fù)關(guān)系 特朗普警告馬斯克若資助民主黨將面臨“嚴(yán)重后果”

環(huán)球網(wǎng)資訊
2025-06-08 05:48:13
吉利控股集團(tuán)董事長(zhǎng)李書福:當(dāng)今汽車工業(yè)產(chǎn)能嚴(yán)重過剩!吉利決定不再建設(shè)新的汽車生產(chǎn)工廠

吉利控股集團(tuán)董事長(zhǎng)李書福:當(dāng)今汽車工業(yè)產(chǎn)能嚴(yán)重過剩!吉利決定不再建設(shè)新的汽車生產(chǎn)工廠

每日經(jīng)濟(jì)新聞
2025-06-08 10:21:18
高考數(shù)學(xué)考試結(jié)束,北京人大附中考點(diǎn)學(xué)生:曲線題難度大、計(jì)算量大

高考數(shù)學(xué)考試結(jié)束,北京人大附中考點(diǎn)學(xué)生:曲線題難度大、計(jì)算量大

極目新聞
2025-06-07 18:20:32
馬斯克特朗普決裂,受傷最嚴(yán)重的是NASA?萬斯“勸架”:馬斯克犯大錯(cuò),快回來

馬斯克特朗普決裂,受傷最嚴(yán)重的是NASA?萬斯“勸架”:馬斯克犯大錯(cuò),快回來

紅星新聞
2025-06-08 13:57:31
俄烏戰(zhàn)爭(zhēng)特別報(bào)道:F-16擊落su-35

俄烏戰(zhàn)爭(zhēng)特別報(bào)道:F-16擊落su-35

西樓飲月
2025-06-08 10:05:02
2025語文高考最難的不是作文,而是這道名句默寫,很多考生破防了

2025語文高考最難的不是作文,而是這道名句默寫,很多考生破防了

悠閑歷史
2025-06-08 08:48:16
常州一場(chǎng)大雨,把高考的孩子衣服褲子鞋子全淋濕了!引發(fā)網(wǎng)友質(zhì)疑

常州一場(chǎng)大雨,把高考的孩子衣服褲子鞋子全淋濕了!引發(fā)網(wǎng)友質(zhì)疑

火山詩話
2025-06-08 08:15:58
輸不起?薩巴倫卡賽后表態(tài)惹爭(zhēng)議,球迷:死鴨子嘴硬,有失風(fēng)度

輸不起?薩巴倫卡賽后表態(tài)惹爭(zhēng)議,球迷:死鴨子嘴硬,有失風(fēng)度

側(cè)身凌空斬
2025-06-08 07:11:12
天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等“推理”模型根本沒有推理能力

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等“推理”模型根本沒有推理能力

AI寒武紀(jì)
2025-06-08 06:44:01
鬧大了!游客含淚被群毆后續(xù),整個(gè)涇縣都受牽連,店老板悔不當(dāng)初

鬧大了!游客含淚被群毆后續(xù),整個(gè)涇縣都受牽連,店老板悔不當(dāng)初

譚談社會(huì)
2025-06-07 12:08:25
一處青年社區(qū)淪為色情片拍攝場(chǎng)地,申請(qǐng)入住理由含【日本手作】【兒歌創(chuàng)作】

一處青年社區(qū)淪為色情片拍攝場(chǎng)地,申請(qǐng)入住理由含【日本手作】【兒歌創(chuàng)作】

可達(dá)鴨面面觀
2025-06-05 23:45:10
網(wǎng)傳男子西藏自駕被熊吃掉!視頻畫面慘烈,知情人:臉都被吃掉了

網(wǎng)傳男子西藏自駕被熊吃掉!視頻畫面慘烈,知情人:臉都被吃掉了

奇思妙想草葉君
2025-06-07 23:28:42
為啥關(guān)燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

為啥關(guān)燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

三農(nóng)老歷
2025-06-08 09:26:54
地頭蛇!安徽毆打游客老板身份曝光,背景不簡(jiǎn)單,隔壁老板曝內(nèi)情

地頭蛇!安徽毆打游客老板身份曝光,背景不簡(jiǎn)單,隔壁老板曝內(nèi)情

史行途
2025-06-08 09:59:07
韓媒:由于無緣美加墨,中國(guó)對(duì)陣巴林很可能有大批球迷高喊退錢

韓媒:由于無緣美加墨,中國(guó)對(duì)陣巴林很可能有大批球迷高喊退錢

雷速體育
2025-06-08 11:16:58
震驚!朝鮮竟然使用人力牽拉扶正擱淺驅(qū)逐艦,至少數(shù)百名工人參與

震驚!朝鮮竟然使用人力牽拉扶正擱淺驅(qū)逐艦,至少數(shù)百名工人參與

環(huán)球熱點(diǎn)快評(píng)
2025-06-08 10:43:25
開播僅一天《長(zhǎng)安的荔枝》差評(píng)一片,觀眾給出的理由竟出奇的一致

開播僅一天《長(zhǎng)安的荔枝》差評(píng)一片,觀眾給出的理由竟出奇的一致

大笑江湖史
2025-06-08 10:17:49
使勁折騰吧!多地出現(xiàn)俄文路牌

使勁折騰吧!多地出現(xiàn)俄文路牌

常識(shí)傳播局
2025-06-07 21:54:05
2025-06-08 15:12:49
真格基金 incentive-icons
真格基金
創(chuàng)業(yè),來真格的。
1425文章數(shù) 3562關(guān)注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

24歲頻繁改名小伙參加高考 稱猜對(duì)作文題預(yù)估可得40分

頭條要聞

24歲頻繁改名小伙參加高考 稱猜對(duì)作文題預(yù)估可得40分

體育要聞

冠軍高芙:只要專注自己 太陽就會(huì)照常升起

娛樂要聞

結(jié)婚15年紀(jì)念!孫儷發(fā)長(zhǎng)文談夫妻感情

財(cái)經(jīng)要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環(huán)!

汽車要聞

復(fù)古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態(tài)度原創(chuàng)

教育
游戲
健康
房產(chǎn)
公開課

教育要聞

2025年河南高考數(shù)學(xué)考試結(jié)束考生:發(fā)揮正常水平 不對(duì)自己要求太高

GTA6代餐《心之眼》總監(jiān)談玩家創(chuàng)作 年底將推出多人

減重專家破解減肥九大謠言!

房產(chǎn)要聞

與亞沙共鑒,新城藝境|三亞新地標(biāo)盛大啟幕暨限量藏品全球首發(fā)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 南城县| 抚宁县| 深泽县| 承德县| 汾阳市| 泊头市| 新河县| 绍兴县| 绵竹市| 商水县| 义乌市| 磴口县| 宁海县| 六安市| 江口县| 榕江县| 保山市| 波密县| 曲水县| 曲靖市| 毕节市| 清丰县| 德兴市| 神池县| 泰顺县| 白沙| 鹤岗市| 辽宁省| 凤山市| 秦安县| 周至县| 即墨市| 平和县| 阿城市| 榕江县| 休宁县| 南华县| 涿州市| 茶陵县| 怀宁县| 剑河县|