99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

紅杉公元:如何在AI下半場,定義“好問題”?丨WAVES新浪潮2025

0
分享至

WAVES新浪潮2025邀你一起走向中國創(chuàng)投的「新紀(jì)元」。

這是屬于中國創(chuàng)投的新紀(jì)元。當(dāng)下的中國創(chuàng)投市場,既是周期筑底的轉(zhuǎn)折點(diǎn),也是結(jié)構(gòu)性轉(zhuǎn)型的深化期。在政策主導(dǎo)、國資與資本高度集中的新生態(tài)下,唯有順應(yīng)趨勢、靈活調(diào)整,方能在不確定性中捕捉確定性機(jī)遇。 6月11-12日,杭州良渚文化藝術(shù)中心,36氪WAVES新浪潮2025大會(huì)以「新紀(jì)元」為主題,匯聚創(chuàng)投領(lǐng)域頂級投資人、新銳企業(yè)創(chuàng)始人,以及深耕科技、創(chuàng)新、商業(yè)的科學(xué)家、創(chuàng)作者與學(xué)者,共同探討AI技術(shù)革新、全球化浪潮與價(jià)值重估等前沿議題,拆解他們眼中的商業(yè)理想和未來世界,一起討論、尋找、走向中國創(chuàng)投「新紀(jì)元」。


6月12日上午,在創(chuàng)業(yè)者會(huì)場上紅杉中國投資人公元,進(jìn)行了一場獨(dú)立演講,主題為「如何在AI下半場,定義“好問題”?」。以下為演講全文:

大家好!我是紅杉中國的公元。很高興受到36氪、暗涌waves的邀請,今天能和大家做一場分享。今天我想和大家講的主題,和我們最近剛剛推出的xbench相關(guān)。xbench是首個(gè)由投資機(jī)構(gòu)推出的面向大模型和AI Agent的基準(zhǔn)測試。我們?yōu)槭裁匆瞥鲞@個(gè)基準(zhǔn)測試,今天想和大家一起分享一下背后的故事。


這兩張圖,左邊是紅杉之前在內(nèi)部使用的benchmark,更新了兩個(gè)版本,以及從推出到被大模型打爆100分的速度;第二張是我們引用了前一段時(shí)間一篇比較知名博客上的一張圖,是市場上所有主流的benchmark從推出到大模型被拉爆到100分所使用的時(shí)間。可以看到,這個(gè)趨勢是非常一致的,都闡明了AI上半場的一個(gè)問題——當(dāng)強(qiáng)化學(xué)習(xí)被證明有效的時(shí)候,每當(dāng)出現(xiàn)一個(gè)新的數(shù)據(jù)集和一個(gè)測試標(biāo)準(zhǔn),大模型就一定會(huì)被訓(xùn)練到SOTA,市場上就會(huì)很快出現(xiàn)另外一個(gè)基準(zhǔn)測試,大模型又會(huì)SOTA,這就會(huì)進(jìn)入一個(gè)無限循環(huán),這就是我們在上半場看到的一個(gè)挑戰(zhàn)。

這就引出了我們不得不問的問題,當(dāng)這些大模型都考100分的時(shí)候,到底是模型變聰明了,還是卷子出了問題?所以當(dāng)我們在第三次給模型出卷子的過程中,不得不停下來問這個(gè)問題。


回顧一下在過去兩年多的時(shí)間里,我們的三次迭代分別做了什么事情。

第一次是在ChatGPT剛剛出來不久,我們當(dāng)時(shí)認(rèn)為大模型可能是一個(gè)非常重要的投資機(jī)會(huì),也是十年一遇甚至更長時(shí)間一遇的大浪潮。所以我們要在內(nèi)部建立一個(gè)新的標(biāo)準(zhǔn)以及內(nèi)部的工具,能夠讓我們實(shí)時(shí)去觀測模型的發(fā)展,以及更好地對市場上當(dāng)時(shí)的AI大模型項(xiàng)目進(jìn)行投資判斷,所以我們就做了這么一套“試卷”,一個(gè)benchmark。我們第一次更新的benchmark,里面的題非常簡單,都是一些簡單的邏輯題和數(shù)學(xué)題,有代表性的比如說“香蕉的平方根是什么”,都是非常簡單的邏輯題。

很快的,我們第一期的benchmark就被拉到100分,之后我們就進(jìn)行了第二次更新。我記得那時(shí)候應(yīng)該是OpenAI o1推出不久以后,我們將這些題升級到了更難的難度系數(shù)。大家可以看到,這些題普通人很難在第一時(shí)間很快做出來。但第二次更新被拉爆的速度更快,第一次可能我們用了小一年的時(shí)間,第二次可能是六個(gè)月的時(shí)間,大模型就能答到100分了。

到了今年3月份進(jìn)行第三次更新的時(shí)候,我們就開始問自己,我們在“AI的下半場”里應(yīng)該怎么提出好問題?

顯然,我們陷入了一個(gè)和很多研究者非常相似的慣性思維,我們在題越來越難、模型越來越聰明的慣性下,一直在往前走。但是這個(gè)慣性真的對嗎?這是我們第三次更新時(shí)思考的最重要的問題:模型越來越聰明和能做越來越難的題,真的是作為投資者和創(chuàng)業(yè)者想要的嗎?越來越聰明的投資模型具備投資價(jià)值嗎?這中間的關(guān)系是什么?我們開始不斷去問自己這樣的問題。

投資需要投有經(jīng)濟(jì)效用的產(chǎn)品和技術(shù),也就是說,大模型和AI產(chǎn)品需要成為真正能夠產(chǎn)生商業(yè)價(jià)值的公司。但是模型越來越聰明這件事情和它有經(jīng)濟(jì)效用之間是否呈正比關(guān)系,或者說是否有完全關(guān)聯(lián)的關(guān)系?舉個(gè)簡單的例子:程序員寫程序很有經(jīng)濟(jì)效用,對模型來講是比較簡單的問題,但是讓大模型去工地搬磚,這是做不到的,所以這兩者之間沒有完全的對應(yīng)關(guān)系。

因此,第三次升級的方向就引出來我們覺得最重要的兩件事情:第一,我們需要打破思維慣性,真正停下來去思考究竟“更難的問題”和“經(jīng)濟(jì)效用”之間到底是什么關(guān)系,我們能不能建立一套標(biāo)準(zhǔn),能夠在我們的投資過程當(dāng)中,一邊評估它越來越聰明,一邊評估它越來越有用,這兩件事情可能是同等重要的;第二,大家看到剛才我們面臨的挑戰(zhàn),是我們的題不斷被刷爆,大家就出更難的題,但是兩套題之間怎么互相比較?這就像博士卷子考20分和小學(xué)卷子考100分,如何把這兩個(gè)成績在同一個(gè)人身上去做一個(gè)橫向?qū)Ρ?,真正看到他的能力提升,這是我們的第二個(gè)問題。換言之,就是怎么建立一個(gè)長期的評估機(jī)制。

針對第一個(gè)問題,我展開分享一下我們背后的思考和邏輯。拿AI模型其中的一個(gè)子能力,就是search舉例。如果AI在學(xué)校里上課會(huì)做越來越難的題,越來越難的題會(huì)體現(xiàn)什么地方?這就是我們的AGI track,它會(huì)先做一個(gè)簡單的search題,然后一個(gè)deepsearch題,再是一個(gè)deeper search,這很像我們在學(xué)校里去學(xué)習(xí)的過程。


但是當(dāng)它到了社會(huì)上要去打工的時(shí)候,當(dāng)AI從當(dāng)好學(xué)生變成當(dāng)好員工的時(shí)候,search的能力就變了,或者說社會(huì)對它的評估體系就變了。當(dāng)我們?nèi)フ衅敢粋€(gè)員工的時(shí)候,什么時(shí)候會(huì)用到search,在什么崗位上會(huì)用到search?

在很多地方都需要。比如說在獵頭崗位上,他需要去找簡歷,這是一個(gè)很典型的search。對于一個(gè)市場運(yùn)營部,它要去找KOL,要和他聯(lián)系和發(fā)廣告,這是一個(gè)search。其實(shí)在很多職業(yè)崗位上都有search這個(gè)職能,但search職能所對應(yīng)的題和value是不一樣的,所以當(dāng)我們從生產(chǎn)力的視角去看AI的時(shí)候,這個(gè)search的題可能就變了。Search題變成了一個(gè)真正和現(xiàn)實(shí)生產(chǎn)力和生產(chǎn)價(jià)值相關(guān)的一道題,并且能夠計(jì)算出它實(shí)際的商業(yè)價(jià)值,它替代掉的就是需要人重復(fù)勞動(dòng)的那一段工作。

如果沿著這個(gè)思路,我們可以看到每一個(gè)AI能力都分成兩部分track:下面是AGI track,評估的是它的讀書能力;上面是Profession-aligned track,評估AI走到現(xiàn)實(shí)世界、走到生產(chǎn)力環(huán)節(jié)當(dāng)中的經(jīng)濟(jì)效用。我們開玩笑說,下面評估的是AI越來越聰明和它當(dāng)學(xué)霸的能力,上面是它去打工、去幫人做牛馬的能力。它們又是相互對應(yīng)的,因?yàn)槊恳粋€(gè)AI能力的提升,都能點(diǎn)亮一個(gè)應(yīng)用場景。剛才我們只是舉了一個(gè)非常小的例子,在search上,它如果擁有了search的能力,可能能夠去做一些HR和marketing的工作。

接下來AI會(huì)發(fā)生什么事情,比如說AI現(xiàn)在有了多模態(tài)的能力,當(dāng)它有了多模態(tài)的能力以后,它到現(xiàn)實(shí)世界當(dāng)中是不是可以去做一些更有經(jīng)濟(jì)價(jià)值的事情,比如說一些視頻的生成、一些編輯類的工作;當(dāng)它有了一些更高級的能力,比如說交易、博弈能力,是不是我們在現(xiàn)實(shí)世界當(dāng)中能夠讓它去做一些高級的交易和與人有來回的一些工作。

所以可以理解,AGI track是經(jīng)濟(jì)效用的一個(gè)臺(tái)階,所以每點(diǎn)亮一個(gè)下面的track,我們的AI將會(huì)走向另外一個(gè)臺(tái)階,這是我們在xbench當(dāng)中推出的雙軌評測體系,我們也希望這套評估體系能夠去幫助所有的AI創(chuàng)業(yè)者和AI研究者,真正能夠去bridgeAI能力和經(jīng)濟(jì)效用之間的鴻溝。


剛才我們提到的第二件事情,就是長青,怎么去建立一個(gè)長青的評價(jià)體系。我們剛才講到一個(gè)例子,當(dāng)一個(gè)學(xué)生做博士試題的時(shí)候拿了20分,做小學(xué)試題時(shí)拿100分,兩者去做比較,實(shí)際上他的能力上漲了,但是分?jǐn)?shù)下降了。所以怎么讓我們作為評估者、投資者或者模型和Agent的開發(fā)者、創(chuàng)業(yè)者,能夠有感知模型的單調(diào)遞增,怎么在不同的時(shí)間維度上,在一個(gè)模型上和不同的數(shù)據(jù)集、考試題上,能把一個(gè)模型的20分成績和100分成績?nèi)M向做比較。

我們在這個(gè)問題上也推出了我們的第二個(gè)解決方案,就是去建立長青的評估體系。這是我們做的一個(gè)回歸測試,左邊的這張圖是我們在過去兩年多時(shí)間里,用公開數(shù)據(jù)集對這些模型進(jìn)行測試的匯報(bào)分?jǐn)?shù)。這其中每一次的曲線下降都是基準(zhǔn)測試換題的時(shí)間點(diǎn)。

從模型的能力上來講,在過去的兩年多時(shí)間里,模型的能力應(yīng)該是一個(gè)單調(diào)遞增上漲的。但是當(dāng)我們?nèi)タ捶謹(jǐn)?shù)的時(shí)候,它卻呈現(xiàn)出一個(gè)上上下下的過程。我們?nèi)プ隽艘粋€(gè)IRT的方法,并且進(jìn)行了數(shù)學(xué)建模,針對這個(gè)我們也撰寫和發(fā)表了一篇論文,去講述了我們所有的方法論,做了一個(gè)回歸測試,這也是首次有投資機(jī)構(gòu)去做這件事。當(dāng)我們進(jìn)行了IRT調(diào)整之后,它自然就變成了一個(gè)單調(diào)遞增的曲線。

為什么單調(diào)遞增曲線對我們這么重要?因?yàn)槲覀冊诳磩?chuàng)業(yè)者的時(shí)候,經(jīng)常說判斷創(chuàng)業(yè)者最重要的標(biāo)準(zhǔn)是Delta。我們非常重視和創(chuàng)業(yè)者從第一次接觸到后面無數(shù)次接觸中,看到他們身上發(fā)生變化,因?yàn)檫@個(gè)變化體現(xiàn)了他的學(xué)習(xí)和自我迭代能力。因此,感受曲線的斜率對我們來說是一個(gè)非常重要的事情。

放在模型和Agent上也一樣,我們希望能夠建立一種斜率的感知,能夠讓我們知道Agent的斜率在過去和未來到底是一個(gè)什么樣的發(fā)展。因?yàn)橹挥薪⒘诵甭实陌l(fā)展,我們才能像評估人一樣,真正把它帶到現(xiàn)實(shí)世界當(dāng)中去評估所謂的TMF。


在過去,大家比較認(rèn)可PMF的概念,但我們在這里提出了,在新的時(shí)代應(yīng)該去評估TMF。它講的是什么?講的就是當(dāng)我們不斷用單調(diào)遞增的視角去評判Agent能力的時(shí)候,我們能夠去看到這個(gè)能力無限逼近人的能力,然后它會(huì)和人形成三個(gè)階段。當(dāng)沒有達(dá)到TMF的時(shí)候,說明Agent的能力不如人,可能是一個(gè)人力主導(dǎo)的社會(huì)和人力主導(dǎo)的工作;之后,我們預(yù)計(jì)未來的世界可能還會(huì)經(jīng)歷兩步,一步是它達(dá)到了TMF,但是它達(dá)到TMF,可能能做的是一些重復(fù)的工種和一些簡單的工作,或者是一個(gè)長工作中的一小部分。接著往下走,我們可能會(huì)看到越來越專業(yè)化的Agent。建立這樣的單調(diào)遞增和對Agent能力Delta變量的track,也能讓我們?nèi)ジ玫乩斫馐裁磿r(shí)候是投資的拐點(diǎn),以及讓創(chuàng)業(yè)者更好地去理解什么時(shí)候去切入一個(gè)賽道做Agent。


這是我們第一期的兩個(gè)track的評估圖,這是我們第一期的四個(gè)榜單的榜三??梢钥吹?,前面兩個(gè)榜是AGI track,就是評估模型能力是否聰明,后面兩個(gè)榜是評估它打工的能力好不好。大家可以看到,這可能和很多同學(xué)的體感非常相似,我們有小鎮(zhèn)作題家,也有職業(yè)打工人,每一個(gè)模型擅長的東西不太一樣。

最后,因?yàn)闀r(shí)間關(guān)系,我們所有的paper和dataset很快也會(huì)開源。我們希望對社區(qū)進(jìn)行一個(gè)號召,作為xbench,它從原來一個(gè)我們紅杉內(nèi)部的投資工具,現(xiàn)在我們開源出來貢獻(xiàn)給社區(qū),很大程度是因?yàn)槲覀冇X得在未來,大家共建一套Agent的評估標(biāo)準(zhǔn),對于整個(gè)社區(qū)不管track TMF或者track模型能力都是非常重要的,所以我們希望能夠號召大家一起參與到整個(gè)開源社區(qū)的生態(tài)開發(fā)里。

以上是我今天的分享,謝謝大家!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
取消優(yōu)待證,改為對每名退役軍人發(fā)貨幣補(bǔ)貼才公平,此建議可行嗎

取消優(yōu)待證,改為對每名退役軍人發(fā)貨幣補(bǔ)貼才公平,此建議可行嗎

星光看娛樂
2025-06-19 13:39:44
貝克漢姆長子攜妻出街,妮可拉氣質(zhì)驚艷眾人

貝克漢姆長子攜妻出街,妮可拉氣質(zhì)驚艷眾人

述家娛記
2025-06-20 17:30:41
粉的,白的,紅的,紫的?。?!

粉的,白的,紅的,紫的!!!

風(fēng)子說個(gè)球
2025-05-22 12:01:06
曾毅被曝遭軟封殺!歌迷證實(shí)今年演唱會(huì)全部取消,風(fēng)波后狀態(tài)頹廢

曾毅被曝遭軟封殺!歌迷證實(shí)今年演唱會(huì)全部取消,風(fēng)波后狀態(tài)頹廢

萌神木木
2025-06-20 14:04:46
株洲市委:堅(jiān)決擁護(hù)省委決定

株洲市委:堅(jiān)決擁護(hù)省委決定

新京報(bào)
2025-06-20 10:26:11
伊朗一彈打穿“鐵穹”,15馬赫砸穿反導(dǎo),中國兩艘偵察船已抵達(dá)

伊朗一彈打穿“鐵穹”,15馬赫砸穿反導(dǎo),中國兩艘偵察船已抵達(dá)

小丸說故事
2025-06-21 01:08:18
與伊朗開戰(zhàn)一周,有六個(gè)想不到,內(nèi)塔尼亞胡百思不得其解

與伊朗開戰(zhàn)一周,有六個(gè)想不到,內(nèi)塔尼亞胡百思不得其解

剛哥說法365
2025-06-20 00:00:07
《長安的荔枝》大結(jié)局:李善德被貶,鄭平安被殺,讓人感動(dòng)的是他

《長安的荔枝》大結(jié)局:李善德被貶,鄭平安被殺,讓人感動(dòng)的是他

煙花五月下蘇州
2025-06-21 00:07:42
總理是叛徒?俄羅斯“最大內(nèi)鬼”浮出水面,竟然一直藏在普京身邊

總理是叛徒?俄羅斯“最大內(nèi)鬼”浮出水面,竟然一直藏在普京身邊

小lu侃侃而談
2025-06-10 20:06:43
伊朗導(dǎo)彈火力全開,6月20日晚八點(diǎn),中東戰(zhàn)火傳來最新消息

伊朗導(dǎo)彈火力全開,6月20日晚八點(diǎn),中東戰(zhàn)火傳來最新消息

智觀科技
2025-06-20 23:47:04
香港行記:廟街水面之下的性交易

香港行記:廟街水面之下的性交易

悠閑葡萄
2025-06-12 11:39:07
還管什么特朗普馬斯克,這個(gè)中國女孩突然被全世界關(guān)注!

還管什么特朗普馬斯克,這個(gè)中國女孩突然被全世界關(guān)注!

華人星光
2025-06-10 10:20:03
北大才女李天樂高智商殺夫,耗時(shí)1周,讓丈夫在幸福中死去

北大才女李天樂高智商殺夫,耗時(shí)1周,讓丈夫在幸福中死去

一個(gè)人講故事
2024-05-09 19:59:19
母親節(jié)兒子給我紅包100,給丈母娘5萬,我把留給他的商鋪賣掉他慌了

母親節(jié)兒子給我紅包100,給丈母娘5萬,我把留給他的商鋪賣掉他慌了

雨仔講故事
2025-06-17 18:52:07
胰腺癌高發(fā),醫(yī)生提醒:不想胰腺受傷,3種零食要少吃

胰腺癌高發(fā),醫(yī)生提醒:不想胰腺受傷,3種零食要少吃

醫(yī)學(xué)原創(chuàng)故事會(huì)
2025-06-20 21:53:11
幼兒園小朋友傳遞消息有多離譜?網(wǎng)友:心情郁悶的朋友建議多看看

幼兒園小朋友傳遞消息有多離譜?網(wǎng)友:心情郁悶的朋友建議多看看

解讀熱點(diǎn)事件
2025-06-20 01:59:00
存在過熱風(fēng)險(xiǎn) 安克宣布召回超100萬臺(tái)充電寶

存在過熱風(fēng)險(xiǎn) 安克宣布召回超100萬臺(tái)充電寶

DoNews
2025-06-19 15:26:08
臺(tái)海開戰(zhàn),美日聯(lián)手,我海軍將損失過半,傷亡萬人,臺(tái)島獨(dú)立?

臺(tái)海開戰(zhàn),美日聯(lián)手,我海軍將損失過半,傷亡萬人,臺(tái)島獨(dú)立?

妙知
2025-06-19 20:46:44
女同事辦完退休手續(xù),燒掉證書,悄悄退群,三天后才被領(lǐng)導(dǎo)發(fā)現(xiàn)!

女同事辦完退休手續(xù),燒掉證書,悄悄退群,三天后才被領(lǐng)導(dǎo)發(fā)現(xiàn)!

職場火鍋
2025-05-30 16:55:14
滬昆高鐵杭長段將達(dá)速運(yùn)營,通行效率更高,云南貴州只有羨慕的份

滬昆高鐵杭長段將達(dá)速運(yùn)營,通行效率更高,云南貴州只有羨慕的份

妙知
2025-06-20 22:10:31
2025-06-21 02:48:49
36氪 incentive-icons
36氪
讓一部分人先看到未來
148460文章數(shù) 2845664關(guān)注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時(shí)延與全面AI

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯(lián)合政府瓦解

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯(lián)合政府瓦解

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財(cái)經(jīng)要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項(xiàng)訂車禮/四款車型 一汽奧迪A5L正式開啟預(yù)售

態(tài)度原創(chuàng)

旅游
教育
藝術(shù)
健康
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

大暴雨!7-9級雷暴大風(fēng)!明日中考請?zhí)崆俺鲩T!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

軍事要聞

以方:有能力摧毀伊朗所有核設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 达尔| 嘉兴市| 浠水县| 涟源市| 从江县| 手机| 济宁市| 无棣县| 根河市| 密山市| 广德县| 富源县| 洮南市| 东方市| 贵港市| 祁门县| 石阡县| 五寨县| 泰和县| 蒙山县| 钟祥市| 扶绥县| 安福县| 翼城县| 香格里拉县| 乐东| 原阳县| 汶上县| 株洲县| 鹿邑县| 霍林郭勒市| 手游| 青海省| 衡阳县| 阿荣旗| 子长县| 乌兰县| 哈巴河县| 甘谷县| 杂多县| 年辖:市辖区|