WAVES新浪潮2025邀你一起走向中國創投的「新紀元」。
這是屬于中國創投的新紀元。當下的中國創投市場,既是周期筑底的轉折點,也是結構性轉型的深化期。在政策主導、國資與資本高度集中的新生態下,唯有順應趨勢、靈活調整,方能在不確定性中捕捉確定性機遇。 6月11-12日,杭州良渚文化藝術中心,36氪WAVES新浪潮2025大會以「新紀元」為主題,匯聚創投領域頂級投資人、新銳企業創始人,以及深耕科技、創新、商業的科學家、創作者與學者,共同探討AI技術革新、全球化浪潮與價值重估等前沿議題,拆解他們眼中的商業理想和未來世界,一起討論、尋找、走向中國創投「新紀元」。
6月12日上午,在創業者會場上紅杉中國投資人公元,進行了一場獨立演講,主題為「如何在AI下半場,定義“好問題”?」。以下為演講全文:
大家好!我是紅杉中國的公元。很高興受到36氪、暗涌waves的邀請,今天能和大家做一場分享。今天我想和大家講的主題,和我們最近剛剛推出的xbench相關。xbench是首個由投資機構推出的面向大模型和AI Agent的基準測試。我們為什么要推出這個基準測試,今天想和大家一起分享一下背后的故事。
這兩張圖,左邊是紅杉之前在內部使用的benchmark,更新了兩個版本,以及從推出到被大模型打爆100分的速度;第二張是我們引用了前一段時間一篇比較知名博客上的一張圖,是市場上所有主流的benchmark從推出到大模型被拉爆到100分所使用的時間。可以看到,這個趨勢是非常一致的,都闡明了AI上半場的一個問題——當強化學習被證明有效的時候,每當出現一個新的數據集和一個測試標準,大模型就一定會被訓練到SOTA,市場上就會很快出現另外一個基準測試,大模型又會SOTA,這就會進入一個無限循環,這就是我們在上半場看到的一個挑戰。
這就引出了我們不得不問的問題,當這些大模型都考100分的時候,到底是模型變聰明了,還是卷子出了問題?所以當我們在第三次給模型出卷子的過程中,不得不停下來問這個問題。
回顧一下在過去兩年多的時間里,我們的三次迭代分別做了什么事情。
第一次是在ChatGPT剛剛出來不久,我們當時認為大模型可能是一個非常重要的投資機會,也是十年一遇甚至更長時間一遇的大浪潮。所以我們要在內部建立一個新的標準以及內部的工具,能夠讓我們實時去觀測模型的發展,以及更好地對市場上當時的AI大模型項目進行投資判斷,所以我們就做了這么一套“試卷”,一個benchmark。我們第一次更新的benchmark,里面的題非常簡單,都是一些簡單的邏輯題和數學題,有代表性的比如說“香蕉的平方根是什么”,都是非常簡單的邏輯題。
很快的,我們第一期的benchmark就被拉到100分,之后我們就進行了第二次更新。我記得那時候應該是OpenAI o1推出不久以后,我們將這些題升級到了更難的難度系數。大家可以看到,這些題普通人很難在第一時間很快做出來。但第二次更新被拉爆的速度更快,第一次可能我們用了小一年的時間,第二次可能是六個月的時間,大模型就能答到100分了。
到了今年3月份進行第三次更新的時候,我們就開始問自己,我們在“AI的下半場”里應該怎么提出好問題?
顯然,我們陷入了一個和很多研究者非常相似的慣性思維,我們在題越來越難、模型越來越聰明的慣性下,一直在往前走。但是這個慣性真的對嗎?這是我們第三次更新時思考的最重要的問題:模型越來越聰明和能做越來越難的題,真的是作為投資者和創業者想要的嗎?越來越聰明的投資模型具備投資價值嗎?這中間的關系是什么?我們開始不斷去問自己這樣的問題。
投資需要投有經濟效用的產品和技術,也就是說,大模型和AI產品需要成為真正能夠產生商業價值的公司。但是模型越來越聰明這件事情和它有經濟效用之間是否呈正比關系,或者說是否有完全關聯的關系?舉個簡單的例子:程序員寫程序很有經濟效用,對模型來講是比較簡單的問題,但是讓大模型去工地搬磚,這是做不到的,所以這兩者之間沒有完全的對應關系。
因此,第三次升級的方向就引出來我們覺得最重要的兩件事情:第一,我們需要打破思維慣性,真正停下來去思考究竟“更難的問題”和“經濟效用”之間到底是什么關系,我們能不能建立一套標準,能夠在我們的投資過程當中,一邊評估它越來越聰明,一邊評估它越來越有用,這兩件事情可能是同等重要的;第二,大家看到剛才我們面臨的挑戰,是我們的題不斷被刷爆,大家就出更難的題,但是兩套題之間怎么互相比較?這就像博士卷子考20分和小學卷子考100分,如何把這兩個成績在同一個人身上去做一個橫向對比,真正看到他的能力提升,這是我們的第二個問題。換言之,就是怎么建立一個長期的評估機制。
針對第一個問題,我展開分享一下我們背后的思考和邏輯。拿AI模型其中的一個子能力,就是search舉例。如果AI在學校里上課會做越來越難的題,越來越難的題會體現什么地方?這就是我們的AGI track,它會先做一個簡單的search題,然后一個deepsearch題,再是一個deeper search,這很像我們在學校里去學習的過程。
但是當它到了社會上要去打工的時候,當AI從當好學生變成當好員工的時候,search的能力就變了,或者說社會對它的評估體系就變了。當我們去招聘一個員工的時候,什么時候會用到search,在什么崗位上會用到search?
在很多地方都需要。比如說在獵頭崗位上,他需要去找簡歷,這是一個很典型的search。對于一個市場運營部,它要去找KOL,要和他聯系和發廣告,這是一個search。其實在很多職業崗位上都有search這個職能,但search職能所對應的題和value是不一樣的,所以當我們從生產力的視角去看AI的時候,這個search的題可能就變了。Search題變成了一個真正和現實生產力和生產價值相關的一道題,并且能夠計算出它實際的商業價值,它替代掉的就是需要人重復勞動的那一段工作。
如果沿著這個思路,我們可以看到每一個AI能力都分成兩部分track:下面是AGI track,評估的是它的讀書能力;上面是Profession-aligned track,評估AI走到現實世界、走到生產力環節當中的經濟效用。我們開玩笑說,下面評估的是AI越來越聰明和它當學霸的能力,上面是它去打工、去幫人做牛馬的能力。它們又是相互對應的,因為每一個AI能力的提升,都能點亮一個應用場景。剛才我們只是舉了一個非常小的例子,在search上,它如果擁有了search的能力,可能能夠去做一些HR和marketing的工作。
接下來AI會發生什么事情,比如說AI現在有了多模態的能力,當它有了多模態的能力以后,它到現實世界當中是不是可以去做一些更有經濟價值的事情,比如說一些視頻的生成、一些編輯類的工作;當它有了一些更高級的能力,比如說交易、博弈能力,是不是我們在現實世界當中能夠讓它去做一些高級的交易和與人有來回的一些工作。
所以可以理解,AGI track是經濟效用的一個臺階,所以每點亮一個下面的track,我們的AI將會走向另外一個臺階,這是我們在xbench當中推出的雙軌評測體系,我們也希望這套評估體系能夠去幫助所有的AI創業者和AI研究者,真正能夠去bridgeAI能力和經濟效用之間的鴻溝。
剛才我們提到的第二件事情,就是長青,怎么去建立一個長青的評價體系。我們剛才講到一個例子,當一個學生做博士試題的時候拿了20分,做小學試題時拿100分,兩者去做比較,實際上他的能力上漲了,但是分數下降了。所以怎么讓我們作為評估者、投資者或者模型和Agent的開發者、創業者,能夠有感知模型的單調遞增,怎么在不同的時間維度上,在一個模型上和不同的數據集、考試題上,能把一個模型的20分成績和100分成績去橫向做比較。
我們在這個問題上也推出了我們的第二個解決方案,就是去建立長青的評估體系。這是我們做的一個回歸測試,左邊的這張圖是我們在過去兩年多時間里,用公開數據集對這些模型進行測試的匯報分數。這其中每一次的曲線下降都是基準測試換題的時間點。
從模型的能力上來講,在過去的兩年多時間里,模型的能力應該是一個單調遞增上漲的。但是當我們去看分數的時候,它卻呈現出一個上上下下的過程。我們去做了一個IRT的方法,并且進行了數學建模,針對這個我們也撰寫和發表了一篇論文,去講述了我們所有的方法論,做了一個回歸測試,這也是首次有投資機構去做這件事。當我們進行了IRT調整之后,它自然就變成了一個單調遞增的曲線。
為什么單調遞增曲線對我們這么重要?因為我們在看創業者的時候,經常說判斷創業者最重要的標準是Delta。我們非常重視和創業者從第一次接觸到后面無數次接觸中,看到他們身上發生變化,因為這個變化體現了他的學習和自我迭代能力。因此,感受曲線的斜率對我們來說是一個非常重要的事情。
放在模型和Agent上也一樣,我們希望能夠建立一種斜率的感知,能夠讓我們知道Agent的斜率在過去和未來到底是一個什么樣的發展。因為只有建立了斜率的發展,我們才能像評估人一樣,真正把它帶到現實世界當中去評估所謂的TMF。
在過去,大家比較認可PMF的概念,但我們在這里提出了,在新的時代應該去評估TMF。它講的是什么?講的就是當我們不斷用單調遞增的視角去評判Agent能力的時候,我們能夠去看到這個能力無限逼近人的能力,然后它會和人形成三個階段。當沒有達到TMF的時候,說明Agent的能力不如人,可能是一個人力主導的社會和人力主導的工作;之后,我們預計未來的世界可能還會經歷兩步,一步是它達到了TMF,但是它達到TMF,可能能做的是一些重復的工種和一些簡單的工作,或者是一個長工作中的一小部分。接著往下走,我們可能會看到越來越專業化的Agent。建立這樣的單調遞增和對Agent能力Delta變量的track,也能讓我們去更好地理解什么時候是投資的拐點,以及讓創業者更好地去理解什么時候去切入一個賽道做Agent。
這是我們第一期的兩個track的評估圖,這是我們第一期的四個榜單的榜三。可以看到,前面兩個榜是AGI track,就是評估模型能力是否聰明,后面兩個榜是評估它打工的能力好不好。大家可以看到,這可能和很多同學的體感非常相似,我們有小鎮作題家,也有職業打工人,每一個模型擅長的東西不太一樣。
最后,因為時間關系,我們所有的paper和dataset很快也會開源。我們希望對社區進行一個號召,作為xbench,它從原來一個我們紅杉內部的投資工具,現在我們開源出來貢獻給社區,很大程度是因為我們覺得在未來,大家共建一套Agent的評估標準,對于整個社區不管track TMF或者track模型能力都是非常重要的,所以我們希望能夠號召大家一起參與到整個開源社區的生態開發里。
以上是我今天的分享,謝謝大家!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.