我們去年底發了一篇展望2025年AI的文章,其中第2條提到了AGI,認為2025年將提出更難的基準,但AGI仍然很難跨越莫拉維克悖論。
這種悖論,部分體現在那些前沿AI模型可以解出奧數題,卻難以完成實際工作中初級員工的任務。而智能體的實際應用,恰恰是從完成簡單的工作任務開始。
紅杉中國想跨越這個悖論,推出了xBench,測評專業領域智能體的表現——從完成簡單的任務開始。
(招聘和營銷兩個專業智能體的xBench測評結果)
如果說當初ChatGPT帶給人們的驚喜來自實際對話的體驗,GPT-4的發布所引發的震撼,基本上是來自其刷題的分數。
它的技術報告中,用一系列學術和專業資格試題來測試GPT-4,得分達到甚至超過了人類的平均水平;在一系列美國大學本科和研究生入學,律師資格考試等專業領域,以及有關科學和數學的通識,初步的視覺和推理能力,編程能力等方面,實現了對GPT-3.5的大幅度提升。
配合這個模型的發布,微軟發布了一篇論文稱,GPT-4呈現了早期的“火花”;而OpenAI請了幾位經濟學家,發布一篇論文,根據GPT-4在各職業崗位技能上廣泛的可替代程度,提出了(General Purpose Technologies),即GPTs are GPTs。
論文調查了美國1016種職業,包括工作行為的具體描述,將其進一步分解為每種職業的具體任務,共計19265種。對應GPT所訓練出的基礎能力,微調出來的具體專業領域的能力,以及融合其他技術的能力,與目前所有職業技能進行對照,劃分其對GPT “暴露”的程度。
調查結果表明,大約 80% 的美國勞動力至少有 10% 的工作任務會受到 GPT 的影響,而大約 19% 的員工可能會看到至少 50% 的工作任務受到影響。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的暴露風險。這個硬幣的另外一面是,AI如果能接管現有的許多工作技能,將會創造巨大的價值。
今天回頭看來,AI大模型通的通用智能,可以通過刷題獲得高分,達到大學生甚至博士的水平,可以在對話中侃侃而談,學識淵博,而在真實世界的應用中卻顯得“低能”。大模型過分依賴這類測評獲得存在感,在一定程度上會陷入了刷題與刷榜的游戲。
OpenAI o3的發布再一次,在編程、數學、科學等一系列基準測試中成為學霸中的學霸,讓測評分數都不夠用了,迅速趨于飽和。
這個評價體系的創始人Fran?ois Chollet 認為,o3可以解出奧數題,卻在一些非常簡單的任務上仍然會失敗,新出一道小學數學可能輕松拿捏它,“這表明它與人類智能存在根本性的差異。”
與此同時,大模型也在撞上數據墻,各種圍繞刷題和刷榜的demo,在經過了近兩年的“核彈”、“王炸”級別的不斷的炒作之后 ,令人產生疲勞感,人們越來越關注AI大模型的“高分低能”問題。
應該把大模型當成一個智能體,投入到實際工作中,并對其表現進行考評,而不是僅僅停留在教室和實驗室里測試它們的分數。已經有一些開創性的測評方式,如硅谷研究機構METR,對OpenAI及Anthropic大模型完成的1460項任務,根據其所用的時長、完成程度和成本進行分析,初步得出了。
紅杉中國也走過了同樣的路。2022年ChatGPT推出后,紅杉中國密切追蹤AGI的進程,每個月測評主流模型,在內部匯報和投資參考。他們在中國同樣也遇到了測試基準快速“飽和”的問題,主流模型從20-30分在18個月內提升到90-100分。
2024年10月,OpenAI推出推理模型o1之后一個月,紅杉中國大規模更新了xbench題庫,換掉了所有都得滿分的題,新增的試題主要針對Chatbot復雜問答及推理,以及簡單的模型外部工具調用能力。結果這一次題庫被大模型更快地刷爆,僅用了6個月。
2025年3月,紅杉開始第三次對xbench題庫進行升級,這一次,他們開始停下來質疑現有評估方式,思考兩個核心問題:
模型能力和AI實際效用之間的關系:“我們出越來越難的題目意義是什么,是否落入了慣性思維?AI落地的實際經濟價值真的和AI會做難題正相關嗎?” 舉個例子,程序員工作的Utility Value很高,但AI做起來進步非常快,而“去工地搬磚”這樣的工作AI卻幾乎無法完成。
不同時間維度上的能力比較:“每一次xbench換題,我們便失去了對AI能力的前后可比性追蹤,因為在新的題集下,模型版本也在迭代,我們無法比較不同時間維度上的單個模型的能力如何變化。” 這樣的測評,在判斷創業項目的時候,尤其是在評估AI能力這件事上,可能已經失靈。
這次紅杉中國決定從水平到垂直,進入一個個行業領域,去發現智能體的勞動生產率,基于AI技術與市場匹配(Technology Market Fit,TMF),甚至預測AI技術將率先在哪些領域實現大規模應用,從而盡早發現優秀的產品和團隊。
xBench既測試AI的系統能力上限與技能邊界,即AGI能力,也會量化AI系統在真實場景中的效用值(Utility Value)。如果說前者是對齊人類的抽象思維范式和價值觀,那么后者則動態對齊現實世界的真實需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。
xbench還采用長青評估(Evergreen Evaluation)機制,通過持續維護并動態更新測試內容,以確保時效性和相關性。xBench將定期測評市場主流智能體產品,跟蹤模型能力演進,捕捉智能體產品迭代過程中的關鍵突破,進而預測下一個智能體應用的TMF。
紅杉中國要構建 xbench 指數,服務于它的AI獨角獸捕獲機器。通過長期更新的評估追蹤并預測代理產品之間的競爭格局:“我們可以追蹤交替領先的產品,同時也希望發現能力在短期內迅速提升的新秀產品。”
紅杉中國稱之為AI“下半場的評估”,目前已經被證明了的賽道是AI編程,接下來,招聘和市場營銷可能是基于深度搜索技術而產生的兩個充滿機會的AI應用賽道。
33位中美頂尖名校中國博士組成的團隊,與這兩個行業專家合作,提煉出了真實的需求和工作流程,具體到時間分配,并且計算出每個工作環節和模塊的市場價值。
行業專家對具體的工作提出要求,通過搜索智能體輸出結果,如應聘候選人專業表現,然后由大型語言模型進行評判,得出分數。
(對招聘智能體工作流程的打分)
基于這樣的方法,紅杉在5月份對前沿模型的最新版本的招聘和營銷智能體的能力進行了測評,推出了榜單,并且首次對外公開xBench。紅杉想以此來建立一個動態的榜單和指標體系,對模型研究者和垂直智能體的開發者開放測評結果。
具體到抽象的過程,比較能反應中國創業者的特點,尤其是是在進入智能體創業的階段,是不是還要“通用”,什么是“通用”。從MANUS等中國創業者最早提出通用智能體這個概念,并且引發出現象級的主張之后,我們可以看到,它實際上把“通用”建立在一系列創造經濟價值的的典型行業與場景之上,它是一個演變泛化的過程。它與硅谷創業者所擅長的從抽象到具體形成互補。
參考報告:
https://xbench.org/#/reports
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.