雷遞網 樂天 5月26日
紅杉中國今天正式推出一款全新的AI基準測試工具xbench,并發布論文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。
紅杉中國稱,在評估和推動AI系統提升能力上限與技術邊界的同時,xbench會重點量化AI系統在真實場景的效用價值,并采用長青評估的機制,去捕捉Agent產品的關鍵突破。
據介紹,隨著基礎模型的快速發展和AI Agent進入規?;瘧秒A段,被廣泛使用的基準測試(Benchmark)卻面臨一個日益尖銳的問題:想要真實地反映AI的客觀能力正變得越來越困難。
因此,構建更加科學、長效和如實反映AI客觀能力的評測體系,正在成為指引AI技術突破與產品迭代的重要需求。
據介紹,xbench采用雙軌評估體系,構建多維度測評數據集,旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。
該體系創新性地將評測任務分為兩條互補的主線:(1)評估AI系統的能力上限與技術邊界;(2)量化AI系統在真實場景的效用價值(Utility Value)。其中,后者需要動態對齊現實世界的應用需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。
xbench采用長青評估(Evergreen Evaluation)機制,通過持續維護并動態更新測試內容,以確保時效性和相關性。我們將定期測評市場主流Agent產品,跟蹤模型能力演進,捕捉Agent產品迭代過程中的關鍵突破,進而預測下一個Agent應用的技術-市場契合點(TMF,Tech-Market Fit)。作為獨立第三方,我們致力于為每類產品設計公允的評估環境,提供客觀且可復現的評價結果。
首期發布包含兩個核心評估集:科學問題解答測評集(xbench-ScienceQA)與中文互聯網深度搜索測評集(xbench-DeepSearch),并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論,并構建了面向招聘(Recruitment)和營銷(Marketing)領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網站實時查看。
在過去兩年多的時間里,xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具。
紅杉中國稱,2022年ChatGPT推出后,紅杉中國開始對AGI進程和主流模型實行每個月的評測與內部匯報。2023年3月,紅杉中國開始建設xbench的第一批私有題庫,題目類型主要針對Chatbot簡單問答及邏輯思考。
2025年3月,紅杉中國開始第三次對xbench題庫進行升級,思考兩個核心問題:
1/ 模型能力和AI實際效用之間的關系:我們出越來越難的題目意義是什么,是否落入了慣性思維?AI落地的實際經濟價值真的和AI會做難題正相關嗎?舉個例子,程序員工作的Utility Value很高,但AI做起來進步非常快,而“去工地搬磚”這樣的工作AI卻幾乎無法完成。
2/ 不同時間維度上的能力比較:每一次xbench換題,我們便失去了對AI能力的前后可比性追蹤,因為在新的題集下,模型版本也在迭代,我們無法比較不同時間維度上的單個模型的能力如何變化。在判斷創業項目的時候,我們喜歡看創業者的“成長斜率”,但在評估AI能力這件事上,我們卻因為題庫的不斷更新而無法有效判斷。
紅杉中國引入Profession Aligned的基準概念,認為評估會分為AGI tracking與Profession Aligned,AI將面臨更多復雜環境下效用的考察,從業務中收集的動態題集,而不單是更難的智力題。
靜態評估集一旦面世,會出現題目泄露導致過擬合然后迅速失效的問題。紅杉中國稱,將維護一個動態更新的題目擴充評估集來緩解這一現象。
xbench-ScienceQA: 考察基礎智能-知識
紅杉中國稱,這一次發布的xbench-ScienceQA與xbench-DeepSearch評估屬于Knowledge與Tool Use的子類別,測試Agent在這兩項主能力分類下的子任務能力。
雷遞由媒體人雷建平創辦,若轉載請寫明來源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.