網易首頁 > 網易號 > 正文申請入駐

紅杉中國推AI基準測試工具xbench 重點量化AI系統場景效用價值

2025-05-26 12:08:20　來源: 雷遞

北京舉報

分享至

雷遞網樂天 5月26日

紅杉中國今天正式推出一款全新的AI基準測試工具xbench，并發布論文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。

紅杉中國稱，在評估和推動AI系統提升能力上限與技術邊界的同時，xbench會重點量化AI系統在真實場景的效用價值，并采用長青評估的機制，去捕捉Agent產品的關鍵突破。

據介紹，隨著基礎模型的快速發展和AI Agent進入規?；瘧秒A段，被廣泛使用的基準測試（Benchmark）卻面臨一個日益尖銳的問題：想要真實地反映AI的客觀能力正變得越來越困難。

因此，構建更加科學、長效和如實反映AI客觀能力的評測體系，正在成為指引AI技術突破與產品迭代的重要需求。

據介紹，xbench采用雙軌評估體系，構建多維度測評數據集，旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。

該體系創新性地將評測任務分為兩條互補的主線：（1）評估AI系統的能力上限與技術邊界；（2）量化AI系統在真實場景的效用價值（Utility Value）。其中，后者需要動態對齊現實世界的應用需求，基于實際工作流程和具體社會角色，為各垂直領域構建具有明確業務價值的測評標準。

xbench采用長青評估（Evergreen Evaluation）機制，通過持續維護并動態更新測試內容，以確保時效性和相關性。我們將定期測評市場主流Agent產品，跟蹤模型能力演進，捕捉Agent產品迭代過程中的關鍵突破，進而預測下一個Agent應用的技術-市場契合點（TMF，Tech-Market Fit）。作為獨立第三方，我們致力于為每類產品設計公允的評估環境，提供客觀且可復現的評價結果。

首期發布包含兩個核心評估集：科學問題解答測評集（xbench-ScienceQA）與中文互聯網深度搜索測評集（xbench-DeepSearch），并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論，并構建了面向招聘（Recruitment）和營銷（Marketing）領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網站實時查看。

在過去兩年多的時間里，xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具。

紅杉中國稱，2022年ChatGPT推出后，紅杉中國開始對AGI進程和主流模型實行每個月的評測與內部匯報。2023年3月，紅杉中國開始建設xbench的第一批私有題庫，題目類型主要針對Chatbot簡單問答及邏輯思考。

2025年3月，紅杉中國開始第三次對xbench題庫進行升級，思考兩個核心問題：

1/ 模型能力和AI實際效用之間的關系：我們出越來越難的題目意義是什么，是否落入了慣性思維？AI落地的實際經濟價值真的和AI會做難題正相關嗎？舉個例子，程序員工作的Utility Value很高，但AI做起來進步非常快，而“去工地搬磚”這樣的工作AI卻幾乎無法完成。

2/ 不同時間維度上的能力比較：每一次xbench換題，我們便失去了對AI能力的前后可比性追蹤，因為在新的題集下，模型版本也在迭代，我們無法比較不同時間維度上的單個模型的能力如何變化。在判斷創業項目的時候，我們喜歡看創業者的“成長斜率”，但在評估AI能力這件事上，我們卻因為題庫的不斷更新而無法有效判斷。

紅杉中國引入Profession Aligned的基準概念，認為評估會分為AGI tracking與Profession Aligned，AI將面臨更多復雜環境下效用的考察，從業務中收集的動態題集，而不單是更難的智力題。

靜態評估集一旦面世，會出現題目泄露導致過擬合然后迅速失效的問題。紅杉中國稱，將維護一個動態更新的題目擴充評估集來緩解這一現象。

xbench-ScienceQA: 考察基礎智能-知識

紅杉中國稱，這一次發布的xbench-ScienceQA與xbench-DeepSearch評估屬于Knowledge與Tool Use的子類別，測試Agent在這兩項主能力分類下的子任務能力。

雷遞由媒體人雷建平創辦，若轉載請寫明來源。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.