網易首頁 > 網易號 > 正文申請入駐

紅杉中國發布xbench，全球首家投資機構定義的AI基準測試

2025-05-26 10:38:31　來源: 鈦媒體APP

北京舉報

分享至

紅杉中國于今天正式推出一款全新的AI基準測試工具xbench（ xbench.org），并發布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》。

首期發布包含兩個核心評估集：科學問題解答測評集（xbench-ScienceQA）與中文互聯網深度搜索測評集（xbench-DeepSearch），并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論，并構建了面向招聘（Recruitment）和營銷（Marketing）領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網站實時查看。

在過去兩年多的時間里，xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具。

區別于傳統評測集更關注AI系統的能力邊界，xbench更關注AI系統面對真實世界任務下的能力表現，并采用長青評估的機制，以一個動態更新的題目擴充評估集來消弭飛速進化的模型能力對評測集的影響。

此次發布，紅杉中國并未透露xbench評測集結果與其的投資決策的相關性，而將更大的愿景投射于xbench的開源給整個AI社區帶來的貢獻。紅杉中國在發文中向所有AI賽道從業人員發出邀請，歡迎他們成為使用并完善xbench的一份子，一起打造評估AI能力的新范式。

公開數據顯示，紅杉中國近年在AI領域的布局非常全面，深度布局了包括智譜、月之暗面、minimax、階躍星辰、Manus等眾多通用模型公司。

XBench的發布，不僅標志著紅杉中國在AI Agent賽道完成了從投資人到技術權威的定位轉型，更體現出其宏大的產業野心——這家老牌VC機構正以技術標準構建者的姿態，突破傳統財務投資者的邊界。

這場看似工具發布的動作，實則是向行業宣告：紅杉中國的目標，已不止于捕捉時代的機遇，更要定義時代的規則。

以下為紅杉中國發布正文：

隨著基礎模型的快速發展和AI Agent進入規模化應用階段，被廣泛使用的基準測試（Benchmark）卻面臨一個日益尖銳的問題：想要真實地反映AI的客觀能力正變得越來越困難。

因此，構建更加科學、長效和如實反映AI客觀能力的評測體系，正在成為指引AI技術突破與產品迭代的重要需求。有鑒于此，紅杉中國今天正式推出一款全新的AI基準測試工具xbench，并發布論文《xbench: Tracking Agents Productivity ，Scaling with Profession-Aligned Real-world Evaluations》。在評估和推動AI系統提升能力上限與技術邊界的同時，xbench會重點量化AI系統在真實場景的效用價值，并采用長青評估的機制，去捕捉Agent產品的關鍵突破。

摘要

? xbench采用雙軌評估體系，構建多維度測評數據集，旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分為兩條互補的主線：（1）評估AI系統的能力上限與技術邊界；（2）量化AI系統在真實場景的效用價值（utility value）。其中，后者需要動態對齊現實世界的應用需求，基于實際工作流程和具體社會角色，為各垂直領域構建具有明確業務價值的測評標準。

? xbench采用長青評估（Evergreen Evalution）機制，通過持續維護并動態更新測試內容，以確保時效性和相關性。我們將定期測評市場主流Agent產品，跟蹤模型能力演進，捕捉Agent產品迭代過程中的關鍵突破，進而預測下一個Agent應用的技術-市場契合點（TMF，Tech-Market Fit）。作為獨立第三方，我們致力于為每類產品設計公允的評估環境，提供客觀且可復現的評價結果。

? 首期發布包含兩個核心評估集：科學問題解答測評集（xbench-ScienceQA）與中文互聯網深度搜索測評集（xbench-DeepSearch），并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論，并構建了面向招聘（Recruitment）和營銷（Marketing）領域的垂類Agent評測框架。評測結果和方法論可通過xbench.org網站實時查看。

? 在過去兩年多的時間里，xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具，今天我們將其公開并貢獻給整個AI社區。無論你是基礎模型和Agent的開發者，還是相關領域的專家和企業，或者是對AI評測具有濃厚興趣的研究者，我們都歡迎你加入，成為使用并完善xbench的一份子，一起打造評估AI能力的新范式。

xbench Dual-track Leaderboard 2025.05

為什么現在需要新的Eval系統

2022年ChatGPT推出后，紅杉中國開始對AGI進程和主流模型實行每個月的評測與內部匯報。

2023年3月，我們開始建設xbench的第一批私有題庫，題目類型主要針對Chatbot簡單問答及邏輯思考，如：

· “香蕉的平方根是多少？”

· “小明立志成為最成功的投資人，經過一番努力，最終他成功了。請問用什么諺語描述這個情況比較適合？”

我們見證了主流模型從20-30分，在18個月內，提升到90-100分。2024年10月，我們第二次比較大規模地更新了xbench題庫，換掉了所有模型都得滿分的題，新題主要針對Chatbot復雜問答及推理，以及簡單的模型外部工具調用能力（tool use），如：

· “設f(x)是一個奇函數，而g(x)是一個偶函數。那么，f(f(g(f(g(f(x))))))是奇函數、偶函數還是都不是？”

· “Q：將/nt目錄下所有符合‘result_*.txt’格式的文件，按*數字從小到大的順序，合并到一個文件中。并且命名為‘results_total.txt’。”

我們再次見證了主流模型的進步，這一次的速度更快，主流模型在6個月內“刷爆”了我們的第二期題庫。

評估的有效時間在急劇縮短。圖源：姚順雨個人博客

2025年3月，我們開始第三次對xbench題庫進行升級，但這一次，我們開始停下來質疑現有評估方式，思考兩個核心問題：

1/ 模型能力和AI實際效用之間的關系：我們出越來越難的題目意義是什么，是否落入了慣性思維？AI落地的實際經濟價值真的和AI會做難題正相關嗎？舉個例子，程序員工作的utility value很高，但AI做起來進步非常快，而“去工地搬磚”這樣的工作AI卻幾乎無法完成。

2/ 不同時間維度上的能力比較：每一次xbench換題，我們便失去了對AI能力的前后可比性追蹤，因為在新的題集下，模型版本也在迭代，我們無法比較不同時間維度上的單個模型的能力如何變化。在判斷創業項目的時候，我們喜歡看創業者的“成長斜率”，但在評估AI能力這件事上，我們卻因為題庫的不斷更新而無法有效判斷。

接下來我們應該怎么做評估？

為了應對上述兩個核心問題，我們迫切需要構建新的評估平臺，并重點面向：

■ 打破慣性思維，為現實世界的實用性開發新穎的任務設置和評估方式

以“Search”能力為例，AI能力評估集的進化路徑可能是：

Single-turn QA→Search→Deep Search（Multi-step reasoning）→Deeper Search（Multi-hop or Chained Reasoning）

如果我們跳脫出“研究視角”慣性，轉向“市場與業務視角”，任務和環境的多樣性會爆炸式增長，Search類的題就會變成：

→Marketing→KOL Search→“一家智能投影儀品牌計劃在中東市場進行內容投放，目標人群為35歲以下、有獨立居住空間的科技早期用戶，主要通過生活方式類博主觸達。AI Agent需完成：①在中英文多平臺上識別優質創作者，判斷其內容調性是否貼近‘居家娛樂+智能家居’；②預測不同地區（如迪拜與利雅得）的CTR差異；③輔助完成組合推薦。”→$6,000（人工完成該任務需3名中東本地營銷人員，約耗時1周，總成本約$6,000（$2,000/人/周））

→Recruiting→People Search→“一家頭部VC支持的多模態大模型初創公司，正在尋找一位‘具備高質量開源項目經驗、熟悉transformer架構、曾在FAIR或DeepMind實習/合作過’的AI工程負責人。目標候選人不一定在招聘平臺上活躍，大部分信息分布在GitHub、arXiv、X（原Twitter）、海外社區論壇中。AI Agent需完成：①跨平臺搜索與聚合；②候選人背景重建（教育、項目、實習）；③對技術契合度自動評分；④生成Cold outreach策略郵件草稿。”→￥9,000（人工完成該任務，通常需1名高級獵頭+1名技術研究員，耗時約1周，人力總成本約￥9,000）

下半場的評估，不僅需要越來越難的AI Search能力的考察基準（AI Capabilities Evals），也需要一套對齊現實世界專家的實用性任務體系（Utility Tasks）。前者考察的是能力邊界，呈現是Score，而后者考察的是實用性任務和環境多樣性、商業KPIs（conversion rate、closing rate）和直接的經濟產出。

我們引入Profession Aligned的基準概念，我們認為接下來的評估會分為AGI tracking與Profession Aligned，AI將面臨更多復雜環境下效用的考察，從業務中收集的動態題集，而不單是更難的智力題。

■ 建立長青評估體系

靜態評估集一旦面世，會出現題目泄露導致過擬合然后迅速失效的問題。我們將維護一個動態更新的題目擴充評估集來緩解這一現象。

針對AI Capacity Evals：學術界提出了很多出色的方法論，但是受限于資源與時間不充分，無法維護成動態擴充的持續評估。我們希望能延續一系列公開評估集的方法，并提供第三方、黑白盒、Live的評測。

針對Profession Aligned Evals：我們希望建立從真實業務中Live收集機制，邀請各行業的職業專家與我們共同構建和維護行業的動態評估集。

同時，在動態更新的基礎上，我們設計可橫向對比的能力指標，用于在時間上觀察到排名之外發展速度與關鍵突破的信號，幫助我們判斷某個模型是否達到市場可落地閾值，以及在什么時間點上，Agent可以接管已有的業務流程，提供規模化服務。

面向真實世界的動態評估Live Evaluations for Agents

Agent評測的雙軌路徑

我們推出xbench雙軌系列評估集，分為xbench-AGI Tracking與xbench-Profession Aligned。我們將AGI Tracking評測視為Agent應用落地的基礎臺階，而Profession Centric評測則是對接真實生產場景的高階實踐。

AGI track評測旨在驗證模型在特定能力維度上是否從0到1具備了智能表現，這類評測的關鍵是要足夠難和巧妙、足夠有區分度，來挖掘“智能”而非“系統”的邊界。只有當某個AI關鍵能力在AGI Tracking中實現從0到1的突破，才可能進一步解鎖更多專業工作流程，進入Profession Aligned評測的范疇。

Profession Aligned評測則聚焦于現實生產場景，是把Agent當成一個數字員工放在具體業務流程里來進行考察。其評估核心并非智能存在與否，而是在真實場景下的交付結果和商業價值。Profession Aligned可以有很多類型應用來解決，評估不會限定解決方案，只會考核結果。另外，Profession Aligned評估從對生產力的需求出發，是定義垂類應用/尋找垂類AI解決方案，即使這個場景應用還沒有做出來。

以營銷和人力資源場景為例，我們通過對xbench AGI track中xbench-DeepSearch評測指標追蹤，認為AI search這一關鍵模型能力正在快速成熟，尋找簡歷、分析候選人匹配度，在各大平臺上尋找KOL、分析KOL與需求的匹配度，都是潛在AI能實現的工作流。于是我們開始構建xbench-Profession-Recruitment及xbench-Profession-Marketing希望對齊Agent業務落地價值，預測TMF的時間點。

在AI Search之外，隨著AI關鍵能力可預見的拓展至多模態理解和生成，營銷素材的生產和投放會被納入可能達到TMF的環節-進入Profession Aligned評估的測試范圍內。同樣，應用于recruiting時，senior recruiter的工作流不局限于people search、people evaluation，更難的在于對候選人長期維護和溝通甚至是薪酬談判和達成交易環節——這里AI具備長期記憶、競爭和決策博弈等核心職能，也是下一個階段關鍵智能的突破方向，我們會持續監測關鍵能力突破并增加Profession-Aligned測評的豐富度。

以AI關鍵能力為中心的評估（AGI Tracking）

2023-2024年大模型在知識、多模態、記憶、指令遵循與推理能力上取得顯著突破，這些突破的積累造成了Agent應用能力的爆發——但仍然在長期記憶、可信度、問題發現、多智能體協作與博弈能力等上存在短板。我們希望抓住AI尚未充分解決的核心能力，構建并持續維護對應的評估集。

我們相信針對這些關鍵能力，學術界提出了很多出色的方法論，但是受限于資源與時間不充分，無法維護成持續評測、動態擴充的評估。我們希望能延續一系列公開評估集的方法，并提供第三方、黑白盒、Live的評測。

我們把Agent能力拆分成基礎智能、專業實踐能力、創新能力與組織能力，每個層級中我們會拆分出構成實現AGI的關鍵要素。AI的發展不一定是從基礎到高階的順序進行，我們可以預見的是，在AI獲取了組織能力后依然存在基礎可信度的問題。

這一次我們發布的xbench-ScienceQA與xbench-DeepSearch評估屬于Knowledge與Tool Use的子類別，測試Agent在這兩項主能力分類下的子任務能力。后續我們會圍繞這些關鍵問題持續發布新的評估，并追蹤市面產品的表現。

■ xbench-ScienceQA: 考察基礎智能-知識

該評測集用于測試研究生水平的學科知識和推理能力。我們收集可靠、多領域、高等教育難度、搜索引擎上缺少的、答案明確的高質量題目數據。已有的相關評估集如GPQA、SuperGPQA等獲得了很大認可與關注，但他們均為一次性發布，缺少定期更新的機制。無法有效檢查評估集泄露的程度。

我們希望建設出一個按照季度更新的ScienceQA題目數據，并每月持續匯報最新模型的能力表現，每季度更新一次。我們邀請來自頂級院校的博士研究生以及資深行業專家出題，并采用LLM難度檢驗、搜索引擎檢驗、同行檢驗等方式確保題目的公正性、區分度與正確性。

■ xbench-DeepSearch ：考察專業生產力-工具使用

自主規劃（Planning）→信息收集（Search）→推理分析（Reasoning）→總結歸納（Summarization）的深度搜索能力是AI Agents通向AGI的核心能力之一，也給評估帶來了更難的挑戰。基于簡單事實的評估集如SimpleQA、Chinese SimpleQA能夠評估信息收集能力，但缺乏對自主規劃和推理分析能力的考察；基于前沿科學的評估集如HLE、AIME擅長考察模型的推理分析能力，但弱于自主規劃和信息收集能力的度量。為了更好的考察Agents的深度搜索能力，我們推出并開源了xbench-DeepSearch評測集，具備以下特點：

? 適應中文互聯網環境，降低搜索信息源對結果的影響；

? 難度高，要求Agent具備規劃+搜索+推理+總結的端到端綜合能力；

? 所有題目經由人工出題并交叉驗證，保證題目的新穎性，答案的正確性和唯一性，方便自動化評測；

? 持續更新，每月持續匯報最新模型的能力表現，每季度更新一次評估集。

我們認為2025年我們會見證AI更多在基礎智能與專業生產力上的進展，今年我們的后續評估中會關注：

1. 具有思維鏈的多模態模型能否生成商用水平視頻？（多模態，推理，工具使用）

2. MCP工具大面積使用是否具有可信度問題？（工具使用，可信度）

3. GUI Agents能否有效使用動態更新/未訓練的應用？（工具使用，測試時學習）

以專業工作為中心的評估（Profession Aligned）

追求與真實世界任務對齊是目前AI評估的核心訴求，這里我們提出以專業工作為中心的構建方法。

已有的真實世界評估通常是以AI能力為中心，去廣泛地覆蓋不同場景與領域，這對于指導通用模型的迭代非常有價值。然而Agent應用通常需要解決垂類場景任務，并針對垂類需求進行定制設計，此時通用評估結果的參考價值下降。

我們看到在Coding、客服與醫療領域出現高質量的評估，并帶動了對應專業Agent能力的快速演進與產品化。專業中心的評估會快速在更多領域延展開，其占主流AI評估的比重也會快速提升。

面向專業工作的評估是希望從特定職業專家出發，分析它自身的工作流與思維模式，構建出與專家行為對齊的任務、執行環境與驗證方式，流程如下圖所示：

xbench Profession Aligned的構建遵循如下三條核心原則：

? 評估由需求定義：針對一個職業構建評估集，優先梳理其業務流程與任務分類，聚焦于可評估的任務項。對于部分暫不可評估的任務，通過模擬方式轉化為可評估形式。

? 評估任務隨時間逐漸產生的從專家業務中Live收集：任務并非“出題”生成，而是在專家日常業務中逐步積累與收集。對于動態變化的任務，我們持續從真實業務流中獲取與市場最貼近的評估內容。

? 領域價值驅動評估目標：每項任務標注專家完成所需時間，并結合薪資基準估算任務的經濟價值。每個任務預設TMF目標，一旦Agent達標則停止更新，Profession-Aligned的評估難度追求實際匹配，而不是持續變難。

這里我們以招聘專家為例，設計xbench-Profession-Recruitment。

我們通過與多家頭部獵頭企業合作，梳理專家每周工作在不同任務上的時間分配。并讓專家對這些任務的重要性進行評估，篩選出領域工作的拆分圖譜。

下面是一個結構化的工作任務拆解和經濟價值的對齊，以及對任務在現階段可實現性和可評測性的梳理：

在每個單項任務中，我們從現有技術角度分析其可測性與可行性。第一期xbench-Profession-Recruitment收錄了JD需求拆解、人才畫像定位、候選人經歷補全、人物關系理解、公開人才搜索等幾類任務。

我們與專業獵頭公司，以及具有充分歷史業務數據積累的營銷企業分別共建了xbench-Profession-Recruitment與xbench-Profession-Marketing這兩個評估任務。

我們會以實際生產力需求為出發點，通過上述方法論，聯合行業專家拆解專業工作流程形成任務，定義客觀、可復現的評價指標，逐個構建Profession Aligned的評估集，先于垂類應用定義出能力目標，用eval指導profession agent的落地。預計將陸續拓展至金融（Finance）、法律（Law）、銷售（Sales）等高價值專業領域的評估任務體系構建。我們歡迎來自相關領域的專家學者、產業企業、研究機構參與共建，共同推進Profession-Aligned Eval的發展。

長青評估（Evergreen Eval）

評估有生命周期的任務與產品

靜態評估集會出現題目泄露的問題。如LiveBench與LiveCodeBench評估的出現，利用動態更新的題目擴充評估集，緩解了題目泄露的問題，然而，在Agent應用的評估任務中仍有新挑戰。

首先，Agent應用的產品版本是具有生命周期的。Agent產品的迭代速度很快，會不斷集成與開發新功能，而舊版本Agent可能會被下線。我們雖然可以在同一時間測試同類Agent不同產品的能力，但是不能比較不同時間的產品能力進步。

同時，Agent接觸的外部環境也是動態變化的。即使是相同的題目，如果解題需要使用互聯網應用等內容快速更新的工具，在不同時間測試效果不同。

上述表格展示了針對Agent的Live評測可獲取的結果。利用該結果可以得到同期不同產品的排名，但是由于評估環境與任務的調整，不同期評測之間的能力增長是沒有捕捉到的。因此我們希望解決如下問題：

評估集與模型不斷迭代情況下，設計指標追蹤Agent能力的持續增長。

統計上，我們可以針對殘缺得分矩陣估計每個Agent版本的能力主成分。我們采用項目反應理論（Item Response Theory, IRT）完成對Agent Capability的估計。IRT理論把被測對象能力θ，題目難度Ь以及題目區分度α按照如下模型建模，被測對象在測試題目上的得分為：

這個公式滿足題目得分概率是[0,1]之間的取值，更大的難度系數Ь會降低得分概率，而強的能力系數θ則會提升得分概率。對于區分度α更大的題目，通常伴隨能力θ增長更加平緩，意味題目能區分更廣泛能力的評測對象。

我們使用OpenCompass動態更新的評估結果來驗證IRT方法（https://rank.opencompass.org.cn/leaderboard-llm/?m=25-01）。該榜單從2024年2月開始，每隔1-3個月更新一次題庫并發布評估結果，下面左圖展示了不同模型在評估時間評測的得分，相同系列模型被同一顏色的線進行連接。雖然榜單結果很好顯示了每次評估時模型能力排序，但因為題目更新，不同時間模型得分時不具有可對比性。

而利用IRT估計的能力得分，則可以很好地體現模型能力持續增長的趨勢。我們可以觀察到2024年10月之后Google Gemini模型能力的快速跟進，以及Deepseek v2與r1發布所帶來的兩次明顯提升。

在后續的Agent評估中，我們會持續匯報Agent評估集不同產品的IRT能力得分，用于在時間上觀察到排名之外發展速度與關鍵突破的信號。

評估Agent的技術市場匹配（Tech-Market Fit）

成本也是Agent應用落地的決定性因素之一。

Inference Scaling讓模型與Agent可以通過投入更多推理算力來取得更好的效果。這種投入既可以來自于強化學習帶來的更長思維鏈，也可以是在思維鏈的基礎上引入更多次數的推理與匯總進一步提升效果。

然而我們在現實任務中需要考慮Inference Scaling帶來的投入產出比，找到在花費、延遲與效果上的平衡。類似于ARC-AGI，我們會追求為每個評估集匯報在效果-成本圖上的需求曲線、人類能力曲線以及現有產品的最優供給曲線。

在Benchmark的得分-成本圖上，我們可以劃分出左上區域的市場接受區與右下的技術可行區。人力成本應當是市場接受區邊緣的一部分。左圖展示了技術尚未落地的狀態，而中間圖展示了TMF后的狀態，而其中交叉部分是AI帶來的增量價值。對于具有TMF的AI場景，人力資源應當更多投入在領域的前沿以及不可評估的任務，并且市場會因為人力資源與AI算力的稀缺性不同重新給人類貢獻的價值定價。

我們認為每個專業領域會經歷3個階段：

1. 未達成TMF：技術可信與市場接受區域沒有交集，此時Agent應用僅是工具或概念，無法交付結果或規模化產生價值；Agent對人的影響較小。

2. Agent與Human共同工作：技術可信與市場接受區域發生交集，交叉區域是AI帶來的價值增量，包括（1）以低于最低人類成本提供可行服務，（2）幫助提升應對重復性、質量要求中等的工作內容。而高水準的工作內容，由于數據稀缺、難度更高、依然需要人來執行，此時由于稀缺性，企業獲取的AI Profit可能會被用于支付高端工作產出。

3. 專業化Agent：領域專家在構建評估體系，并指引Agent迭代。專家的工作從交付結果轉向構建專業評估訓練垂類Agents，并提供規模化服務。

其中從1.向2.的轉變是由AI技術突破、算力與數據的Scaling帶來的，而2.轉向3.的進展依賴于熟悉垂類需求、標準、歷史經驗的專家。

此外，在部分領域中，AI可能帶來新的滿足需求的方式，改變已有的業務流程和生產關系組成方式。

AI可能會帶來價值轉移、改變人力需求的結構，我們相信社會會因為更高效的生產效率與商業模式增加人類的總體福利。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.