機器之心報道
編輯:笑寒
都在研究考生,考卷出問題了。
基準測試在評估人工智能系統的優勢與局限性方面具有基礎性作用,是引導科研與產業發展的關鍵工具。
隨著 AI 智能體從研究原型逐步走向關鍵任務的實際應用,研究人員和從業者開始構建用于評估 AI 智能體能力與局限性的基準測試。
這和常規模型的評估方式產生了很大不同。由于智能體的任務通常需要一個真實場景,并且任務缺乏標準答案,針對 AI 智能體的基準測試在任務設計和評估方式上要遠比傳統 AI 基準測試要復雜。
顯然,現有的智能體基準測試并沒有達到一個可靠的狀態
舉幾個例子:
- 在被 OpenAI 等機構用于評估 AI 智能體網頁交互能力的基準測試 WebArena 中,在某個路徑時長計算任務中,AI 智能體給出的答案是「45 + 8 分鐘」,而正確答案應為「63 分鐘」,WebArena 竟將其判定為正確答案。
- τ-bench 是一個評估 AI 智能體在真實世界環境中可靠性的基準測試。而其將一個「無操作」的智能體在航班任務中判有 38% 正確率。盡管該智能體對機票政策毫無理解,結果卻錯誤地評估了其能力。
近期加入英偉達擔任首席研究科學家的 Banghua Zhu 發推評論這一現象,認為一個什么都不做的智能體就可以取得高達 38% 分數的現象「非常有趣」。
此外,在目前常用的 10 個 AI 智能體基準測試中(如 SWE-bench、OSWorld、KernelBench 等),研究在其中 8 個基準中發現了嚴重的問題,有些情況下甚至會導致對 AI 智能體能力 100% 的誤判
這些數據傳達出一個明確的信息:
現有智能體基準測試存在大問題。若要準確理解 AI 智能體的真實能力,必須以更嚴謹的方式構建基準測試。
在一個來自伊利諾伊大學香檳分校、斯坦福大學、伯克利大學、耶魯大學、普林斯頓大學、麻省理工學院、Transluce、ML Commons、亞馬遜和英國 AISI 的研究者們共同完成的最新工作中, 研究人員系統性地剖析了當前 AI 智能體基準的常見失效模式,并提出了一套清單,用于最大限度降低基準測試被「投機取巧」的可能性,確保其真正衡量了智能體的能力。
- 論文標題:Establishing Best Practices for Building Rigorous Agentic Benchmarks
- 博客鏈接:https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken
- 論文鏈接:https://arxiv.org/abs/2507.02825
- 項目鏈接:https://uiuc-kang-lab.github.io/agentic-benchmarks/
- Github 鏈接:https://github.com/uiuc-kang-lab/agentic-benchmarks/
現有的 AI 智能體基準測試
問題出在哪?
在 AI 智能體的基準測試中,智能體通常需要端到端地完成復雜任務,例如修復大型代碼倉庫中的問題,或制定旅行計劃。
這一廣泛而現實的任務范圍帶來了兩項傳統 AI 基準測試中較少遇到的挑戰:
- 模擬環境脆弱:任務通常運行在模擬或容器化的網站、計算機或數據庫中。如果這些空間存在漏洞或版本過舊,AI 智能體可能會利用捷徑繞過任務要求,或因系統問題而根本無法完成任務。
- 缺乏明確的「標準答案」:任務的解答可能是代碼、API 調用,或是篇幅較長的計劃文本,難以適用統一的答案模板,評估標準主觀性強。
針對上述挑戰,本文提出了兩個對 AI 智能體基準測試尤為關鍵的有效性判據:
- 任務有效性:該任務是否僅在智能體具備特定能力時才可解?
- 結果有效性:評估結果是否真實反映了任務完成情況?
AI智能體評估的操作流程與概念機制中,任務有效性與結果有效性至關重要,它們共同保障了基準測試結果能真實反映智能體系統的能力水平。
本文研究:AI智能體基準測試檢查單
本文整理并發布了AI 智能體基準測試檢查清單(ABC),該清單包含43 項條目,基于來自主流 AI 機構使用的17 個AI 智能體基準測試提煉而成。
ABC 主要由三個部分組成:結果有效性檢查項任務有效性檢查項,以及在理想有效性難以實現的情況下用于補充說明的基準報告指南
完整、適合打印的檢查清單已公開發布,可參閱以下文檔。
- 文檔鏈接:https://uiuc-kang-lab.github.io/agentic-benchmarks/assets/checklist.pdf
運用 ABC 的研究發現
本文將 ABC 檢查清單應用于當前主流的十個 AI 智能體基準測試中,包括 SWE-bench Verified、WebArena、OSWorld 等。
將 ABC 運用在 10 個廣泛應用的智能體基準測試中的結果
在這 10 個基準中,發現:
- 7/10 含有可被 AI 智能體「投機取巧」的捷徑或根本無法完成的任務;
- 7/10 不符合結果有效性標準,即評估結果不能真實反映任務完成情況;
- 8/10 未公開其已知問題,缺乏透明度
以下是在當前用于評估前沿 AI 智能體系統(如 Claude Code 與 OpenAI Operator)的基準測試中識別出的問題:
SWE-bench 與 SWE-bench Verified 借助手動編寫的單元測試,用于驗證 AI 智能體生成的代碼補丁是否正確。然而,這些補丁可能仍然存在未被單元測試覆蓋的錯誤。
對這些基準測試中的單元測試進行擴充后,排行榜結果出現了明顯變化:SWE-bench Lite 中有 41% 的智能體排名發生變動,SWE-bench Verified 中則有 24% 的智能體受影響
IBM SWE-1.0 智能體生成了一個錯誤的解決方案,但該錯誤未被 SWE-bench 檢測出來,因為其單元測試未覆蓋代碼中的紅色分支路徑。
KernelBench 采用帶有隨機值的張量來評估 AI 智能體生成的 CUDA 核函數代碼的正確性。與 SWE-bench Verified 類似,這種基于隨機值張量的測試方法可能無法發現生成代碼中的某些錯誤,特別是涉及內存訪問或張量形狀的缺陷。
τ-bench 則通過子字符串匹配與數據庫狀態匹配來評估智能體的表現,這使得一個「無操作」智能體竟然能通過 38% 的任務。以下示例展示了其中一類任務,即使智能體什么都不做,也能通過評估
τ-bench 中一個示例任務
WebArena 采用嚴格的字符串匹配和一個較為原始的 LLM 評判器(LLM-judge)來評估智能體的行為與輸出是否正確,這導致在絕對指標上對智能體性能產生了 1.6% 至 5.2% 的誤判。
OSWorld 的智能體評估部分基于已過時的網站構建,因而在絕對指標上造成了 28% 的性能低估。在下列示例中,智能體所交互的網站已移除 search-date 這一 CSS 類,但評估器仍依賴過時的選擇器,最終將智能體本應正確的操作判定為錯誤。
OSWorld 的評估器仍在查找已過時的類名 search-date 和 search-segment-cities__city,從而導致智能體失敗。
SWE-Lancer 未能安全地存儲測試文件,這使得智能體可以覆蓋測試內容,從而「通過」全部測試。
ABC 的后續方向
本文構建了 ABC,旨在提供一個可操作的評估框架,以幫助:
- 基準測試開發者排查潛在問題,或展示其評估工作的嚴謹性;
- 智能體 / 模型開發者深入理解評估基準的本質,而非僅停留在報告「最先進性能數字」層面。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.