99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

什么都不做就能得分?智能體基準測試出現大問題

0
分享至



機器之心報道

編輯:笑寒

都在研究考生,考卷出問題了。

基準測試在評估人工智能系統的優勢與局限性方面具有基礎性作用,是引導科研與產業發展的關鍵工具。

隨著 AI 智能體從研究原型逐步走向關鍵任務的實際應用,研究人員和從業者開始構建用于評估 AI 智能體能力與局限性的基準測試。

這和常規模型的評估方式產生了很大不同。由于智能體的任務通常需要一個真實場景,并且任務缺乏標準答案,針對 AI 智能體的基準測試在任務設計和評估方式上要遠比傳統 AI 基準測試要復雜。

顯然,現有的智能體基準測試并沒有達到一個可靠的狀態

舉幾個例子:

  • 在被 OpenAI 等機構用于評估 AI 智能體網頁交互能力的基準測試 WebArena 中,在某個路徑時長計算任務中,AI 智能體給出的答案是「45 + 8 分鐘」,而正確答案應為「63 分鐘」,WebArena 竟將其判定為正確答案。
  • τ-bench 是一個評估 AI 智能體在真實世界環境中可靠性的基準測試。而其將一個「無操作」的智能體在航班任務中判有 38% 正確率。盡管該智能體對機票政策毫無理解,結果卻錯誤地評估了其能力。

近期加入英偉達擔任首席研究科學家的 Banghua Zhu 發推評論這一現象,認為一個什么都不做的智能體就可以取得高達 38% 分數的現象「非常有趣」。



此外,在目前常用的 10 個 AI 智能體基準測試中(如 SWE-bench、OSWorld、KernelBench 等),研究在其中 8 個基準中發現了嚴重的問題,有些情況下甚至會導致對 AI 智能體能力 100% 的誤判

這些數據傳達出一個明確的信息:

現有智能體基準測試存在大問題。若要準確理解 AI 智能體的真實能力,必須以更嚴謹的方式構建基準測試。

在一個來自伊利諾伊大學香檳分校、斯坦福大學、伯克利大學、耶魯大學、普林斯頓大學、麻省理工學院、Transluce、ML Commons、亞馬遜和英國 AISI 的研究者們共同完成的最新工作中, 研究人員系統性地剖析了當前 AI 智能體基準的常見失效模式,并提出了一套清單,用于最大限度降低基準測試被「投機取巧」的可能性,確保其真正衡量了智能體的能力。



  • 論文標題:Establishing Best Practices for Building Rigorous Agentic Benchmarks
  • 博客鏈接:https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken
  • 論文鏈接:https://arxiv.org/abs/2507.02825
  • 項目鏈接:https://uiuc-kang-lab.github.io/agentic-benchmarks/
  • Github 鏈接:https://github.com/uiuc-kang-lab/agentic-benchmarks/

現有的 AI 智能體基準測試

問題出在哪?

在 AI 智能體的基準測試中,智能體通常需要端到端地完成復雜任務,例如修復大型代碼倉庫中的問題,或制定旅行計劃。

這一廣泛而現實的任務范圍帶來了兩項傳統 AI 基準測試中較少遇到的挑戰:

  • 模擬環境脆弱:任務通常運行在模擬或容器化的網站、計算機或數據庫中。如果這些空間存在漏洞或版本過舊,AI 智能體可能會利用捷徑繞過任務要求,或因系統問題而根本無法完成任務。
  • 缺乏明確的「標準答案」:任務的解答可能是代碼、API 調用,或是篇幅較長的計劃文本,難以適用統一的答案模板,評估標準主觀性強。

針對上述挑戰,本文提出了兩個對 AI 智能體基準測試尤為關鍵的有效性判據:

  1. 任務有效性:該任務是否僅在智能體具備特定能力時才可解?
  2. 結果有效性:評估結果是否真實反映了任務完成情況?



AI智能體評估的操作流程與概念機制中,任務有效性與結果有效性至關重要,它們共同保障了基準測試結果能真實反映智能體系統的能力水平。

本文研究:AI智能體基準測試檢查單

本文整理并發布了AI 智能體基準測試檢查清單(ABC),該清單包含43 項條目,基于來自主流 AI 機構使用的17 個AI 智能體基準測試提煉而成。

ABC 主要由三個部分組成:結果有效性檢查項任務有效性檢查項,以及在理想有效性難以實現的情況下用于補充說明的基準報告指南

完整、適合打印的檢查清單已公開發布,可參閱以下文檔。



  • 文檔鏈接:https://uiuc-kang-lab.github.io/agentic-benchmarks/assets/checklist.pdf

運用 ABC 的研究發現

本文將 ABC 檢查清單應用于當前主流的十個 AI 智能體基準測試中,包括 SWE-bench Verified、WebArena、OSWorld 等。



將 ABC 運用在 10 個廣泛應用的智能體基準測試中的結果

在這 10 個基準中,發現:

  1. 7/10 含有可被 AI 智能體「投機取巧」的捷徑或根本無法完成的任務;
  2. 7/10 不符合結果有效性標準,即評估結果不能真實反映任務完成情況;
  3. 8/10 未公開其已知問題,缺乏透明度

以下是在當前用于評估前沿 AI 智能體系統(如 Claude Code 與 OpenAI Operator)的基準測試中識別出的問題:

SWE-bench 與 SWE-bench Verified 借助手動編寫的單元測試,用于驗證 AI 智能體生成的代碼補丁是否正確。然而,這些補丁可能仍然存在未被單元測試覆蓋的錯誤。

對這些基準測試中的單元測試進行擴充后,排行榜結果出現了明顯變化:SWE-bench Lite 中有 41% 的智能體排名發生變動,SWE-bench Verified 中則有 24% 的智能體受影響



IBM SWE-1.0 智能體生成了一個錯誤的解決方案,但該錯誤未被 SWE-bench 檢測出來,因為其單元測試未覆蓋代碼中的紅色分支路徑。

KernelBench 采用帶有隨機值的張量來評估 AI 智能體生成的 CUDA 核函數代碼的正確性。與 SWE-bench Verified 類似,這種基于隨機值張量的測試方法可能無法發現生成代碼中的某些錯誤,特別是涉及內存訪問或張量形狀的缺陷。

τ-bench 則通過子字符串匹配與數據庫狀態匹配來評估智能體的表現,這使得一個「無操作」智能體竟然能通過 38% 的任務。以下示例展示了其中一類任務,即使智能體什么都不做,也能通過評估



τ-bench 中一個示例任務

WebArena 采用嚴格的字符串匹配和一個較為原始的 LLM 評判器(LLM-judge)來評估智能體的行為與輸出是否正確,這導致在絕對指標上對智能體性能產生了 1.6% 至 5.2% 的誤判。

OSWorld 的智能體評估部分基于已過時的網站構建,因而在絕對指標上造成了 28% 的性能低估。在下列示例中,智能體所交互的網站已移除 search-date 這一 CSS 類,但評估器仍依賴過時的選擇器,最終將智能體本應正確的操作判定為錯誤。



OSWorld 的評估器仍在查找已過時的類名 search-date 和 search-segment-cities__city,從而導致智能體失敗。

SWE-Lancer 未能安全地存儲測試文件,這使得智能體可以覆蓋測試內容,從而「通過」全部測試。

ABC 的后續方向

本文構建了 ABC,旨在提供一個可操作的評估框架,以幫助:

  1. 基準測試開發者排查潛在問題,或展示其評估工作的嚴謹性;
  2. 智能體 / 模型開發者深入理解評估基準的本質,而非僅停留在報告「最先進性能數字」層面。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
引發巨大爭議,山姆APP下架好麗友派!會員商店如何守住差異化“生命線”

引發巨大爭議,山姆APP下架好麗友派!會員商店如何守住差異化“生命線”

紅星新聞
2025-07-15 19:13:13
湖南一電視臺記者采訪線纜公司時攝像機被砸 當地派出所:正在處理中

湖南一電視臺記者采訪線纜公司時攝像機被砸 當地派出所:正在處理中

紅星新聞
2025-07-15 15:43:33
7月15日俄烏最新:最嚴重的警告

7月15日俄烏最新:最嚴重的警告

西樓飲月
2025-07-15 18:38:58
不太理想!中國女籃首節領先韓國隊3分 全隊17投僅6中&三分6中1

不太理想!中國女籃首節領先韓國隊3分 全隊17投僅6中&三分6中1

直播吧
2025-07-15 20:08:08
4名正廳履新

4名正廳履新

魯中晨報
2025-07-15 15:49:04
90年代,宗慶后與杜建英唯一合影,宗慶后墓碑上刻有施幼珍的名字

90年代,宗慶后與杜建英唯一合影,宗慶后墓碑上刻有施幼珍的名字

行者聊官
2025-07-15 17:11:17
廣東惠州一工行高管實名舉報:銀行高管妻子出軌健身教練

廣東惠州一工行高管實名舉報:銀行高管妻子出軌健身教練

吃瓜體
2025-07-15 15:24:55
1200萬炮彈到位,俄即將總攻?美軍高層提議:為中國,放棄烏克蘭

1200萬炮彈到位,俄即將總攻?美軍高層提議:為中國,放棄烏克蘭

博覽歷史
2025-07-14 19:54:28
河南高溫進入最強時段,有居民家中玻璃都熱“炸”了!20日前高溫持續,路面溫度將超72℃,警惕爆胎風險

河南高溫進入最強時段,有居民家中玻璃都熱“炸”了!20日前高溫持續,路面溫度將超72℃,警惕爆胎風險

魯中晨報
2025-07-15 18:53:14
東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點歷史
2025-07-15 09:33:13
5000億的紫金礦業,徹底殺瘋了

5000億的紫金礦業,徹底殺瘋了

財經銳眼
2025-07-15 16:36:57
環衛工翻8噸垃圾找手表后續:女家長身份被扒,她很感動,不奇怪

環衛工翻8噸垃圾找手表后續:女家長身份被扒,她很感動,不奇怪

娜烏和西卡
2025-07-14 17:01:33
楊瀚森評分B-驟降,隊記差評給出2大理由:別再叫他中國約基奇

楊瀚森評分B-驟降,隊記差評給出2大理由:別再叫他中國約基奇

二哥聊球
2025-07-15 11:09:39
惠州工行大瓜!女經理出軌健身教練圖片流出,被行長丈夫實名舉報

惠州工行大瓜!女經理出軌健身教練圖片流出,被行長丈夫實名舉報

明月雜談
2025-07-15 18:25:46
哪有什么雷霆手段,不過是維護媽媽的體面,宗馥莉三招著實不簡單

哪有什么雷霆手段,不過是維護媽媽的體面,宗馥莉三招著實不簡單

寒士之言本尊
2025-07-15 14:04:03
敢公開讓兒女叫板,爭奪21億資產的杜小媽,到底什么來路?

敢公開讓兒女叫板,爭奪21億資產的杜小媽,到底什么來路?

子芫伴你成長
2025-07-14 21:57:44
深圳盧女士,完美演繹了什么叫精致的利己主義

深圳盧女士,完美演繹了什么叫精致的利己主義

近距離
2025-07-15 13:25:45
1180人因高溫死亡 其中大部分死者的年齡在65歲以上

1180人因高溫死亡 其中大部分死者的年齡在65歲以上

大象新聞
2025-07-15 12:10:10
著名女登山家克拉拉因滑墜身亡,年僅46歲,向導回憶最后時刻:她尖叫后從固定繩索上滾落;事發時與丈夫同行

著名女登山家克拉拉因滑墜身亡,年僅46歲,向導回憶最后時刻:她尖叫后從固定繩索上滾落;事發時與丈夫同行

極目新聞
2025-07-15 19:34:52
氣象局真的不敢預報40℃嗎?權威回應來了

氣象局真的不敢預報40℃嗎?權威回應來了

閃電新聞
2025-07-14 15:35:04
2025-07-15 21:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10868文章數 142377關注度
往期回顧 全部

科技要聞

英偉達H20解禁,黃仁勛嚇壞平替?

頭條要聞

特朗普被指曾問澤連斯基:烏用美武器能否打擊莫斯科

頭條要聞

特朗普被指曾問澤連斯基:烏用美武器能否打擊莫斯科

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態度原創

數碼
手機
旅游
房產
藝術

數碼要聞

GT 1030顯卡開啟FSR/XeSS補幀實測:幀率翻倍但仍難流暢玩3A新作

手機要聞

三款子系新機DECO升級:配置規格,也已清晰!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

抄底信號!海口跌幅,全國第二!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 罗江县| 双流县| 凤城市| 灵寿县| 家居| 万载县| 天气| 吉林市| 象山县| 东台市| 上饶县| 怀集县| 监利县| 霍山县| 满洲里市| 洛南县| 工布江达县| 中牟县| 天镇县| 远安县| 石狮市| 荃湾区| 平武县| 临洮县| 元氏县| 宿松县| 靖安县| 柳河县| 重庆市| 彭泽县| 宁南县| 桐庐县| 大渡口区| 镇平县| 金沙县| 吉林市| 晋江市| 枝江市| 胶州市| 始兴县| 和静县|