(來源:MIT Technology Review)
成為硅谷最受青睞的標桿之一并不容易。
SWE-Bench 于 2024 年 11 月推出,旨在評估 AI 模型的編程能力。該基準測試采用了從 12 個不同 Python 項目的 GitHub 公開倉庫中提取的 2000 多個真實編程問題作為評測依據。
短短數月,SWE-Bench 迅速成為 AI 領域最熱門的測試基準之一。如今,OpenAI、Anthropic 和谷歌等巨頭發布大模型時,SWE-Bench 評分已成為標配指標。
而在基礎模型之外,各家 AI 公司的微調團隊更是展開激烈角逐,爭相沖擊排行榜榜首。目前領跑榜單的是 Anthropic 旗下 Claude Sonnet 模型的三個不同微調版本與亞馬遜 Q 智能體的混戰局面。其中基于 Claude 改進的 Auto Code Rover 在去年 11 月斬獲亞軍,僅三個月后便被收購。
盡管熱潮洶涌,但這并不能真實反映哪個模型更優秀。隨著該基準測試的影響力不斷擴大,“你會發現人們開始不惜代價爭奪榜首”,普林斯頓大學 SWE-Bench 開發團隊成員 John Yang 表示。這種競爭導致參賽者開始鉆營系統漏洞——促使越來越多人思考:是否該建立更科學的 AI 能力評估體系?
這些編程智能體的開發者未必存在赤裸裸的作弊行為,但他們設計的解決方案往往過度擬合了基準測試的特性。最初的 SWE-Bench 測試集僅包含 Python 語言編寫的程序,這意味著開發者只需讓模型專門訓練 Python 代碼就能獲得優勢。Yang 很快發現,那些高分模型在面對其他編程語言測試時完全失靈——這種應試策略被他形容為“鍍金式”的取巧。
“乍看之下光鮮亮麗,但換種編程語言測試就會原形畢露,”他指出,“這本質上不是在開發軟件工程智能體,而是在打造 SWE-Bench 專用工具——后者的意義要小得多。”
SWE-Bench 暴露的問題折射出 AI 評估領域一個普遍且復雜的困境:行業用于指導開發的基準測試,與實際能力評估的偏差正越來越大,其根本價值由此遭到質疑。更糟糕的是,FrontierMath 和 Chatbot Arena 等多個知名基準近期因透明度不足引發爭議。盡管如此,基準測試仍在模型開發中占據核心地位——即便很少有專家會全盤采信其結果。OpenAI 聯合創始人 Andrej Karpathy 近期將這種局面稱為“評估危機”:行業既缺乏可信的能力測量方法,也看不到改進的明確路徑。
斯坦福大學以人為本人工智能研究所(HAI)研究主任 Vanessa Parli 指出:“基準測試歷來是評估 AI 系統的主要方式。但這是否仍是我們未來想要的方式?如果不是,又該采用什么方法?”
越來越多的學者和 AI 研究人員主張,答案在于“縮小評估范圍”——放棄宏大目標,轉而采用社會科學的研究方法。具體而言,他們希望更注重測試的“效度”(validity),即定量社會科學中衡量問卷能否準確評估目標指標的標準,更根本的是確認所測量的概念是否具有明確定義。這對評估“推理能力”或“科學知識”等模糊概念的基準測試將構成挑戰,也會沖擊那些追逐通用人工智能(AGI)熱潮的開發者——但能讓行業在證明單個模型價值時,擁有更堅實的理論基礎。
密歇根大學教授 Abigail Jacobs 是這場“效度運動”的核心人物,她表示:“認真對待效度意味著要求學術界、工業界等各方證明其系統確實具備所宣稱的能力。如果 AI 界回避這種驗證要求,恰恰暴露了這個領域的弱點。”
傳統測試的局限性
如果說 AI 公司對基準測試日益顯露的缺陷反應遲緩,部分原因在于這種評分機制曾長期行之有效。
當代 AI 最早的里程碑之一——ImageNet 挑戰賽,堪稱現代基準測試的雛形。2010 年發布的這個開放研究項目,包含 300 多萬張待分類圖片,要求 AI 系統將其歸入 1000 個不同類別。
關鍵在于,該測試完全兼容任何方法體系,任何成功算法無論運作原理如何都能快速獲得認可。當名為 AlexNet 的算法在 2012 年突破性地采用當時非主流的 GPU 訓練方法勝出時,這一成果直接奠定了現代 AI 的基礎。此前幾乎無人預料到,AlexNet 采用的卷積神經網絡會成為解鎖圖像識別的密鑰——但一旦其高分成績得到驗證,質疑聲便煙消云散。(AlexNet 開發者之一 Ilya Sutskever 后來成為 OpenAI 聯合創始人)
ImageNet 之所以成效卓著,很大程度上在于其物體分類挑戰與真實圖像識別任務幾乎不存在實用差異。即便對方法存在爭議,但沒人會懷疑:在測試中表現最優的模型,實際部署時必然具備優勢。
但在此后的 12 年間,AI 研究者將這種“方法論中立”的思路套用到越來越通用的任務上。SWE-Bench 常被用作廣義編程能力的替代指標,而其他考試式基準測試則往往代表推理能力。這種寬泛的定位使得人們難以嚴謹界定特定基準測試的測量范疇——進而導致研究成果難以被負責任地運用。
癥結所在
斯坦福大學博士生 Anka Reuel 在研究基準測試問題時發現,評估危機正是盲目追求通用性導致的惡果。“我們已從專用模型轉向通用模型,”她指出,“評估對象不再局限于單一任務,而是涵蓋龐雜任務集合,難度自然陡增。”
與密歇根大學的 Jacobs 不謀而合,Reuel 認為“基準測試的核心缺陷在于效度問題,而非技術實現,這正是多數評估體系崩塌的根源。”以編程這種復雜任務為例,幾乎不可能將所有潛在場景納入測試集。因此,我們難以判斷模型得分提升是源于編程能力增強,還是對測試集的針對性優化。在開發者追逐破紀錄分數的壓力下,走捷徑的誘惑難以抗拒。
開發者寄望于通過多個專項基準的優異表現堆砌出通用能力。但智能體 AI 技術使得單一系統能整合復雜模型陣列,專項任務的進步是否帶來泛化能力提升變得難以評估。“可調節的參數實在太多了,”普林斯頓大學計算機科學家、AI 行業亂象批評者 Sayash Kapoor 坦言,“對于智能體,業界已基本放棄了評估的最佳實踐。”
在 2023 年 7 月的論文中,Kapoor 揭露了 AI 模型應對 WebArena 基準時的取巧行為。該基準由卡耐基梅隆大學 2024 年設計,包含 800 多項在模擬網站(如Reddit、維基百科等)上執行的任務。Kapoor 團隊發現奪冠模型 STeP 內置了 Reddit 網址結構的特定指令,使其能直接跳轉用戶主頁(WebArena 常見任務類型)。
這種優化雖不構成作弊,但 Kapoor 認為“嚴重誤導了人們對智能體首次接觸 WebArena 任務時真實表現的判斷”。然而由于該方法奏效,OpenAI 的網頁智能體 Operator 隨后采用了類似策略。(OpenAI 回應稱其評估設置旨在檢驗智能體在獲知網站結構后的任務解決能力,與 WebArena 使用慣例一致。STeP 未予置評。)
更嚴峻的是,Kapoor 團隊上月發表論文揭露熱門眾包評估系統 Chatbot Arena 存在嚴重漏洞:多個頂級基礎模型進行未公開的私有測試,并選擇性發布分數。
如今,連基準測試鼻祖 ImageNet 也陷入效度危機。華盛頓大學與谷歌研究院 2023 年研究發現,當 ImageNet 冠軍算法與 6 個真實數據集對抗時,架構改進“幾乎未帶來任何進步”,暗示該測試的外部效度已達極限。
回歸細分評估
對于堅信效度才是核心問題的人而言,最佳解決方案是讓基準測試重新聚焦具體任務。正如 Reuel 所言,AI 開發者“不得不依賴這些對終端用戶幾乎無意義的高層基準,因為測試設計者已無法預判下游任務需求”。那么,能否幫助終端用戶識別這種斷層?
2024 年 11 月,Reuel 發起了名為 BetterBench 的公共評級項目,從代碼公開性等數十項指標對基準測試進行打分。但效度始終是核心主題,特定標準要求設計者明確說明:測試何種能力?這些能力與測試任務如何關聯?
“必須建立能力結構分解圖,哪些是真正需要關注的技能?又如何將其轉化為可量化指標?”Reuel 強調。
評級結果出人意料:得分最高者之一是 2013 年問世的最古老測試 Arcade Learning Environment(ALE,用于評估模型玩 Atari 2600 游戲的能力);而評估通用語言能力的 Massive Multitask Language Understanding(MMLU)基準卻位列末位——BetterBench 認為其試題與底層技能的關聯定義過于模糊。
目前 BetterBench 尚未顯著影響具體基準的聲譽(MMLU 仍被廣泛使用,ALE 依舊邊緣化),但成功將效度問題推向了基準測試改革討論的中心。今年 4 月,Reuel 低調加入由 Hugging Face、愛丁堡大學和 EleutherAI 聯合成立的研究組,將與業內專家共同完善其關于效度與 AI 評估的理論。
Hugging Face 全球政策主管 Irene Solaiman 表示,該小組將致力于開發超越簡單能力測量的有效基準:“業界太渴望現成的優質基準了,現有評估往往貪多求全。”
這種理念正獲得越來越多認同。谷歌、微軟、Anthropic 等機構研究人員在 3 月的論文中提出新評估框架,將效度作為首要原則:“AI 評估科學必須摒棄'通用智能'的粗放斷言,轉向更專注具體任務且貼合現實需求的進步度量。”
明確測評指標
為推進這一轉變,部分研究者正轉向社會科學工具。2 月的一份立場文件提出評估生成式 AI 系統本質上是社會科學測量挑戰,重點闡釋如何將社會測量中的效度體系應用于 AI 基準測試。
這份由微軟研究院主導、斯坦福大學和密歇根大學學者參與的報告指出,社會科學家測量意識形態、民主程度和媒體偏見等爭議性概念的標準,同樣適用于 AI 領域“推理能力”、“數學熟練度”等概念的量化——避免陷入模糊的泛化論斷。
社會科學方法特別強調:測量指標必須始于對測試概念的嚴格定義。例如要測量社會民主程度,需先界定"民主社會"的定義,再設計與之相關的問題。
將此方法應用于 SWE-Bench 等基準測試時,設計者需摒棄傳統機器學習思路(即從 GitHub 收集編程問題并驗證答案對錯),轉而首先明確定義測量目標(如解決軟件標記問題的能力),將其分解為子技能,最后構建全面覆蓋這些子技能的測試題集。
這與 AI 研究者慣用的基準測試方法截然不同——但正如 2 月論文合著者 Jacobs 所言,這正是關鍵所在:“科技行業的現狀與社會科學工具之間存在脫節,而后者擁有數十年測量人類復雜特質的經驗。”
盡管該理念在學術界影響深遠,卻尚未顯著改變 AI 公司使用基準測試的方式。
過去兩個月,OpenAI、Anthropic、谷歌和 Meta 發布的新模型仍重度依賴 MMLU 等選擇題知識測試——這正是效度研究者試圖超越的方法。畢竟模型發布的核心目標仍是展現通用智能提升,而寬泛的基準測試依然是支撐這類聲明的工具。
沃頓商學院教授 Ethan Mollick 等觀察家認為:“基準測試雖不完美,卻是現有最佳選擇。”他補充道:“與此同時模型確實在進步,快速進展掩蓋了許多缺陷。”
目前,行業對通用人工智能的長期追求,似乎正擠壓著基于效度的細分評估空間。只要 AI 模型的通用能力持續增長,具體應用場景的精準評估就顯得不那么緊迫——即便這意味著從業者不得不繼續使用可信度存疑的工具。
Hugging Face 的 Solaiman 坦言,“徹底推翻現有體系并不現實,盡管存在局限,評估工具對理解模型仍有重要價值。”
https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmark/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.