99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

如何建立更好的人工智能基準測試方法?

0
分享至


(來源:MIT Technology Review)

成為硅谷最受青睞的標桿之一并不容易。

SWE-Bench 于 2024 年 11 月推出,旨在評估 AI 模型的編程能力。該基準測試采用了從 12 個不同 Python 項目的 GitHub 公開倉庫中提取的 2000 多個真實編程問題作為評測依據。

短短數月,SWE-Bench 迅速成為 AI 領域最熱門的測試基準之一。如今,OpenAI、Anthropic 和谷歌等巨頭發布大模型時,SWE-Bench 評分已成為標配指標。

而在基礎模型之外,各家 AI 公司的微調團隊更是展開激烈角逐,爭相沖擊排行榜榜首。目前領跑榜單的是 Anthropic 旗下 Claude Sonnet 模型的三個不同微調版本與亞馬遜 Q 智能體的混戰局面。其中基于 Claude 改進的 Auto Code Rover 在去年 11 月斬獲亞軍,僅三個月后便被收購。

盡管熱潮洶涌,但這并不能真實反映哪個模型更優秀。隨著該基準測試的影響力不斷擴大,“你會發現人們開始不惜代價爭奪榜首”,普林斯頓大學 SWE-Bench 開發團隊成員 John Yang 表示。這種競爭導致參賽者開始鉆營系統漏洞——促使越來越多人思考:是否該建立更科學的 AI 能力評估體系?

這些編程智能體的開發者未必存在赤裸裸的作弊行為,但他們設計的解決方案往往過度擬合了基準測試的特性。最初的 SWE-Bench 測試集僅包含 Python 語言編寫的程序,這意味著開發者只需讓模型專門訓練 Python 代碼就能獲得優勢。Yang 很快發現,那些高分模型在面對其他編程語言測試時完全失靈——這種應試策略被他形容為“鍍金式”的取巧。

“乍看之下光鮮亮麗,但換種編程語言測試就會原形畢露,”他指出,“這本質上不是在開發軟件工程智能體,而是在打造 SWE-Bench 專用工具——后者的意義要小得多。”

SWE-Bench 暴露的問題折射出 AI 評估領域一個普遍且復雜的困境:行業用于指導開發的基準測試,與實際能力評估的偏差正越來越大,其根本價值由此遭到質疑。更糟糕的是,FrontierMath 和 Chatbot Arena 等多個知名基準近期因透明度不足引發爭議。盡管如此,基準測試仍在模型開發中占據核心地位——即便很少有專家會全盤采信其結果。OpenAI 聯合創始人 Andrej Karpathy 近期將這種局面稱為“評估危機”:行業既缺乏可信的能力測量方法,也看不到改進的明確路徑。

斯坦福大學以人為本人工智能研究所(HAI)研究主任 Vanessa Parli 指出:“基準測試歷來是評估 AI 系統的主要方式。但這是否仍是我們未來想要的方式?如果不是,又該采用什么方法?”

越來越多的學者和 AI 研究人員主張,答案在于“縮小評估范圍”——放棄宏大目標,轉而采用社會科學的研究方法。具體而言,他們希望更注重測試的“效度”(validity),即定量社會科學中衡量問卷能否準確評估目標指標的標準,更根本的是確認所測量的概念是否具有明確定義。這對評估“推理能力”或“科學知識”等模糊概念的基準測試將構成挑戰,也會沖擊那些追逐通用人工智能(AGI)熱潮的開發者——但能讓行業在證明單個模型價值時,擁有更堅實的理論基礎。

密歇根大學教授 Abigail Jacobs 是這場“效度運動”的核心人物,她表示:“認真對待效度意味著要求學術界、工業界等各方證明其系統確實具備所宣稱的能力。如果 AI 界回避這種驗證要求,恰恰暴露了這個領域的弱點。”



傳統測試的局限性

如果說 AI 公司對基準測試日益顯露的缺陷反應遲緩,部分原因在于這種評分機制曾長期行之有效。

當代 AI 最早的里程碑之一——ImageNet 挑戰賽,堪稱現代基準測試的雛形。2010 年發布的這個開放研究項目,包含 300 多萬張待分類圖片,要求 AI 系統將其歸入 1000 個不同類別。

關鍵在于,該測試完全兼容任何方法體系,任何成功算法無論運作原理如何都能快速獲得認可。當名為 AlexNet 的算法在 2012 年突破性地采用當時非主流的 GPU 訓練方法勝出時,這一成果直接奠定了現代 AI 的基礎。此前幾乎無人預料到,AlexNet 采用的卷積神經網絡會成為解鎖圖像識別的密鑰——但一旦其高分成績得到驗證,質疑聲便煙消云散。(AlexNet 開發者之一 Ilya Sutskever 后來成為 OpenAI 聯合創始人)

ImageNet 之所以成效卓著,很大程度上在于其物體分類挑戰與真實圖像識別任務幾乎不存在實用差異。即便對方法存在爭議,但沒人會懷疑:在測試中表現最優的模型,實際部署時必然具備優勢。

但在此后的 12 年間,AI 研究者將這種“方法論中立”的思路套用到越來越通用的任務上。SWE-Bench 常被用作廣義編程能力的替代指標,而其他考試式基準測試則往往代表推理能力。這種寬泛的定位使得人們難以嚴謹界定特定基準測試的測量范疇——進而導致研究成果難以被負責任地運用。



癥結所在

斯坦福大學博士生 Anka Reuel 在研究基準測試問題時發現,評估危機正是盲目追求通用性導致的惡果。“我們已從專用模型轉向通用模型,”她指出,“評估對象不再局限于單一任務,而是涵蓋龐雜任務集合,難度自然陡增。”

與密歇根大學的 Jacobs 不謀而合,Reuel 認為“基準測試的核心缺陷在于效度問題,而非技術實現,這正是多數評估體系崩塌的根源。”以編程這種復雜任務為例,幾乎不可能將所有潛在場景納入測試集。因此,我們難以判斷模型得分提升是源于編程能力增強,還是對測試集的針對性優化。在開發者追逐破紀錄分數的壓力下,走捷徑的誘惑難以抗拒。

開發者寄望于通過多個專項基準的優異表現堆砌出通用能力。但智能體 AI 技術使得單一系統能整合復雜模型陣列,專項任務的進步是否帶來泛化能力提升變得難以評估。“可調節的參數實在太多了,”普林斯頓大學計算機科學家、AI 行業亂象批評者 Sayash Kapoor 坦言,“對于智能體,業界已基本放棄了評估的最佳實踐。”

在 2023 年 7 月的論文中,Kapoor 揭露了 AI 模型應對 WebArena 基準時的取巧行為。該基準由卡耐基梅隆大學 2024 年設計,包含 800 多項在模擬網站(如Reddit、維基百科等)上執行的任務。Kapoor 團隊發現奪冠模型 STeP 內置了 Reddit 網址結構的特定指令,使其能直接跳轉用戶主頁(WebArena 常見任務類型)。

這種優化雖不構成作弊,但 Kapoor 認為“嚴重誤導了人們對智能體首次接觸 WebArena 任務時真實表現的判斷”。然而由于該方法奏效,OpenAI 的網頁智能體 Operator 隨后采用了類似策略。(OpenAI 回應稱其評估設置旨在檢驗智能體在獲知網站結構后的任務解決能力,與 WebArena 使用慣例一致。STeP 未予置評。)

更嚴峻的是,Kapoor 團隊上月發表論文揭露熱門眾包評估系統 Chatbot Arena 存在嚴重漏洞:多個頂級基礎模型進行未公開的私有測試,并選擇性發布分數。

如今,連基準測試鼻祖 ImageNet 也陷入效度危機。華盛頓大學與谷歌研究院 2023 年研究發現,當 ImageNet 冠軍算法與 6 個真實數據集對抗時,架構改進“幾乎未帶來任何進步”,暗示該測試的外部效度已達極限。



回歸細分評估

對于堅信效度才是核心問題的人而言,最佳解決方案是讓基準測試重新聚焦具體任務。正如 Reuel 所言,AI 開發者“不得不依賴這些對終端用戶幾乎無意義的高層基準,因為測試設計者已無法預判下游任務需求”。那么,能否幫助終端用戶識別這種斷層?

2024 年 11 月,Reuel 發起了名為 BetterBench 的公共評級項目,從代碼公開性等數十項指標對基準測試進行打分。但效度始終是核心主題,特定標準要求設計者明確說明:測試何種能力?這些能力與測試任務如何關聯?

“必須建立能力結構分解圖,哪些是真正需要關注的技能?又如何將其轉化為可量化指標?”Reuel 強調。

評級結果出人意料:得分最高者之一是 2013 年問世的最古老測試 Arcade Learning Environment(ALE,用于評估模型玩 Atari 2600 游戲的能力);而評估通用語言能力的 Massive Multitask Language Understanding(MMLU)基準卻位列末位——BetterBench 認為其試題與底層技能的關聯定義過于模糊。

目前 BetterBench 尚未顯著影響具體基準的聲譽(MMLU 仍被廣泛使用,ALE 依舊邊緣化),但成功將效度問題推向了基準測試改革討論的中心。今年 4 月,Reuel 低調加入由 Hugging Face、愛丁堡大學和 EleutherAI 聯合成立的研究組,將與業內專家共同完善其關于效度與 AI 評估的理論。

Hugging Face 全球政策主管 Irene Solaiman 表示,該小組將致力于開發超越簡單能力測量的有效基準:“業界太渴望現成的優質基準了,現有評估往往貪多求全。”

這種理念正獲得越來越多認同。谷歌、微軟、Anthropic 等機構研究人員在 3 月的論文中提出新評估框架,將效度作為首要原則:“AI 評估科學必須摒棄'通用智能'的粗放斷言,轉向更專注具體任務且貼合現實需求的進步度量。”



明確測評指標

為推進這一轉變,部分研究者正轉向社會科學工具。2 月的一份立場文件提出評估生成式 AI 系統本質上是社會科學測量挑戰,重點闡釋如何將社會測量中的效度體系應用于 AI 基準測試。

這份由微軟研究院主導、斯坦福大學和密歇根大學學者參與的報告指出,社會科學家測量意識形態、民主程度和媒體偏見等爭議性概念的標準,同樣適用于 AI 領域“推理能力”、“數學熟練度”等概念的量化——避免陷入模糊的泛化論斷。

社會科學方法特別強調:測量指標必須始于對測試概念的嚴格定義。例如要測量社會民主程度,需先界定"民主社會"的定義,再設計與之相關的問題。

將此方法應用于 SWE-Bench 等基準測試時,設計者需摒棄傳統機器學習思路(即從 GitHub 收集編程問題并驗證答案對錯),轉而首先明確定義測量目標(如解決軟件標記問題的能力),將其分解為子技能,最后構建全面覆蓋這些子技能的測試題集。

這與 AI 研究者慣用的基準測試方法截然不同——但正如 2 月論文合著者 Jacobs 所言,這正是關鍵所在:“科技行業的現狀與社會科學工具之間存在脫節,而后者擁有數十年測量人類復雜特質的經驗。”

盡管該理念在學術界影響深遠,卻尚未顯著改變 AI 公司使用基準測試的方式。

過去兩個月,OpenAI、Anthropic、谷歌和 Meta 發布的新模型仍重度依賴 MMLU 等選擇題知識測試——這正是效度研究者試圖超越的方法。畢竟模型發布的核心目標仍是展現通用智能提升,而寬泛的基準測試依然是支撐這類聲明的工具。

沃頓商學院教授 Ethan Mollick 等觀察家認為:“基準測試雖不完美,卻是現有最佳選擇。”他補充道:“與此同時模型確實在進步,快速進展掩蓋了許多缺陷。”

目前,行業對通用人工智能的長期追求,似乎正擠壓著基于效度的細分評估空間。只要 AI 模型的通用能力持續增長,具體應用場景的精準評估就顯得不那么緊迫——即便這意味著從業者不得不繼續使用可信度存疑的工具。

Hugging Face 的 Solaiman 坦言,“徹底推翻現有體系并不現實,盡管存在局限,評估工具對理解模型仍有重要價值。”

https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmark/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
姜妍最近大大方方公開了個喜訊:

姜妍最近大大方方公開了個喜訊:

小光侃娛樂
2025-05-10 12:20:03
中美全面斷供開始,40艘萬噸巨輪紛紛停靠浙江

中美全面斷供開始,40艘萬噸巨輪紛紛停靠浙江

傲骨真心
2025-05-10 13:20:01
確定了:告別戶口本!上海新人直言:“我們就是奔著這個新政策來的”

確定了:告別戶口本!上海新人直言:“我們就是奔著這個新政策來的”

上觀新聞
2025-05-10 14:47:13
巴基斯坦總理:已強力回應印度挑釁!印方:S-400防空系統沒被摧毀,不會升級沖突!魯比奧與巴陸軍參謀長通電話

巴基斯坦總理:已強力回應印度挑釁!印方:S-400防空系統沒被摧毀,不會升級沖突!魯比奧與巴陸軍參謀長通電話

每日經濟新聞
2025-05-10 17:51:20
矛盾升級?球員否認,主教練強硬,中國女排對手疑似內訌

矛盾升級?球員否認,主教練強硬,中國女排對手疑似內訌

跑者排球視角
2025-05-10 17:59:06
金正恩訪問俄羅斯駐朝鮮使館

金正恩訪問俄羅斯駐朝鮮使館

參考消息
2025-05-09 21:16:11
40年不鳴,一鳴驚人,聯想自研5nm芯片,已用于平板上

40年不鳴,一鳴驚人,聯想自研5nm芯片,已用于平板上

互聯網.亂侃秀
2025-05-09 16:55:42
重磅!我國首款干細胞胰島制劑獲批,多名糖尿患者注入即治愈

重磅!我國首款干細胞胰島制劑獲批,多名糖尿患者注入即治愈

科學認識論
2025-05-10 10:35:08
欠我國錢最多的四個國家,巴基斯坦排在最后,第一名令人意外

欠我國錢最多的四個國家,巴基斯坦排在最后,第一名令人意外

通文知史
2025-05-10 09:00:09
歐洲多國領導人抵達烏克蘭

歐洲多國領導人抵達烏克蘭

FM93浙江交通之聲
2025-05-10 15:31:19
家有4種爸爸,養不出優秀的孩子,尤其是第2種,太準了!

家有4種爸爸,養不出優秀的孩子,尤其是第2種,太準了!

布谷媽媽
2025-05-02 21:30:00
國民黨警察廳長助毛主席脫險,68歲請求安排工作,毛主席:同意

國民黨警察廳長助毛主席脫險,68歲請求安排工作,毛主席:同意

紅色鑒史官
2025-05-10 17:35:03
全國煙民徹底慌了:10元香煙消失,背后藏著什么真相?

全國煙民徹底慌了:10元香煙消失,背后藏著什么真相?

奇思妙想生活家
2025-05-10 03:31:09
老輩人的八卦能有多辣眼睛?網友:我就服最后那個扒灰被打廢的!

老輩人的八卦能有多辣眼睛?網友:我就服最后那個扒灰被打廢的!

娛樂圈人物大賞
2025-05-10 00:20:06
金正恩再三考量,紅場閱兵還是不去了,但沒忘給普京送上“厚禮”

金正恩再三考量,紅場閱兵還是不去了,但沒忘給普京送上“厚禮”

阿策聊實事
2025-05-10 10:55:18
領導幾乎一上位后都會做3件事,少做一件,其位置都不算穩固

領導幾乎一上位后都會做3件事,少做一件,其位置都不算穩固

細說職場
2025-05-05 07:13:15
36萬億美債補不上!特朗普決定“除掉”大債主?

36萬億美債補不上!特朗普決定“除掉”大債主?

針砭天下事
2025-05-10 11:20:02
跌慘了!半年就沒了20萬,西安一業主稱160萬買房,目前只值139萬

跌慘了!半年就沒了20萬,西安一業主稱160萬買房,目前只值139萬

火山詩話
2025-05-10 13:27:35
澳門這一夜,28歲于適秒了42歲韓星Rain,才知清爽和油膩的區別

澳門這一夜,28歲于適秒了42歲韓星Rain,才知清爽和油膩的區別

夢涵說體育
2025-05-10 09:14:23
深圳交警首次啟用大型無人機,嚴管電動自行車交通秩序

深圳交警首次啟用大型無人機,嚴管電動自行車交通秩序

南方都市報
2025-05-10 15:45:09
2025-05-10 18:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15157文章數 513643關注度
往期回顧 全部

科技要聞

雷軍:我經歷創辦小米以來最難的一個多月

頭條要聞

多個空軍基地及陸軍醫院遭到巴方破壞 印度最新回應

頭條要聞

多個空軍基地及陸軍醫院遭到巴方破壞 印度最新回應

體育要聞

這個老頭兒,仍然是你們的頭兒

娛樂要聞

李凱馨為錄音風波道歉,網友不接受

財經要聞

沸騰了!中國,給全世界上了一課

汽車要聞

破局者億咖通 智向全球的科技“新勢力”

態度原創

手機
旅游
家居
公開課
軍事航空

手機要聞

vivo以18.2%的份額領跑W18周,華為、小米竟然完全相同

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

整潔寬敞 黑白木色拼接

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

印度一戰機在巴基斯坦旁遮普省被擊落 飛行員被俘

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乐陵市| 双桥区| 东海县| 铁岭市| 建湖县| 芜湖市| 宁武县| 锦州市| 基隆市| 泗洪县| 乌恰县| 梅河口市| 彭州市| 金沙县| 乌兰浩特市| 元氏县| 天气| 肃宁县| 唐山市| 肇源县| 宣武区| 城固县| 西华县| 太谷县| 哈密市| 瑞昌市| 赣州市| 隆安县| 黄山市| 营口市| 百色市| 万年县| 手机| 苍溪县| 洛隆县| 河北区| 长顺县| 黎川县| 平泉县| 江北区| 申扎县|