網易首頁 > 網易號 > 正文申請入駐

幾位00后推出新編程基準測試，大模型全部得了0分

2025-06-19 13:25:51　來源: DeepTech深科技

北京舉報

分享至

當 OpenAI 聲稱其 o3 模型在編程競賽中達到了 2700+ 的 Elo 評分，足以躋身全球頂尖選手行列時，一群年輕的研究者卻給出了截然不同的答案。由多位華人 00 后奧林匹克競賽獲獎者主導、美國紐約大學助理教授謝賽寧參與的研究團隊推出了 LiveCodeBench Pro 基準測試，結果讓人大跌眼鏡：包括最先進的 o3-high、Gemini 2.5 Pro 在內的所有大語言模型，在困難級別的編程問題上無一例外地得了 0 分。

（來源：LiveCodeBench Pro）

這個名為 LiveCodeBench Pro 的測試由來自紐約大學、美國普林斯頓大學、美國加州大學圣地亞哥分校等院校的年輕研究者共同開發。團隊的核心成員包括多位在國際信息學奧林匹克競賽（IOI，International Olympiad in Informatics）中獲得獎牌的選手。

圖丨相關論文（來源：arXiv）

項目的主要負責人之一 Zihan Zheng 畢業于成都外國語學校，如今是紐約大學的一名本科生。另一位負責人柴文浩（Wenhao Chai）是浙江大學校友，即將前往普林斯頓大學就讀博士。還有 Zerui Cheng、Shang Zhou、Zeyu Shen、Kaiyuan Liu 等共同一作也大都是本科或直博在讀，甚至 Hansen He 目前還只是一名高中生。

圖丨Zihan Zheng（左）；柴文浩（右）（來源：LinkedIn）

論文指出，現有的編程評測基準存在明顯缺陷，包括測試環境不一致、測試用例薄弱容易出現假陽性、難度分布不平衡，以及無法隔離搜索污染的影響。LiveCodeBench 雖然提供了編程問題，但仍然受到這些問題困擾，而 CodeELO 等框架雖然專注于競賽編程，但依賴靜態檔案，難以區分真正的推理能力和記憶能力。

LiveCodeBench Pro 的獨特之處在于它的實時性和純凈性。研究團隊實時收集來自 Codeforces、國際大學生程序設計競賽（ICPC，International Collegiate Programming Contest）、IOI 等頂級賽事的最新題目，在任何解答或討論出現在網絡上之前就將其納入測試集。這種做法有效避免了數據泄露問題，確保模型無法通過記憶訓練數據中的答案來“作弊”。

截至 2025 年 4 月 25 日，LiveCodeBench Pro 共收錄了 584 道高質量編程題目，完全摒棄了 LeetCode 等相對簡單且容易被污染的題源。Zihan Zheng 還表示，每個季度他們都會發布一個全新的評估集，其中包含該季度獨有的問題，以最大限度地減少污染并確保最新的基準測試。

測試結果令人相當意外。研究團隊將題目按 Codeforces 風格的 Elo 難度分為三個等級：簡單（≤2000 分，世界級選手通常 15 分鐘內可解）、中等（2000-3000 分，需要融合多種算法和復雜數學推理）、困難（>3000 分，需要極其深刻的推導，連最強選手都可能無法解決）。

在最具挑戰性的困難級別上，無論是 OpenAI 的 o3-high、Google 的 Gemini 2.5 Pro，還是 DeepSeek 的 R1 模型，全部交出了 0 分的答卷。即使在中等難度的問題上，表現最好的 o4-mini-high 也只達到了 53.5% 的通過率，而 Gemini 2.5 Pro 僅為 25.4%。

值得注意的是，研究團隊計算了模型的 Codeforces 等效 Elo 評分。o4-mini-high 的評分為 2116，雖然聽起來不錯，但這僅能排在所有人類參賽者的前 1.5%，遠達不到“超越精英人類”的水平。OpenAI 宣稱的 2719 評分與實際測試結果之間存在約 400 分的差距，研究者推測這主要歸因于工具調用和終端訪問等外部輔助的作用。

圖丨LiveCodeBench Pro 排行榜（來源：arXiv）

為了深入理解模型的能力邊界，研究團隊創新性地將編程問題按認知重點分為三類。知識密集型問題主要考查對算法模板和數據結構的掌握，這類問題的解答往往需要現成的代碼模板，比如快速傅里葉變換的應用。在這類問題上，模型表現相對較好，因為相關內容在訓練數據中大量存在。

圖丨知識密集型問題示例（來源：arXiv）

邏輯密集型問題需要系統性的數學推理和逐步推導，如組合數學和動態規劃，要求將符號操作轉化為高效算法。

圖丨邏輯密集型問題示例（來源：arXiv）

觀察密集型問題則需要從問題描述中敏銳地捕捉關鍵洞察，往往一個“頓悟”就能讓復雜問題迎刃而解。

圖丨觀察密集型問題示例（來源：arXiv）

測試結果顯示，模型在不同類型問題上的表現差異巨大。在線段樹、圖論、數據結構等知識密集型問題上，多數模型都能達到相當水平，這些問題本質上考驗的是代碼實現能力和算法庫的掌握程度。在組合數學、動態規劃等邏輯密集型問題上，模型表現中等，能夠進行一定程度的邏輯推理。

（來源：arXiv）

但在博弈論、貪心算法、構造類等觀察密集型問題上，幾乎所有模型的 Elo 評分都跌破 1500，表現慘不忍睹。特別是在需要處理邊界情況（case work）的問題上，除了 o4-mini-high 外，其他模型的評分都在 1500 以下，顯示出模型在識別和處理邊界條件方面的顯著不足。

研究團隊還進行了細致的錯誤分析，他們逐行對比了 125 個 o3-mini 模型的失敗提交和同等水平人類選手的失敗提交。結果發現，o3-mini 在算法邏輯錯誤和錯誤觀察方面的失誤比人類多出 34 次，這些是真正的概念性錯誤，而非表面的程序錯誤。

圖丨比較 o3-mini 和人類提交被拒絕的原因（來源：arXiv）

但在實現層面，o3-mini 的表現明顯優于人類，實現邏輯錯誤比人類少 25 次，所有觀察到的初始化錯誤和輸入輸出格式錯誤都出現在人類提交中，模型幾乎不會出現“運行時錯誤”。這說明模型的編程語法和代碼實現能力確實不錯，但在核心的算法設計和問題理解上存在根本性缺陷。

更要命的是，o3-mini 有 45 次在樣例輸入上就失敗了，而人類選手在提交前通常會先在本地測試樣例。這暴露了模型無法有效利用給定信息的問題，連最基本的驗證都做不好。與此形成對比的是，具備終端訪問和工具調用能力的模型 (如 o3 和 o4-mini-high 的完整版本) 預期會大大減少這類容易發現的錯誤。

在推理能力的測試中，研究團隊專門對比了 DeepSeek V3 與 R1、Claude 3.7 Sonnet 的普通版與推理版之間的差異。結果顯示，推理功能在組合數學問題上帶來了最大提升，DeepSeek R1 相比 V3 在此類問題上提高了近 1400 個 Elo 點。在數據結構、線段樹等知識密集型問題上，推理也帶來了顯著改善，這符合預期，因為這些問題往往需要結構化思維。但在博弈論、貪心、構造等觀察密集型問題上，推理的幫助微乎其微，有時甚至是負面的。這說明當前的鏈式思考技術雖然能加強邏輯推導，但對培養算法直覺和創造性洞察力作用有限。

業界常用的 pass@k 評估方法允許模型多次嘗試同一問題，取最好結果。在 LiveCodeBench Pro 上，這種方法確實能顯著提升模型表現。o4-mini-medium 的評分從單次嘗試的 1793 提升到 10 次嘗試的 2334，類似的提升在其他模型上也很明顯。研究發現，在獲得最大改善的五個類別中，有三個——博弈論、貪心和邊界處理——都屬于觀察密集型問題，這些問題往往可以通過假設驗證來解決，多次嘗試大大增加了猜中正確答案的概率。但即使給予多次機會，模型在困難問題上的通過率依然為零，表明這些問題的難點不在于偶然的實現錯誤，而在于根本性的算法理解缺失。

測試中還發現了一個有趣現象：o4-mini-high 在交互式問題上的表現異常糟糕，Elo 評分跌至 1500 左右，其他模型表現也很差。交互式問題要求程序與評測系統進行多輪信息交換，需要對問題有深刻理解才能設計正確的交互策略。研究團隊發現，模型經常因為“空閑時間超限”而失敗，說明它們無法理解交互的時機和策略。

從成本角度來看，LiveCodeBench Pro 統計顯示，最昂貴的模型未必表現最好。Claude 3.7 Sonnet 推理版平均每題花費 0.29 美元，但 Elo 評分僅為 992，性價比很低。相比之下，一些較便宜的模型反而表現更穩定。o4-mini-high 由于推理鏈條過長 (最多 10 萬 token) 和成本高昂（約 200 美元每次完整測試），研究團隊只能限制其在 pass@3 設置下進行評估。

這些發現表明，盡管大語言模型在代碼生成和簡單編程任務上表現出色，但在需要深度算法思維的復雜問題上仍有很長的路要走。正如論文所指出的，當前模型的高性能很大程度上依賴于實現精度和工具增強，而非卓越的推理能力。在算法創新和問題洞察這些人類智慧的核心領域，AI 仍然無法與頂尖的人類專家相提并論。

參考資料：

1.https://livecodebenchpro.com/

2.https://arxiv.org/abs/2506.11928

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.