網易首頁 > 網易號 > 正文申請入駐

Meituan-M17團隊構建新一代AI編程評測新標準——OIBench

2025-07-11 13:20:43　來源: 機器之心Pro

河北舉報

分享至

當前，大語言模型（LLMs）在編程領域的能力受到廣泛關注，相關論斷在市場中普遍存在，例如 DeepMind 的 AlphaCode 曾宣稱達到人類競技編程選手的水平；OpenAI 的頂尖模型屢屢被報道能通過谷歌高級編程面試，并在 LeetCode 挑戰中表現出較高能力。

然而，將這些能力宣稱與實際評測結果進行對比時，當前評估體系的深層問題便隨之顯現：

比如盡管 GPT-4o 模型被冠以 “競賽級” 頭銜，甚至有聲音稱其算法水平接近 ACM 區域賽金牌選手，但實際在面對未經大量公開數據訓練的、更高難度的信息學奧賽級別問題時，其通過率卻往往低至個位數，與 985 級別高校 ACM 校隊成員的平均通過率存在顯著差距。
當部分評測宣稱 Claude 3.5 Sonnet 可替代中級開發人員時，它在動態規劃等高難度題型中錯誤率卻高達 80% 以上，且無法獨立完成需數學建模的復雜競賽題。
諸如文心一言、通義千問等模型在MBPP基礎題庫中通過率可達 90% 以上，但移植至 Codeforces Div.2 C 級題目時，通過率卻不足 15%，遠低于人類選手平均 70% 的水平。

這些鮮明的對比，共同指向一個核心問題：當前對 LLM 編程能力的評估，往往存在 “宣傳與現實的認知鴻溝”。這種差異不僅源于模型能力邊界的復雜性，也暴露出現有評估體系的諸多局限性。具體表現為：

評測集 “飽和” 與區分度不足：傳統評測集（如 HumanEval、MBPP）由于模型能力的快速提升，通過率普遍超過 90%，已無法有效區分最先進模型的細微優劣。
數據 “泄漏” 風險：盡管一些新評測集（如 Codeforces、USACO、LeetCode）引入了高難度題目，但由于大模型預訓練數據包含大量互聯網公開內容，這些題目可能已被模型 “見過”，導致評測結果虛高，無法真實反映其推理能力。
人機對比的局限性：現有基于 Elo 評分體系的模型與真人選手對比方法，存在周期長、選手水平波動大、復現性差等問題，難以提供精確且可靠的評估。
效率指標的粗略性：部分評測雖引入運行時間、內存等效率指標，但通常僅為粗略的平均分，無法細致反映模型在不同類型題目上的性能差異。

為了解決上述這些評估困境、評測出全球頂尖模型真實的編程能力，Meituan-M17團隊推出了更真實、更具區分度的評估基準OIBench數據集，并托管于 AGI-Eval 評測社區。基于此數據集，我們對全球 18 個主流大模型的算法編程能力進行了系統評測并量化得分，詳細評分榜單如下所示，可以看到全球頂尖大模型距離以往所宣稱的編程能力還存在很大差距，哪怕是最高分的 o4-mini-high 也僅僅只有 36.35 分，距離人類競賽選手的水平還相差甚遠，甚至很多模型只有個位數的得分。

OIBench 的評測榜單未來將由 AGI-Eval 評測社區長期維護更新，歡迎持續關注。榜單地址如下

網頁端地址：
https://agi-eval.cn/evaluation/detail?id=60
微信小程序：AGI-Eval模型評測
論文地址：
https://arxiv.org/abs/2506.10481

本文數據均引用自 OIBench v1.0 論文（arxiv:2506.10481v3），發布日期 2025 年 6 月 13 日

接下來為大家詳細介紹 OIBench 數據集是如何構建以及如何對大模型進行評測的。

1. OIBench 的構建與創新

OIBench 是一個高質量、私有且極具挑戰性的信息學奧賽級別算法題庫，旨在提供一個更真實、更具區分度的評估基準。該數據集的算法題主要來源于中國 ACM-ICPC 隊伍和信息學奧賽的高校教練團隊精心編纂，他們擁有豐富的高難度算法題設計經驗和獨到見解。

為了確保 OIBench 題目的高質量和高挑戰性，我們制定了三條嚴格的準入標準，OIBench 具備以下關鍵特性：

原創性與私有性： OIBench 包含 250 道候選題目，經難度驗證后保留 212 道高難度、防泄漏的信息學奧賽題目（IOI Level）。所有題目在發布前都經過嚴格檢索，確保未在任何公開平臺出現，最大程度避免數據污染風險。
難度分級與把控：每道題目都參照信息學競賽和 Codeforces 難度評級進行標注。同時，為避免主觀偏差，我們引入了自動化驗證機制 —— 只有當 GPT-4o、Qwen2.5-Coder-32B、Doubao-32k-pro、Llama3.1-405B 這幾個標桿大模型中 “最多只有一個模型能解出” 時，該題才會被收錄，從而確保了題目的 “硬核” 難度。
高標準測試用例與標準解答：每道題都配備覆蓋大數據量、邊界情況等多樣的測試用例，力求暴露代碼在時間和空間上的潛在瓶頸。同時，每道題都必須配備經過所有測試用例嚴格驗證的 C++ 標準解答，以確保題目本身的準確性及評測的公正性。
中英文雙語支持：數據集提供中英文雙語版本，方便全球大模型從業者使用。

我們還在論文中展示了 OIBench 與其他主流評測集的對比（見下表），可以看到 OIBench 在題目難度和測試用例規模上都相對更高。

OIBench 在題目難度和測試用例規模上顯著領先于其他主流評測集。例如，在其他榜單上表現較好的 GPT-4o 模型在 OIBench 上僅能答對 2.6% 的題目，同時 OIBench 的測試用例數量大幅超過了其他算法競賽基準，對標真實的競賽環境。

強抗數據污染能力：在評測集設計中，“同源污染” 是一個重要挑戰。由于大模型的預訓練和微調數據往往會爬取大量互聯網內容，容易出現模型在訓練階段就見過類似題目的情況，從而導致評測分數虛高，無法真實反映模型實際能力。雖然 OIBench 在數據構造時極力避免使用互聯網可公開檢索的題目，但一些相近的題目仍可能在大模型的預訓練或微調階段帶來數據污染。為此，我們專門設計了實驗來驗證 OIBench 的抗污染能力：

具體做法：我們從 OIBench 中抽取部分題目，模擬它們在模型訓練數據中 “泄漏” 的場景，并與常規訓練數據混合，對比模型在 OIBench 上的表現提升。
實驗證明：即使模擬少量題目 “泄漏” 到模型的訓練數據中，OIBench 的得分提升也極為有限，風險分數幾乎為零，表明其對數據污染具有很強的魯棒性。

2. OIBench 評測結果與發現

參評模型與評測方式

OIBench 對 18 個主流大模型（包括 14 個指令微調模型和 4 個基礎模型）進行了 zero-shot 評測，涵蓋 C++、Python、Java、JavaScript 四種語言。

主榜單結果

推理模型表現突出：推理類模型（如 o4-mini-high）在 OIBench 上的平均得分高達 21.4%，遠高于普通指令微調模型（約 3.6%）。這表明 OIBench 能有效區分模型的推理和鏈式思考能力，且 o4-mini-high 在所有語言和任務上表現最優。
閉源模型優勢明顯：閉源模型平均得分 14.5%，顯著高于開源模型（6.3%），這主要得益于閉源模型在算力和數據質量上的優勢。
基礎模型決定上限：指令微調模型在 OIBench 上的表現高度依賴其基礎模型的能力，說明基礎模型的預訓練質量是決定代碼能力的關鍵。
DeepSeek-V3-0324 的亮點：作為非推理模型，DeepSeek-V3-0324 表現突出，得益于其采用了 DeepSeek-R1 的鏈式推理蒸餾方案，推理能力大幅提升。

語言偏好與中英文差異：模型在 JavaScript 和 Python 上的表現平均比 C++ 和 Java 低 10% 以上，可能與訓練數據分布有關；中英文題目表現差異極小，甚至中文略優。

偽代碼（Pseudocode）提示的積極作用

OIBench 的高難度對普通模型來說挑戰巨大。為了更細致地分析模型的能力，我們還引入了 “偽代碼提示” 評測：將標準解答轉為偽代碼并作為提示輸入，考查模型理解和復現解題思路的能力。

結果顯示，所有模型在有偽代碼提示時表現均有明顯提升，尤其是強推理模型（如 o3-mini-high 和 o4-mini-high）提升尤為顯著。這說明偽代碼極大降低了題目的推理難度，更能考查模型的代碼理解與生成能力。同時，推理模型在理解解題思路方面依然具備優勢。進一步分析發現，指令微調模型的表現與其基礎模型高度相關，說明代碼生成能力主要取決于預訓練水平。

在提供偽代碼提示后，所有模型表現均有明顯提升，尤其是強推理模型，這說明偽代碼能有效降低推理難度，更能考查模型的代碼理解與生成能力。

推理效率：隨著 “測試時推理” 成為提升大模型能力的重要手段， OpenAI-o1、DeepSeek-R1 等模型在解題時會生成大量推理內容。我們統計了各模型推理時的 Token 消耗與通過率的關系，發現 o4-mini-high 能以更少的 Token 解出更多題目，推理效率最高；DeepSeek-V3-0324 雖然表現不俗，但推理 Token 數量也最多，體現其長鏈推理的特點。

3. 模型與人類選手的對比

許多技術人員都關心：現在的大語言模型在算法編程題上的表現，和真正的競賽選手相比到底如何？OpenAI、 DeepSeek 會用線上編程平臺 Codeforces 的 Elo 評分體系來做模型與人類的對比，并報告自家模型最新的 Elo 分數，但這種方式存在一些問題：比如數據時間跨度長（一般需要半年以上的參賽記錄）、在線選手水平波動大，導致對比結果不夠精確，也不容易復現。

OIBench 創新性地采用了更可控的方法：邀請了中國 985 級別高校 ACM 校隊選手參與部分題目的作答，并將其成績與大模型直接對比，提供了更精準、可復現的人機對比數據；我們用小提琴圖展示了每個模型在所有人類選手中的排名分布，能直觀反映模型與人類在不同題目上的表現差異。

排名規則參考了信息學奧賽（IOI）的標準：先比較通過的測試用例數量，數量相同則按運行時間排序（越快越高）；

提交標準：人類選手的答案以最后一次提交為準。

人類解答開源: 分析中所涉及的人類解答記錄也將匿名化并開源，便于后續研究和復現。

在小提琴圖中，各模型在每道題中的人類排名位置會作為一個數據點，這些數據點形成的概率密度圖就是小提琴圖中的“琴身”。“琴身”的寬度顯示模型排名分布的密度，越寬表示模型在對應的排名區間內出現的頻率越高，從而直觀地反映出模型排名表現的集中趨勢。中央的框線代表排名數據最集中的區域，以o4-mini-high舉例，它的排名大致超過了42%的人類選手。

三種類型的模型表現：
低谷型：多數題目排名靠后，只能超越不到 20% 的人類選手，多為沒有長鏈推理能力的模型。
雙峰型：在部分題目上能超越一半人類選手，但在另一些題目上表現較差，多數支持長鏈推理的模型屬于此類型，顯示其在特定題型上的優勢和短板。
橄欖型：排名分布更均勻，表現更接近人類整體能力分布，目前只有 o4-mini-high 具備這種全面和穩定的推理特征。

4. 總結與展望

本文深入分析了當前大模型編程能力評估中存在的認知鴻溝，揭示了 “宣傳” 與 “現實” 之間的差距。Meituan-M17團隊通過 OIBench 這一高質量、高區分度的私有數據集，清晰揭示了頂級 LLM 在面對復雜算法挑戰時，與人類頂尖水平之間的真實差距。不僅為大語言模型的算法推理能力評測樹立了一個全新標桿，也為整個行業帶來了更多思考。

它讓我們看到：即使在模型能力突飛猛進的今天，真正高質量、高難度的算法挑戰依然能夠 “難倒” 最先進的 AI。尤為重要的是，希望 OIBench 的開源和透明能夠為社區協作和持續創新做出一些貢獻。我們期待它能成為連接學術、產業和開發者的橋梁，推動大模型在算法智能領域邁向新高度。未來，隨著模型能力和評測需求的不斷演進，OIBench 也會持續迭代，與大家共同見證 AI 推理的進化之路。

與此同時，我們也觀察到，對于大多數人類開發者來說，即使他們接受過專業的算法設計訓練，面對高難度算法和復雜系統設計，同樣需要工具和智能助手的輔助才能更上一層樓。大模型的強大推理和代碼生成能力，正好能為人類開發者提供有力支持，幫助他們提升算法設計和代碼實現的效率。OIBench 促使我們深入思考：未來的代碼開發，已超越 “人” 或 “模型” 單打獨斗的模式，轉變為人機協同、優勢互補的新范式。

5. OI 賽題之外 —— Code Agent 催生的評測范式遷移

當前大量涌現的 Code Agent 類框架與產品，使得人機協作解決更加復雜的工程問題成為可能，這預示著對 Code Agent 在實際工程場景中與人類協作能力的評估，將變得日益關鍵。然而，現有的 Code Agent 評測基準（如 SWE-bench 系列）存在一個核心問題：它們將人類開發者完全排除在評估流程之外。這種 “端到端” 的自動化評測，雖然能比較容易的量化模型在封閉任務上的表現，卻無法回答一個更關鍵的問題：在真實、開放的開發環境中，Code Agent 能否與人類高效協作？當前多數 Code Agent 框架在交互設計上對人機交互的忽視，導致其評測結果與實際應用價值之間存在明顯脫節。

結合 OIBench 引發的關于人機協同、優勢互補的思考，Meituan-M17團隊也開始關注人機協作評測這一新的評測范式在 Code Agent 場景的應用，進而彌補當前范式引起的評測結果與實際應用價值間的鴻溝。基于此，我們與 AGI-Eval 評測社區合作，設計并計劃舉辦一項創新的人機協作編程競賽。

競賽核心設計如下：

評測目標：競賽旨在真實模擬人類開發者與搭載不同大模型的 Code Agent 協作解決復雜工程任務的全過程。我們關注的不再僅僅是任務的最終成敗，而是整個協作流程的質量與效率。
關鍵指標：我們將記錄并分析一系列過程性指標，包括：模型的意圖理解準確度、需求澄清的有效性、交互輪次、決策效率以及最終任務完成的質量與速度。

評測流程如下：

價值與產出：
首個人機協作榜單：我們將產出首個聚焦人機協作效能的 Code Agent 性能榜單，從模型硬實力（自主解決問題的能力）與協作流暢度（與人交互的體驗）兩大維度進行評估。
深度洞察與改進：這些寶貴的數據和洞察，將揭示當前 Code Agent 在真實協作場景下的優勢與短板，為打造更智能、更實用的下一代開發工具提供堅實的實證依據，真正推動人機協同編程走向成熟。

這項競賽不僅填補了現有評測體系的空白，更為探索未來人機協作的無限可能提供了寶貴的數據和實踐參考。對這項比賽感興趣的小伙伴，歡迎前往 AGI-Eval 評測社區了解詳情。

網頁端地址：https://agi-eval.cn/competition/activity

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.