當(dāng)前,大語言模型(LLMs)在編程領(lǐng)域的能力受到廣泛關(guān)注,相關(guān)論斷在市場中普遍存在,例如 DeepMind 的 AlphaCode 曾宣稱達(dá)到人類競技編程選手的水平;OpenAI 的頂尖模型屢屢被報(bào)道能通過谷歌高級(jí)編程面試,并在 LeetCode 挑戰(zhàn)中表現(xiàn)出較高能力。
然而,將這些能力宣稱與實(shí)際評(píng)測結(jié)果進(jìn)行對(duì)比時(shí),當(dāng)前評(píng)估體系的深層問題便隨之顯現(xiàn):
- 比如盡管 GPT-4o 模型被冠以 “競賽級(jí)” 頭銜,甚至有聲音稱其算法水平接近 ACM 區(qū)域賽金牌選手,但實(shí)際在面對(duì)未經(jīng)大量公開數(shù)據(jù)訓(xùn)練的、更高難度的信息學(xué)奧賽級(jí)別問題時(shí),其通過率卻往往低至個(gè)位數(shù),與 985 級(jí)別高校 ACM 校隊(duì)成員的平均通過率存在顯著差距。
- 當(dāng)部分評(píng)測宣稱 Claude 3.5 Sonnet 可替代中級(jí)開發(fā)人員時(shí),它在動(dòng)態(tài)規(guī)劃等高難度題型中錯(cuò)誤率卻高達(dá) 80% 以上,且無法獨(dú)立完成需數(shù)學(xué)建模的復(fù)雜競賽題。
- 諸如文心一言、通義千問等模型在MBPP基礎(chǔ)題庫中通過率可達(dá) 90% 以上,但移植至 Codeforces Div.2 C 級(jí)題目時(shí),通過率卻不足 15%,遠(yuǎn)低于人類選手平均 70% 的水平。
這些鮮明的對(duì)比,共同指向一個(gè)核心問題:當(dāng)前對(duì) LLM 編程能力的評(píng)估,往往存在 “宣傳與現(xiàn)實(shí)的認(rèn)知鴻溝”。這種差異不僅源于模型能力邊界的復(fù)雜性,也暴露出現(xiàn)有評(píng)估體系的諸多局限性。具體表現(xiàn)為:
- 評(píng)測集 “飽和” 與區(qū)分度不足: 傳統(tǒng)評(píng)測集(如 HumanEval、MBPP)由于模型能力的快速提升,通過率普遍超過 90%,已無法有效區(qū)分最先進(jìn)模型的細(xì)微優(yōu)劣。
- 數(shù)據(jù) “泄漏” 風(fēng)險(xiǎn): 盡管一些新評(píng)測集(如 Codeforces、USACO、LeetCode)引入了高難度題目,但由于大模型預(yù)訓(xùn)練數(shù)據(jù)包含大量互聯(lián)網(wǎng)公開內(nèi)容,這些題目可能已被模型 “見過”,導(dǎo)致評(píng)測結(jié)果虛高,無法真實(shí)反映其推理能力。
- 人機(jī)對(duì)比的局限性: 現(xiàn)有基于 Elo 評(píng)分體系的模型與真人選手對(duì)比方法,存在周期長、選手水平波動(dòng)大、復(fù)現(xiàn)性差等問題,難以提供精確且可靠的評(píng)估。
- 效率指標(biāo)的粗略性: 部分評(píng)測雖引入運(yùn)行時(shí)間、內(nèi)存等效率指標(biāo),但通常僅為粗略的平均分,無法細(xì)致反映模型在不同類型題目上的性能差異。
為了解決上述這些評(píng)估困境、評(píng)測出全球頂尖模型真實(shí)的編程能力,Meituan-M17團(tuán)隊(duì) 推出了更真實(shí)、更具區(qū)分度的評(píng)估基準(zhǔn)OIBench數(shù)據(jù)集,并托管于 AGI-Eval 評(píng)測社區(qū)。基于此數(shù)據(jù)集,我們對(duì)全球 18 個(gè)主流大模型的算法編程能力進(jìn)行了系統(tǒng)評(píng)測并量化得分,詳細(xì)評(píng)分榜單如下所示,可以看到全球頂尖大模型距離以往所宣稱的編程能力還存在很大差距,哪怕是最高分的 o4-mini-high 也僅僅只有 36.35 分,距離人類競賽選手的水平還相差甚遠(yuǎn),甚至很多模型只有個(gè)位數(shù)的得分。
OIBench 的評(píng)測榜單未來將由 AGI-Eval 評(píng)測社區(qū)長期維護(hù)更新,歡迎持續(xù)關(guān)注。榜單地址如下
- 網(wǎng)頁端地址:
- https://agi-eval.cn/evaluation/detail?id=60
- 微信小程序:AGI-Eval模型評(píng)測
- 論文地址:
- https://arxiv.org/abs/2506.10481
本文數(shù)據(jù)均引用自 OIBench v1.0 論文(arxiv:2506.10481v3),發(fā)布日期 2025 年 6 月 13 日
接下來為大家詳細(xì)介紹 OIBench 數(shù)據(jù)集是如何構(gòu)建以及如何對(duì)大模型進(jìn)行評(píng)測的。
1. OIBench 的構(gòu)建與創(chuàng)新
OIBench 是一個(gè)高質(zhì)量、私有且極具挑戰(zhàn)性的信息學(xué)奧賽級(jí)別算法題庫,旨在提供一個(gè)更真實(shí)、更具區(qū)分度的評(píng)估基準(zhǔn)。該數(shù)據(jù)集的算法題主要來源于中國 ACM-ICPC 隊(duì)伍和信息學(xué)奧賽的高校教練團(tuán)隊(duì)精心編纂,他們擁有豐富的高難度算法題設(shè)計(jì)經(jīng)驗(yàn)和獨(dú)到見解。
為了確保 OIBench 題目的高質(zhì)量和高挑戰(zhàn)性,我們制定了三條嚴(yán)格的準(zhǔn)入標(biāo)準(zhǔn),OIBench 具備以下關(guān)鍵特性:
- 原創(chuàng)性與私有性: OIBench 包含 250 道候選題目,經(jīng)難度驗(yàn)證后保留 212 道高難度、防泄漏的信息學(xué)奧賽題目(IOI Level)。所有題目在發(fā)布前都經(jīng)過嚴(yán)格檢索,確保未在任何公開平臺(tái)出現(xiàn),最大程度避免數(shù)據(jù)污染風(fēng)險(xiǎn)。
- 難度分級(jí)與把控: 每道題目都參照信息學(xué)競賽和 Codeforces 難度評(píng)級(jí)進(jìn)行標(biāo)注。同時(shí),為避免主觀偏差,我們引入了自動(dòng)化驗(yàn)證機(jī)制 —— 只有當(dāng) GPT-4o、Qwen2.5-Coder-32B、Doubao-32k-pro、Llama3.1-405B 這幾個(gè)標(biāo)桿大模型中 “最多只有一個(gè)模型能解出” 時(shí),該題才會(huì)被收錄,從而確保了題目的 “硬核” 難度。
- 高標(biāo)準(zhǔn)測試用例與標(biāo)準(zhǔn)解答: 每道題都配備覆蓋大數(shù)據(jù)量、邊界情況等多樣的測試用例,力求暴露代碼在時(shí)間和空間上的潛在瓶頸。同時(shí),每道題都必須配備經(jīng)過所有測試用例嚴(yán)格驗(yàn)證的 C++ 標(biāo)準(zhǔn)解答,以確保題目本身的準(zhǔn)確性及評(píng)測的公正性。
- 中英文雙語支持: 數(shù)據(jù)集提供中英文雙語版本,方便全球大模型從業(yè)者使用。
我們還在論文中展示了 OIBench 與其他主流評(píng)測集的對(duì)比(見下表),可以看到 OIBench 在題目難度和測試用例規(guī)模上都相對(duì)更高。
OIBench 在題目難度和測試用例規(guī)模上顯著領(lǐng)先于其他主流評(píng)測集。例如,在其他榜單上表現(xiàn)較好的 GPT-4o 模型在 OIBench 上僅能答對(duì) 2.6% 的題目,同時(shí) OIBench 的測試用例數(shù)量大幅超過了其他算法競賽基準(zhǔn),對(duì)標(biāo)真實(shí)的競賽環(huán)境。
強(qiáng)抗數(shù)據(jù)污染能力: 在評(píng)測集設(shè)計(jì)中,“同源污染” 是一個(gè)重要挑戰(zhàn)。由于大模型的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)往往會(huì)爬取大量互聯(lián)網(wǎng)內(nèi)容,容易出現(xiàn)模型在訓(xùn)練階段就見過類似題目的情況,從而導(dǎo)致評(píng)測分?jǐn)?shù)虛高,無法真實(shí)反映模型實(shí)際能力。雖然 OIBench 在數(shù)據(jù)構(gòu)造時(shí)極力避免使用互聯(lián)網(wǎng)可公開檢索的題目,但一些相近的題目仍可能在大模型的預(yù)訓(xùn)練或微調(diào)階段帶來數(shù)據(jù)污染。為此,我們專門設(shè)計(jì)了實(shí)驗(yàn)來驗(yàn)證 OIBench 的抗污染能力:
- 具體做法: 我們從 OIBench 中抽取部分題目,模擬它們?cè)谀P陀?xùn)練數(shù)據(jù)中 “泄漏” 的場景,并與常規(guī)訓(xùn)練數(shù)據(jù)混合,對(duì)比模型在 OIBench 上的表現(xiàn)提升。
- 實(shí)驗(yàn)證明: 即使模擬少量題目 “泄漏” 到模型的訓(xùn)練數(shù)據(jù)中,OIBench 的得分提升也極為有限,風(fēng)險(xiǎn)分?jǐn)?shù)幾乎為零,表明其對(duì)數(shù)據(jù)污染具有很強(qiáng)的魯棒性。
2. OIBench 評(píng)測結(jié)果與發(fā)現(xiàn)
參評(píng)模型與評(píng)測方式
OIBench 對(duì) 18 個(gè)主流大模型(包括 14 個(gè)指令微調(diào)模型和 4 個(gè)基礎(chǔ)模型)進(jìn)行了 zero-shot 評(píng)測,涵蓋 C++、Python、Java、JavaScript 四種語言。
主榜單結(jié)果
- 推理模型表現(xiàn)突出: 推理類模型(如 o4-mini-high)在 OIBench 上的平均得分高達(dá) 21.4%,遠(yuǎn)高于普通指令微調(diào)模型(約 3.6%)。這表明 OIBench 能有效區(qū)分模型的推理和鏈?zhǔn)剿伎寄芰Γ?o4-mini-high 在所有語言和任務(wù)上表現(xiàn)最優(yōu)。
- 閉源模型優(yōu)勢明顯: 閉源模型平均得分 14.5%,顯著高于開源模型(6.3%),這主要得益于閉源模型在算力和數(shù)據(jù)質(zhì)量上的優(yōu)勢。
- 基礎(chǔ)模型決定上限: 指令微調(diào)模型在 OIBench 上的表現(xiàn)高度依賴其基礎(chǔ)模型的能力,說明基礎(chǔ)模型的預(yù)訓(xùn)練質(zhì)量是決定代碼能力的關(guān)鍵。
- DeepSeek-V3-0324 的亮點(diǎn): 作為非推理模型,DeepSeek-V3-0324 表現(xiàn)突出,得益于其采用了 DeepSeek-R1 的鏈?zhǔn)酵评碚麴s方案,推理能力大幅提升。
語言偏好與中英文差異: 模型在 JavaScript 和 Python 上的表現(xiàn)平均比 C++ 和 Java 低 10% 以上,可能與訓(xùn)練數(shù)據(jù)分布有關(guān);中英文題目表現(xiàn)差異極小,甚至中文略優(yōu)。
偽代碼(Pseudocode)提示的積極作用
OIBench 的高難度對(duì)普通模型來說挑戰(zhàn)巨大。為了更細(xì)致地分析模型的能力,我們還引入了 “偽代碼提示” 評(píng)測:將標(biāo)準(zhǔn)解答轉(zhuǎn)為偽代碼并作為提示輸入,考查模型理解和復(fù)現(xiàn)解題思路的能力。
結(jié)果顯示,所有模型在有偽代碼提示時(shí)表現(xiàn)均有明顯提升,尤其是強(qiáng)推理模型(如 o3-mini-high 和 o4-mini-high)提升尤為顯著。這說明偽代碼極大降低了題目的推理難度,更能考查模型的代碼理解與生成能力。同時(shí),推理模型在理解解題思路方面依然具備優(yōu)勢。進(jìn)一步分析發(fā)現(xiàn),指令微調(diào)模型的表現(xiàn)與其基礎(chǔ)模型高度相關(guān),說明代碼生成能力主要取決于預(yù)訓(xùn)練水平。
在提供偽代碼提示后,所有模型表現(xiàn)均有明顯提升,尤其是強(qiáng)推理模型,這說明偽代碼能有效降低推理難度,更能考查模型的代碼理解與生成能力。
推理效率: 隨著 “測試時(shí)推理” 成為提升大模型能力的重要手段, OpenAI-o1、DeepSeek-R1 等模型在解題時(shí)會(huì)生成大量推理內(nèi)容。我們統(tǒng)計(jì)了各模型推理時(shí)的 Token 消耗與通過率的關(guān)系,發(fā)現(xiàn) o4-mini-high 能以更少的 Token 解出更多題目,推理效率最高;DeepSeek-V3-0324 雖然表現(xiàn)不俗,但推理 Token 數(shù)量也最多,體現(xiàn)其長鏈推理的特點(diǎn)。
3. 模型與人類選手的對(duì)比
許多技術(shù)人員都關(guān)心:現(xiàn)在的大語言模型在算法編程題上的表現(xiàn),和真正的競賽選手相比到底如何?OpenAI、 DeepSeek 會(huì)用線上編程平臺(tái) Codeforces 的 Elo 評(píng)分體系來做模型與人類的對(duì)比,并報(bào)告自家模型最新的 Elo 分?jǐn)?shù),但這種方式存在一些問題:比如數(shù)據(jù)時(shí)間跨度長(一般需要半年以上的參賽記錄)、在線選手水平波動(dòng)大,導(dǎo)致對(duì)比結(jié)果不夠精確,也不容易復(fù)現(xiàn)。
OIBench 創(chuàng)新性地采用了更可控的方法:邀請(qǐng)了中國 985 級(jí)別高校 ACM 校隊(duì)選手參與部分題目的作答,并將其成績與大模型直接對(duì)比,提供了更精準(zhǔn)、可復(fù)現(xiàn)的人機(jī)對(duì)比數(shù)據(jù);我們用小提琴圖展示了每個(gè)模型在所有人類選手中的排名分布,能直觀反映模型與人類在不同題目上的表現(xiàn)差異。
排名規(guī)則參考了信息學(xué)奧賽(IOI)的標(biāo)準(zhǔn):先比較通過的測試用例數(shù)量,數(shù)量相同則按運(yùn)行時(shí)間排序(越快越高);
提交標(biāo)準(zhǔn):人類選手的答案以最后一次提交為準(zhǔn)。
人類解答開源: 分析中所涉及的人類解答記錄也將匿名化并開源,便于后續(xù)研究和復(fù)現(xiàn)。
在小提琴圖中,各模型在每道題中的人類排名位置會(huì)作為一個(gè)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)形成的概率密度圖就是小提琴圖中的“琴身”。“琴身”的寬度顯示模型排名分布的密度,越寬表示模型在對(duì)應(yīng)的排名區(qū)間內(nèi)出現(xiàn)的頻率越高,從而直觀地反映出模型排名表現(xiàn)的集中趨勢。中央的框線代表排名數(shù)據(jù)最集中的區(qū)域,以o4-mini-high舉例,它的排名大致超過了42%的人類選手。
- 三種類型的模型表現(xiàn):
- 低谷型: 多數(shù)題目排名靠后,只能超越不到 20% 的人類選手,多為沒有長鏈推理能力的模型。
- 雙峰型: 在部分題目上能超越一半人類選手,但在另一些題目上表現(xiàn)較差,多數(shù)支持長鏈推理的模型屬于此類型,顯示其在特定題型上的優(yōu)勢和短板。
- 橄欖型: 排名分布更均勻,表現(xiàn)更接近人類整體能力分布,目前只有 o4-mini-high 具備這種全面和穩(wěn)定的推理特征。
4. 總結(jié)與展望
本文深入分析了當(dāng)前大模型編程能力評(píng)估中存在的認(rèn)知鴻溝,揭示了 “宣傳” 與 “現(xiàn)實(shí)” 之間的差距。Meituan-M17團(tuán)隊(duì) 通過 OIBench 這一高質(zhì)量、高區(qū)分度的私有數(shù)據(jù)集,清晰揭示了頂級(jí) LLM 在面對(duì)復(fù)雜算法挑戰(zhàn)時(shí),與人類頂尖水平之間的真實(shí)差距。不僅為大語言模型的算法推理能力評(píng)測樹立了一個(gè)全新標(biāo)桿,也為整個(gè)行業(yè)帶來了更多思考。
它讓我們看到:即使在模型能力突飛猛進(jìn)的今天,真正高質(zhì)量、高難度的算法挑戰(zhàn)依然能夠 “難倒” 最先進(jìn)的 AI。尤為重要的是,希望 OIBench 的開源和透明能夠?yàn)樯鐓^(qū)協(xié)作和持續(xù)創(chuàng)新做出一些貢獻(xiàn)。我們期待它能成為連接學(xué)術(shù)、產(chǎn)業(yè)和開發(fā)者的橋梁,推動(dòng)大模型在算法智能領(lǐng)域邁向新高度。未來,隨著模型能力和評(píng)測需求的不斷演進(jìn),OIBench 也會(huì)持續(xù)迭代,與大家共同見證 AI 推理的進(jìn)化之路。
與此同時(shí),我們也觀察到,對(duì)于大多數(shù)人類開發(fā)者來說,即使他們接受過專業(yè)的算法設(shè)計(jì)訓(xùn)練,面對(duì)高難度算法和復(fù)雜系統(tǒng)設(shè)計(jì),同樣需要工具和智能助手的輔助才能更上一層樓。大模型的強(qiáng)大推理和代碼生成能力,正好能為人類開發(fā)者提供有力支持,幫助他們提升算法設(shè)計(jì)和代碼實(shí)現(xiàn)的效率。OIBench 促使我們深入思考:未來的代碼開發(fā),已超越 “人” 或 “模型” 單打獨(dú)斗的模式,轉(zhuǎn)變?yōu)槿藱C(jī)協(xié)同、優(yōu)勢互補(bǔ)的新范式。
5. OI 賽題之外 —— Code Agent 催生的評(píng)測范式遷移
當(dāng)前大量涌現(xiàn)的 Code Agent 類框架與產(chǎn)品,使得人機(jī)協(xié)作解決更加復(fù)雜的工程問題成為可能,這預(yù)示著對(duì) Code Agent 在實(shí)際工程場景中與人類協(xié)作能力的評(píng)估,將變得日益關(guān)鍵。然而,現(xiàn)有的 Code Agent 評(píng)測基準(zhǔn)(如 SWE-bench 系列)存在一個(gè)核心問題:它們將人類開發(fā)者完全排除在評(píng)估流程之外。這種 “端到端” 的自動(dòng)化評(píng)測,雖然能比較容易的量化模型在封閉任務(wù)上的表現(xiàn),卻無法回答一個(gè)更關(guān)鍵的問題:在真實(shí)、開放的開發(fā)環(huán)境中,Code Agent 能否與人類高效協(xié)作?當(dāng)前多數(shù) Code Agent 框架在交互設(shè)計(jì)上對(duì)人機(jī)交互的忽視,導(dǎo)致其評(píng)測結(jié)果與實(shí)際應(yīng)用價(jià)值之間存在明顯脫節(jié)。
結(jié)合 OIBench 引發(fā)的關(guān)于人機(jī)協(xié)同、優(yōu)勢互補(bǔ)的思考,Meituan-M17團(tuán)隊(duì) 也開始關(guān)注人機(jī)協(xié)作評(píng)測這一新的評(píng)測范式在 Code Agent 場景的應(yīng)用,進(jìn)而彌補(bǔ)當(dāng)前范式引起的評(píng)測結(jié)果與實(shí)際應(yīng)用價(jià)值間的鴻溝。基于此,我們與 AGI-Eval 評(píng)測社區(qū)合作,設(shè)計(jì)并計(jì)劃舉辦一項(xiàng)創(chuàng)新的人機(jī)協(xié)作編程競賽。
競賽核心設(shè)計(jì)如下:
- 評(píng)測目標(biāo):競賽旨在真實(shí)模擬人類開發(fā)者與搭載不同大模型的 Code Agent 協(xié)作解決復(fù)雜工程任務(wù)的全過程。我們關(guān)注的不再僅僅是任務(wù)的最終成敗,而是整個(gè)協(xié)作流程的質(zhì)量與效率。
- 關(guān)鍵指標(biāo):我們將記錄并分析一系列過程性指標(biāo),包括:模型的意圖理解準(zhǔn)確度、需求澄清的有效性、交互輪次、決策效率以及最終任務(wù)完成的質(zhì)量與速度。
評(píng)測流程如下:
- 價(jià)值與產(chǎn)出:
- 首個(gè)人機(jī)協(xié)作榜單:我們將產(chǎn)出首個(gè)聚焦人機(jī)協(xié)作效能的 Code Agent 性能榜單,從模型硬實(shí)力(自主解決問題的能力)與協(xié)作流暢度(與人交互的體驗(yàn))兩大維度進(jìn)行評(píng)估。
- 深度洞察與改進(jìn):這些寶貴的數(shù)據(jù)和洞察,將揭示當(dāng)前 Code Agent 在真實(shí)協(xié)作場景下的優(yōu)勢與短板,為打造更智能、更實(shí)用的下一代開發(fā)工具提供堅(jiān)實(shí)的實(shí)證依據(jù),真正推動(dòng)人機(jī)協(xié)同編程走向成熟。
這項(xiàng)競賽不僅填補(bǔ)了現(xiàn)有評(píng)測體系的空白,更為探索未來人機(jī)協(xié)作的無限可能提供了寶貴的數(shù)據(jù)和實(shí)踐參考。對(duì)這項(xiàng)比賽感興趣的小伙伴,歡迎前往 AGI-Eval 評(píng)測社區(qū)了解詳情。
網(wǎng)頁端地址:https://agi-eval.cn/competition/activity
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.