網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型全員0分！謝賽寧華人團(tuán)隊(duì)，最新編程競(jìng)賽基準(zhǔn)排行榜出爐

2025-06-19 10:06:55　來(lái)源: 量子位

北京舉報(bào)

分享至

聞樂(lè) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

好夸張……

參賽大模型全軍覆沒(méi)，通通0分。

謝賽寧等人出題，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一眾模型全都難倒。

到底是什么讓一眾領(lǐng)先模型一敗涂地？

LiveCodeBench Pro：一個(gè)包含來(lái)自IOI、Codeforces和ICPC的競(jìng)賽級(jí)編程問(wèn)題的實(shí)時(shí)基準(zhǔn)測(cè)試。

題庫(kù)還每日更新，來(lái)預(yù)防LLMs“背題”，不得不說(shuō)這太狠了（doge）。

謝賽寧雖然也參與了這項(xiàng)工作，但他謙虛地說(shuō)自己只是個(gè)啦啦隊(duì)成員。

此前有報(bào)道稱(chēng)，LLM編程現(xiàn)在已超越人類(lèi)專(zhuān)家，但本次測(cè)試結(jié)果表明并非如此。

表現(xiàn)最佳的模型，在中等難度題上的一次通過(guò)率僅53%，難題通過(guò)率更是為0。

即使是最好的模型o4-mini-high，一旦工具調(diào)用被屏蔽，Elo也只有2100，遠(yuǎn)低于真正大師級(jí)的2700傳奇線。

謝賽寧表示：

擊敗這個(gè)基準(zhǔn)就像AlphaGo擊敗李世石一樣。我們還沒(méi)有達(dá)到那個(gè)水平——甚至對(duì)于有明確可驗(yàn)證結(jié)果的問(wèn)題也是如此。

LiveCodeBench Pro：動(dòng)態(tài)題庫(kù)考驗(yàn)LLMs算法邏輯深度

測(cè)試是如何構(gòu)建的

該基準(zhǔn)由一眾奧林匹克獲獎(jiǎng)?wù)邩?gòu)建，在比賽結(jié)束后立即收集每道Codeforces、ICPC和IOI題目，在互聯(lián)網(wǎng)上出現(xiàn)正確答案之前捕獲每個(gè)問(wèn)題。

每日更新題庫(kù)，以減少數(shù)據(jù)污染，保證評(píng)估環(huán)境的真實(shí)性與挑戰(zhàn)性。

測(cè)試收錄了584道頂流競(jìng)賽題，團(tuán)隊(duì)手動(dòng)對(duì)每個(gè)問(wèn)題進(jìn)行標(biāo)注，標(biāo)注內(nèi)容包括解決每個(gè)任務(wù)所需的關(guān)鍵技能，并根據(jù)問(wèn)題的認(rèn)知焦點(diǎn)將題目分為知識(shí)密集型邏輯密集型觀察密集型三大類(lèi)。

還將題目分為三個(gè)難度級(jí)別，這并非是人工挑選的，而是通過(guò)正態(tài)分布自動(dòng)選擇

例如，所有Codeforces問(wèn)題的評(píng)分在2000分以上的都會(huì)被歸入困難等級(jí)。

模型具體表現(xiàn)

團(tuán)隊(duì)會(huì)基于題目背后的算法思想進(jìn)行分類(lèi)，記錄Codeforces官方難度評(píng)級(jí)（對(duì)應(yīng)Elo分?jǐn)?shù)下50%的成功率），同時(shí)梳理關(guān)鍵觀察點(diǎn)、常見(jiàn)陷阱及邊緣案例，為評(píng)估提供多維度參考。

在測(cè)試過(guò)程中，團(tuán)隊(duì)對(duì)模型和人類(lèi)專(zhuān)家提交的每個(gè)解決方案，記錄其判定結(jié)果（如通過(guò)、答案錯(cuò)誤、超時(shí)等），并標(biāo)注根本原因（思路層面錯(cuò)誤或?qū)崿F(xiàn)層面錯(cuò)誤）。

如果代碼無(wú)法通過(guò)題目自帶的樣例輸入輸出，會(huì)標(biāo)記 “樣例未通過(guò)”。

結(jié)合題目分類(lèi)與提交結(jié)果，對(duì)比人類(lèi)專(zhuān)家的解題模式，分析模型在不同難度（簡(jiǎn)單 / 中等 / 困難）、題型（知識(shí)密集型 / 邏輯密集型 / 觀察密集型）下的表現(xiàn)，定位模型在算法推理、樣例利用及邊緣案例處理等方面的短板。

團(tuán)隊(duì)一共測(cè)試了22款大模型，并根據(jù)表現(xiàn)給出了完整榜單，大家可以自行查看任何一個(gè)模型在每一個(gè)問(wèn)題上給出的解決方法。

同時(shí)繪制了每一個(gè)模型的評(píng)分趨勢(shì)，可供自由選擇想要了解的模型。

測(cè)試結(jié)果顯示

模型在知識(shí)密集型和邏輯密集型問(wèn)題上表現(xiàn)更好，擅長(zhǎng) “死記硬背”（如數(shù)據(jù)結(jié)構(gòu)模板），但在觀察密集型問(wèn)題或案例工作中表現(xiàn)較差，搞不定 “靈光一現(xiàn)” 的貪心、博弈題。

與人類(lèi)相比，o3-mini 等模型在精確、無(wú)錯(cuò)誤的實(shí)現(xiàn)方面展現(xiàn)出更高級(jí)的技能，但在算法設(shè)計(jì)方面遜色。

LLMs擅長(zhǎng)實(shí)現(xiàn)類(lèi)問(wèn)題，但在需要精細(xì)算法推理和復(fù)雜案例分析的題目上表現(xiàn)欠佳，還常給出看似正確實(shí)則錯(cuò)誤的解釋。

LLMs經(jīng)常無(wú)法正確通過(guò)題目提供的示例輸入，顯示其對(duì)給定信息的利用不充分。

LLMs很大程度上依賴工具增強(qiáng)（如終端訪問(wèn)、網(wǎng)絡(luò)搜索），而非自身推理能力。

團(tuán)隊(duì)還增加了嘗試次數(shù)（pass@k），并發(fā)現(xiàn)這樣可以顯著提升LLMs在中簡(jiǎn)單題的表現(xiàn)，但對(duì)難題依舊無(wú)力。

比如，通過(guò)增加o3-high模型的嘗試次數(shù)來(lái)測(cè)試其性能，但無(wú)論嘗試多少次，它仍然無(wú)法解決任何一個(gè)困難分區(qū)的題目。

啟用推理功能后，LLMs在組合數(shù)學(xué)等知識(shí)密集型題目中提升明顯，但在觀察密集型題目中提升有限。

研究員還透露，每個(gè)季度，團(tuán)隊(duì)都將發(fā)布一個(gè)完全全新的評(píng)估集，保證數(shù)據(jù)的時(shí)效性。

團(tuán)隊(duì)超半數(shù)成員為華人

LiveCodeBench Pro團(tuán)隊(duì)由一眾奧林匹克競(jìng)賽得獎(jiǎng)?wù)呓M成，其中超半數(shù)成員為華人。

該項(xiàng)目的主要負(fù)責(zé)人鄭子涵畢業(yè)于成都外國(guó)語(yǔ)學(xué)校，現(xiàn)于紐約大學(xué)本科在讀，曾代表紐約大學(xué)參加ICPC世界總決賽，獲得第二名。

他先后在騰訊、英偉達(dá)擔(dān)任研發(fā)實(shí)習(xí)生，今年2月份以實(shí)習(xí)生的身份進(jìn)入OpenAI。

另一位負(fù)責(zé)人柴文浩于2023年在浙江大學(xué)完成本科學(xué)業(yè)，碩士就讀于華盛頓大學(xué)，今年9月將前往普林斯頓大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)就讀博士。

他曾于Pika Labs和微軟亞洲研究院實(shí)習(xí)，先前研究主要涉及視頻理解和生成模型。

他領(lǐng)導(dǎo)開(kāi)發(fā)了MovieChat，這是第一個(gè)用于長(zhǎng)視頻理解的超大多模態(tài)模型。

并且，他在ICLR、CVPR、ICCV等頂會(huì)期刊發(fā)表過(guò)相關(guān)研究論文。

該項(xiàng)目的其他參與者分別來(lái)自加州大學(xué)、普林斯頓大學(xué)等，這是一支非常年輕的隊(duì)伍。

論文地址：https://arxiv.org/abs/2506.11928
項(xiàng)目地址：https://github.com/GavinZhengOI/LiveCodeBench-Pro
排行榜：https://livecodebenchpro.com/

[1]https://x.com/ZihanZheng71803/status/1934780656665677928
[2]https://x.com/rohanpaul_ai/status/1934751145400111572
[3]https://x.com/sainingxie/status/1934786355969851630

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.