聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
好夸張……
參賽大模型全軍覆沒(méi),通通0分。
謝賽寧等人出題,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一眾模型全都難倒。
到底是什么讓一眾領(lǐng)先模型一敗涂地?
LiveCodeBench Pro:一個(gè)包含來(lái)自IOI、Codeforces和ICPC的競(jìng)賽級(jí)編程問(wèn)題的實(shí)時(shí)基準(zhǔn)測(cè)試。
題庫(kù)還每日更新,來(lái)預(yù)防LLMs“背題”,不得不說(shuō)這太狠了(doge)。
謝賽寧雖然也參與了這項(xiàng)工作,但他謙虛地說(shuō)自己只是個(gè)啦啦隊(duì)成員。
此前有報(bào)道稱(chēng),LLM編程現(xiàn)在已超越人類(lèi)專(zhuān)家,但本次測(cè)試結(jié)果表明并非如此。
表現(xiàn)最佳的模型,在中等難度題上的一次通過(guò)率僅53%,難題通過(guò)率更是為0。
即使是最好的模型o4-mini-high,一旦工具調(diào)用被屏蔽,Elo也只有2100,遠(yuǎn)低于真正大師級(jí)的2700傳奇線。
謝賽寧表示:
- 擊敗這個(gè)基準(zhǔn)就像AlphaGo擊敗李世石一樣。我們還沒(méi)有達(dá)到那個(gè)水平——甚至對(duì)于有明確可驗(yàn)證結(jié)果的問(wèn)題也是如此。
LiveCodeBench Pro:動(dòng)態(tài)題庫(kù)考驗(yàn)LLMs算法邏輯深度
測(cè)試是如何構(gòu)建的
該基準(zhǔn)由一眾奧林匹克獲獎(jiǎng)?wù)邩?gòu)建,在比賽結(jié)束后立即收集每道Codeforces、ICPC和IOI題目,在互聯(lián)網(wǎng)上出現(xiàn)正確答案之前捕獲每個(gè)問(wèn)題。
每日更新題庫(kù),以減少數(shù)據(jù)污染,保證評(píng)估環(huán)境的真實(shí)性與挑戰(zhàn)性。
測(cè)試收錄了584道頂流競(jìng)賽題,團(tuán)隊(duì)手動(dòng)對(duì)每個(gè)問(wèn)題進(jìn)行標(biāo)注,標(biāo)注內(nèi)容包括解決每個(gè)任務(wù)所需的關(guān)鍵技能,并根據(jù)問(wèn)題的認(rèn)知焦點(diǎn)將題目分為知識(shí)密集型邏輯密集型觀察密集型三大類(lèi)。
還將題目分為三個(gè)難度級(jí)別,這并非是人工挑選的,而是通過(guò)正態(tài)分布自動(dòng)選擇
例如,所有Codeforces問(wèn)題的評(píng)分在2000分以上的都會(huì)被歸入困難等級(jí)。
模型具體表現(xiàn)
團(tuán)隊(duì)會(huì)基于題目背后的算法思想進(jìn)行分類(lèi),記錄Codeforces官方難度評(píng)級(jí)(對(duì)應(yīng)Elo分?jǐn)?shù)下50%的成功率),同時(shí)梳理關(guān)鍵觀察點(diǎn)、常見(jiàn)陷阱及邊緣案例,為評(píng)估提供多維度參考。
在測(cè)試過(guò)程中,團(tuán)隊(duì)對(duì)模型和人類(lèi)專(zhuān)家提交的每個(gè)解決方案,記錄其判定結(jié)果(如通過(guò)、答案錯(cuò)誤、超時(shí)等),并標(biāo)注根本原因(思路層面錯(cuò)誤或?qū)崿F(xiàn)層面錯(cuò)誤)。
如果代碼無(wú)法通過(guò)題目自帶的樣例輸入輸出,會(huì)標(biāo)記 “樣例未通過(guò)”。
結(jié)合題目分類(lèi)與提交結(jié)果,對(duì)比人類(lèi)專(zhuān)家的解題模式,分析模型在不同難度(簡(jiǎn)單 / 中等 / 困難)、題型(知識(shí)密集型 / 邏輯密集型 / 觀察密集型)下的表現(xiàn),定位模型在算法推理、樣例利用及邊緣案例處理等方面的短板。
團(tuán)隊(duì)一共測(cè)試了22款大模型,并根據(jù)表現(xiàn)給出了完整榜單,大家可以自行查看任何一個(gè)模型在每一個(gè)問(wèn)題上給出的解決方法。
同時(shí)繪制了每一個(gè)模型的評(píng)分趨勢(shì),可供自由選擇想要了解的模型。
測(cè)試結(jié)果顯示
模型在知識(shí)密集型和邏輯密集型問(wèn)題上表現(xiàn)更好,擅長(zhǎng) “死記硬背”(如數(shù)據(jù)結(jié)構(gòu)模板),但在觀察密集型問(wèn)題或案例工作中表現(xiàn)較差,搞不定 “靈光一現(xiàn)” 的貪心、博弈題。
與人類(lèi)相比,o3-mini 等模型在精確、無(wú)錯(cuò)誤的實(shí)現(xiàn)方面展現(xiàn)出更高級(jí)的技能,但在算法設(shè)計(jì)方面遜色。
LLMs擅長(zhǎng)實(shí)現(xiàn)類(lèi)問(wèn)題,但在需要精細(xì)算法推理和復(fù)雜案例分析的題目上表現(xiàn)欠佳,還常給出看似正確實(shí)則錯(cuò)誤的解釋。
LLMs經(jīng)常無(wú)法正確通過(guò)題目提供的示例輸入,顯示其對(duì)給定信息的利用不充分。
LLMs很大程度上依賴工具增強(qiáng)(如終端訪問(wèn)、網(wǎng)絡(luò)搜索),而非自身推理能力。
團(tuán)隊(duì)還增加了嘗試次數(shù)(pass@k),并發(fā)現(xiàn)這樣可以顯著提升LLMs在中簡(jiǎn)單題的表現(xiàn),但對(duì)難題依舊無(wú)力。
比如,通過(guò)增加o3-high模型的嘗試次數(shù)來(lái)測(cè)試其性能,但無(wú)論嘗試多少次,它仍然無(wú)法解決任何一個(gè)困難分區(qū)的題目。
啟用推理功能后,LLMs在組合數(shù)學(xué)等知識(shí)密集型題目中提升明顯,但在觀察密集型題目中提升有限。
研究員還透露,每個(gè)季度,團(tuán)隊(duì)都將發(fā)布一個(gè)完全全新的評(píng)估集,保證數(shù)據(jù)的時(shí)效性。
團(tuán)隊(duì)超半數(shù)成員為華人
LiveCodeBench Pro團(tuán)隊(duì)由一眾奧林匹克競(jìng)賽得獎(jiǎng)?wù)呓M成,其中超半數(shù)成員為華人。
該項(xiàng)目的主要負(fù)責(zé)人鄭子涵畢業(yè)于成都外國(guó)語(yǔ)學(xué)校,現(xiàn)于紐約大學(xué)本科在讀,曾代表紐約大學(xué)參加ICPC世界總決賽,獲得第二名。
他先后在騰訊、英偉達(dá)擔(dān)任研發(fā)實(shí)習(xí)生,今年2月份以實(shí)習(xí)生的身份進(jìn)入OpenAI。
另一位負(fù)責(zé)人柴文浩于2023年在浙江大學(xué)完成本科學(xué)業(yè),碩士就讀于華盛頓大學(xué),今年9月將前往普林斯頓大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)就讀博士。
他曾于Pika Labs和微軟亞洲研究院實(shí)習(xí),先前研究主要涉及視頻理解和生成模型。
他領(lǐng)導(dǎo)開(kāi)發(fā)了MovieChat,這是第一個(gè)用于長(zhǎng)視頻理解的超大多模態(tài)模型。
并且,他在ICLR、CVPR、ICCV等頂會(huì)期刊發(fā)表過(guò)相關(guān)研究論文。
該項(xiàng)目的其他參與者分別來(lái)自加州大學(xué)、普林斯頓大學(xué)等,這是一支非常年輕的隊(duì)伍。
論文地址:https://arxiv.org/abs/2506.11928
項(xiàng)目地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro
排行榜:https://livecodebenchpro.com/
[1]https://x.com/ZihanZheng71803/status/1934780656665677928
[2]https://x.com/rohanpaul_ai/status/1934751145400111572
[3]https://x.com/sainingxie/status/1934786355969851630
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.