99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型全員0分!謝賽寧華人團(tuán)隊(duì),最新編程競(jìng)賽基準(zhǔn)排行榜出爐

0
分享至

聞樂(lè) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

好夸張……

參賽大模型全軍覆沒(méi),通通0分。

謝賽寧等人出題,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一眾模型全都難倒。



到底是什么讓一眾領(lǐng)先模型一敗涂地?



LiveCodeBench Pro:一個(gè)包含來(lái)自IOI、Codeforces和ICPC的競(jìng)賽級(jí)編程問(wèn)題的實(shí)時(shí)基準(zhǔn)測(cè)試。

題庫(kù)還每日更新,來(lái)預(yù)防LLMs“背題”,不得不說(shuō)這太狠了(doge)。



謝賽寧雖然也參與了這項(xiàng)工作,但他謙虛地說(shuō)自己只是個(gè)啦啦隊(duì)成員。



此前有報(bào)道稱(chēng),LLM編程現(xiàn)在已超越人類(lèi)專(zhuān)家,但本次測(cè)試結(jié)果表明并非如此。

表現(xiàn)最佳的模型,在中等難度題上的一次通過(guò)率僅53%,難題通過(guò)率更是為0。

即使是最好的模型o4-mini-high,一旦工具調(diào)用被屏蔽,Elo也只有2100,遠(yuǎn)低于真正大師級(jí)的2700傳奇線。



謝賽寧表示:

  • 擊敗這個(gè)基準(zhǔn)就像AlphaGo擊敗李世石一樣。我們還沒(méi)有達(dá)到那個(gè)水平——甚至對(duì)于有明確可驗(yàn)證結(jié)果的問(wèn)題也是如此。



LiveCodeBench Pro:動(dòng)態(tài)題庫(kù)考驗(yàn)LLMs算法邏輯深度
測(cè)試是如何構(gòu)建的

該基準(zhǔn)由一眾奧林匹克獲獎(jiǎng)?wù)邩?gòu)建,在比賽結(jié)束后立即收集每道Codeforces、ICPC和IOI題目,在互聯(lián)網(wǎng)上出現(xiàn)正確答案之前捕獲每個(gè)問(wèn)題。

每日更新題庫(kù),以減少數(shù)據(jù)污染,保證評(píng)估環(huán)境的真實(shí)性與挑戰(zhàn)性。

測(cè)試收錄了584道頂流競(jìng)賽題,團(tuán)隊(duì)手動(dòng)對(duì)每個(gè)問(wèn)題進(jìn)行標(biāo)注,標(biāo)注內(nèi)容包括解決每個(gè)任務(wù)所需的關(guān)鍵技能,并根據(jù)問(wèn)題的認(rèn)知焦點(diǎn)將題目分為知識(shí)密集型邏輯密集型觀察密集型三大類(lèi)。

還將題目分為三個(gè)難度級(jí)別,這并非是人工挑選的,而是通過(guò)正態(tài)分布自動(dòng)選擇

例如,所有Codeforces問(wèn)題的評(píng)分在2000分以上的都會(huì)被歸入困難等級(jí)。



模型具體表現(xiàn)

團(tuán)隊(duì)會(huì)基于題目背后的算法思想進(jìn)行分類(lèi),記錄Codeforces官方難度評(píng)級(jí)(對(duì)應(yīng)Elo分?jǐn)?shù)下50%的成功率),同時(shí)梳理關(guān)鍵觀察點(diǎn)、常見(jiàn)陷阱及邊緣案例,為評(píng)估提供多維度參考。

在測(cè)試過(guò)程中,團(tuán)隊(duì)對(duì)模型和人類(lèi)專(zhuān)家提交的每個(gè)解決方案,記錄其判定結(jié)果(如通過(guò)、答案錯(cuò)誤、超時(shí)等),并標(biāo)注根本原因(思路層面錯(cuò)誤或?qū)崿F(xiàn)層面錯(cuò)誤)。

如果代碼無(wú)法通過(guò)題目自帶的樣例輸入輸出,會(huì)標(biāo)記 “樣例未通過(guò)”。

結(jié)合題目分類(lèi)與提交結(jié)果,對(duì)比人類(lèi)專(zhuān)家的解題模式,分析模型在不同難度(簡(jiǎn)單 / 中等 / 困難)、題型(知識(shí)密集型 / 邏輯密集型 / 觀察密集型)下的表現(xiàn),定位模型在算法推理、樣例利用及邊緣案例處理等方面的短板。



團(tuán)隊(duì)一共測(cè)試了22款大模型,并根據(jù)表現(xiàn)給出了完整榜單,大家可以自行查看任何一個(gè)模型在每一個(gè)問(wèn)題上給出的解決方法。





同時(shí)繪制了每一個(gè)模型的評(píng)分趨勢(shì),可供自由選擇想要了解的模型。





測(cè)試結(jié)果顯示

模型在知識(shí)密集型和邏輯密集型問(wèn)題上表現(xiàn)更好,擅長(zhǎng) “死記硬背”(如數(shù)據(jù)結(jié)構(gòu)模板),但在觀察密集型問(wèn)題或案例工作中表現(xiàn)較差,搞不定 “靈光一現(xiàn)” 的貪心、博弈題。



與人類(lèi)相比,o3-mini 等模型在精確、無(wú)錯(cuò)誤的實(shí)現(xiàn)方面展現(xiàn)出更高級(jí)的技能,但在算法設(shè)計(jì)方面遜色。

LLMs擅長(zhǎng)實(shí)現(xiàn)類(lèi)問(wèn)題,但在需要精細(xì)算法推理和復(fù)雜案例分析的題目上表現(xiàn)欠佳,還常給出看似正確實(shí)則錯(cuò)誤的解釋。

LLMs經(jīng)常無(wú)法正確通過(guò)題目提供的示例輸入,顯示其對(duì)給定信息的利用不充分。



LLMs很大程度上依賴工具增強(qiáng)(如終端訪問(wèn)、網(wǎng)絡(luò)搜索),而非自身推理能力。

團(tuán)隊(duì)還增加了嘗試次數(shù)(pass@k),并發(fā)現(xiàn)這樣可以顯著提升LLMs在中簡(jiǎn)單題的表現(xiàn),但對(duì)難題依舊無(wú)力。

比如,通過(guò)增加o3-high模型的嘗試次數(shù)來(lái)測(cè)試其性能,但無(wú)論嘗試多少次,它仍然無(wú)法解決任何一個(gè)困難分區(qū)的題目。



啟用推理功能后,LLMs在組合數(shù)學(xué)等知識(shí)密集型題目中提升明顯,但在觀察密集型題目中提升有限。



研究員還透露,每個(gè)季度,團(tuán)隊(duì)都將發(fā)布一個(gè)完全全新的評(píng)估集,保證數(shù)據(jù)的時(shí)效性。



團(tuán)隊(duì)超半數(shù)成員為華人

LiveCodeBench Pro團(tuán)隊(duì)由一眾奧林匹克競(jìng)賽得獎(jiǎng)?wù)呓M成,其中超半數(shù)成員為華人。

該項(xiàng)目的主要負(fù)責(zé)人鄭子涵畢業(yè)于成都外國(guó)語(yǔ)學(xué)校,現(xiàn)于紐約大學(xué)本科在讀,曾代表紐約大學(xué)參加ICPC世界總決賽,獲得第二名。

他先后在騰訊、英偉達(dá)擔(dān)任研發(fā)實(shí)習(xí)生,今年2月份以實(shí)習(xí)生的身份進(jìn)入OpenAI。



另一位負(fù)責(zé)人柴文浩于2023年在浙江大學(xué)完成本科學(xué)業(yè),碩士就讀于華盛頓大學(xué),今年9月將前往普林斯頓大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)就讀博士。

他曾于Pika Labs和微軟亞洲研究院實(shí)習(xí),先前研究主要涉及視頻理解和生成模型。

他領(lǐng)導(dǎo)開(kāi)發(fā)了MovieChat,這是第一個(gè)用于長(zhǎng)視頻理解的超大多模態(tài)模型。

并且,他在ICLR、CVPR、ICCV等頂會(huì)期刊發(fā)表過(guò)相關(guān)研究論文。



該項(xiàng)目的其他參與者分別來(lái)自加州大學(xué)、普林斯頓大學(xué)等,這是一支非常年輕的隊(duì)伍。

論文地址:https://arxiv.org/abs/2506.11928
項(xiàng)目地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro
排行榜:https://livecodebenchpro.com/


[1]https://x.com/ZihanZheng71803/status/1934780656665677928
[2]https://x.com/rohanpaul_ai/status/1934751145400111572
[3]https://x.com/sainingxie/status/1934786355969851630

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
表面道貌岸然,實(shí)則徒有其表!是時(shí)候揭開(kāi)73歲唐國(guó)強(qiáng)的“真面目”

表面道貌岸然,實(shí)則徒有其表!是時(shí)候揭開(kāi)73歲唐國(guó)強(qiáng)的“真面目”

二月侃事
2025-06-19 20:44:14
東契奇:對(duì)未來(lái)充滿期待,期待為湖人贏得總冠軍

東契奇:對(duì)未來(lái)充滿期待,期待為湖人贏得總冠軍

懂球帝
2025-06-20 02:28:11
伊朗攤牌,公布美軍10大靶標(biāo),格羅西急忙改口,要特朗普冷靜冷靜

伊朗攤牌,公布美軍10大靶標(biāo),格羅西急忙改口,要特朗普冷靜冷靜

基斯默默
2025-06-20 00:26:29
目標(biāo)花光1.4億圖片報(bào):滕哈赫?qǐng)?zhí)教的勒沃庫(kù)森正計(jì)劃多筆引援

目標(biāo)花光1.4億圖片報(bào):滕哈赫?qǐng)?zhí)教的勒沃庫(kù)森正計(jì)劃多筆引援

直播吧
2025-06-19 23:15:24
剛剛宣布,不降息!

剛剛宣布,不降息!

中國(guó)基金報(bào)
2025-06-19 21:54:17
超級(jí)喜訊!王欣瑜罕見(jiàn)爆發(fā),2-0送世界第二出局,四連勝殺進(jìn)八強(qiáng)

超級(jí)喜訊!王欣瑜罕見(jiàn)爆發(fā),2-0送世界第二出局,四連勝殺進(jìn)八強(qiáng)

侃球熊弟
2025-06-20 00:11:49
北青體育:蒯紀(jì)聞、朱鵬宇、陶強(qiáng)龍等多名00后進(jìn)東亞杯備選陣容

北青體育:蒯紀(jì)聞、朱鵬宇、陶強(qiáng)龍等多名00后進(jìn)東亞杯備選陣容

直播吧
2025-06-19 17:44:57
全網(wǎng)熱議!具俊曄定居大S安息地旁?S媽怒懟汪小菲:有事當(dāng)面說(shuō)!

全網(wǎng)熱議!具俊曄定居大S安息地旁?S媽怒懟汪小菲:有事當(dāng)面說(shuō)!

草莓解說(shuō)體育
2025-06-20 00:36:18
小米集團(tuán)總裁盧偉冰劇透小米YU7價(jià)格:價(jià)格不會(huì)太便宜,比SU7 Pro配置還要高!要卷產(chǎn)品,卷技術(shù),卷用戶價(jià)值

小米集團(tuán)總裁盧偉冰劇透小米YU7價(jià)格:價(jià)格不會(huì)太便宜,比SU7 Pro配置還要高!要卷產(chǎn)品,卷技術(shù),卷用戶價(jià)值

和訊網(wǎng)
2025-06-19 09:24:24
曾被打0-6!晚上22點(diǎn)“王美人”挑戰(zhàn)世界第2 力爭(zhēng)4場(chǎng)連勝+殺入8強(qiáng)

曾被打0-6!晚上22點(diǎn)“王美人”挑戰(zhàn)世界第2 力爭(zhēng)4場(chǎng)連勝+殺入8強(qiáng)

風(fēng)過(guò)鄉(xiāng)
2025-06-19 09:46:22
2013年,外賣(mài)小哥貪便宜買(mǎi)下北京兇宅爛尾樓,10年后整條街是他的

2013年,外賣(mài)小哥貪便宜買(mǎi)下北京兇宅爛尾樓,10年后整條街是他的

罪案洞察者
2025-06-16 20:35:39
失策了!沒(méi)等到訪華邀請(qǐng),先收到中國(guó)的加稅通知,28個(gè)盟友齊遭殃

失策了!沒(méi)等到訪華邀請(qǐng),先收到中國(guó)的加稅通知,28個(gè)盟友齊遭殃

獵火照狼山
2025-05-24 19:28:53
阿姨良心珍妮留任是為了讓她雇的那些人的合同平穩(wěn)走完

阿姨良心珍妮留任是為了讓她雇的那些人的合同平穩(wěn)走完

直播吧
2025-06-19 08:02:23
她才是娛樂(lè)圈公認(rèn)的大美女:已經(jīng)39歲了,但顏值高過(guò)好多年輕女星

她才是娛樂(lè)圈公認(rèn)的大美女:已經(jīng)39歲了,但顏值高過(guò)好多年輕女星

逍遙史記
2025-06-13 15:42:40
2-0!23歲中國(guó)莎娃爆大冷,復(fù)仇高芙首進(jìn)草地賽8強(qiáng),生涯首勝TOP2

2-0!23歲中國(guó)莎娃爆大冷,復(fù)仇高芙首進(jìn)草地賽8強(qiáng),生涯首勝TOP2

我愛(ài)英超
2025-06-20 01:09:48
蒙特雷對(duì)國(guó)米祭出“雙人墻”怪陣,球迷吐槽:足球完了

蒙特雷對(duì)國(guó)米祭出“雙人墻”怪陣,球迷吐槽:足球完了

直播吧
2025-06-19 16:54:04
又一銷(xiāo)冠離職,深扒之下,三大原因造成東方甄選“首位淘汰制”

又一銷(xiāo)冠離職,深扒之下,三大原因造成東方甄選“首位淘汰制”

簡(jiǎn)讀視覺(jué)
2025-06-19 18:56:17
澳洲少年圍毆中國(guó)立功軍人,打人者被反殺打到慫,當(dāng)?shù)厝死溲叟杂^

澳洲少年圍毆中國(guó)立功軍人,打人者被反殺打到慫,當(dāng)?shù)厝死溲叟杂^

墨印齋
2025-06-19 14:45:50
發(fā)現(xiàn)一個(gè)殘酷真相:無(wú)論男女,中年以后,沒(méi)有特殊經(jīng)濟(jì)困難,不要用時(shí)間和體力換錢(qián),這是非常愚蠢的做法!

發(fā)現(xiàn)一個(gè)殘酷真相:無(wú)論男女,中年以后,沒(méi)有特殊經(jīng)濟(jì)困難,不要用時(shí)間和體力換錢(qián),這是非常愚蠢的做法!

讀史
2025-06-18 06:59:47
千萬(wàn)不要相信網(wǎng)上的毒雞湯,有研究生學(xué)歷已經(jīng)超過(guò)大多數(shù)普通人

千萬(wàn)不要相信網(wǎng)上的毒雞湯,有研究生學(xué)歷已經(jīng)超過(guò)大多數(shù)普通人

曉風(fēng)說(shuō)
2025-05-24 14:35:52
2025-06-20 02:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10698文章數(shù) 176169關(guān)注度
往期回顧 全部

科技要聞

羅永浩數(shù)字人爆火,可怕的不是5500萬(wàn)GMV

頭條要聞

特朗普將TikTok"不賣(mài)就禁用"法案執(zhí)行寬限期再延90天

頭條要聞

特朗普將TikTok"不賣(mài)就禁用"法案執(zhí)行寬限期再延90天

體育要聞

22年,云南足球走出了一條自己的路

娛樂(lè)要聞

章子怡“吃蛋糕”戲在全網(wǎng)爆火

財(cái)經(jīng)要聞

Labubu黃牛價(jià)腰斬 誰(shuí)會(huì)是最后的接盤(pán)俠

汽車(chē)要聞

5.99萬(wàn)起/空間大續(xù)航長(zhǎng) 純電小車(chē)凱翼拾月Mate上市

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
健康
游戲
手機(jī)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

房產(chǎn)要聞

預(yù)定爆款!江東CBD+海中,海口這一國(guó)企大盤(pán),即將引爆市場(chǎng)!

呼吸科專(zhuān)家破解呼吸道九大謠言!

竟然直接雙開(kāi)?《心之眼2》主打多人疑似明年發(fā)售

手機(jī)要聞

小米紅米新品下周來(lái) 新品開(kāi)箱體驗(yàn)搶先看

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 苍南县| 芒康县| 长兴县| 辽阳县| 辽宁省| 南京市| 岳阳市| 靖宇县| 黔西| 宜阳县| 儋州市| 汉中市| 达日县| 原平市| 廊坊市| 阿尔山市| 炉霍县| 九龙城区| 儋州市| 桐乡市| 芷江| 山阳县| 昭觉县| 梅州市| 施甸县| 江北区| 鄂尔多斯市| 忻城县| 瑞金市| 林西县| 深圳市| 富锦市| 镇沅| 藁城市| 澄江县| 扎兰屯市| 攀枝花市| 蒙城县| 元氏县| 滨州市| 涞源县|