99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

幾位00后推出新編程基準測試,大模型全部得了0分

0
分享至

當 OpenAI 聲稱其 o3 模型在編程競賽中達到了 2700+ 的 Elo 評分,足以躋身全球頂尖選手行列時,一群年輕的研究者卻給出了截然不同的答案。由多位華人 00 后奧林匹克競賽獲獎者主導、美國紐約大學助理教授謝賽寧參與的研究團隊推出了 LiveCodeBench Pro 基準測試,結果讓人大跌眼鏡:包括最先進的 o3-high、Gemini 2.5 Pro 在內的所有大語言模型,在困難級別的編程問題上無一例外地得了 0 分。


(來源:LiveCodeBench Pro)

這個名為 LiveCodeBench Pro 的測試由來自紐約大學、美國普林斯頓大學、美國加州大學圣地亞哥分校等院校的年輕研究者共同開發。團隊的核心成員包括多位在國際信息學奧林匹克競賽(IOI,International Olympiad in Informatics)中獲得獎牌的選手。


圖丨相關論文(來源:arXiv)

項目的主要負責人之一 Zihan Zheng 畢業于成都外國語學校,如今是紐約大學的一名本科生。另一位負責人柴文浩(Wenhao Chai)是浙江大學校友,即將前往普林斯頓大學就讀博士。還有 Zerui Cheng、Shang Zhou、Zeyu Shen、Kaiyuan Liu 等共同一作也大都是本科或直博在讀,甚至 Hansen He 目前還只是一名高中生。


圖丨Zihan Zheng(左);柴文浩(右)(來源:LinkedIn)

論文指出,現有的編程評測基準存在明顯缺陷,包括測試環境不一致、測試用例薄弱容易出現假陽性、難度分布不平衡,以及無法隔離搜索污染的影響。LiveCodeBench 雖然提供了編程問題,但仍然受到這些問題困擾,而 CodeELO 等框架雖然專注于競賽編程,但依賴靜態檔案,難以區分真正的推理能力和記憶能力。

LiveCodeBench Pro 的獨特之處在于它的實時性和純凈性。研究團隊實時收集來自 Codeforces、國際大學生程序設計競賽(ICPC,International Collegiate Programming Contest)、IOI 等頂級賽事的最新題目,在任何解答或討論出現在網絡上之前就將其納入測試集。這種做法有效避免了數據泄露問題,確保模型無法通過記憶訓練數據中的答案來“作弊”。

截至 2025 年 4 月 25 日,LiveCodeBench Pro 共收錄了 584 道高質量編程題目,完全摒棄了 LeetCode 等相對簡單且容易被污染的題源。Zihan Zheng 還表示,每個季度他們都會發布一個全新的評估集,其中包含該季度獨有的問題,以最大限度地減少污染并確保最新的基準測試。

測試結果令人相當意外。研究團隊將題目按 Codeforces 風格的 Elo 難度分為三個等級:簡單(≤2000 分,世界級選手通常 15 分鐘內可解)、中等(2000-3000 分,需要融合多種算法和復雜數學推理)、困難(>3000 分,需要極其深刻的推導,連最強選手都可能無法解決)。

在最具挑戰性的困難級別上,無論是 OpenAI 的 o3-high、Google 的 Gemini 2.5 Pro,還是 DeepSeek 的 R1 模型,全部交出了 0 分的答卷。即使在中等難度的問題上,表現最好的 o4-mini-high 也只達到了 53.5% 的通過率,而 Gemini 2.5 Pro 僅為 25.4%。

值得注意的是,研究團隊計算了模型的 Codeforces 等效 Elo 評分。o4-mini-high 的評分為 2116,雖然聽起來不錯,但這僅能排在所有人類參賽者的前 1.5%,遠達不到“超越精英人類”的水平。OpenAI 宣稱的 2719 評分與實際測試結果之間存在約 400 分的差距,研究者推測這主要歸因于工具調用和終端訪問等外部輔助的作用。


圖丨LiveCodeBench Pro 排行榜(來源:arXiv)

為了深入理解模型的能力邊界,研究團隊創新性地將編程問題按認知重點分為三類。知識密集型問題主要考查對算法模板和數據結構的掌握,這類問題的解答往往需要現成的代碼模板,比如快速傅里葉變換的應用。在這類問題上,模型表現相對較好,因為相關內容在訓練數據中大量存在。


圖丨知識密集型問題示例(來源:arXiv)

邏輯密集型問題需要系統性的數學推理和逐步推導,如組合數學和動態規劃,要求將符號操作轉化為高效算法。


圖丨邏輯密集型問題示例(來源:arXiv)

觀察密集型問題則需要從問題描述中敏銳地捕捉關鍵洞察,往往一個“頓悟”就能讓復雜問題迎刃而解。


圖丨觀察密集型問題示例(來源:arXiv)

測試結果顯示,模型在不同類型問題上的表現差異巨大。在線段樹、圖論、數據結構等知識密集型問題上,多數模型都能達到相當水平,這些問題本質上考驗的是代碼實現能力和算法庫的掌握程度。在組合數學、動態規劃等邏輯密集型問題上,模型表現中等,能夠進行一定程度的邏輯推理。


(來源:arXiv)

但在博弈論、貪心算法、構造類等觀察密集型問題上,幾乎所有模型的 Elo 評分都跌破 1500,表現慘不忍睹。特別是在需要處理邊界情況(case work)的問題上,除了 o4-mini-high 外,其他模型的評分都在 1500 以下,顯示出模型在識別和處理邊界條件方面的顯著不足。

研究團隊還進行了細致的錯誤分析,他們逐行對比了 125 個 o3-mini 模型的失敗提交和同等水平人類選手的失敗提交。結果發現,o3-mini 在算法邏輯錯誤和錯誤觀察方面的失誤比人類多出 34 次,這些是真正的概念性錯誤,而非表面的程序錯誤。


圖丨比較 o3-mini 和人類提交被拒絕的原因(來源:arXiv)

但在實現層面,o3-mini 的表現明顯優于人類,實現邏輯錯誤比人類少 25 次,所有觀察到的初始化錯誤和輸入輸出格式錯誤都出現在人類提交中,模型幾乎不會出現“運行時錯誤”。這說明模型的編程語法和代碼實現能力確實不錯,但在核心的算法設計和問題理解上存在根本性缺陷。

更要命的是,o3-mini 有 45 次在樣例輸入上就失敗了,而人類選手在提交前通常會先在本地測試樣例。這暴露了模型無法有效利用給定信息的問題,連最基本的驗證都做不好。與此形成對比的是,具備終端訪問和工具調用能力的模型 (如 o3 和 o4-mini-high 的完整版本) 預期會大大減少這類容易發現的錯誤。

在推理能力的測試中,研究團隊專門對比了 DeepSeek V3 與 R1、Claude 3.7 Sonnet 的普通版與推理版之間的差異。結果顯示,推理功能在組合數學問題上帶來了最大提升,DeepSeek R1 相比 V3 在此類問題上提高了近 1400 個 Elo 點。在數據結構、線段樹等知識密集型問題上,推理也帶來了顯著改善,這符合預期,因為這些問題往往需要結構化思維。但在博弈論、貪心、構造等觀察密集型問題上,推理的幫助微乎其微,有時甚至是負面的。這說明當前的鏈式思考技術雖然能加強邏輯推導,但對培養算法直覺和創造性洞察力作用有限。

業界常用的 pass@k 評估方法允許模型多次嘗試同一問題,取最好結果。在 LiveCodeBench Pro 上,這種方法確實能顯著提升模型表現。o4-mini-medium 的評分從單次嘗試的 1793 提升到 10 次嘗試的 2334,類似的提升在其他模型上也很明顯。研究發現,在獲得最大改善的五個類別中,有三個——博弈論、貪心和邊界處理——都屬于觀察密集型問題,這些問題往往可以通過假設驗證來解決,多次嘗試大大增加了猜中正確答案的概率。但即使給予多次機會,模型在困難問題上的通過率依然為零,表明這些問題的難點不在于偶然的實現錯誤,而在于根本性的算法理解缺失。

測試中還發現了一個有趣現象:o4-mini-high 在交互式問題上的表現異常糟糕,Elo 評分跌至 1500 左右,其他模型表現也很差。交互式問題要求程序與評測系統進行多輪信息交換,需要對問題有深刻理解才能設計正確的交互策略。研究團隊發現,模型經常因為“空閑時間超限”而失敗,說明它們無法理解交互的時機和策略。

從成本角度來看,LiveCodeBench Pro 統計顯示,最昂貴的模型未必表現最好。Claude 3.7 Sonnet 推理版平均每題花費 0.29 美元,但 Elo 評分僅為 992,性價比很低。相比之下,一些較便宜的模型反而表現更穩定。o4-mini-high 由于推理鏈條過長 (最多 10 萬 token) 和成本高昂(約 200 美元每次完整測試),研究團隊只能限制其在 pass@3 設置下進行評估。

這些發現表明,盡管大語言模型在代碼生成和簡單編程任務上表現出色,但在需要深度算法思維的復雜問題上仍有很長的路要走。正如論文所指出的,當前模型的高性能很大程度上依賴于實現精度和工具增強,而非卓越的推理能力。在算法創新和問題洞察這些人類智慧的核心領域,AI 仍然無法與頂尖的人類專家相提并論。

參考資料:

1.https://livecodebenchpro.com/

2.https://arxiv.org/abs/2506.11928

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3354點最后的警告,不管你是看漲還是看跌,明天開盤務必聽我一句

3354點最后的警告,不管你是看漲還是看跌,明天開盤務必聽我一句

阿傖說事
2025-06-19 14:48:27
5連??!信心輸沒了!女排世界冠軍連戰連敗,從王者淪為人見人欺

5連敗!信心輸沒了!女排世界冠軍連戰連敗,從王者淪為人見人欺

體壇知道分子
2025-06-19 09:20:03
A股:做好準備吧,歷史將要重演!明天好戲即將登場!

A股:做好準備吧,歷史將要重演!明天好戲即將登場!

悠然安晴
2025-06-19 00:07:22
擁抱女人時,允許你撫摸她身體上的這五個部位,說明她對你動情了

擁抱女人時,允許你撫摸她身體上的這五個部位,說明她對你動情了

星辰生肖館
2025-02-02 00:30:03
午睡半小時錯了?醫生告誡:上了60歲后,午睡請注意5點

午睡半小時錯了?醫生告誡:上了60歲后,午睡請注意5點

朗威游戲說
2025-06-19 11:53:49
中央部委定調!2025年7月開始,房地產市場止跌回穩!

中央部委定調!2025年7月開始,房地產市場止跌回穩!

詩詞中國
2025-06-19 13:17:20
有農戶稱荔枝價格太低放棄采摘 當地農業農村局回應:應該是個別現象

有農戶稱荔枝價格太低放棄采摘 當地農業農村局回應:應該是個別現象

閃電新聞
2025-06-18 12:48:40
茅臺經銷商的好日子,到頭了

茅臺經銷商的好日子,到頭了

金角財經
2025-06-19 17:28:11
內塔尼亞胡:今天也許輪到猶太人解放波斯人了

內塔尼亞胡:今天也許輪到猶太人解放波斯人了

仗劍看世界
2025-06-18 14:11:00
普京讓步,上合同意由中方主導,成立新開發銀行,俄退出中美競爭

普京讓步,上合同意由中方主導,成立新開發銀行,俄退出中美競爭

博覽歷史
2025-06-19 16:04:03
中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

阿策聊實事
2025-04-27 17:15:00
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
63歲竟晚節不保?這一次再多的名和利,都救不了自毀前程的于魁智

63歲竟晚節不保?這一次再多的名和利,都救不了自毀前程的于魁智

火之文
2025-06-18 17:47:43
智界產品總監回應 HUAWEI SOUND 音響產品標簽中出現奇瑞標識

智界產品總監回應 HUAWEI SOUND 音響產品標簽中出現奇瑞標識

IT之家
2025-06-19 18:57:21
網曝陳可辛為趙麗穎改劇本,演不好只能減戲份,業內都忍不住吐槽

網曝陳可辛為趙麗穎改劇本,演不好只能減戲份,業內都忍不住吐槽

萌神木木
2025-06-19 15:12:34
確定公務員違規吃喝三個要點“和誰吃”、“在哪吃”、“誰付錢”

確定公務員違規吃喝三個要點“和誰吃”、“在哪吃”、“誰付錢”

深度報
2025-06-18 23:03:40
親華派流淚了,菲懇求中方談判,72歲崔天凱再出山,坐灘艦將沉海

親華派流淚了,菲懇求中方談判,72歲崔天凱再出山,坐灘艦將沉海

阿芒娛樂說
2025-06-18 20:31:05
萬萬沒想到!吳宗憲自爆:已經被平臺告誡!“老江湖”也栽跟頭了

萬萬沒想到!吳宗憲自爆:已經被平臺告誡!“老江湖”也栽跟頭了

心靜物娛
2025-06-19 11:23:33
京沈高鐵將提速 沈陽至北京最快2小時29分到達

京沈高鐵將提速 沈陽至北京最快2小時29分到達

新京報
2025-06-19 16:48:07
阿諾德首秀遭利物浦球迷無情嘲諷:讓皇馬付1000萬鎊簡直屬于詐騙

阿諾德首秀遭利物浦球迷無情嘲諷:讓皇馬付1000萬鎊簡直屬于詐騙

直播吧
2025-06-19 17:55:09
2025-06-19 21:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15313文章數 513792關注度
往期回顧 全部

科技要聞

羅永浩數字人爆火,可怕的不是5500萬GMV

頭條要聞

普京:俄羅斯曾主動提出共研防空系統 但伊朗不感興趣

頭條要聞

普京:俄羅斯曾主動提出共研防空系統 但伊朗不感興趣

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網爆火

財經要聞

“已經崩盤了”!Labubu黃牛價腰斬

汽車要聞

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

房產
游戲
時尚
親子
軍事航空

房產要聞

預定爆款!江東CBD+海中,??谶@一國企大盤,即將引爆市場!

嗨氏出征率土之濱瞬間爆服,落地巴蜀后知后覺發現周圍全是自己人

鐘楚曦、楊采鈺一到夏天就愛穿的這雙鞋,我先加入購物車了!

親子要聞

換個視角去看原來如此美好!

軍事要聞

俄羅斯告誡美國不要攻擊伊朗

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汶上县| 祁连县| 平遥县| 汤阴县| 定兴县| 金坛市| 栖霞市| 惠东县| 图木舒克市| 抚顺市| 兴国县| 棋牌| 扎囊县| 如皋市| 庆阳市| 湘乡市| 桓台县| 巴中市| 鸡西市| 荔波县| 侯马市| 积石山| 襄垣县| 瓮安县| 佳木斯市| 秦安县| 夹江县| 南昌县| 维西| 永昌县| 县级市| 怀宁县| 祁门县| 商南县| 西贡区| 天津市| 六枝特区| 门源| 康马县| 双辽市| 陕西省|