99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

謝賽寧團隊基準讓LLM集體自閉,DeepSeek R1、Gemini 2.5 Pro都0分

0
分享至



機器之心報道

編輯:陳陳、+0

當前 LLM 與人類大師級水平之間仍存在顯著差距。

近年來,LLMs(如 GPT-4、Claude、Gemini 等)在代碼生成領域取得了顯著進展。它們不僅在經典編程基準(如 HumanEval)中表現出色,甚至在某些測試中超越了人類平均水平。這促使許多研究者開始宣稱:LLM 已經勝過人類程序員,尤其是在競賽編程領域。



更進一步的,在結合了外部工具之后,一些模型(如 o3 和 o4-mini-high)甚至在 Codeforces 平臺上獲得了超過 2700 的 Elo 評分 —— 這個分數已躋身參賽者前 0.1%。

然而,這些簡單的量化評估,真的能體現模型解決復雜問題的能力嗎?我們不妨先問幾個問題:LLMs 真的具備與頂級人類選手相當的推理能力嗎?模型的高分究竟有多少來自真實的推理能力,又有多少是依賴外部工具的結果?

為了解答上述問題,來自紐約大學、普林斯頓大學等 8 家機構的研究者提出了 LiveCodeBench Pro,這是一個極具挑戰性的競技編程基準測試。

值得一提的是,這項研究有多位參加過國際算法競賽。例如,作者之一、紐約大學本科生 Zihan Zheng 曾代表學校參加 ICPC 世界總決賽。

LiveCodeBench Pro 收錄了 584 道截至 2025 年 4 月 25 日的高質量題目,這些題目均來自 Codeforces 、ICPC 系列賽和 IOI 系列賽等頂級賽事。并且這些問題會不斷更新以降低可能的數據污染。

此外,所有題目均由奧賽獎牌選手進行算法類別標注,并對模型生成的失敗提交逐行分析。



  • 論文標題: LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
  • 論文地址:https://arxiv.org/pdf/2506.11928
  • 項目主頁:https://livecodebenchpro.com/
  • GitHub:https://github.com/GavinZhengOI/LiveCodeBench-Pro

本文在 LiveCodeBench Pro 上評估了一系列前沿大模型,包括 Gemini 2.5 Pro、o4-mini-high 和 DeepSeek R1 等。



基于這套數據和評測框架,本文發現當前前沿模型依然存在顯著不足:在沒有外部工具支持的情況下,表現最好的模型在中等難度題上的 pass@1 僅為 53%,在高難度題上則完全無法通過(0%),而這些正是人類專家仍能穩定發揮的領域。



LiveCodeBench Pro 排行榜



此外,本文還發現,LLMs 在以實現(implementation-heavy)為主的問題上表現良好,但在處理復雜的算法推理和邊界情況分析時表現欠佳,甚至常常生成自信而錯誤的解釋。模型的高分更多是依賴于輔助工具的加持,而非真正的推理能力。

LiveCodeBench Pro 的出現揭示了當前 LLM 與人類大師級水平之間仍存在顯著差距。

分析與討論

在不同算法范式上的表現

發現 1.大語言模型在知識密集型和邏輯密集型問題上表現更佳,而在觀察密集型問題或分類討論(case work)上表現較差。



文中展示了 6 個模型在各類編程問題中的表現。研究發現,人類在不同問題標簽上的表現更為一致,而模型的評分則因標簽不同而顯示出更大的差異。主要發現總結如下:

知識密集型問題是大語言模型的舒適區。帶有如線段樹、圖論、樹和數據結構等標簽的問題,在大多數模型上都表現出很高的性能。這些問題通常可以通過拼接眾所周知的模板(例如,樹狀數組、迪杰斯特拉算法、歐拉路徑)來解決。這正是大語言模型的優勢所在,因為所需的模式會以字面形式出現在其訓練數據中,并且生成語法正確的模板對于大語言模型來說比對人類容易得多。

邏輯密集型問題也取得了同樣好的結果。大語言模型在邏輯密集型類別中也表現出色,例如組合數學、數學、動態規劃和二分搜索。這些類別需要更有模式的思維方式(例如,在組合數學中應用組合恒等式,在動態規劃中構建狀態空間并推導轉移函數),并且可以從記憶化的腳手架代碼中受益。

在觀察密集型問題上表現不佳。對于博弈論、特定問題特定分析(ad-hoc)、貪心算法和構造性問題,大多數模型的評分驟降至 1500 以下,明顯低于其在知識密集型和邏輯密集型類別中的表現。解決這些問題通常取決于發現新穎的見解,而這是無法僅靠記憶化的代碼片段來獲得的。

大語言模型在分類討論上遇到困難。有趣的是,所有模型都在分類討論上表現不佳。除了 o4-mini-high 之外,每個模型的評分都低于 1500 分,即便是 o4-mini-high,其表現在此類別中也遠遜于其他問題類別。人工檢查顯示,無法識別和處理邊界情況是所有模型的一個突出失敗模式。

交互式問題暴露了模型的顯著弱點。在交互式問題上,o4-mini-high 的評分驟降至 1500 左右,其他模型也表現掙扎。論文附錄中討論了這種糟糕表現背后的可能原因,并指出了 o3-mini-high 在解決交互式問題時出現的異常行為。

失敗原因診斷及與人類的比較

發現 2.o3-mini 在算法邏輯錯誤和錯誤觀察方面比人類多得多,但在實現邏輯錯誤方面則少得多。

研究人員專門使用可讀性最佳的模型 o3-mini 進行標注和深入分析,并在圖 3 的樹狀圖中展示了結果。



概念性錯誤是模型失敗的主要原因。「思路錯誤」分支內最大的紅色區塊顯示,在 125 個標注問題中,o3-mini 比人類參賽者多犯了 34 個算法邏輯錯誤。這些是真正的概念性失誤,而非表面的程序錯誤。

實現是模型的強項。與底層編碼相關的指標通常對 o3-mini 有利。例如,在 125 個標注問題中,o3-mini 比人類少犯了 25 個實現邏輯錯誤。值得注意的是,所有觀察到的初始化錯誤和輸入輸出格式錯誤都出現在人類提交的代碼中。評測結果細分也證實了這一點:o3-mini 幾乎沒有出現「運行時錯誤」,突顯了其在實現層面相對不易出錯。

一個顯著的例外 —— 空閑時間超限。「評測結果」下的一個深紅色矩形顯示「空閑時間超限」的判罰激增。這源于 o3-mini 在交互式問題上的奇特行為,其大多數提交都被判為「空閑時間超限」。

在示例輸入上失敗。樹狀圖突出顯示,在「示例失敗」類別中,o3-mini 的實例數多出了 45 個,這些情況下解決方案能夠編譯,但在問題的示例輸入上就已經失敗。與人類不同,o3-mini 無法在提交前在本地編譯或運行示例輸入。擁有終端和工具調用能力(例如 o3 和 o4-mini-high)的模型,預計會少犯很多這類容易發現的錯誤。

總而言之,該分析表明,大語言模型的代碼在語法上通常更可靠,但在構建正確算法或從問題中提取正確觀察所需的高層次推理方面存在困難。雖然正式標注僅涵蓋了 o3-mini 的提交,但初步的人工檢查表明,大多數現有的大語言模型都存在相同的錯誤模式。

多次嘗試(Pass@k)對模型性能的影響

發現 3.增加嘗試次數(pass@k)能顯著提升模型性能,但在高難度問題上仍然會失敗。

OpenAI 報告稱,具備終端訪問權限和 pass@k 的 o4-mini 在 Codeforces 上的 Elo 評分為 2719,這與對 o4-mini-high 的評估(無終端訪問權限,pass@1)所獲得的 2116 分形成對比。這種差異促使研究人員去研究終端訪問和工具調用的性能影響,以及允許多次嘗試(pass@k)的效果。



如圖 4 所示,隨著 k 值的增加,模型的評分顯著提高。例如,o4-mini-medium 的評分從 pass@1 時的 1793 分上升,并在 k 增加到 10 時收斂至 2334 分。o4-mini-low 和 o4-mini-high 也觀察到類似的上升趨勢。雖然多次嘗試帶來的這些增益是顯著的,但收斂后的評分仍然比報告的 2719 分低了大約 400 分。因此,可以推測,剩余的差距主要歸因于工具調用和終端訪問帶來的好處。



如圖 5 所示,可以觀察到在改進最大的五個類別中,有三個 —— 博弈論、貪心算法和分類討論 —— 屬于觀察密集型問題,通常可以通過假設結論來解決。更高頻率地進行有根據的猜測,會大大增加正確解決這些問題的概率。

推理模型與其非推理對應模型的比較

發現 4:推理能力在組合數學中帶來最大提升,在知識密集型類別中提升較大,而在觀察密集型類別中提升相對較小。

研究人員考察了在大語言模型中啟用推理能力對每個問題標簽的影響。具體來說,他們直接比較推理模型及其非推理對應模型,以便控制模型架構、訓練數據和其他外部因素的變化,從而分離出推理的真正效果。

這種分離對于展示額外的思維鏈或測試時擴展方法對模型在各問題標簽上的解決問題能力的真實影響至關重要。研究特別選擇比較 DeepSeek V3 與 R1,以及 Claude 3.7 Sonnet 的非思考(Non-thinking)與思考(Thinking)版本,如圖 6 所示,這是兩款主流前沿模型,均有非推理版本和推理對應版本。



主要發現總結如下:

在組合數學中提升最大:兩個模型都在組合數學中顯示出最大提升,其中 DeepSeek-R1 的評分比 V3 高出近 1400 分。

在知識密集型類別中提升較大:對于數據結構和線段樹等知識密集型問題,啟用推理也帶來了較大提升(例如,在 DeepSeek 上,線段樹問題的評分提升了約 700 分;在 Claude 上,數據結構問題的評分提升了約 500 分)。這是符合預期的,因為這些類別中的問題通常涉及結構化思維。

在觀察密集型類別中提升有限:有趣的是,對于博弈論、貪心算法、特定問題特定分析和構造性問題 —— 這些通常需要大量觀察且大語言模型經常遇到困難的領域,即使啟用推理也只帶來微乎其微的提升(例如,對于 DeepSeek,在博弈論上的提升幾乎是最低的;而對于 Claude,則是負提升)。這就提出了一個問題:當前的思維鏈方法對于這些類型的問題是否存在固有的局限性?或者是否存在一個涌現閾值 —— 即推理能力發展到某個點后,最終可能會在這些領域解鎖顯著的性能增益。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗要造個大新聞

伊朗要造個大新聞

美第奇效應
2025-06-18 17:47:52
調查人員:印度空難失事航班起飛時“雙發動機失效”,可能當時正在使用應急電源供電

調查人員:印度空難失事航班起飛時“雙發動機失效”,可能當時正在使用應急電源供電

可樂談情感
2025-06-18 22:07:11
這樣弄,男人直接腿軟

這樣弄,男人直接腿軟

五月的書房
2025-06-18 01:01:24
“與中國劃清界限”,越南通報全球,給美送上三份“重禮”

“與中國劃清界限”,越南通報全球,給美送上三份“重禮”

一個有靈魂的作者
2025-06-18 14:49:22
中年女人“默許發生關系”時,會出現這4類“操作”

中年女人“默許發生關系”時,會出現這4類“操作”

特約前排觀眾
2025-06-19 02:40:27
伊媒爆料:消失5天的哈梅內伊移交手中關鍵權力!不給總統 給他們

伊媒爆料:消失5天的哈梅內伊移交手中關鍵權力!不給總統 給他們

野山歷史
2025-06-18 16:19:51
日媒對張子宇的身高耿耿于懷:比姚明高,打比賽就是帶著作弊器

日媒對張子宇的身高耿耿于懷:比姚明高,打比賽就是帶著作弊器

體育哲人
2025-06-18 18:47:54
伊朗擊落三架F-35,為什么全世界都不相信?

伊朗擊落三架F-35,為什么全世界都不相信?

牲產隊2024
2025-06-15 21:12:58
特朗普騎虎難下,美若對伊朗動武,或將為中國提供新一輪戰略機遇

特朗普騎虎難下,美若對伊朗動武,或將為中國提供新一輪戰略機遇

博覽歷史
2025-06-17 11:35:30
為什么古人說“夫妻不同房,陰陽兩相傷”?大師道破背后因果關系

為什么古人說“夫妻不同房,陰陽兩相傷”?大師道破背后因果關系

一根香煙的少婦
2025-06-17 09:52:06
女子和上司開房后,想和丈夫各玩各的,2019年丈夫求她不要離婚

女子和上司開房后,想和丈夫各玩各的,2019年丈夫求她不要離婚

漢史趣聞
2025-06-17 20:16:42
美國“尼米茲”號航母正駛往中東地區 途中關閉了應答器并停止傳輸位置信息

美國“尼米茲”號航母正駛往中東地區 途中關閉了應答器并停止傳輸位置信息

財聯社
2025-06-18 19:44:08
泡泡瑪特“暴雷”!投資者套現、股價暴跌,真應了郭麒麟的那句話

泡泡瑪特“暴雷”!投資者套現、股價暴跌,真應了郭麒麟的那句話

葡萄說娛
2025-06-18 14:19:25
南京一退休阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

南京一退休阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

黃家湖的憂傷
2025-04-15 17:27:13
人民日報痛批“既要又要還要”,基層太難,銀行該反省了

人民日報痛批“既要又要還要”,基層太難,銀行該反省了

振華觀史
2025-06-18 08:20:44
巴基斯坦宣布關閉多個與伊朗接壤邊境口岸

巴基斯坦宣布關閉多個與伊朗接壤邊境口岸

界面新聞
2025-06-17 07:02:35
伊朗國營電視臺警告:今晚將有大事發生,世界將銘記幾個世紀!伊朗最高領袖哈梅內伊:戰斗開始了,須強力回應恐怖猶太復國主義政權,絕不手下留情

伊朗國營電視臺警告:今晚將有大事發生,世界將銘記幾個世紀!伊朗最高領袖哈梅內伊:戰斗開始了,須強力回應恐怖猶太復國主義政權,絕不手下留情

和訊網
2025-06-18 17:17:42
阿前總統涉腐敗獲批在家服刑 需戴電子監控設備

阿前總統涉腐敗獲批在家服刑 需戴電子監控設備

看看新聞Knews
2025-06-18 21:44:17
伊朗“反美立國”戰略的窮途末路

伊朗“反美立國”戰略的窮途末路

黑噪音
2025-06-18 08:02:41
停滿了!特斯拉庫存積壓嚴重

停滿了!特斯拉庫存積壓嚴重

放毒
2025-06-18 16:12:42
2025-06-19 03:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10671文章數 142339關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

體育要聞

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

家居
數碼
游戲
房產
教育

家居要聞

溫暖明亮 三代同堂之家

數碼要聞

盧偉冰:期待將來和海爾、美的成為大家電頭部企業,共推行業發展

誠意十足的視覺盛宴!300萬銷量的《劍星》PC版到底值不值得入?

房產要聞

創紀錄了!海南單日賣地44億!保利、方大瘋狂出手!

教育要聞

AI填志愿神器來了!輕松打破信息差,填出你的專屬完美志愿

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 炎陵县| 龙口市| 大庆市| 奎屯市| 丰城市| 广河县| 固安县| 邹平县| 京山县| 望江县| 阳信县| 永修县| 英超| 塔城市| 黔西| 台东市| 托里县| 秦皇岛市| 灌云县| 溧水县| 阿巴嘎旗| 镶黄旗| 禄劝| 章丘市| 枞阳县| 台中市| 九寨沟县| 古田县| 乌兰察布市| 民丰县| 都江堰市| 衢州市| 八宿县| 綦江县| 靖宇县| 普定县| 芜湖县| 禄丰县| 四平市| 临湘市| 合肥市|