網易首頁 > 網易號 > 正文申請入駐

Test Time Scaling Law遠未達到上限!華為諾亞代碼HLCE終極基準

2025-07-07 16:37:15　來源: 機器之心Pro

北京舉報

分享至

本文的第一作者為華為諾亞研究員李向陽，畢業于北京大學，開源組織 BigCode 項目組成員。此前他們團隊曾經推出 CoIR 代碼檢索基準，目前已經成為代碼檢索領域的標桿 benchmark。其余主要成員也大部分來自 CoIR 項目組。

大語言模型（LLM）在標準編程基準測試（如 HumanEval,Livecodebench）上已經接近 “畢業”，但這是否意味著它們已經掌握了人類頂尖水平的復雜推理和編程能力？

來自華為諾亞方舟實驗室的一項最新研究給出了一個頗具挑戰性的答案。他們推出了一個全新的編程基準 ——“人類最后的編程考試” (Humanity's Last Code Exam, HLCE)。

該基準包含了過去 15 年（2010-2024）間，全球難度最高的兩項編程競賽：國際信息學奧林匹克競賽（IOI）和國際大學生程序設計競賽世界總決賽（ICPC World Finals）中最頂尖的 235 道題目。

結果如何？即便是當前最先進的推理模型，如 OpenAI 的 o4-mini (high) 和谷歌的 Gemini-2.5 Pro，在 HLCE 上的單次嘗試成功率（pass@1）也分別只有15.85% 和 11.4%，與它們在其他基準上動輒超過 70% 的表現形成鮮明對比。這表明，面對真正考驗頂尖人類智慧的編程難題，現有的大模型還有很長的路要走。

論文地址： https://www.arxiv.org/abs/2506.12713
項目地址： https://github.com/Humanity-s-Last-Code-Exam/HLCE

直面 “最強大腦”：為何需要 HLCE？

近年來，LLM 在代碼生成領域取得了驚人的進步，許多主流基準（如 LiveCodeBench、APPS 等）已經無法對最前沿的模型構成真正的挑戰。研究者指出，現有基準存在幾個關鍵問題：

1.難度有限：對于頂級 LLM 來說，很多題目已經過于簡單。

2.缺乏交互式評測：大多數基準采用標準的輸入 / 輸出（I/O）模式，而忽略了在真實競賽中常見的 “交互式” 題目。這類題目要求程序與評測系統進行動態交互，對模型的實時邏輯能力要求更高。

3.測試時擴展規律（Test-time Scaling Laws）未被充分探索：模型在推理時花費更多計算資源能否持續提升性能？這個問題在復雜編程任務上尚無定論。

為構建高質量基準，研究團隊對 HLCE 題目進行了深度處理。例如 ICPC World Finals 題目原始材料均為 PDF 格式，團隊通過人工逐題提取、轉寫為 Markdown 并校驗，確保題目完整性。最終形成的 HLCE 基準包含：1）235 道 IOI/ICPC World Finals 歷史難題；2）標準 I/O 與交互式雙題型；3）全可復現的評測體系。

模型表現如何？頂級 LLM 也 “考蒙了”

研究團隊在 HLCE 上全面評估了 12 個主流 LLM，包括推理模型（如 o4-mini (high), Gemini-2.5 Pro, DeepSeek-R1）和非推理模型（如 chatgpt-4o-latest, claude-3.7-sonnet）。實驗結果揭示了幾個有趣的現象：

推理模型優勢巨大：具備推理能力的模型表現顯著優于非推理模型。最強的 o4-mini (high) 的平均 pass@1 通過率（15.85%）大約是最強非推理模型 deepseek-v3-0324（3.53%）的 4.5 倍。

IOI 交互式題目是 “硬骨頭”：所有模型在 IOI 題目上的表現都遠差于 ICPC world finals 題目。例如，o4-mini (high) 在 ICPC 上的 pass@1 為 25.21%，但在 IOI 上驟降至 6.48%。研究者認為，這與當前模型的訓練數據和強化學習方式主要基于標準 I/O 模式有關，對于交互式問題準備不足。

奇特的模型退化現象：一個例外是 claude-3.7-thinking 模型，盡管是推理模型，但其表現甚至不如一些非推理模型，在 IOI 題目上通過率為 0%。研究者推測，這可能是因為 claude 針對通用軟件工程任務進行了優化，而非高難度的算法競賽。

“我知道我不知道？”：模型的自我認知悖論

除了代碼生成，研究者還設計了一個新穎的 “自我認知”（self-recognition）任務：讓模型判斷自身生成的代碼是否正確，以評估其能力邊界感知力。

結果出人意料：

代碼能力最強的O4-mini (high)，自我認知能力（AUC 0.63）并不突出。
反觀通用模型ChatGPT-4o-latest，展現了更強的 “自知之明”（AUC 0.84）。

這種 “蘇格拉底悖論”—— 卓越的問題解決能力與清晰的自我認知能力未能同步發展 —— 暗示在現有 LLM 架構中，推理能力與元認知能力（metacognition）可能遵循不同的進化路徑。

大語言模型的 Test Time scaling law 到極限了嗎

一個關鍵問題是：目前 LLM 的推理能力已經非常強了，目前這種范式達到極限了嗎？未來的模型的推理能力還能繼續發展嗎？而面對如此高難度的 HLCE benchmark，這顯然是一個絕佳的機會來研究大語言模型的Test Time Scaling Law。

研究者將模型生成的每組回答按照 thinking token 的數量按照長短進行分組，然后重新測試性能。從圖中可以看出，隨著思考長度的不斷延長，模型的性能在不斷的提升，并且遠遠沒有達到上限。

這個結論告訴我們，可以繼續大膽的優化推理模型，至少在現在遠遠沒有到達 Test Time scaling law 達到上限。

LLM vs 人類頂尖選手：差距還有多大？

基于上述發現，研究者將模型的最佳表現（基于 5 次嘗試，IOI 取 5 次的最大分數，ICPC world Finals 取 5 次解決掉的最多題目）與歷年 IOI 和 ICPC 世界總決賽的獎牌分數線進行了直接對比。

結果令人振奮：頂級 LLM 已經具備了贏得獎牌的實力。Gemini-2.5-pro 和 o4-mini (high) 的表現分別達到了 IOI 和 ICPC 的銀牌和金牌水平。

這也解釋了一個看似矛盾的現象：盡管模型單次成功率很低，但只要給予足夠多的嘗試機會（這正是 “測試時擴展規律” 的體現），它們就能找到正確的解法，從而在競賽中獲得高分。

未來方向

這項研究通過 HLCE 這一極具挑戰性的基準，清晰地揭示了當前 LLM 在高級編程和推理能力上的優勢與短板。它證明了，雖然 LLM 在單次嘗試的穩定性上仍有欠缺，但其內部已蘊含解決超復雜問題的知識。更重要的是，測試時擴展規律在這一極限難度下依然有效，為我們指明了一條清晰的性能提升路徑：通過更優的搜索策略和更多的計算投入，可以持續挖掘模型的潛力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.