99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Test Time Scaling Law遠未達到上限!華為諾亞代碼HLCE終極基準

0
分享至



本文的第一作者為華為諾亞研究員李向陽,畢業于北京大學,開源組織 BigCode 項目組成員。此前他們團隊曾經推出 CoIR 代碼檢索基準,目前已經成為代碼檢索領域的標桿 benchmark。其余主要成員也大部分來自 CoIR 項目組。

大語言模型(LLM)在標準編程基準測試(如 HumanEval,Livecodebench)上已經接近 “畢業”,但這是否意味著它們已經掌握了人類頂尖水平的復雜推理和編程能力?

來自華為諾亞方舟實驗室的一項最新研究給出了一個頗具挑戰性的答案。他們推出了一個全新的編程基準 ——“人類最后的編程考試” (Humanity's Last Code Exam, HLCE)

該基準包含了過去 15 年(2010-2024)間,全球難度最高的兩項編程競賽:國際信息學奧林匹克競賽(IOI)和國際大學生程序設計競賽世界總決賽(ICPC World Finals)中最頂尖的 235 道題目。

結果如何?即便是當前最先進的推理模型,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro,在 HLCE 上的單次嘗試成功率(pass@1)也分別只有15.85% 和 11.4%,與它們在其他基準上動輒超過 70% 的表現形成鮮明對比。 這表明,面對真正考驗頂尖人類智慧的編程難題,現有的大模型還有很長的路要走。





  • 論文地址: https://www.arxiv.org/abs/2506.12713
  • 項目地址: https://github.com/Humanity-s-Last-Code-Exam/HLCE

直面 “最強大腦”:為何需要 HLCE?

近年來,LLM 在代碼生成領域取得了驚人的進步,許多主流基準(如 LiveCodeBench、APPS 等)已經無法對最前沿的模型構成真正的挑戰。研究者指出,現有基準存在幾個關鍵問題:

1.難度有限:對于頂級 LLM 來說,很多題目已經過于簡單。

2.缺乏交互式評測:大多數基準采用標準的輸入 / 輸出(I/O)模式,而忽略了在真實競賽中常見的 “交互式” 題目。這類題目要求程序與評測系統進行動態交互,對模型的實時邏輯能力要求更高。

3.測試時擴展規律(Test-time Scaling Laws)未被充分探索:模型在推理時花費更多計算資源能否持續提升性能?這個問題在復雜編程任務上尚無定論。

為構建高質量基準,研究團隊對 HLCE 題目進行了深度處理。例如 ICPC World Finals 題目原始材料均為 PDF 格式,團隊通過人工逐題提取、轉寫為 Markdown 并校驗,確保題目完整性。最終形成的 HLCE 基準包含:1)235 道 IOI/ICPC World Finals 歷史難題;2)標準 I/O 與交互式雙題型;3)全可復現的評測體系。



模型表現如何?頂級 LLM 也 “考蒙了”



研究團隊在 HLCE 上全面評估了 12 個主流 LLM,包括推理模型(如 o4-mini (high), Gemini-2.5 Pro, DeepSeek-R1)和非推理模型(如 chatgpt-4o-latest, claude-3.7-sonnet)。 實驗結果揭示了幾個有趣的現象:

推理模型優勢巨大:具備推理能力的模型表現顯著優于非推理模型。最強的 o4-mini (high) 的平均 pass@1 通過率(15.85%)大約是最強非推理模型 deepseek-v3-0324(3.53%)的 4.5 倍。

IOI 交互式題目是 “硬骨頭”:所有模型在 IOI 題目上的表現都遠差于 ICPC world finals 題目。例如,o4-mini (high) 在 ICPC 上的 pass@1 為 25.21%,但在 IOI 上驟降至 6.48%。研究者認為,這與當前模型的訓練數據和強化學習方式主要基于標準 I/O 模式有關,對于交互式問題準備不足。

奇特的模型退化現象:一個例外是 claude-3.7-thinking 模型,盡管是推理模型,但其表現甚至不如一些非推理模型,在 IOI 題目上通過率為 0%。研究者推測,這可能是因為 claude 針對通用軟件工程任務進行了優化,而非高難度的算法競賽。

“我知道我不知道?”:模型的自我認知悖論

除了代碼生成,研究者還設計了一個新穎的 “自我認知”(self-recognition)任務:讓模型判斷自身生成的代碼是否正確,以評估其能力邊界感知力。



結果出人意料:

  • 代碼能力最強的O4-mini (high),自我認知能力(AUC 0.63)并不突出。
  • 反觀通用模型ChatGPT-4o-latest,展現了更強的 “自知之明”(AUC 0.84)。

這種 “蘇格拉底悖論”—— 卓越的問題解決能力與清晰的自我認知能力未能同步發展 —— 暗示在現有 LLM 架構中,推理能力與元認知能力(metacognition)可能遵循不同的進化路徑。

大語言模型的 Test Time scaling law 到極限了嗎

一個關鍵問題是:目前 LLM 的推理能力已經非常強了,目前這種范式達到極限了嗎?未來的模型的推理能力還能繼續發展嗎? 而面對如此高難度的 HLCE benchmark,這顯然是一個絕佳的機會來研究大語言模型的Test Time Scaling Law



研究者將模型生成的每組回答按照 thinking token 的數量按照長短進行分組,然后重新測試性能。從圖中可以看出,隨著思考長度的不斷延長,模型的性能在不斷的提升,并且遠遠沒有達到上限。

這個結論告訴我們,可以繼續大膽的優化推理模型,至少在現在遠遠沒有到達 Test Time scaling law 達到上限。

LLM vs 人類頂尖選手:差距還有多大?

基于上述發現,研究者將模型的最佳表現(基于 5 次嘗試,IOI 取 5 次的最大分數,ICPC world Finals 取 5 次解決掉的最多題目)與歷年 IOI 和 ICPC 世界總決賽的獎牌分數線進行了直接對比。





結果令人振奮:頂級 LLM 已經具備了贏得獎牌的實力。Gemini-2.5-pro 和 o4-mini (high) 的表現分別達到了 IOI 和 ICPC 的銀牌和金牌水平。

這也解釋了一個看似矛盾的現象:盡管模型單次成功率很低,但只要給予足夠多的嘗試機會(這正是 “測試時擴展規律” 的體現),它們就能找到正確的解法,從而在競賽中獲得高分。

未來方向

這項研究通過 HLCE 這一極具挑戰性的基準,清晰地揭示了當前 LLM 在高級編程和推理能力上的優勢與短板。 它證明了,雖然 LLM 在單次嘗試的穩定性上仍有欠缺,但其內部已蘊含解決超復雜問題的知識。更重要的是,測試時擴展規律在這一極限難度下依然有效,為我們指明了一條清晰的性能提升路徑:通過更優的搜索策略和更多的計算投入,可以持續挖掘模型的潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
阿薩德夫婦逃亡俄羅斯,財產公布震驚了全世界

阿薩德夫婦逃亡俄羅斯,財產公布震驚了全世界

濤哥銳評
2024-12-15 12:58:00
美財長宣布7月9日后恢復4月關稅!16大經濟體誰將最受到影響?

美財長宣布7月9日后恢復4月關稅!16大經濟體誰將最受到影響?

聞號說經濟
2025-07-07 08:21:34
機關算盡!“千億兒媳”徐子淇,讓所有人見識到了擠進豪門的代價

機關算盡!“千億兒媳”徐子淇,讓所有人見識到了擠進豪門的代價

肆時說
2025-04-03 16:26:41
中東小霸王再度出手,以色列對胡塞武裝展開“黑旗行動”

中東小霸王再度出手,以色列對胡塞武裝展開“黑旗行動”

史政先鋒
2025-07-07 14:51:21
女學生雪山失聯已找到!被曝死狀慘烈,最后畫面流出,死因蹊蹺

女學生雪山失聯已找到!被曝死狀慘烈,最后畫面流出,死因蹊蹺

鋭娛之樂
2025-07-07 23:32:48
只要男人不饞女人的身子,女人就拿男人毫無辦法

只要男人不饞女人的身子,女人就拿男人毫無辦法

加油丁小文
2025-07-03 20:00:03
特朗普闖關成功后,不到24小時,馬斯克建立新黨,83歲拜登出山

特朗普闖關成功后,不到24小時,馬斯克建立新黨,83歲拜登出山

阿離家居
2025-07-08 01:11:22
比劇本更狗血!董潔攜子破冰潘粵明,16歲兒子已經開始為她爭光了

比劇本更狗血!董潔攜子破冰潘粵明,16歲兒子已經開始為她爭光了

芊芊子吟
2025-07-07 17:30:03
40℃以上!福建高溫預警!臺風二次登陸路徑有變

40℃以上!福建高溫預警!臺風二次登陸路徑有變

福州晚報
2025-07-07 23:03:54
女人哪里毛越多越好,沒結婚的看看

女人哪里毛越多越好,沒結婚的看看

阿傖說事
2025-06-26 10:20:37
美財長:未來48小時將宣布多項貿易協議

美財長:未來48小時將宣布多項貿易協議

參考消息
2025-07-07 21:45:04
張韶涵海島別墅火了!上億買了一座島,花了3000萬裝修:她的人生,到底有多剛?

張韶涵海島別墅火了!上億買了一座島,花了3000萬裝修:她的人生,到底有多剛?

背包旅行
2025-07-02 10:38:35
杜月笙在江邊垂釣,遇到地痞要保護費,杜月笙:找你們老板過來

杜月笙在江邊垂釣,遇到地痞要保護費,杜月笙:找你們老板過來

瑤卿文史
2025-07-07 09:30:19
伊媒發布“手摸核彈”視頻,配文“有可能”

伊媒發布“手摸核彈”視頻,配文“有可能”

揚子晚報
2025-06-19 10:30:05
對油鹽不進的歐盟高層,中方收起了笑臉,提前下了“逐客令”?

對油鹽不進的歐盟高層,中方收起了笑臉,提前下了“逐客令”?

呂璐說
2025-07-07 19:20:56
中國,全面收網了!必須嚴打!

中國,全面收網了!必須嚴打!

占豪
2025-07-06 23:40:48
中方行動后,泰王被請出山,佩通坦強勢回歸,洪森罕見異常安靜

中方行動后,泰王被請出山,佩通坦強勢回歸,洪森罕見異常安靜

安珈使者啊
2025-07-07 13:29:47
都走光了還不自知!地鐵上短裙女孩這樣坐,合適嗎?

都走光了還不自知!地鐵上短裙女孩這樣坐,合適嗎?

說點真嘞叭
2025-07-04 08:16:05
臺風丹娜絲將掉頭襲擊華東華南,異常濕熱高溫將再來北方

臺風丹娜絲將掉頭襲擊華東華南,異常濕熱高溫將再來北方

中國氣象愛好者
2025-07-07 23:46:53
29年未破的“南大案”,兇手作案手段高超,想偵破幾乎不可能

29年未破的“南大案”,兇手作案手段高超,想偵破幾乎不可能

奇事簿
2025-07-03 18:30:03
2025-07-08 02:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10799文章數 142355關注度
往期回顧 全部

科技要聞

投資大佬一語扎心:中國機器人"可悲"現狀

頭條要聞

專家稱鉛中毒幼兒智商很難恢復 有家長傷心過度被搶救

頭條要聞

專家稱鉛中毒幼兒智商很難恢復 有家長傷心過度被搶救

體育要聞

不會再有第二個,快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態回升賬號恢復 演唱會公開表白

財經要聞

特朗普要發關稅函 美國貿易談判進展如何

汽車要聞

預售10.58萬起/6秒級加速 零跑B01將于7月下旬上市

態度原創

本地
教育
旅游
健康
公開課

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

教育要聞

祝賀!這些考生已被名校提前錄取!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 保山市| 正蓝旗| 沽源县| 东乡县| 甘南县| 涿州市| 蓝山县| 浙江省| 长泰县| 尼玛县| 集贤县| 兴安盟| 皮山县| 抚州市| 上栗县| 达尔| 馆陶县| 合山市| 阿鲁科尔沁旗| 白银市| 亳州市| 蚌埠市| 黎川县| 新昌县| 同心县| 崇州市| 东源县| 社旗县| 信丰县| 吉林市| 平泉县| 冷水江市| 安陆市| 郓城县| 潢川县| 大庆市| 麟游县| 越西县| 沁阳市| 太仓市| 红桥区|