99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大規模形式化數學基準FormalMATH發布,最強模型成功率僅16%

0
分享至

FormalMATH團隊 投稿
量子位 | 公眾號 QbitAI

最強AI模型面對5560道數學難題,成功率僅16.46%?背后真相大揭秘。

香港中文大學、西湖大學、MAP、浙江大學、馬克斯·普朗克智能系統研究所等機構聯合推出FormalMATH形式化數學推理基準測試,含5560道經過嚴格驗證的數學題,覆蓋從奧數到大學水平的代數、微積分、數論等領域。



形式化數學推理是人工智能領域公認的核心難題之一。

盡管大語言模型(LLM)在自然語言處理和代碼生成等領域取得顯著進展,但面對需要嚴格邏輯推導的數學定理證明任務時,其能力仍面臨嚴峻挑戰。

FormalMATH基準測試首次系統性評估了當前LLM驅動的定理證明器的真實水平。

結果顯示:即便是表現最佳的模型Kimina-Prover ,在實際計算資源限制下(Pass@32采樣量),成功率也僅為16.46% ;而多數模型在微積分等領域的表現接近「隨機猜測」

FormalMATH:「超大規模」的形式化數學推理基準
規模突破:22.8倍于現有基準

FormalMATH包含5560個經過Lean4編譯器驗證的數學命題,涵蓋代數、數論、微積分、離散數學等12個子領域,問題難度從國際數學奧林匹克(IMO)競賽級延伸至本科課程,規模是經典基準MiniF2F的22.8倍。

構建創新:人類在循環中的自動化流程用于自動形式化和語義一致性檢測

為解決傳統形式化數據依賴專家手動標注的瓶頸,研究團隊提出了一套「三階段過濾」框架:

  1. 多LLM協同翻譯 :通過微調后的Qwen2.5-7B-Coder、Deepseek-Prover-V1.5-Base等模型將自然語言問題轉為多個候選的形式化命題;
  2. 自動化驗證 :利用Lean4編譯器篩選語法正確命題,并通過多LLM語義一致性校驗(如o1-mini、Claude-3.5)過濾錯誤;
  3. 否定反證過濾 :調用LLM證明器嘗試「證偽」命題,排除無法成立的陳述。該流程在人工審核前保留了72.09%的高質量命題,大幅降低專家工作量。

最后,團隊召集了12名人類奧賽金牌級別的專家花了22天檢測自然語言數學命題與Lean4形式化命題之間的語義一致性。



現有LLM證明器表現:代數尚可,微積分「翻車」
整體低迷:16%成功率暴露能力斷層

在FormalMATH全量數據集上,主流LLM證明器的表現遠低于預期:

  • 最佳模型Kimina-Prover(Pass@32):16.46%;
  • 次優模型STP(Pass@32):13.87%



領域偏見:代數強,微積分弱

現有模型在代數等領域表現較好,但在微積分等其他領域表現較差,顯示出明顯的領域偏差。



錯誤模式:濫用「捷徑戰術」

分析顯示,LLM證明器頻繁濫用自動化策略(如aesop、linarith),試圖用單一步驟替代多步推理,導致以下典型錯誤(以DeepSeek-RL為例):

  1. 冗余假設(34%): 引入無關前提條件
  2. 不完整證明(62%): 缺失關鍵推導步驟, 無法形成完整構造證明
  3. 自動化策略誤用 (65.0%):錯誤調用自動化工具(如用integral_mono_on跳過控制收斂定理驗證)
  4. 無法正確應對不等式 (13.0%):錯誤地(例如在指數爆炸的情況)過度依賴linarith或者nlinarith等自動化不等式計算策略
突破方向:讓LLM學會「嚴謹思考」
技術瓶頸:自然語言引導反拖后腿

研究團隊發現一個反直覺現象:在鏈式思維(CoT)場景中,提供自然語言解題思路反而會降低證明成功率。

例如,DeepSeek-V1.5-RL模型在普通的CoT提示時表現優于引入人為自然語言引導的情況。



未來路徑:從「戰術依賴」到「戰略規劃」

未來,提升LLM形式化推理能力需從三方面突破:

  1. 強化多步規劃 :減少對aesop等單步戰術的依賴,設計分層推理架構;
  2. 跨領域泛化 :通過課程學習(Curriculum Learning)平衡代數/微積分等領域的訓練數據;
  3. 人機協同驗證 :開發交互式證明輔助工具,讓LLM與人類專家協同完成復雜定理證明。
開源開放:數據、代碼與模型已全面公開

研究團隊呼吁學術界與工業界共同推進形式化數學推理技術的發展,助力AI在數學發現、形式化驗證等領域實現更可靠的應用。

FormalMATH基準測試的代碼、訓練數據及評估模型已向公眾開放:

論文鏈接 :
https://arxiv.org/pdf/2505.02735
項目倉庫 :
https://github.com/Sphere-AI-Lab/FormalMATH-Bench
基準數據集 :
https://huggingface.co/SphereLab

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
五一各地旅游收入排名,河南371億第二,北京沒進前五,第一是誰

五一各地旅游收入排名,河南371億第二,北京沒進前五,第一是誰

河山銳新聞
2025-05-08 16:16:05
澳門這一晚:陳慧琳的腿,劉濤的小肚子,都敗給了深V領的舒淇!

澳門這一晚:陳慧琳的腿,劉濤的小肚子,都敗給了深V領的舒淇!

比利
2025-05-07 20:53:30
大國外交最前線丨雙邊關系再添動力 全球治理展現擔當!

大國外交最前線丨雙邊關系再添動力 全球治理展現擔當!

國際在線
2025-05-09 01:17:36
英國和美國就關稅貿易協議條款達成一致 歐盟委員會計劃對950億歐元美國進口產品采取反制措施

英國和美國就關稅貿易協議條款達成一致 歐盟委員會計劃對950億歐元美國進口產品采取反制措施

每日經濟新聞
2025-05-08 23:41:20
本?阿弗萊克驚悚片戰績大盤點:從票房撲街到封神,這哥把套路玩出花了

本?阿弗萊克驚悚片戰績大盤點:從票房撲街到封神,這哥把套路玩出花了

膠片猴
2025-05-06 13:23:24
中國六代機不隱身?美國空軍退役飛行員揚言發現決定性的證據

中國六代機不隱身?美國空軍退役飛行員揚言發現決定性的證據

戰爭史
2025-05-08 15:04:14
因尺度大引發爭議,Netflix的五部華語劇建議收藏

因尺度大引發爭議,Netflix的五部華語劇建議收藏

來看美劇
2025-05-08 23:42:42
巴鐵剛擊落印戰機,中國就對印出手,中巴“雙打”讓莫迪文武雙輸

巴鐵剛擊落印戰機,中國就對印出手,中巴“雙打”讓莫迪文武雙輸

說天說地說實事
2025-05-08 01:59:07
29國領導人齊聚莫斯科,普京沒給特朗普留臺階,莫迪突然轉變立場?

29國領導人齊聚莫斯科,普京沒給特朗普留臺階,莫迪突然轉變立場?

娛樂的宅急便
2025-05-08 09:46:49
哪吒汽車有錢了?將償還近5000萬元欠款!內部人士:30億元融資還沒到賬!App和官網已恢復正常,知情人士:斷網因流量欠費

哪吒汽車有錢了?將償還近5000萬元欠款!內部人士:30億元融資還沒到賬!App和官網已恢復正常,知情人士:斷網因流量欠費

每日經濟新聞
2025-05-08 23:35:07
61歲大爺存52萬養老,五一取錢發現只剩下3塊2,查監控才知真相

61歲大爺存52萬養老,五一取錢發現只剩下3塊2,查監控才知真相

張道陵秘話
2025-05-06 22:36:06
如果夜間出現這三種癥狀,不是大病就是癌

如果夜間出現這三種癥狀,不是大病就是癌

消化石醫生
2025-05-03 20:32:21
女子揭露騎行圈內幕,男女住宿隨機匹配,互相尊重不外傳注重人品

女子揭露騎行圈內幕,男女住宿隨機匹配,互相尊重不外傳注重人品

老鵜愛說事
2025-04-10 22:43:20
70歲大爺與賣淫女山上野戰,且只與一人發生關系,大爺:她花樣多

70歲大爺與賣淫女山上野戰,且只與一人發生關系,大爺:她花樣多

胖胖侃咖
2025-04-11 08:00:10
《父母愛情》里各位主演的另一半,果然愛情如酒,越陳越香!

《父母愛情》里各位主演的另一半,果然愛情如酒,越陳越香!

小米亞的故事
2025-05-07 16:14:46
事實證明,陪法國總統訪華的鞏俐,已經走上了演員的另一條大道

事實證明,陪法國總統訪華的鞏俐,已經走上了演員的另一條大道

漣漪讀史
2025-04-28 10:00:31
曝崔康熙經紀人抵達濟南,4人或是候選,山東泰山可以考慮2個方案

曝崔康熙經紀人抵達濟南,4人或是候選,山東泰山可以考慮2個方案

璞玉話體壇
2025-05-08 21:02:37
魯迅給報社投稿發現稿費少了,報社稱:“標點符號不算稿費”,魯迅聽后心生一計

魯迅給報社投稿發現稿費少了,報社稱:“標點符號不算稿費”,魯迅聽后心生一計

每日一首古詩詞
2025-05-08 12:07:14
掃地出門!巴薩正式決定逐出7000萬“偽大核”!欽點簽下1億飛翼

掃地出門!巴薩正式決定逐出7000萬“偽大核”!欽點簽下1億飛翼

頭狼追球
2025-05-08 14:40:42
看好森林狼!蒂格:我認為森林狼將4-1勇士晉級,庫里無法出戰就是這個結果

看好森林狼!蒂格:我認為森林狼將4-1勇士晉級,庫里無法出戰就是這個結果

雷速體育
2025-05-08 20:13:08
2025-05-09 06:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10443文章數 176133關注度
往期回顧 全部

科技要聞

理想L煥新版來了,輔助駕駛芯片全系升級

頭條要聞

普雷沃斯特當選新一任天主教羅馬教皇

頭條要聞

普雷沃斯特當選新一任天主教羅馬教皇

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態度原創

本地
旅游
手機
時尚
公開課

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風箏藏多少絕活

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

2999元買折疊屏!聯想moto razr 60系列新品發布

學會這5個萬能公式,好看一整個夏天

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉善县| 茶陵县| 湾仔区| 思南县| 永康市| 湘乡市| 邵武市| 洞口县| 新竹市| 正镶白旗| 凤凰县| 遂川县| 河源市| 遵义市| 称多县| 碌曲县| 博客| 元江| 黄龙县| 两当县| 云南省| 贡嘎县| 炉霍县| 渝中区| 岗巴县| 兴山县| 利津县| 桦川县| 乾安县| 稷山县| 伽师县| 冕宁县| 通州市| 东城区| 西安市| 罗田县| 高邮市| 自贡市| 乐平市| 乌什县| 新邵县|