網易首頁 > 網易號 > 正文申請入駐

形式化證明邁向多模態，MLLM正確率僅4%！港科大等推出全新基準

2025-06-17 16:19:48　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】MATP-BENCH是一個新推出的多模態自動定理證明基準，旨在評估多模態大模型（MLLMs）在處理包含圖像和文本的幾何定理證明中的能力。實驗表明，盡管模型在將圖文信息轉化為形式化定理方面有一定能力，但在構建完整證明時面臨重大挑戰，尤其是復雜邏輯推理和輔助線構造方面。

近年來，自動定理證明（ATP）取得了顯著進展，但大部分工作都集中在處理純文本形式的定理。

然而，在現實世界中，尤其是在幾何學領域，許多定理的呈現和理解都離不開圖像、圖表等視覺元素。

人類數學家善于從這些圖表中獲取直覺，并將其作為引導嚴謹證明過程的關鍵。

那么，當下的多模態大模型（MLLMs）能否模仿人類的這一能力，從圖文中汲取信息，完成可被機器嚴格驗證的形式化證明 (Formal Proof) 呢？

這一重要潛能，在很大程度上仍未被探索。

為了系統性地回答這一問題，香港科技大學的研究團隊推出了MATP-BENCH，一個全新的多模態、多層次、多形式化語言的自動定理證明基準，旨在全面評估MLLMs作為自動定理證明者 (Automated Theorem Prover)的真實能力。

論文地址：https://arxiv.org/pdf/2506.06034

項目主頁：https://matpbench.github.io/

MATP-BENCH任務與傳統ATP任務的對比。傳統ATP僅依賴文本化的定理陳述，而MATP-BENCH要求模型必須結合圖像和自然語言，并從中提取文本中未明確說明的關鍵前提（如圖中「From diagram」部分所示），才能構建完整的形式化定理。

MATP-BENCH的設計

MATP-BENCH是首個專為多模態定理證明設計的基準，涵蓋了三種主流的形式化證明語言：Lean 4、Coq和Isabelle。

MATP-BENCH 的統計數據。左表展示了不同難度級別和幾何類型的題目分布，右表展示了更細分的數學主題分布。

核心特點包括：

多模態上下文：每個問題都由一張圖像和一個自然語言陳述組成，二者互為補充，共同構成完整的定理信息。
多層次與多樣性：基準共包含1056個多模態定理，題目難度橫跨高中、大學和競賽三個級別。內容上則覆蓋了平面幾何、3D幾何、解析幾何等多個領域。
多語言形式化：所有定理都提供了在Lean 4、Coq 和 Isabelle三種證明輔助工具中的形式化版本，確保了廣泛的兼容性。

MATP-BENCH與相關可驗證基準的詳細對比。MATP-BENCH在多模態、多層次和多形式化語言支持上具有綜合優勢。

多數現有基準如 miniF2F 和 ProofNet 僅包含純文本定理。雖然 LeanEuclid 等基準包含多模態幾何問題，但其主要任務是「自動形式化」（將人類語言證明轉為代碼），而非從零開始生成證明。

為了精準評估模型在不同階段的能力，MATP-BENCH設置了兩個關聯的核心任務：

（1）多模態自動定理證明 (Multimodal Automated Theorem Proving)：模擬人類專家的端到端形式化定理及證明過程；

（2）多模態定理形式化 (Multimodal Theorem Formalization)：單獨評估模型理解和翻譯多模態信息為形式化定理的能力。

實驗結果

通過在MATP-BENCH上進行的大量實驗，研究團隊不僅定位了當前多模態大模型（MLLM）在形式化定理證明上的核心瓶頸，更從多個維度揭示了其能力的邊界和挑戰。

實驗揭示了模型在不同形式化語言上的性能差異，最強大的模型在Lean 4語言上pass@10成功率僅為4.26%，而在生成Coq語言上表現出人意料地好，任務一的成功率達到了12.15%，顯著高于Lean 4和Isabelle。

研究者推測，這可能得益于Coq更成熟的策略庫、豐富的數學資源以及更適合大模型學習的命令式策略風格。

模型的性能隨著題目難度的增加而顯著下降。

在Lean 4的任務一中，模型在高中、大學和競賽級別問題上的平均成功率分別為6.39%、2.85%和1.29%

不同模型「犯錯」方式不同

圖中展示了三類模型在 Lean 4 任務上的錯誤分布?？梢郧逦乜吹?，Qwen2.5-VL（右）的基礎性錯誤（如變量定義和庫導入）比例顯著高于 Claude-3.7（左）和 GPT-4.1（中）

對于表現較好的閉源模型（如Claude-3.7和GPT-4.1），其錯誤主要集中在「無效或未完成的證明步驟」和「缺失前提/隱藏假設」。而對于一些開源模型（如Qwen2.5-VL），錯誤模式則有所不同。

雖然它們同樣存在邏輯推理問題，但取它們出現了更多基礎性的生成錯誤，例如「不正確或未聲明的變量/定義」以及「缺失/錯誤的庫導入」。這說明，這類模型不僅在高級邏輯上面臨挑戰，在掌握形式化語言的基本語法和規范上就已困難重重。

核心瓶頸——「證明」而非「看懂」

實驗另外揭示了一個普遍現象：模型在任務一（端到端形式化證明）上的表現普遍不佳，但在任務二（僅形式化定理）上表現要好得多。

以Lean 4語言為例，模型在任務二上的平均pass@10成功率（即10次嘗試內成功一次的概率）可達45.16%，這說明它們具備了相當不錯的圖文理解和形式化轉譯能力。

然而，在需要完整證明的任務一上，該數值驟降至僅4.26%，這一差距清晰地表明：當前MLLM的主要瓶頸并非「看懂題目」，而是后續「構建證明」的復雜邏輯推理過程。

輔助線難題——「畫不好也用不好」

圖中灰色曲線顯示需要輔助線的問題比例隨難度上升。模型的嘗試率（虛線）也隨之上升，但成功率（實線）卻始終處于極低水平

在人類的幾何解題中，添加輔助線是一種常見且強大的策略。

實驗發現，隨著題目難度的增加，需要輔助線的問題比例也顯著上升。

模型在一定程度上能夠模仿人類，嘗試在證明中引入輔助線等構造性步驟。

然而，它們幾乎無法有效構造和利用輔助線來推進證明，導致包含輔助線構造的證明成功率極低。

總結與展望

MATP-BENCH的研究結果清晰地表明要讓MLLM成為合格的多模態定理證明者，研究需要重點關注：

提升符號推理能力：開發新的模型架構或訓練方法，專門增強模型在嚴謹的形式化邏輯系統中的推理和證明構建能力。
增強視覺-符號聯合推理：讓模型不僅能「看見」圖中的幾何關系，更能將其無縫轉化為可用于證明的形式化符號語言。
探索交互式證明生成：讓其利用外部工具進行輔助思考，可能是一個充滿希望的研究方向。

參考資料：

https://arxiv.org/abs/2506.06034

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

30年懸案告破，平均曲率流奇點真相曝光，揭曉「冰塊融化」的秘密

機器之心Pro 2025-04-15 17:29:28
1 跟貼 1
科研圈鄙視鏈大全：第 2 張最真實，看到第 5 張圖導師都哭了

生物學霸 2025-06-17 17:15:59
1 跟貼 1

Nature專訪饒毅教授：中國如何能夠成為生物科技超級大國？

生物世界 2025-06-17 18:37:31
1 跟貼 1

超越DeepSeek-ProverV1.5!豆包首個形式化數學推理模型BFS-Prover

機器之心Pro 2025-02-25 15:29:28
20 跟貼 20
牛頓引力中的一個悖論

白駒談人機 2025-06-14 07:54:00
16 跟貼 16

0.99999...=1 ？數學史上最讓人難以接受的等式，原來一個定義就能解決！

新發現雜志 2025-06-15 20:23:40
2 跟貼 2

沉迷貪吃蛇，7B小模型竟變身「數學天才」！幾何推理碾壓GPT-4o

新智元 2025-06-17 13:43:02
1 跟貼 1
從 0 到 1 打造 Labubu ，MiniMax Agent 讓我看到了智能體未來的樣子

愛范兒 2025-06-17 22:30:35
0 跟貼 0

憋大招，MiniMax發布全球首個混合架構開源模型M1 能后來者居上嗎？

每日經濟新聞 2025-06-17 23:00:08
0 跟貼 0
港科大（廣州）擴招：2025年本科廣東招生人數預計增6成

21世紀經濟報道 2025-06-17 13:47:18
2 跟貼 2
首個全面梳理語音大模型發展脈絡的權威綜述，入選ACL 2025主會

機器之心Pro 2025-06-17 16:57:09
0 跟貼 0
逾140個前沿科技項目亮相港科大（廣州）

環球網資訊 2025-06-16 18:30:10
0 跟貼 0
從比亞迪與印度的貿易博弈看中企出海的謹慎邏輯

凝水文秋 2025-06-17 05:34:33
0 跟貼 0
烈日下女子中暑倒馬路上呼吸微弱路人不敢扶幫打120

動態新聞 2025-06-17 17:22:31
2944 跟貼 2944
新一代載人飛船"夢舟"零高度逃逸飛行試驗成功

央視新聞客戶端 2025-06-17 14:02:26
1475 跟貼 1475
你們喜歡的新能源汽車，里面竟是這樣的構造，牌子居然沒打馬賽克

鄉村阿生姐 2025-06-16 18:20:36
18 跟貼 18
廣東佛山初中數學月考題，如何快速求解此題？

三樂大掌柜 2025-06-16 10:50:11
1 跟貼 1
外網熱議：中國裸辭大哥太猛！親手打造航母模型

神秘莫測的世界 2025-06-17 05:42:14
1 跟貼 1
蘋果20周年紀念版iPhone曝光：全玻璃機身設計結合無開孔全面屏

環球網資訊 2025-06-17 11:31:10
2093 跟貼 2093
外界恍然大悟，中國對埃及如此支援，才是以色列面臨的最大變量

關注財事 2025-06-16 18:25:20
1 跟貼 1
用簡單的方式，塑形你的背部曲線

光旭教練 2025-06-16 08:00:00
0 跟貼 0
一小區樓房墻體開裂地基疑似下沉；深圳官方剛剛通報：封控25棟樓，鄰近學校停課1天！

大風新聞 2025-06-17 12:01:28
439 跟貼 439
1403北京中考數學題，求最大值。難壞了好多人，學霸用韋達定理

我服子佩 2025-06-14 21:10:31
1 跟貼 1
一夜之間伊朗6位核科學家被斬首，現在才知，中國當年做的多正確

滄海旅行家 2025-06-18 00:04:29
1 跟貼 1
Labubu之父稱故意保留9顆尖牙：就像年輕人抗拒被標準化定義

觀威海 2025-06-17 09:36:23
1074 跟貼 1074
水質好不好一測便知道，你家水的數值超標了沒？

豆兒哥 2025-06-14 18:05:54
3 跟貼 3
數理化好難學??！幸好，還有哈佛大佬畫的這套漫畫

學術那些事兒 2025-06-17 15:29:10
2 跟貼 2
景區游客遭“激光射眼”，劇組拍戲沒有“清場特權”！

上觀新聞 2025-06-17 14:29:09
186 跟貼 186
中東棋局突變：胡塞武裝沉默背后的戰略博弈與生存邏輯

走過海棠 2025-06-16 03:34:29
0 跟貼 0
愛因斯坦為何一生都在批判康德？

尚曦讀史 2025-06-16 22:53:28
15 跟貼 15
小升初數學考試題，可以用金字塔模型，也可以用沙漏模型

公考客棧店小二 2025-06-14 12:31:21
1 跟貼 1
半掛車的構造，是什么設計原理！

一豎剪輯 2025-06-16 06:30:47
1 跟貼 1
四川新增1所本科高校

新京報 2025-06-17 14:42:06
611 跟貼 611
退役后是否可能執教？詹姆斯：絕無可能我不會去執教任何球隊

北青網-北京青年報 2025-06-17 07:23:17
666 跟貼 666
北京這位七旬老人一個壞習慣，差點把家給燒了

中工網 2025-06-17 09:22:25
205 跟貼 205
華羅庚競賽題：求梯形面積，蝴蝶定理

大力小學數學 2025-06-13 14:54:00
0 跟貼 0
理想公司回應王興4天套現超6億港元：個人行為，占其總持股比例很小

魯中晨報 2025-06-17 20:46:04
170 跟貼 170
四川瀘州初中數學競賽題求x的值，需要用去分母來做此題嗎？

三樂大掌柜 2025-06-17 17:52:52
4 跟貼 4
Web3出圈的“穩定幣”和AI有啥關系？

虎嗅APP 2025-06-18 05:01:08
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

12899文章數 66072關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

房產

數碼

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

形式化證明邁向多模態，MLLM正確率僅4%！港科大等推出全新基準

51歲劉強東談幾年前"退休":當時太理想主義

特朗普：呼吁伊朗無條件投降 我們的耐心正在耗盡

特朗普：呼吁伊朗無條件投降 我們的耐心正在耗盡

杰威40+6雷霆3-2步行者 SGA31+10

重男輕女還雌競？朱丹行為引爭議

白酒股崩了，誰在“拋棄”茅臺？

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！

蘋果創新智能眼鏡設計：支持用戶按需更換部件

形式化證明邁向多模態，MLLM正確率僅4%！港科大等推出全新基準

特朗普：呼吁伊朗無條件投降我們的耐心正在耗盡

特朗普：呼吁伊朗無條件投降我們的耐心正在耗盡

白酒股崩了，誰在“拋棄”茅臺？

高級感拉滿極氪9X全新配色“極晝白”亮相

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！