99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

形式化證明邁向多模態,MLLM正確率僅4%!港科大等推出全新基準

0
分享至


新智元報道

編輯:LRST

【新智元導讀】MATP-BENCH是一個新推出的多模態自動定理證明基準,旨在評估多模態大模型(MLLMs)在處理包含圖像和文本的幾何定理證明中的能力。實驗表明,盡管模型在將圖文信息轉化為形式化定理方面有一定能力,但在構建完整證明時面臨重大挑戰,尤其是復雜邏輯推理和輔助線構造方面。

近年來,自動定理證明(ATP)取得了顯著進展,但大部分工作都集中在處理純文本形式的定理。

然而,在現實世界中,尤其是在幾何學領域,許多定理的呈現和理解都離不開圖像、圖表等視覺元素。

人類數學家善于從這些圖表中獲取直覺,并將其作為引導嚴謹證明過程的關鍵。

那么,當下的多模態大模型(MLLMs)能否模仿人類的這一能力,從圖文中汲取信息,完成可被機器嚴格驗證的形式化證明 (Formal Proof) 呢?

這一重要潛能,在很大程度上仍未被探索。

為了系統性地回答這一問題,香港科技大學的研究團隊推出了MATP-BENCH,一個全新的多模態、多層次、多形式化語言的自動定理證明基準,旨在全面評估MLLMs作為自動定理證明者 (Automated Theorem Prover)的真實能力。


論文地址:https://arxiv.org/pdf/2506.06034

項目主頁:https://matpbench.github.io/


MATP-BENCH任務與傳統ATP任務的對比。傳統ATP僅依賴文本化的定理陳述,而MATP-BENCH要求模型必須結合圖像和自然語言,并從中提取文本中未明確說明的關鍵前提(如圖中「From diagram」部分所示),才能構建完整的形式化定理 。

MATP-BENCH的設計

MATP-BENCH是首個專為多模態定理證明設計的基準,涵蓋了三種主流的形式化證明語言:Lean 4、Coq和Isabelle。


MATP-BENCH 的統計數據。左表展示了不同難度級別和幾何類型的題目分布,右表展示了更細分的數學主題分布 。

核心特點包括:

  • 多模態上下文每個問題都由一張圖像和一個自然語言陳述組成,二者互為補充,共同構成完整的定理信息。

  • 多層次與多樣性基準共包含1056個多模態定理,題目難度橫跨高中、大學和競賽三個級別 。內容上則覆蓋了平面幾何、3D幾何、解析幾何等多個領域 。

  • 多語言形式化所有定理都提供了在Lean 4、Coq 和 Isabelle三種證明輔助工具中的形式化版本,確保了廣泛的兼容性 。


MATP-BENCH與相關可驗證基準的詳細對比。MATP-BENCH在多模態、多層次和多形式化語言支持上具有綜合優勢。

多數現有基準如 miniF2F 和 ProofNet 僅包含純文本定理 。雖然 LeanEuclid 等基準包含多模態幾何問題,但其主要任務是「自動形式化」(將人類語言證明轉為代碼),而非從零開始生成證明 。

為了精準評估模型在不同階段的能力,MATP-BENCH設置了兩個關聯的核心任務

(1)多模態自動定理證明 (Multimodal Automated Theorem Proving):模擬人類專家的端到端形式化定理及證明過程;

(2)多模態定理形式化 (Multimodal Theorem Formalization):單獨評估模型理解和翻譯多模態信息為形式化定理的能力。

實驗結果

通過在MATP-BENCH上進行的大量實驗,研究團隊不僅定位了當前多模態大模型(MLLM)在形式化定理證明上的核心瓶頸,更從多個維度揭示了其能力的邊界和挑戰。



實驗揭示了模型在不同形式化語言上的性能差異,最強大的模型在Lean 4語言上pass@10成功率僅為4.26%,而在生成Coq語言上表現出人意料地好,任務一的成功率達到了12.15%,顯著高于Lean 4和Isabelle。

研究者推測,這可能得益于Coq更成熟的策略庫、豐富的數學資源以及更適合大模型學習的命令式策略風格。

模型的性能隨著題目難度的增加而顯著下降。

在Lean 4的任務一中,模型在高中、大學和競賽級別問題上的平均成功率分別為6.39%、2.85%和1.29%

不同模型「犯錯」方式不同


圖中展示了三類模型在 Lean 4 任務上的錯誤分布??梢郧逦乜吹?,Qwen2.5-VL(右)的基礎性錯誤(如變量定義和庫導入)比例顯著高于 Claude-3.7(左)和 GPT-4.1(中)

對于表現較好的閉源模型(如Claude-3.7和GPT-4.1),其錯誤主要集中在「無效或未完成的證明步驟」「缺失前提/隱藏假設」 。而對于一些開源模型(如Qwen2.5-VL),錯誤模式則有所不同。

雖然它們同樣存在邏輯推理問題,但取它們出現了更多基礎性的生成錯誤,例如「不正確或未聲明的變量/定義」以及「缺失/錯誤的庫導入」。這說明,這類模型不僅在高級邏輯上面臨挑戰,在掌握形式化語言的基本語法和規范上就已困難重重 。

核心瓶頸——「證明」而非「看懂」


實驗另外揭示了一個普遍現象:模型在任務一(端到端形式化證明)上的表現普遍不佳,但在任務二(僅形式化定理)上表現要好得多。

以Lean 4語言為例,模型在任務二上的平均pass@10成功率(即10次嘗試內成功一次的概率)可達45.16%,這說明它們具備了相當不錯的圖文理解和形式化轉譯能力。

然而,在需要完整證明的任務一上,該數值驟降至僅4.26%,這一差距清晰地表明:當前MLLM的主要瓶頸并非「看懂題目」,而是后續「構建證明」的復雜邏輯推理過程。

輔助線難題——「畫不好也用不好」


圖中灰色曲線顯示需要輔助線的問題比例隨難度上升。模型的嘗試率(虛線)也隨之上升,但成功率(實線)卻始終處于極低水平

在人類的幾何解題中,添加輔助線是一種常見且強大的策略。

實驗發現,隨著題目難度的增加,需要輔助線的問題比例也顯著上升。

模型在一定程度上能夠模仿人類,嘗試在證明中引入輔助線等構造性步驟 。

然而,它們幾乎無法有效構造和利用輔助線來推進證明,導致包含輔助線構造的證明成功率極低 。

總結與展望

MATP-BENCH的研究結果清晰地表明要讓MLLM成為合格的多模態定理證明者,研究需要重點關注:

  • 提升符號推理能力:開發新的模型架構或訓練方法,專門增強模型在嚴謹的形式化邏輯系統中的推理和證明構建能力。

  • 增強視覺-符號聯合推理:讓模型不僅能「看見」圖中的幾何關系,更能將其無縫轉化為可用于證明的形式化符號語言。

  • 探索交互式證明生成:讓其利用外部工具進行輔助思考,可能是一個充滿希望的研究方向 。

參考資料:

https://arxiv.org/abs/2506.06034


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
寶馬發起了大反攻

寶馬發起了大反攻

華爾街見聞官方
2025-06-17 20:40:41
外交部:中方正迅速組織撤離在以、伊的中國公民

外交部:中方正迅速組織撤離在以、伊的中國公民

每日經濟新聞
2025-06-17 16:57:53
怪不得賴清德消停了,沒敢造次,原來印太司令透露了一個驚人事實

怪不得賴清德消停了,沒敢造次,原來印太司令透露了一個驚人事實

呼呼歷史論
2025-06-17 00:36:12
美記:近48小時馬刺關于KD等交易討論全面沉寂 或準備一次性報價

美記:近48小時馬刺關于KD等交易討論全面沉寂 或準備一次性報價

直播吧
2025-06-18 06:20:18
李雪琴攤官司!被前合伙人謝哥告上法庭,李雪琴反訴,索賠10萬

李雪琴攤官司!被前合伙人謝哥告上法庭,李雪琴反訴,索賠10萬

大笑江湖史
2025-06-17 11:31:05
“伊朗女性勇氣的象征”:以軍空襲伊朗電視臺,女主播最后時刻仍持續譴責以色列

“伊朗女性勇氣的象征”:以軍空襲伊朗電視臺,女主播最后時刻仍持續譴責以色列

紅星新聞
2025-06-17 13:12:09
李盈瑩再落選,中國女排第二站賽程出爐!迎戰日意勁敵,央視直播

李盈瑩再落選,中國女排第二站賽程出爐!迎戰日意勁敵,央視直播

知軒體育
2025-06-17 23:56:02
50歲大媽救受傷蛇養12年,寵物院長捂嘴尖叫:這哪是蛇啊

50歲大媽救受傷蛇養12年,寵物院長捂嘴尖叫:這哪是蛇啊

故事秘棧
2025-05-17 18:42:12
火爆!泡泡瑪特開始賣珠寶,最貴單品近2萬元!LABUBU手鏈遭瘋搶

火爆!泡泡瑪特開始賣珠寶,最貴單品近2萬元!LABUBU手鏈遭瘋搶

第一財經資訊
2025-06-17 20:19:40
伊朗真正的問題,和俄羅斯是一樣的毛病,就是企圖以拖待變

伊朗真正的問題,和俄羅斯是一樣的毛病,就是企圖以拖待變

大道無形我有型
2025-06-17 12:06:46
朱亞文沈佳妮夫婦罕見同框,倆女兒出鏡好漂亮,全家都是高個子

朱亞文沈佳妮夫婦罕見同框,倆女兒出鏡好漂亮,全家都是高個子

振華觀史
2025-06-17 23:32:54
李佳琦談泡泡瑪特Labubu:根本拿不到貨,價格太夸張,普通款都要500元一個,沒必要加錢買!后面會原價的

李佳琦談泡泡瑪特Labubu:根本拿不到貨,價格太夸張,普通款都要500元一個,沒必要加錢買!后面會原價的

和訊網
2025-06-17 12:48:26
特朗普集團計劃推出新手機,定價499美元

特朗普集團計劃推出新手機,定價499美元

界面新聞
2025-06-17 11:26:17
中國女籃再遭打擊?曝2米28張子宇將離開國家隊:或無緣亞洲杯?

中國女籃再遭打擊?曝2米28張子宇將離開國家隊:或無緣亞洲杯?

籃球快餐車
2025-06-17 07:30:36
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
以色列與伊朗爆發激戰,為何說是中國的“國運”又來了?

以色列與伊朗爆發激戰,為何說是中國的“國運”又來了?

局勢帝
2025-06-17 13:18:58
花里胡哨成死穴?宮魯鳴早就暗示清洗李夢,隋菲菲往事成前車之鑒!

花里胡哨成死穴?宮魯鳴早就暗示清洗李夢,隋菲菲往事成前車之鑒!

畫夕
2025-06-18 04:56:36
湖記:湖人首發中鋒目標為克拉克斯頓&羅威&凱斯勒

湖記:湖人首發中鋒目標為克拉克斯頓&羅威&凱斯勒

直播吧
2025-06-18 06:09:18
全紅嬋又退賽?真實處境曝光不樂觀,評論區太惡心

全紅嬋又退賽?真實處境曝光不樂觀,評論區太惡心

趙昉是個熱血青年
2025-06-18 01:16:49
土匪?。∷拗莺鍝?00萬斤土豆事件,當地表態:將依法依規處理

土匪??!宿州哄搶100萬斤土豆事件,當地表態:將依法依規處理

火山詩話
2025-06-17 08:18:56
2025-06-18 06:32:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12899文章數 66072關注度
往期回顧 全部

科技要聞

51歲劉強東談幾年前"退休":當時太理想主義

頭條要聞

特朗普:呼吁伊朗無條件投降 我們的耐心正在耗盡

頭條要聞

特朗普:呼吁伊朗無條件投降 我們的耐心正在耗盡

體育要聞

杰威40+6雷霆3-2步行者 SGA31+10

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

旅游
藝術
房產
數碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

數碼要聞

蘋果創新智能眼鏡設計:支持用戶按需更換部件

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乐昌市| 浦北县| 宝清县| 丰顺县| 高安市| 利津县| 巨鹿县| 上虞市| 靖安县| 山阳县| 子洲县| 常州市| 延长县| 长宁区| 湘乡市| 安图县| 广灵县| 赣榆县| 平阳县| 山阴县| 宜兰市| 西盟| 金湖县| 航空| 长阳| 贵港市| 钦州市| 安庆市| 措勤县| 阜新| 凌云县| 西丰县| 霍城县| 望城县| 大埔县| 盘山县| 江达县| 平定县| 奉新县| 宝鸡市| 柘城县|