99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

超越DeepSeek-ProverV1.5!豆包首個形式化數學推理模型BFS-Prover

0
分享至



AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

自動形式化數學定理證明,是人工智能在數學推理領域的重要應用方向。此類任務需要將數學命題和證明步驟轉化為計算機可驗證的代碼,這不僅能確保推理過程的絕對嚴謹性,還能構建可復用的數學知識庫,為科學研究提供堅實基礎。

早在上世紀中葉,戴維斯、明斯基等不少邏輯學家、數學家、人工智能先驅便已在探索相關問題,其中,也不乏王浩、吳文俊等華人身影。

近些年在 LLM 能力加持下,自動定理證明系統更多依賴于復雜的蒙特卡洛樹搜索 (MCTS) 或價值函數 (Value Function) 來指導搜索過程。

然而,這些方法引入了額外計算成本,并增加系統復雜度,使模型在大規模推理任務中的可擴展性受限。

字節跳動豆包大模型團隊推出的 BFS-Prover 挑戰了這一傳統范式。

作為一種更簡單、更輕量但極具競爭力的自動定理證明系統,它引入了三項關鍵技術:1)專家迭代 (Expert Iteration) 與自適應性數據過濾,2)直接偏好優化 (DPO) 結合 Lean4 編譯器反饋,3)BFS 中的長度歸一化。

從結果看,BFS-Prover 在形式化數學測試集 MiniF2F 上實現了 72.95% 的準確率,創造了新的領域記錄。

該結果也首次證明:在合理的優化策略下,簡單的 BFS 方法能夠超越蒙特卡洛樹搜索(MCTS)和價值函數(Value Function)等主流的復雜搜索算法。

目前,論文成果已對外公開,模型也最新開源,期待與相關研究者做更進一步交流。



  • BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving
  • https://arxiv.org/abs/2502.03438
  • HuggingFace:https://huggingface.co/bytedance-research/BFS-Prover

Part1:主流方法蒙特卡洛樹搜索和價值函數真的必要么?

在形式化數學證明領域,將抽象的數學概念轉化為能夠用計算機驗證的嚴格形式,是一項極具挑戰性的任務。

該過程要求每一步推理都符合嚴格的形式邏輯規則,且每個步驟都必須經過 Lean 證明助手驗證。

在自動形式化定理證明過程中,計算機面臨的核心挑戰是 —— 在龐大且高度結構化的證明空間中,找出有效路徑。這一難點與傳統搜索問題有本質區別,具體表現如下:

  • 搜索空間龐大:每一步推理可能有數十甚至上百種可能的策略選擇;
  • 動態變化的策略空間:不同于棋類游戲的固定規則,數學定理證明中,每個狀態下可應用的策略集合不斷變化,且規模龐大且無明確界限;
  • 反饋稀疏與延遲:直到完成證明前,系統很難獲得有效的中間反饋;
  • 開放式推理過程:缺乏明確的終止條件,證明嘗試可能無限延續;

現有自動定理證明系統如 DeepSeek-Prover-V1.5、InternLM2.5-StepProver 和 HunyuanProver,主要依賴復雜的蒙特卡洛樹搜索(MCTS)和價值函數(Value Function)解決上述問題。

這些類 AlphaZero 算法框架在游戲中表現出色,尤其在圍棋領域大放異彩,推動了強化學習概念破圈。但在自動定理證明領域,由于狀態空間極其復雜以及缺乏明確的過程獎勵信號,上述主流方法效果并不理想。此外,復雜的搜索算法還帶來了計算成本高、系統復雜度增加等問題。

Part2:化繁為簡,用機器證明數學定理可以更簡單

人類遇到問題,往往優先采用最可能解決的方法。最優先樹搜索(Best-First Tree Search,即 BFS)與之類似。

這是一種在 “樹” 或 “圖” 中搜索節點的算法。核心思想是根據某種啟發式函數,評估每個節點優先級,按優先級訪問節點,常用于解決約束滿足問題和組合優化問題,特別是在需要快速找到近似最優解的情況下。

此前不少研究者認為,簡單的 BFS 算法缺乏有效的探索機制,尤其是對深度路徑的探索,難以勝任大規模定理證明任務,但豆包大模型團隊的研究者發現了其中的突破口,并提出了 BFS-Prover 系統。

下圖展示了 BFS-Prover 系統的整體架構和工作流程。

右側展示了訓練數據生成過程,包括用于監督微調的 SFT 數據 (成功證明路徑上的狀態 - 策略對) 和用于直接偏好優化的 DPO 數據 (從同一狀態出發的正確策略與錯誤策略的對比)。

左側展示了 BFS 機制,通過 LeanDojo 環境與 Lean4 交互,從根節點開始,按照優先級順序 (1→2→3...) 探索證明路徑,直到找到證明完成節點 (綠色 A 點)。

整個系統形成閉環:LLM 生成策略 → LeanDojo 執行 → 獲取反饋 → 生成訓練數據→優化 LLM → 再次生成策略,實現了持續改進的專家迭代機制。



團隊認為,BFS-Prover 系統不僅證明了經過優化的 BFS 方法性能方面可以超越復雜的 MCTS 和價值函數,并且能保持架構的簡潔性和計算效率。其技術特征如下:

  • 讓模型既能深度思考策略,也能掌握最簡證明方式

BFS-Prover 采用專家迭代框架,通過多輪迭代不斷增強 LLM 能力。在每輪迭代中,系統會先使用確定性的束搜索 (Beam Search) 方法過濾掉容易解決的定理,將這些 “簡單問題” 從訓練數據中剔除,再著手解決 “復雜問題”。

這一數據過濾機制頗具創新性,確保了訓練數據逐漸向更具挑戰性的定理證明任務傾斜,使 LLM 能夠學習更多元化的證明策略。

如下圖實驗數據顯示,隨迭代進行,系統能夠發現證明的平均長度變長,覆蓋面變廣,證明了這一方法的有效性。



與此同時,LLM 生成的策略分布也發生進化。

如下圖所示,經過多輪迭代,模型生成的策略長度分布發生了顯著變化:非常短的策略(1-10 個 token)比例下降,而中等長度策略(11-50 個 token)比例則有所增加。

這種分布變化表明,LLM “深度思考能力” 在加強,避免了常見的強化學習導致的分布坍縮問題,并逐漸掌握了更復雜、更信息豐富的證明策略。

同時,模型生成簡潔策略的能力并未摒棄。這種多樣策略生成能力的保持對于有效定理證明至關重要,因為不同的證明狀態,需要不同復雜度的策略,涵蓋從簡單的項重寫到復雜的代數操作。



  • 從過程中總結 “錯誤證明步驟”,提升證明能力

在證明搜索過程中,當 LLM 生成的某些策略導致 Lean4 編譯器錯誤,系統將這些無效策略與成功策略配對,形成負反饋信號。

BFS-Prover 創新性地依靠這些數據,基于直接偏好優化 (DPO) 技術優化策略 LLM。此種方法顯著提高了模型識別有效策略的能力,優化了策略分布,提高 BFS 的采樣效率。

如下圖實驗結果,在各種計算量級下,經過 DPO 優化的模型均取得了性能提升,證明了負面信號在定理證明中的重要價值。



  • 避免對深度推理的打壓,實現對高難度定理證明的突破

為解決 BFS 對深度推理路徑的天然打壓問題,BFS-Prover 系統引入了可調節的長度歸一化評分函數:



其中,L 表示路徑長度,α 是可調節的長度歸一化參數。通過適當調整 α 值,系統可以平衡對高概率路徑的利用與對深層路徑的探索,使 BFS 能夠更有效地探索長鏈證明。

Part3:BFS-Prover 取得 MiniF2F 新 SOTA

團隊在 MiniF2F 測試集上,對 BFS-Prover 進行了全面評估。該測試集是形式化數學領域公認的基準測試集,包含高難度的競賽級數學問題,被廣泛用于衡量自動定理證明系統的能力。

  • 超越現有最優系統

在與領先的定理證明系統的對比中,BFS-Prover 展現出顯著優勢。

在固定策略生成的計算量下 (2048×2×600 次推理調用),BFS-Prover 實現了 70.83% 的準確率,超過所有現有系統,包括使用價值函數的 InternLM2.5-StepProver (65.9%) 、HunyuanProver (68.4%),以及基于 MCTS 的 DeepSeek-Prover-V1.5 (63.5%)。

在累積評估中,BFS-Prover 進一步將準確率提升至 72.95%,成為了形式化定理證明領域的 SOTA。

這一結果不僅證明了 BFS 方法的潛力,更展示了通過精心設計可以使簡單算法超越復雜方法。



  • 成功證明多個 IMO 題目

值得一提的是,BFS-Prover 成功證明了 MiniF2F-test 中的多個 IMO 問題,包括 imo_1959_p1,imo_1960_p2, imo_1962_p2, imo_1964_p2 和 imo_1983_p6。

這些證明展示了系統在處理復雜數學推理方面的強大能力,涵蓋數論、不等式和幾何關系等。

比如,對于 imo_1983_p6 不等式問題,BFS-Prover 能夠生成簡潔而優雅的形式化證明:



團隊認為,BFS-Prover 的成功,暗含了自動定理證明領域的一項重要啟示:簡潔的算法結合精心設計的優化策略,同樣有助于 AI4Math 邊界拓展。

隨著大語言模型能力的不斷提升,BFS-Prover 開創的簡潔高效路線有望進一步推動自動形式化定理證明領域發展,為數學研究提供更強大的自動化工具支持。

展望未來,團隊計劃進一步提升 BFS 方法在處理更復雜數學問題上的能力,特別是針對本科和研究生級別的數學定理。同時,團隊也將基于推理模型和其他前沿路線,持續挖掘模型潛力。

團隊期望,通過持續優化數據和訓練策略,讓相關工具為數學研究提供強大輔助,加速數學發現過程,最終實現人機協作解決前沿數學挑戰的愿景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
就在今天,5月31日上午,國乒陸續傳來雨果、王楚欽、孫穎莎消息

就在今天,5月31日上午,國乒陸續傳來雨果、王楚欽、孫穎莎消息

光輝記
2025-05-31 00:08:27
10天前被免職!惠州市惠東縣平山街道辦事處主任鄭郁文被查

10天前被免職!惠州市惠東縣平山街道辦事處主任鄭郁文被查

南方都市報
2025-05-30 22:38:23
恭喜了!多長高8厘米!國內知名專家首次公開“追高秘笈”!擔心孩子長不高的家長速來!

恭喜了!多長高8厘米!國內知名專家首次公開“追高秘笈”!擔心孩子長不高的家長速來!

燕梳樓頻道
2025-05-29 14:05:43
突發!指控錫安性侵!NBA生涯,危險了...

突發!指控錫安性侵!NBA生涯,危險了...

技巧君侃球
2025-05-31 04:03:09
ESPN2025年選秀Top100:楊瀚森一路狂飆連超38人躍居至第35位!

ESPN2025年選秀Top100:楊瀚森一路狂飆連超38人躍居至第35位!

直播吧
2025-05-30 21:30:12
盧東亮任山西省委副書記

盧東亮任山西省委副書記

澎湃新聞
2025-05-30 21:52:26
4年1.94億!西決剛被淘汰!頂薪合同打沒了

4年1.94億!西決剛被淘汰!頂薪合同打沒了

籃球教學論壇
2025-05-30 16:41:53
大媽打鼓擾民后續:領隊被扒在家行為更“過分”,警方做出回應

大媽打鼓擾民后續:領隊被扒在家行為更“過分”,警方做出回應

辣條小劇場
2025-05-30 17:00:43
寫出“周扒皮”的高玉寶,被周家后人戳著脊梁骨罵,到底誰對誰錯

寫出“周扒皮”的高玉寶,被周家后人戳著脊梁骨罵,到底誰對誰錯

混沌錄
2025-05-28 17:45:19
小里弗斯帶女友度假,場均20分,尋求3000萬年薪,女友很漂亮

小里弗斯帶女友度假,場均20分,尋求3000萬年薪,女友很漂亮

大西體育
2025-05-30 14:33:10
前腳剛去莫斯科捧場,后腳就被克宮問罪:塞爾維亞的幾十萬發炮彈

前腳剛去莫斯科捧場,后腳就被克宮問罪:塞爾維亞的幾十萬發炮彈

鷹眼Defence
2025-05-30 18:17:32
小米全新旗艦SUV YU9曝光,車長達5米3配增程式動力,值得期待?

小米全新旗艦SUV YU9曝光,車長達5米3配增程式動力,值得期待?

車技集合ing
2025-05-30 17:51:09
伯納烏相聚,皇馬官推發布貝林厄姆與阿諾德的經典慶祝照

伯納烏相聚,皇馬官推發布貝林厄姆與阿諾德的經典慶祝照

懂球帝
2025-05-30 19:14:24
90多個國家享受星鏈,為何唯獨不對中國開通?真相是中國背后技術

90多個國家享受星鏈,為何唯獨不對中國開通?真相是中國背后技術

百科密碼
2025-05-29 15:27:54
百桿破百巨獎繼續!準神和羅伯遜希望最大,趙心童墨菲或創造歷史

百桿破百巨獎繼續!準神和羅伯遜希望最大,趙心童墨菲或創造歷史

世界體壇觀察家
2025-05-30 11:56:22
上海女網紅男友出軌,帶美女過夜被抓,一床污跡,聊天記錄太炸裂

上海女網紅男友出軌,帶美女過夜被抓,一床污跡,聊天記錄太炸裂

楊哥歷史
2025-05-30 09:40:41
世俱杯最后一張門票爭奪,涉千萬美元獎金,兩支球隊誰能笑到最后

世俱杯最后一張門票爭奪,涉千萬美元獎金,兩支球隊誰能笑到最后

星耀國際足壇
2025-05-31 00:58:10
爆一線女星與富商私生子,出國留學是幌子,網友:就差直接點名了

爆一線女星與富商私生子,出國留學是幌子,網友:就差直接點名了

曉風說
2025-05-11 19:27:15
《碟中諜8》看麻了,我拿你當情懷,你拿我當日本人整?

《碟中諜8》看麻了,我拿你當情懷,你拿我當日本人整?

得得電影
2025-05-30 19:52:10
本澤馬國王杯決賽梅開二度,助吉達聯合隊史首獲國內賽事雙冠

本澤馬國王杯決賽梅開二度,助吉達聯合隊史首獲國內賽事雙冠

懂球帝
2025-05-31 05:39:15
2025-05-31 08:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10563文章數 142329關注度
往期回顧 全部

科技要聞

尊界S800上市 指導價70.8萬起 8月中旬交車

頭條要聞

票價10元的"蘇超"火了 "散裝江蘇"被稱比賽第1友誼第14

頭條要聞

票價10元的"蘇超"火了 "散裝江蘇"被稱比賽第1友誼第14

體育要聞

唐斯的媽媽,一定會感到驕傲的

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質疑

財經要聞

向松祚:不必擔憂美債高企 美可無限發債

汽車要聞

新增配色+動力升級 粵港澳車展探館新款smart #1

態度原創

手機
數碼
房產
本地
公開課

手機要聞

iPhone 17 的靈動島尺寸會變得更小嗎?

數碼要聞

達爾優高校電競賽武漢決賽完美收官!Fake WHU問鼎賽區冠軍

房產要聞

一座門的啟幕,一座城的開場!未來方洲實景亮相!

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 荥阳市| 古蔺县| 云阳县| 固安县| 久治县| 营口市| 蓬溪县| 奎屯市| 吉首市| 寿光市| 莱芜市| 霍林郭勒市| 永济市| 读书| 揭西县| 通榆县| 卢湾区| 桑植县| 图木舒克市| 南靖县| 正镶白旗| 大名县| 神农架林区| 凤阳县| 阜康市| 德清县| 玛多县| 棋牌| 门头沟区| 汤阴县| 黑水县| 通道| 榆树市| 安乡县| 苏尼特左旗| 台前县| 新沂市| 全椒县| 灌南县| 宜黄县| 岳阳县|