99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

超越DeepSeek-ProverV1.5!豆包首個形式化數(shù)學推理模型BFS-Prover

0
分享至



AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

自動形式化數(shù)學定理證明,是人工智能在數(shù)學推理領域的重要應用方向。此類任務需要將數(shù)學命題和證明步驟轉化為計算機可驗證的代碼,這不僅能確保推理過程的絕對嚴謹性,還能構建可復用的數(shù)學知識庫,為科學研究提供堅實基礎。

早在上世紀中葉,戴維斯、明斯基等不少邏輯學家、數(shù)學家、人工智能先驅便已在探索相關問題,其中,也不乏王浩、吳文俊等華人身影。

近些年在 LLM 能力加持下,自動定理證明系統(tǒng)更多依賴于復雜的蒙特卡洛樹搜索 (MCTS) 或價值函數(shù) (Value Function) 來指導搜索過程。

然而,這些方法引入了額外計算成本,并增加系統(tǒng)復雜度,使模型在大規(guī)模推理任務中的可擴展性受限。

字節(jié)跳動豆包大模型團隊推出的 BFS-Prover 挑戰(zhàn)了這一傳統(tǒng)范式。

作為一種更簡單、更輕量但極具競爭力的自動定理證明系統(tǒng),它引入了三項關鍵技術:1)專家迭代 (Expert Iteration) 與自適應性數(shù)據(jù)過濾,2)直接偏好優(yōu)化 (DPO) 結合 Lean4 編譯器反饋,3)BFS 中的長度歸一化。

從結果看,BFS-Prover 在形式化數(shù)學測試集 MiniF2F 上實現(xiàn)了 72.95% 的準確率,創(chuàng)造了新的領域記錄。

該結果也首次證明:在合理的優(yōu)化策略下,簡單的 BFS 方法能夠超越蒙特卡洛樹搜索(MCTS)和價值函數(shù)(Value Function)等主流的復雜搜索算法。

目前,論文成果已對外公開,模型也最新開源,期待與相關研究者做更進一步交流。



  • BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving
  • https://arxiv.org/abs/2502.03438
  • HuggingFace:https://huggingface.co/bytedance-research/BFS-Prover

Part1:主流方法蒙特卡洛樹搜索和價值函數(shù)真的必要么?

在形式化數(shù)學證明領域,將抽象的數(shù)學概念轉化為能夠用計算機驗證的嚴格形式,是一項極具挑戰(zhàn)性的任務。

該過程要求每一步推理都符合嚴格的形式邏輯規(guī)則,且每個步驟都必須經(jīng)過 Lean 證明助手驗證。

在自動形式化定理證明過程中,計算機面臨的核心挑戰(zhàn)是 —— 在龐大且高度結構化的證明空間中,找出有效路徑。這一難點與傳統(tǒng)搜索問題有本質區(qū)別,具體表現(xiàn)如下:

  • 搜索空間龐大:每一步推理可能有數(shù)十甚至上百種可能的策略選擇;
  • 動態(tài)變化的策略空間:不同于棋類游戲的固定規(guī)則,數(shù)學定理證明中,每個狀態(tài)下可應用的策略集合不斷變化,且規(guī)模龐大且無明確界限;
  • 反饋稀疏與延遲:直到完成證明前,系統(tǒng)很難獲得有效的中間反饋;
  • 開放式推理過程:缺乏明確的終止條件,證明嘗試可能無限延續(xù);

現(xiàn)有自動定理證明系統(tǒng)如 DeepSeek-Prover-V1.5、InternLM2.5-StepProver 和 HunyuanProver,主要依賴復雜的蒙特卡洛樹搜索(MCTS)和價值函數(shù)(Value Function)解決上述問題。

這些類 AlphaZero 算法框架在游戲中表現(xiàn)出色,尤其在圍棋領域大放異彩,推動了強化學習概念破圈。但在自動定理證明領域,由于狀態(tài)空間極其復雜以及缺乏明確的過程獎勵信號,上述主流方法效果并不理想。此外,復雜的搜索算法還帶來了計算成本高、系統(tǒng)復雜度增加等問題。

Part2:化繁為簡,用機器證明數(shù)學定理可以更簡單

人類遇到問題,往往優(yōu)先采用最可能解決的方法。最優(yōu)先樹搜索(Best-First Tree Search,即 BFS)與之類似。

這是一種在 “樹” 或 “圖” 中搜索節(jié)點的算法。核心思想是根據(jù)某種啟發(fā)式函數(shù),評估每個節(jié)點優(yōu)先級,按優(yōu)先級訪問節(jié)點,常用于解決約束滿足問題和組合優(yōu)化問題,特別是在需要快速找到近似最優(yōu)解的情況下。

此前不少研究者認為,簡單的 BFS 算法缺乏有效的探索機制,尤其是對深度路徑的探索,難以勝任大規(guī)模定理證明任務,但豆包大模型團隊的研究者發(fā)現(xiàn)了其中的突破口,并提出了 BFS-Prover 系統(tǒng)。

下圖展示了 BFS-Prover 系統(tǒng)的整體架構和工作流程。

右側展示了訓練數(shù)據(jù)生成過程,包括用于監(jiān)督微調的 SFT 數(shù)據(jù) (成功證明路徑上的狀態(tài) - 策略對) 和用于直接偏好優(yōu)化的 DPO 數(shù)據(jù) (從同一狀態(tài)出發(fā)的正確策略與錯誤策略的對比)。

左側展示了 BFS 機制,通過 LeanDojo 環(huán)境與 Lean4 交互,從根節(jié)點開始,按照優(yōu)先級順序 (1→2→3...) 探索證明路徑,直到找到證明完成節(jié)點 (綠色 A 點)。

整個系統(tǒng)形成閉環(huán):LLM 生成策略 → LeanDojo 執(zhí)行 → 獲取反饋 → 生成訓練數(shù)據(jù)→優(yōu)化 LLM → 再次生成策略,實現(xiàn)了持續(xù)改進的專家迭代機制。



團隊認為,BFS-Prover 系統(tǒng)不僅證明了經(jīng)過優(yōu)化的 BFS 方法性能方面可以超越復雜的 MCTS 和價值函數(shù),并且能保持架構的簡潔性和計算效率。其技術特征如下:

  • 讓模型既能深度思考策略,也能掌握最簡證明方式

BFS-Prover 采用專家迭代框架,通過多輪迭代不斷增強 LLM 能力。在每輪迭代中,系統(tǒng)會先使用確定性的束搜索 (Beam Search) 方法過濾掉容易解決的定理,將這些 “簡單問題” 從訓練數(shù)據(jù)中剔除,再著手解決 “復雜問題”。

這一數(shù)據(jù)過濾機制頗具創(chuàng)新性,確保了訓練數(shù)據(jù)逐漸向更具挑戰(zhàn)性的定理證明任務傾斜,使 LLM 能夠學習更多元化的證明策略。

如下圖實驗數(shù)據(jù)顯示,隨迭代進行,系統(tǒng)能夠發(fā)現(xiàn)證明的平均長度變長,覆蓋面變廣,證明了這一方法的有效性。



與此同時,LLM 生成的策略分布也發(fā)生進化。

如下圖所示,經(jīng)過多輪迭代,模型生成的策略長度分布發(fā)生了顯著變化:非常短的策略(1-10 個 token)比例下降,而中等長度策略(11-50 個 token)比例則有所增加。

這種分布變化表明,LLM “深度思考能力” 在加強,避免了常見的強化學習導致的分布坍縮問題,并逐漸掌握了更復雜、更信息豐富的證明策略。

同時,模型生成簡潔策略的能力并未摒棄。這種多樣策略生成能力的保持對于有效定理證明至關重要,因為不同的證明狀態(tài),需要不同復雜度的策略,涵蓋從簡單的項重寫到復雜的代數(shù)操作。



  • 從過程中總結 “錯誤證明步驟”,提升證明能力

在證明搜索過程中,當 LLM 生成的某些策略導致 Lean4 編譯器錯誤,系統(tǒng)將這些無效策略與成功策略配對,形成負反饋信號。

BFS-Prover 創(chuàng)新性地依靠這些數(shù)據(jù),基于直接偏好優(yōu)化 (DPO) 技術優(yōu)化策略 LLM。此種方法顯著提高了模型識別有效策略的能力,優(yōu)化了策略分布,提高 BFS 的采樣效率。

如下圖實驗結果,在各種計算量級下,經(jīng)過 DPO 優(yōu)化的模型均取得了性能提升,證明了負面信號在定理證明中的重要價值。



  • 避免對深度推理的打壓,實現(xiàn)對高難度定理證明的突破

為解決 BFS 對深度推理路徑的天然打壓問題,BFS-Prover 系統(tǒng)引入了可調節(jié)的長度歸一化評分函數(shù):



其中,L 表示路徑長度,α 是可調節(jié)的長度歸一化參數(shù)。通過適當調整 α 值,系統(tǒng)可以平衡對高概率路徑的利用與對深層路徑的探索,使 BFS 能夠更有效地探索長鏈證明。

Part3:BFS-Prover 取得 MiniF2F 新 SOTA

團隊在 MiniF2F 測試集上,對 BFS-Prover 進行了全面評估。該測試集是形式化數(shù)學領域公認的基準測試集,包含高難度的競賽級數(shù)學問題,被廣泛用于衡量自動定理證明系統(tǒng)的能力。

  • 超越現(xiàn)有最優(yōu)系統(tǒng)

在與領先的定理證明系統(tǒng)的對比中,BFS-Prover 展現(xiàn)出顯著優(yōu)勢。

在固定策略生成的計算量下 (2048×2×600 次推理調用),BFS-Prover 實現(xiàn)了 70.83% 的準確率,超過所有現(xiàn)有系統(tǒng),包括使用價值函數(shù)的 InternLM2.5-StepProver (65.9%) 、HunyuanProver (68.4%),以及基于 MCTS 的 DeepSeek-Prover-V1.5 (63.5%)。

在累積評估中,BFS-Prover 進一步將準確率提升至 72.95%,成為了形式化定理證明領域的 SOTA。

這一結果不僅證明了 BFS 方法的潛力,更展示了通過精心設計可以使簡單算法超越復雜方法。



  • 成功證明多個 IMO 題目

值得一提的是,BFS-Prover 成功證明了 MiniF2F-test 中的多個 IMO 問題,包括 imo_1959_p1,imo_1960_p2, imo_1962_p2, imo_1964_p2 和 imo_1983_p6。

這些證明展示了系統(tǒng)在處理復雜數(shù)學推理方面的強大能力,涵蓋數(shù)論、不等式和幾何關系等。

比如,對于 imo_1983_p6 不等式問題,BFS-Prover 能夠生成簡潔而優(yōu)雅的形式化證明:



團隊認為,BFS-Prover 的成功,暗含了自動定理證明領域的一項重要啟示:簡潔的算法結合精心設計的優(yōu)化策略,同樣有助于 AI4Math 邊界拓展。

隨著大語言模型能力的不斷提升,BFS-Prover 開創(chuàng)的簡潔高效路線有望進一步推動自動形式化定理證明領域發(fā)展,為數(shù)學研究提供更強大的自動化工具支持。

展望未來,團隊計劃進一步提升 BFS 方法在處理更復雜數(shù)學問題上的能力,特別是針對本科和研究生級別的數(shù)學定理。同時,團隊也將基于推理模型和其他前沿路線,持續(xù)挖掘模型潛力。

團隊期望,通過持續(xù)優(yōu)化數(shù)據(jù)和訓練策略,讓相關工具為數(shù)學研究提供強大輔助,加速數(shù)學發(fā)現(xiàn)過程,最終實現(xiàn)人機協(xié)作解決前沿數(shù)學挑戰(zhàn)的愿景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
娃哈哈長公主的復仇

娃哈哈長公主的復仇

伢伢復盤
2025-07-14 23:27:14
523票通過,歐洲議會判中國稀土管控“違法”,中方回應直擊軟肋

523票通過,歐洲議會判中國稀土管控“違法”,中方回應直擊軟肋

策略述
2025-07-14 20:33:47
反轉!女租客控訴房東強行清房,賬號被扒 ,過名媛般生活卻欠租7天

反轉!女租客控訴房東強行清房,賬號被扒 ,過名媛般生活卻欠租7天

鋭娛之樂
2025-07-14 14:55:58
一天不到,第2艘巨輪被擊沉,中方強勢表態(tài),警告也門胡塞武裝

一天不到,第2艘巨輪被擊沉,中方強勢表態(tài),警告也門胡塞武裝

荷蘭豆愛健康
2025-07-14 04:11:39
老太20年前花8萬買股票卻忘了密碼,孫子幫找回后全家愣住了

老太20年前花8萬買股票卻忘了密碼,孫子幫找回后全家愣住了

第四思維
2025-07-10 13:03:53
讓東莞再次偉大?東莞宣布激活夜間消費動能 對娛樂場所應批盡批!

讓東莞再次偉大?東莞宣布激活夜間消費動能 對娛樂場所應批盡批!

書中自有顏如玉
2025-07-15 10:05:45
7個子女全都退休在家,92歲老父卻住進養(yǎng)老院,母親遺囑揭露真相

7個子女全都退休在家,92歲老父卻住進養(yǎng)老院,母親遺囑揭露真相

今天說故事
2025-07-10 19:02:46
女籃亞洲杯爆冷!日本被打回原形,中國穩(wěn)坐第一提前晉級

女籃亞洲杯爆冷!日本被打回原形,中國穩(wěn)坐第一提前晉級

小小小白看世界
2025-07-15 06:29:04
愛馬仕總監(jiān)曬與Angelababy合影,小海綿出鏡,網(wǎng)友:眉眼像黃曉明

愛馬仕總監(jiān)曬與Angelababy合影,小海綿出鏡,網(wǎng)友:眉眼像黃曉明

小咪侃娛圈
2025-07-15 08:47:44
最低12℃!山西省即將迎來雷陣雨、中雨、大到暴雨......

最低12℃!山西省即將迎來雷陣雨、中雨、大到暴雨......

晉圈
2025-07-15 13:10:12
以色列轟炸敘南部多地 敘利亞:不要干涉內政!

以色列轟炸敘南部多地 敘利亞:不要干涉內政!

看看新聞Knews
2025-07-15 14:16:26
中國的征信,已經(jīng)到了不能不管的地步了

中國的征信,已經(jīng)到了不能不管的地步了

墜入二次元的海洋
2025-07-14 02:53:25
美國大滿貫收官:4人堪稱災難,3人爆冷,2人及格,1人未來可期

美國大滿貫收官:4人堪稱災難,3人爆冷,2人及格,1人未來可期

小丸子的娛樂圈
2025-07-14 18:57:57
春秋航空空姐可全程穿平底鞋執(zhí)勤

春秋航空空姐可全程穿平底鞋執(zhí)勤

瀟湘晨報
2025-07-15 10:20:06
美論壇:如果美國向中國發(fā)射200枚核彈,中國有能力進行反擊嗎?

美論壇:如果美國向中國發(fā)射200枚核彈,中國有能力進行反擊嗎?

滄海旅行家
2025-07-14 20:31:55
為什么說毛主席的父親——毛順生,是一個十分了不起的人?

為什么說毛主席的父親——毛順生,是一個十分了不起的人?

小童歷史
2025-07-14 09:41:04
回顧:人前好閨蜜人后死敵?這5對“明星姐妹花”,永遠不會和好

回顧:人前好閨蜜人后死敵?這5對“明星姐妹花”,永遠不會和好

小椰的奶奶
2025-07-14 05:53:36
施幼珍評價宗慶后:他很可憐,幼年失去的愛太多,我會一直關愛他

施幼珍評價宗慶后:他很可憐,幼年失去的愛太多,我會一直關愛他

洲洲影視娛評
2025-07-15 00:11:23
89師緊急入朝,余光茂師長下達荒唐命令被責問,卻救下全師人的命

89師緊急入朝,余光茂師長下達荒唐命令被責問,卻救下全師人的命

顧史
2025-07-14 12:33:59
與王毅外長會談后,印度外長向我國傳遞三大信號,特朗普要緊張了

與王毅外長會談后,印度外長向我國傳遞三大信號,特朗普要緊張了

DS北風
2025-07-15 14:20:29
2025-07-15 15:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10863文章數(shù) 142377關注度
往期回顧 全部

科技要聞

英偉達H20解禁,黃仁勛嚇壞平替?

頭條要聞

洪森回擊他信言論:奉陪到底 是佩通坦先對我進行侮辱

頭條要聞

洪森回擊他信言論:奉陪到底 是佩通坦先對我進行侮辱

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

千萬粉絲的周同學:下一個Labubu?

財經(jīng)要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態(tài)度原創(chuàng)

數(shù)碼
旅游
親子
手機
公開課

數(shù)碼要聞

小米第一,創(chuàng)維第二,華為第八,國內電視市場格局大變

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

我的閨女是夢中情娃吧,長大了知道體諒媽媽,要求下館子吧

手機要聞

WIKO Hi 暢享 80 Pro 手機發(fā)布,1599 元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 林甸县| 克拉玛依市| 宁波市| 青海省| 花莲市| 诏安县| 铁力市| 浙江省| 泾阳县| 鹿泉市| 托里县| 白山市| 广饶县| 张掖市| 柏乡县| 卢湾区| 仙桃市| 布尔津县| 东乡| 隆化县| 太仆寺旗| 井冈山市| 城口县| 玛沁县| 崇礼县| 侯马市| 收藏| 康定县| 琼海市| 新龙县| 泗水县| 阳谷县| 汝阳县| 莲花县| 浙江省| 隆林| 邯郸县| 镇安县| 平顺县| 乌鲁木齐市| 丰都县|