99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek開源Prover-V2強推理模型,網友:奧數從沒這么簡單過

0
分享至



機器之心報道

編輯:大盤雞、澤南

DeepSeek R2 的前奏?

五一勞動節到了,DeepSeek 的新消息可沒停下來。

前些天到處都在流傳著 DeepSeek-R2 即將發布的傳言,DeepSeek 確實有新動作,不過大家沒等來 R2,等來的是 DeepSeek-Prover-V2,它當然也是開源的。

Prover-V2 在定理證明賽道上實現了業內最佳性能,在 MiniF2F 測試中達到了 88.9% 的通過率,在 AIME 24、25 上也有不錯的分數。

在 4 月 30 日晚,機器學習協作平臺 HuggingFace 上就更新了 DeepSeek-Prover-V2 的一些技術細節。



這次 DeepSeek 團隊發布了兩個版本的 DeepSeek-Prover-V2 模型,參數規模分別為 7B 和 671B。

其中,DeepSeek-Prover-V2-671B 是在 DeepSeek-V3-Base 基礎上訓練而成,而 DeepSeek-Prover-V2-7B 則基于 DeepSeek-Prover-V1.5-Base 構建,并支持最長 32K tokens 的上下文長度擴展。

  • DeepSeek-Prover-V2-7B 鏈接:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
  • DeepSeek-Prover-V2-671B 鏈接:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

要一句話總結 DeepSeek-Prover-V2 到底是什么?它是一款專為「數學 AI 編程語言」Lean 4 打造的開源大語言模型,專注于形式化定理證明。

它的初始化數據通過一個由 DeepSeek-V3 驅動的遞歸定理證明流程收集而來。在冷啟動訓練階段,首先通過提示 DeepSeek-V3 將復雜問題分解成一系列可以解決的子目標。每解決一個子目標就會將這些證明整合成「思維鏈」。 并融合 DeepSeek-V3 的逐步推理軌跡,共同構建出用于強化學習的初始訓練數據。

這一策略的精妙之處在于:它能夠將非形式化和形式化的數學推理融合到一個統一的模型中,讓模型既能像人一樣靈活思考,也能像機器一樣嚴謹論證,真正實現了數學推理的一體化融合。



具體是如何實現的呢?DeepSeek 也發布了 DeepSeek-Prover-V2 的技術報告,讓我們看看其中是怎么說的:



技術概述

通過遞歸式證明搜索生成冷啟動推理數據

為了構建冷啟動數據集,DeepSeek 團隊設計了一條簡潔高效的遞歸定理證明流程,使用 DeepSeek-V3 作為統一工具,既負責子目標的拆解,也負責推理步驟的形式化表達。其中具體的過程則是通過提示引導 DeepSeek-V3 將定理拆解為高層次的證明草圖,并在此過程中同時將這些推理步驟用 Lean 4 語言形式化,最終生成一系列結構清晰、邏輯嚴密的子目標。



DeepSeek-Prover-V2 使用冷啟動數據收集過程概覽。

降低計算開銷一直是 DeepSeek 團隊的強項,這次也不例外。他們使用一個更小的 7B 模型來完成每個子目標的證明搜索,從而降低計算負擔。當復雜問題被拆解的各個步驟都成功解決后,他們將完整的形式化逐步證明與 DeepSeek-V3 生成的思維鏈相對應,組合成冷啟動推理數據。



何將分解的子目標轉化為一系列引理陳述的一個示例。

基于合成冷啟動數據的強化學習

DeepSeek 團隊挑選了一部分具有挑戰性的定理問題。7B 證明模型沒法雖然沒法兒將它們端到端的解決,但是能夠拿捏拆解出來的一系列子目標。

整合所有子目標的證明就可以構建出原始問題的完整形式化證明。隨后,將該正式證明附加到 DeepSeek-V3 所生成的思維鏈,這條思維鏈展示了對應的引理拆解過程,從而形成了一份將非形式化推理與后續形式化過程緊密融合的訓練數據。

在對證明模型進行合成冷啟動數據的微調后,研究團隊進一步引入強化學習階段,進一步提升模型將非形式化推理轉化為形式化證明的能力。在訓練過程中,遵循推理模型的通用目標,采用「對 / 錯」二值反饋作為主要的獎勵信號。

最終得到的模型 DeepSeek-Prover-V2-671B 在神經定理證明任務中達到了當前最先進的性能,在 MiniF2F-test 上的通過率達到 88.9%,并成功解決了 PutnamBench 數據集中 658 道題中的 49 道。DeepSeek-Prover-V2 在 miniF2F 數據集上生成的所有證明已整理為 ZIP 文件,開放下載。

下載鏈接:https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/minif2f-solutions.zip

訓練細節、實驗結果

DeepSeek-Prover-V2 經歷了兩階段訓練,這一過程建立了兩種互補的證明生成模式:

1. 高效非思維鏈(non-CoT)模式:此模式針對快速生成正式的 Lean 證明代碼進行優化,專注于生成簡潔的證明,沒有顯式的中間推理步驟。

2. 高精度思維鏈(CoT)模式:此模式系統地闡述中間推理步驟,強調透明度和邏輯進展,然后構建最終的正式證明。

與 DeepSeek-Prover-V1.5 一致,這兩種生成模式由兩個不同的引導提示控制。在第一階段采用專家迭代,在課程學習框架內訓練一個非 CoT 證明模型,同時通過基于子目標的遞歸證明合成難題的證明。選擇非 CoT 生成模式是為了加速迭代訓練和數據收集過程。

在此基礎上,第二階段利用了冷啟動鏈式思維(CoT)數據,通過將 DeepSeek-V3 復雜的數學推理模式與合成形式證明相結合而生成。CoT 模式通過進一步的強化學習階段得到增強,遵循了通常用于推理模型的標準訓練流程。

DeepSeek-Prover-V2 的非 CoT 模式訓練過程遵循專家迭代的范式,這是開發形式化定理證明器廣泛采用的框架。在每次訓練迭代中,當前最佳證明策略用于生成那些在先前迭代中未解決的難題的證明嘗試。這些成功的嘗試經由 Lean 證明助手驗證后,被納入 SFT 數據集以訓練改進的模型。這一迭代循環不僅確保模型能夠從初始演示數據集中學習,還能提煉出自己的成功推理軌跡,逐步提高其解決更難問題的能力。總體訓練過程與 DeepSeek-Prover-V1 的訓練過程大致一致,僅對訓練問題的分布進行了兩項修改。

首先,Prover-V2 引入了來自自動形式化和各種開源數據集的額外問題,擴大了訓練問題領域的覆蓋范圍。其次,新模型通過子目標分解生成的問題來擴充數據集,旨在解決 MiniF2F 基準測試有效劃分中的更多挑戰性實例。

研究人員在 DeepSeek-V3-Base-671B 上使用恒定的學習率 5e-6,在 16384 個 token 的上下文中進行監督微調。訓練語料庫由兩個互補來源組成:1)通過專家迭代收集的非 CoT 數據,生成無需中間推理步驟的 Lean 代碼;2)第 2.2 節中描述的冷啟動 CoT 數據,將 DeepSeek-V3 的高級數學推理過程提煉為結構化的證明路徑。非 CoT 組件強調精益定理證明器生態系統中的形式驗證技能,而 CoT 示例明確地建模了將數學直覺轉化為形式證明結構的認知過程。

Prover-V2 采用 GRPO 強化學習算法, 與 PPO 不同,GRPO 通過為每個定理提示采樣一組候選證明并根據它們的相對獎勵優化策略,消除了對單獨批評模型的需求。訓練使用二元獎勵,每個生成的 Lean 證明如果被驗證為正確則獲得 1 個獎勵,否則為 0。為了確保有效學習,研究人員精心挑選訓練提示,僅包括那些對監督微調模型具有足夠挑戰性但可解決的問題。模型在每次迭代中采樣 256 個不同的問題,為每個定理生成 32 個候選證明,最大序列長度為 32768 個 token。

最后是模型的蒸餾。研究人員把 DeepSeek-Prover-V1.5-Base-7B 的最大上下文長度從 4096 個 token 擴展到了 32768 個,并使用 DeepSeek-Prover-V2-671B 強化學習階段收集的 rollout 數據對這個擴展上下文模型進行微調。除了 CoT 推理模式外,研究人員還整合了專家迭代過程中收集的非 CoT 證明數據,以實現一種成本效益高的證明選項,該選項能夠生成簡潔的形式化輸出,并且模型規模較小。此外,7B 模型也采用了與 671B 模型訓練相同的強化學習階段以提升性能。

研究人員對 DeepSeek-Prover-V2 在形式定理證明的各種基準數據集上進行了系統評估,涵蓋了高中競賽題目和本科水平的數學問題。實驗表明,671B 版的模型實現了前所未有的準確率,且與業內其他先進模型相比效率也更高。



在 miniF2F 測試數據集上與最先進模型的比較。



DeepSeek-Prover-V2-671B 在 miniF2F 基準上解決的問題。



ProofNet - 測試和 PutnamBench 的實驗結果。

ProverBench:AIME 與教材題目的形式化基準數據集

這次,DeepSeek 還發布了 ProverBench,這是一個包含 325 道題目的基準數據集。其中,15 道題來自最近兩屆 AIME 數學競賽(AIME 24 和 25)中的數論與代數題目,經過形式化處理,具備真實的高中競賽難度。其余 310 道題則精選自教材示例和教學教程,覆蓋內容多樣,具有良好的教學基礎。

ProverBench 鏈接:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

該數據集旨在支持對模型在高中競賽題和本科數學題兩個層面的綜合評估。



ProverBench 數據集的構成情況

網友評價:太強大了

從新模型的受歡迎程度上來看,大家都在期待 DeepSeek 能夠再次改變世界。不少網友對 DeepSeek 新開源的這項工作表示十分欣賞。



還有鉆研數學奧林匹克的學生也發來印象深刻的驚呼(做過題的都知道這里面門道有多深)。



網友親測,效果真的神,把 o4-mini 和 Grok-3 都比下去了。



在社交網絡上有人表示,將復雜問題分解再處理的方式像極了人們教給初級工程師的技巧,DeepSeek-Prover-V2 處理數學問題的思路對于代碼等問題來說應該也是毫無問題。

不過,大家似乎對 DeepSeek-R2 有著更大的熱情!敲敲這頭小藍鯨,R2 到底什么時候發出啊!



更多詳細內容,請查看原鏈接~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關系 表示不再合作

一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關系 表示不再合作

小彭聊社會
2025-05-05 00:20:40
涉釣魚島,臺灣網民怒了!

涉釣魚島,臺灣網民怒了!

環球時報新聞
2025-05-04 14:36:58
侄子代辦老人喪事花光23萬遺產遭索賠 法院判了:鋪張浪費,賠償62500元

侄子代辦老人喪事花光23萬遺產遭索賠 法院判了:鋪張浪費,賠償62500元

封面新聞
2025-05-04 15:09:13
貴州黔西突發翻船事故 游客回憶幾分鐘之內狂風暴雨冰雹

貴州黔西突發翻船事故 游客回憶幾分鐘之內狂風暴雨冰雹

中國青年報
2025-05-05 00:37:06
河北一景區發生事故!

河北一景區發生事故!

愛上大邯鄲
2025-05-04 21:10:28
美國財長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運

美國財長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運

華山穹劍
2025-05-04 20:27:20
著名通訊專家項立剛這次徹底演砸了!他兒子初中就去了美國留學?

著名通訊專家項立剛這次徹底演砸了!他兒子初中就去了美國留學?

翻開歷史和現實
2025-05-04 19:07:04
虧損高達50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

虧損高達50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

巢客HOME
2025-05-04 10:45:04
可怕!五一假期兵馬俑內缺氧,長城險被踩壞!西安帶頭勸退游客!

可怕!五一假期兵馬俑內缺氧,長城險被踩壞!西安帶頭勸退游客!

一個小孩
2025-05-03 01:56:54
揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

小人物看盡人間百態
2025-05-04 20:49:11
臺球皇帝發表言論引熱議!亨得利:趙心童會擊敗威廉姆斯奪冠!

臺球皇帝發表言論引熱議!亨得利:趙心童會擊敗威廉姆斯奪冠!

世界體壇觀察家
2025-05-04 16:13:39
達赫迪:難以置信,趙心童正在摧毀斯諾克的標志性人物之一

達赫迪:難以置信,趙心童正在摧毀斯諾克的標志性人物之一

直播吧
2025-05-04 23:52:02
女記者不雅片網絡流出,名嘴曝驚人真相:竟是被報復

女記者不雅片網絡流出,名嘴曝驚人真相:竟是被報復

葫蘆哥愛吐槽
2025-05-04 14:54:09
貴州黔西游船傾覆事故已致3人死亡,14人正在搜救中 目擊者:事發前大風冰雹交加

貴州黔西游船傾覆事故已致3人死亡,14人正在搜救中 目擊者:事發前大風冰雹交加

紅星新聞
2025-05-04 23:03:24
上海女博士在家8年未出門,警察破門后,屋內景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
斯諾克最新戰報!趙心童3連鞭到手,單局4分險勝,世界冠軍告急!

斯諾克最新戰報!趙心童3連鞭到手,單局4分險勝,世界冠軍告急!

劉姚堯的文字城堡
2025-05-04 21:28:53
蘇迪曼杯四連冠!國羽3-1擊退勁敵韓國,強勢加冕蘇杯第14冠

蘇迪曼杯四連冠!國羽3-1擊退勁敵韓國,強勢加冕蘇杯第14冠

全景體育V
2025-05-04 18:32:57
新史記:胡錫進之女胡維佳傳

新史記:胡錫進之女胡維佳傳

妮妮玩不夠
2025-05-03 11:14:35
五一假期,又有媒體翻車了……

五一假期,又有媒體翻車了……

麥杰遜
2025-05-04 19:16:44
麥當娜跟小她37歲的男友一起出街,66歲的她已老態龍鐘認不出來了

麥當娜跟小她37歲的男友一起出街,66歲的她已老態龍鐘認不出來了

野山歷史
2025-05-04 18:59:48
2025-05-05 05:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

手機
本地
游戲
親子
軍事航空

手機要聞

曝蘋果正在開發20周年紀念版iPhone

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

圣騎士要來了?制作人稱《暗黑4》仍有開發潛力

親子要聞

假期作業不能停! 楊雪呀

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新干县| 温泉县| 积石山| 铜川市| 确山县| 凌海市| 儋州市| 棋牌| 洪泽县| 仁化县| 景洪市| 抚宁县| 辉南县| 云霄县| 贵溪市| 峡江县| 额尔古纳市| 连江县| 通城县| 德州市| 滨州市| 托克托县| 海安县| 朝阳县| 万荣县| 房产| 潼关县| 垫江县| 韶山市| 永春县| 富裕县| 科技| 重庆市| 江西省| 四子王旗| 临泽县| 恩平市| 宁武县| 台山市| 长治县| 彝良县|