網易首頁 > 網易號 > 正文申請入駐

DeepSeek「五一禮包」來了！新開源模型數學推理能力大提升｜附實測細節

2025-05-01 07:22:56　來源: AppSo

廣東舉報

分享至

趕在五一假期前夕，DeepSeek 給我們送出一份驚喜大禮。

延續一貫的開源節奏，DeepSeek 在 Hugging Face 正式發布 DeepSeek-Prover-V2，并同步上線模型卡及示例代碼。此次共推出兩個版本：

DeepSeek-Prover-V2-7B：基于上一代 V1.5 模型，支持最長 32K 上下文輸入；

DeepSeek-Prover-V2-671B：在 DeepSeek-V3-Base 基礎上訓練，推理性能最強。

*核心貢獻者 ?在 DeepSeek-AI 實習期間完成的工作，掃描文末二維碼，進社群獲取完整報告

據官方論文披露，DeepSeek-Prover-V2 的訓練核心是「遞歸+強化學習」的組合：即先由 DeepSeek-V3 拆解復雜定理，生成一系列子目標和推理思路；再通過 GRPO 算法，從多種候選方案中自動學習如何選出最優解。

模型特別引入了兩種互補的「解題風格」：

快速模式（non-CoT）：專注于速度，像是一位熟練工匠，直接生成精煉的 Lean 代碼答案，不展示思考過程，適合處理大量題目。

邏輯模式（CoT）：更像一個耐心的數學老師，會詳細列出每一步推理過程，確保邏輯清晰、思路透明。

訓練過程分為兩階段，在第一階段，研究人員主要訓練快速模式，采用「專家迭代」方法：模型先嘗試解決難題，成功的答案再作為新數據反哺模型，不斷打磨自己的能力。

待快速模式趨于穩定后，研究人員進入第二階段，開始訓練更復雜的邏輯推理能力。他們將 DeepSeek-V3 的數學知識遷移到新模型中，并結合形式化數據，引入「冷啟動」機制，構建起更復雜的推理路徑。

為了進一步提升推理能力，研究人員引入了 GRPO 的強化學習算法，不同于傳統的 PPO，它直接在多個候選答案中比較優劣，引導模型自主學會選擇最優解。

具體做法是：每次輸入一個定理，系統會生成 32 個不同的證明方案，然后只保留被 Lean 驗證系統判定為「正確」的答案（獎勵 1 分，否則 0 分），這樣模型就能在高質量反饋中不斷進化。

在開發出性能強大的 671B 模型后，DeepSeek 研究團隊又嘗試把這些能力「蒸餾」到更小的 7B 模型中，而整個過程就像是師傅教徒弟:

先用大模型生成解題過程，再教會小模型理解并復現；同時將小模型輸入長度擴展至與大模型一致，并經歷相同的強化訓練。

這樣，即便在資源有限的設備上，用戶也能使用小體積模型獲得接近大模型的數學推理能力，并根據需求選擇快速或詳細解題風格。

整個體系中，DeepSeek-V3 負責拆解復雜定理，生成自然語言的推理草圖，同步轉譯為 Lean 語言表示的一系列子目標，并生成「思路鏈」作為中間引導。

7B 模型再一步步完成子證明，最終拼接成完整推理。這種「模糊思考 + 精確證明」的訓練機制，有效提升了小模型的數學理解深度。

在最終性能評估中，DeepSeek-Prover-V2-671B 在 MiniF2F 測試中實現了 88.9% 的通過率，成功解出 PutnamBench 數據集中的 49 道難題。

與此同時，DeepSeek還同步推出了一個全新的數學形式化數據集 ProverBench，共包含 325 道問題題目。涵蓋：

AIME 競賽題（15 題）

數論、代數、線性代數、微積分、實分析等多個方向

這一數據集不僅包含真實的高中競賽題目，還涵蓋從基礎代數、實變分析到概率論等多個本科階段知識點，能夠系統評估模型在不同數學領域的推理能力。

結果顯示，在 15 道 AIME 競賽題中，DeepSeek-Prover-V2 成功解出其中 6 道，而 DeepSeek-V3 使用多數投票方式（majority voting）則解決了 8 道。

按照官方的說法，這組對比凸顯出一個重要趨勢：大型語言模型在「非正式數學推理」和「正式數學推理」之間的表現差距正在明顯縮小。

非正式數學推理：指模型像人類一樣用自然語言思考、理解并解答數學題，比如我們日常說「這道題怎么算？」的方式。它更靈活、不需要嚴格的邏輯形式。

正式數學推理：指模型能用像 Lean 這樣的形式語言，寫出符合數學邏輯、可被驗證器檢驗的嚴謹證明。它像數學論文中的證明，強調每一步推理都必須嚴格準確。

換句話說，過去模型更像是「會算但不會寫出嚴謹證明」。而現在，在模型結構和訓練策略不斷演進下，語言模型也逐步學會了寫出規范、可驗證的數學證明。

此外，DeepSeek 宣布新模型的使用將遵循其公開許可證。

https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/LICENSE-MODEL

目前，Prover-V2 系列已可通過 Hugging Face 平臺免費下載，并支持 Transformers 接口部署。Novita AI 是首批上線 Prover-V2-671B 推理服務的第三方提供商，我們也借此測試了一些問題。

經典的「一根 5.5 米長的竹竿可以通過高 4 米寬 3 米的門嗎？」很遺憾，結果它沒答對。

對于這道抽象代數，它的回答不僅正確，還能從基本定義出發，解釋了什么是群同態、Z?? 和 Z? 的含義，以及同態的運算規則，顯然，這對于初學者很友好。

從論文所透露的方向來看，DeepSeek-Prover-V2 給出的不僅是數學答案，更指明了語言模型下一階段的可能路徑。

如果說過去我們關心的是大模型「能說什么」，那么在 Prover-V2 身上，我們得需要關注它「能證明什么」。

數學只是切入口，推理才是 DeepSeek 這次真正下注的方向。

從生成內容邁向生成結構化邏輯，這條路線不夠性感，也不容易講故事，卻可能最早觸碰通用人工智能的底層結構。

畢竟，AI 可以不懂人情世故，但它必須學會推理，因為任何知識系統的邊界，歸根結底都是邏輯能否閉環、以及推理能否成立。

最后附上相關地址：

1?? DeepSeek-Prover-V2-7B HuggingFace 地址：
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

2?? DeepSeek-Prover-V2-671B HuggingFace 地址：
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

3?? DeepSeek-ProverBench HuggingFace 地址：
https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

4??DeepSeek-Prover-V2GitHub 地址：
https://github.com/deepseek-ai/DeepSeek-Prover-V2

文 | Prover

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Cursor 1.0首個大版本來襲！自動捉bug，秒改屎山代碼，AI編程分水嶺已至

新智元 2025-06-05 12:26:08
43 跟貼 43
USB-C太混亂！微軟終于看不下去了，WHCP能解？

雷科技 2025-06-05 12:08:58
9 跟貼 9

DeepMind揭驚人答案：智能體就是世界模型！跟Ilya 2年前預言竟不謀而合

新智元 2025-06-05 17:10:50
2 跟貼 2

陶哲軒：o3-mini糾正了我一個數學錯誤

量子位 2025-03-18 11:16:41
80 跟貼 80
古城孤魂的閑言碎語006

古城孤魂 2025-06-05 14:36:22
2 跟貼 2

訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
1 跟貼 1

女司機開口要150的水，男收費員秒懂：沖奶粉是吧

大象新聞 2025-06-05 19:15:34
73 跟貼 73
為什么吵不贏杠精？我用數學的方法找出了原因

超級數學建模 2025-06-05 22:44:02
0 跟貼 0

數學的價值，不止于解題，而是看清世界的底層邏輯

深度報 2025-06-01 22:57:49
16 跟貼 16
DeepSeek接入智慧小浪，「評論羅伯特」爆梗進化！背后大模型全揭秘

新智元 2025-06-04 14:51:39
2 跟貼 2
效率飆漲177%！清華、螞蟻聯合開源全異步RL新成果，8B/14B模型斬獲同尺寸SOTA

智東西 2025-06-05 20:02:52
5 跟貼 5
讓GPU不再摸魚！清華螞蟻聯合開源首個全異步RL，一夜擊穿14B SOTA

新智元 2025-06-05 15:05:34
3 跟貼 3
RL后訓練步入超節點時代！華為黑科技榨干算力，一張卡干倆活

新智元 2025-06-05 15:04:57
0 跟貼 0
拿下2000臺人形機器人訂單、總合同額超1億，松延動力創始人詳解技術秘籍

智東西 2025-06-05 21:44:01
1 跟貼 1
如果梁文鋒也和董小姐一樣進協和4+4，還會有DeepSeek嗎？

洞見青年 2025-06-04 10:50:31
3 跟貼 3
美國一票否決加沙停火協議草案中方代表：非常失望

魯中晨報 2025-06-05 08:26:06
20080 跟貼 20080
小鵬×華為AR-HUD技術發布會，小鵬G7首發搭載

科技美學 2025-06-05 22:14:50
3 跟貼 3
警惕文化數字化過程中的“數字橡皮擦”現象

三川匯文化科技 2025-06-05 22:07:41
0 跟貼 0
攜“數”共“晉” | 晉安區檢察院召開2025年第二次數字檢察工作例會

晉安檢察 2025-06-05 21:17:49
0 跟貼 0
ai也不看好！DeepSeek預測國足vs印尼：勝率僅3成，國足0-1或1-1

直播吧 2025-06-05 13:58:02
4 跟貼 4
DeepSeek預測5大高危崗位，第1個淘汰率已超85%

腦袋空空的泡芙 2025-06-04 21:21:52
0 跟貼 0
老板算法失誤，男子以為占到便宜，原來都在老板掌握中！

奧力給趣笑堂 2025-06-04 11:19:56
1 跟貼 1
坤鵬論：讀《形而上學》學習亞里士多德的第一哲學（313）

KunPengLun 2025-06-04 10:31:25
0 跟貼 0
碟中諜8邏輯紊亂的無病呻吟中，倒是把一件最危險的事說對了

劉曉非說 2025-06-02 15:56:04
11 跟貼 11
【DeepSeek談藝】文禎非 | 讓繪畫回到本源，讓畫面自然生長

文化視界網 2025-06-05 16:06:01
0 跟貼 0
【DeepSeek談藝】王鐵牛·油畫 | 在平凡中見深刻，在靜謐中蘊力量

文化視界網 2025-06-05 17:59:26
0 跟貼 0
DeepSeek視角下的全球景觀設計領域最具影響力的十大國際景觀獎項

AR建筑門戶 2025-06-06 01:06:41
0 跟貼 0
隱形圓基本定理，中考易錯題，競賽題

馬老師數學課堂 2025-06-03 17:29:23
1 跟貼 1
Gemini 2.5彎道超車背后的靈魂人物

鈦媒體APP 2025-06-05 17:34:43
0 跟貼 0
ACL 2025 | 基于Token預算感知的大模型高效推理技術

機器之心Pro 2025-06-05 10:33:22
0 跟貼 0
柳大華遭軟件殺招壓制，竟敗于智能算法之下！

象棋王闖 2025-06-05 14:54:43
0 跟貼 0
原子核中的質子中子是如何排列的

原創物理理論研究與探索 2025-06-05 18:56:34
0 跟貼 0
智能體大潮洶涌，但留給天工和階躍們的時間不多了

雷科技 2025-06-05 21:09:48
0 跟貼 0
加拿大初創制備1550nm波段光學GKP量子比特態，已完成2億美元融資

DeepTech深科技 2025-06-05 20:25:52
6 跟貼 6
河南一水庫水位下降現千佛石窟，有1043尊石佛幾乎全部被敲掉頭部，水庫管理人員：汛期將至，禁止參觀

魯中晨報 2025-06-02 10:19:03
4026 跟貼 4026
上海宣布：南北高架打通新通道，通行提速！終于不用堵了→

魯中晨報 2025-06-05 20:00:00
127 跟貼 127
思維鏈也「跳幀」浙大團隊提出CoT-Bridge，顯著提升數學推理性能

機器之心Pro 2025-06-03 17:17:09
1 跟貼 1
蔣雨融哈佛演講持續發酵！郭正亮：其內容毫無邏輯可言！

藍色齒輪 2025-06-04 13:08:37
0 跟貼 0
印尼軍購風云：陣風勝出背后的戰場邏輯與米格29的興衰沉浮

最新聲音 2025-06-04 04:20:54
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

AppSo

讓智能手機更好用的秘密

5362文章數 26570關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

手機

游戲

房產

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepSeek「五一禮包」來了！新開源模型數學推理能力大提升｜附實測細節

對話盛景網聯彭志強：跳出SaaS虧損黑洞！從“賣工具”到“賣結果”的AI RaaS轉型法則

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

提前無緣美加墨世界杯 國足眾將賽后落淚

陳赫宴請好友，李乃文攜妻子罕見亮相

習近平同美國總統特朗普通電話

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

領先蘋果iPhone 17 Air！華為Mate XTs三折疊將國內首發eSIM

《馬里奧賽車世界》M站已有評測：兩家媒體給90+分

再奪荔灣銷冠！誰是主城改善標準制定者，終于有了答案！

27歲女子被咬傷身亡三亞衛健委再通報搶救全過程

27歲女子被咬傷身亡三亞衛健委再通報搶救全過程

提前無緣美加墨世界杯國足眾將賽后落淚

旗艦+大六座+百萬級阿維塔全新SUV預計明年量產