99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛!DeepSeek-Prover-V2 技術細節公布,附論文

0
分享至


大家好,我是 Ai 學習的老章

DeepSeek 一貫的作風,先敲不作聲放出模型文件,隨后才公布技術細節。

1 小時前,DeepSeek 在其 GitHub 賬號放出了部分技術文檔和論文


項目地址:https://github.com/deepseek-ai/DeepSeek-Prover-V2論文:https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/master/DeepSeek_Prover_V2.pdf

1. 引言:形式化推理的挑戰與 DeepSeek 的方案

DeepSeek-Prover-V2 是一個開源的大型語言模型,專為 Lean 4 形式化定理證明而設計。該模型的初始化數據是通過 DeepSeek-V3 驅動的遞歸定理證明流程收集而來。其冷啟動訓練過程始于提示 DeepSeek-V3 將復雜問題分解為一系列子目標。已解決子目標的證明被合成為思維鏈過程,結合 DeepSeek-V3 的逐步推理,為強化學習創建初始冷啟動。這一過程使我們能夠將非形式化和形式化數學推理整合到一個統一的模型中。

DeepSeek-Prover-V2 正是為了應對這一挑戰而生,其核心創新在于:

  • 結合非形式化與形式化推理:利用強大的基礎模型 (DeepSeek-V3) 進行初始的非形式化推理(如生成證明思路、分解問題),然后將其與嚴謹的形式化證明步驟相結合。

  • 強化學習優化:通過強化學習,特別是利用子目標分解的策略,進一步提升模型在形式化證明構建中的能力。

2. 核心技術:遞歸證明搜索與強化學習

DeepSeek-Prover-V2 的訓練過程獨具特色,主要包含兩個階段:

a) 冷啟動數據合成 (Synthesize Cold-Start Reasoning Data)

  • 遞歸證明流水線:團隊開發了一個簡潔有效的遞歸定理證明流水線。首先,利用 DeepSeek-V3 將復雜的定理分解為高級別的證明草圖(Proof Sketches)和一系列子目標(Subgoals)。

  • 子目標證明:為了降低計算成本,使用一個較小的 7B 參數模型來處理每個子目標的證明搜索。

  • 數據合成:當一個復雜問題的所有子目標都被解決后,將完整的、逐步的形式化證明(由子目標證明組合而成)與 DeepSeek-V3 生成的相應思維鏈(Chain-of-Thought, CoT,包含高級證明思路和引理分解)配對,形成用于模型初始訓練的“冷啟動”推理數據。這一過程巧妙地將非形式化的解題思路與形式化的證明步驟融為一體。

b) 基于合成數據的強化學習 (Reinforcement Learning with Synthetic Cold-Start Data)

  • 篩選挑戰性問題:選取一部分對于 7B 模型來說端到端無法解決、但其所有分解子目標都已被成功證明的難題。

  • 數據增強:將這些難題的完整形式化證明(由子目標證明拼接而成)附加到 DeepSeek-V3 對應的 CoT 后面,生成更豐富的訓練數據。

  • 強化學習微調:在冷啟動數據上進行初步微調后,采用強化學習進一步優化模型。獎勵信號主要采用二元反饋(證明正確或錯誤),目標是增強模型連接非形式化推理和形式化證明構建的能力。

3. 模型與性能

DeepSeek-Prover-V2 發布了兩個尺寸的模型:

  • DeepSeek-Prover-V2-7B:基于 DeepSeek-Prover-V1.5-Base 構建,上下文長度擴展至 32K tokens。

  • DeepSeek-Prover-V2-671B:基于 DeepSeek-V3-Base 訓練。

性能方面,DeepSeek-Prover-V2-671B表現出色,達到了當前神經定理證明領域的 SOTA (State-of-the-Art) 水平:

  • MiniF2F-test數據集上達到88.9%的通過率。

  • 解決了PutnamBench數據集中 658 個問題中的49個。

團隊還公開了模型在 miniF2F 數據集上生成的證明,可供下載研究:minif2f-solutions.zip[1]

模型文件:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B


4. ProverBench: 新的基準測試集

為了更全面地評估模型在不同難度數學問題上的能力,團隊還推出了ProverBench基準測試集,包含 325 個問題:

  • 15 個 AIME 問題:來自近兩年的美國數學邀請賽 (AIME 24, 25) 的數論和代數題目,代表了真實的高中競賽水平挑戰。

  • 310 個教科書/教程問題:來自精選的教科書案例和教育教程,提供了多樣化且具有教學意義的形式化數學問題。

ProverBench 旨在覆蓋從高中競賽到本科水平的數學問題,為形式化推理模型的評估提供了更豐富的視角。

ProverBench 數據集地址:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench[2]

5. 如何開始使用 DeepSeek-Prover-V2

用戶可以直接通過 Hugging Face 的transformers庫來使用 DeepSeek-Prover-V2 進行推理。

  • 模型下載:

    • 7B 模型: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B [3]

    • 671B 模型: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B [4]

  • 架構說明:DeepSeek-Prover-V2-671B 與 DeepSeek-V3 共享相同架構,詳細信息可參考 Hugging Face 上的 DeepSeek-V3 文檔 [5] 。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

參考資料

minif2f-solutions.zip: https://github.com/deepseek-ai/DeepSeek-Prover-V2/raw/master/minif2f-solutions.zip

https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench: https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B: https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

[5]

Hugging Face 上的 DeepSeek-V3 文檔: https://github.com/huggingface/transformers/blob/main/docs/source/en/model_doc/deepseek_v3.md

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西斯廷教堂大門關上了 選舉第267位天主教皇

西斯廷教堂大門關上了 選舉第267位天主教皇

藍色海邊
2025-05-08 13:48:03
西安碑林博物館票價將調至85元,工作人員:10元屬于改擴建期間惠民票

西安碑林博物館票價將調至85元,工作人員:10元屬于改擴建期間惠民票

澎湃新聞
2025-05-08 10:08:11
俄羅斯連發兩枚導彈!臺海出現“第三方”攪局者,中國火速增兵

俄羅斯連發兩枚導彈!臺海出現“第三方”攪局者,中國火速增兵

小笛科技
2025-05-05 12:16:46
厲害了!6天新公司拿下水庫經營權,1500萬認繳資本撬動2.6億項目

厲害了!6天新公司拿下水庫經營權,1500萬認繳資本撬動2.6億項目

火山詩話
2025-05-07 13:41:25
再也不慣著了!廣廈“影帝”假摔終于有人吹了,球迷:給洋哨點贊

再也不慣著了!廣廈“影帝”假摔終于有人吹了,球迷:給洋哨點贊

南海浪花
2025-05-08 06:45:11
重大突破!剛剛上海地鐵最新通知,大批人身價要漲

重大突破!剛剛上海地鐵最新通知,大批人身價要漲

科學發掘
2025-05-06 05:19:30
關曉彤罕見正裝體制內開會!哇塞,連氣質都變了,越簡越美

關曉彤罕見正裝體制內開會!哇塞,連氣質都變了,越簡越美

舊時光老師
2025-05-06 19:30:47
北京樓市起飛上天了,北京海淀區房價有望從8.2萬突破到10.1萬

北京樓市起飛上天了,北京海淀區房價有望從8.2萬突破到10.1萬

有事問彭叔
2025-05-06 16:23:37
央視《刑警的日子》被觀眾要求下架,理由出奇一致:毀了警察形象

央視《刑警的日子》被觀眾要求下架,理由出奇一致:毀了警察形象

她時尚丫
2025-05-07 18:13:16
蔣介石有多風流?貼身秘書晚年說出真相:白天干革命,晚上逛窯子

蔣介石有多風流?貼身秘書晚年說出真相:白天干革命,晚上逛窯子

尚曦讀史
2025-05-07 21:10:02
烏克蘭無人機持續24小時猛攻!俄防空系統告急,全國多地陷入混亂

烏克蘭無人機持續24小時猛攻!俄防空系統告急,全國多地陷入混亂

國際情爆猿
2025-05-07 19:52:29
女游客海底87米最后錄像曝光!GoPro奪命三秒,害死多少中國人?

女游客海底87米最后錄像曝光!GoPro奪命三秒,害死多少中國人?

明月聊史
2025-05-07 08:21:11
一年狂賺300億!賺中國錢還毒害中國人 ,泰國榴蓮全含一級致癌物

一年狂賺300億!賺中國錢還毒害中國人 ,泰國榴蓮全含一級致癌物

素衣讀史
2025-01-22 17:11:58
安理會上,中美爆發激烈爭吵,耿爽怒懟美代表:發言前搞清楚事實

安理會上,中美爆發激烈爭吵,耿爽怒懟美代表:發言前搞清楚事實

阿天愛旅行
2025-05-08 15:42:32
英媒承認:西方不具備中國式“戰略定力”

英媒承認:西方不具備中國式“戰略定力”

參考消息
2025-05-08 15:15:45
阿維塔做夢也想不到,王牌賣點成了尖刀,刺向自己

阿維塔做夢也想不到,王牌賣點成了尖刀,刺向自己

藍字計劃
2025-05-07 17:11:54
35歲光棍迎娶20歲非洲黑人,結果入洞房那晚床上被子隆起一個大包

35歲光棍迎娶20歲非洲黑人,結果入洞房那晚床上被子隆起一個大包

濤哥講堂
2025-03-25 10:24:33
央媒整齊發聲!整治各類醫學論文混亂刻不容緩,男女不分已破底線

央媒整齊發聲!整治各類醫學論文混亂刻不容緩,男女不分已破底線

逍遙史記
2025-05-07 10:23:53
越南推動十年內實現全民免費醫療

越南推動十年內實現全民免費醫療

李東海評論
2025-05-07 15:47:33
五一假期!新能源車的問題全暴露出來了,網友:這是電車的春運

五一假期!新能源車的問題全暴露出來了,網友:這是電車的春運

凡知
2025-05-05 16:53:05
2025-05-08 17:00:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
2949文章數 11008關注度
往期回顧 全部

科技要聞

OpenAI任命"應用CEO" 奧特曼聚焦研究/安全

頭條要聞

國防部:做美國的朋友可能是致命的

頭條要聞

國防部:做美國的朋友可能是致命的

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

23.68萬元起 新款途觀L Pro限時優惠5.8萬

態度原創

藝術
教育
健康
手機
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

教育部大量撤銷的10個專業,今年高考千萬別亂報!

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

真我宣布無憂備用機服務上線:維修提供備用機 0費用、0押金

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 友谊县| 杂多县| 上栗县| 佛教| 五河县| 达州市| 鄯善县| 南和县| 化德县| 晋城| 绥中县| 黑河市| 商河县| 丽江市| 神木县| 石渠县| 丹棱县| 理塘县| 青岛市| 依安县| 应用必备| 彩票| 那坡县| 贵定县| 兴业县| 常德市| 青川县| 平谷区| 昆明市| 临澧县| 宜州市| 安顺市| 平度市| 孙吴县| 岗巴县| 文水县| 禹城市| 辽宁省| 和硕县| 安西县| 涟水县|