99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek「五一禮包」來了!新開源模型數學推理能力大提升|附實測細節

0
分享至

趕在五一假期前夕,DeepSeek 給我們送出一份驚喜大禮。

延續一貫的開源節奏,DeepSeek 在 Hugging Face 正式發布 DeepSeek-Prover-V2,并同步上線模型卡及示例代碼。此次共推出兩個版本:

DeepSeek-Prover-V2-7B:基于上一代 V1.5 模型,支持最長 32K 上下文輸入;

DeepSeek-Prover-V2-671B:在 DeepSeek-V3-Base 基礎上訓練,推理性能最強。


*核心貢獻者 ?在 DeepSeek-AI 實習期間完成的工作,掃描文末二維碼,進社群獲取完整報告

據官方論文披露,DeepSeek-Prover-V2 的訓練核心是「遞歸+強化學習」的組合:即先由 DeepSeek-V3 拆解復雜定理,生成一系列子目標和推理思路;再通過 GRPO 算法,從多種候選方案中自動學習如何選出最優解。

模型特別引入了兩種互補的「解題風格」:

快速模式(non-CoT):專注于速度,像是一位熟練工匠,直接生成精煉的 Lean 代碼答案,不展示思考過程,適合處理大量題目。

邏輯模式(CoT):更像一個耐心的數學老師,會詳細列出每一步推理過程,確保邏輯清晰、思路透明。

訓練過程分為兩階段,在第一階段,研究人員主要訓練快速模式,采用「專家迭代」方法:模型先嘗試解決難題,成功的答案再作為新數據反哺模型,不斷打磨自己的能力。

待快速模式趨于穩定后,研究人員進入第二階段,開始訓練更復雜的邏輯推理能力。他們將 DeepSeek-V3 的數學知識遷移到新模型中,并結合形式化數據,引入「冷啟動」機制,構建起更復雜的推理路徑。


為了進一步提升推理能力,研究人員引入了 GRPO 的強化學習算法,不同于傳統的 PPO,它直接在多個候選答案中比較優劣,引導模型自主學會選擇最優解。

具體做法是:每次輸入一個定理,系統會生成 32 個不同的證明方案,然后只保留被 Lean 驗證系統判定為「正確」的答案(獎勵 1 分,否則 0 分),這樣模型就能在高質量反饋中不斷進化。

在開發出性能強大的 671B 模型后,DeepSeek 研究團隊又嘗試把這些能力「蒸餾」到更小的 7B 模型中,而整個過程就像是師傅教徒弟:

先用大模型生成解題過程,再教會小模型理解并復現;同時將小模型輸入長度擴展至與大模型一致,并經歷相同的強化訓練。

這樣,即便在資源有限的設備上,用戶也能使用小體積模型獲得接近大模型的數學推理能力,并根據需求選擇快速或詳細解題風格。


整個體系中,DeepSeek-V3 負責 拆解復雜定理,生成自然語言的推理草圖,同步轉譯為 Lean 語言表示的一系列子目標,并生成「思路鏈」作為中間引導。

7B 模型再一步步完成子證明,最終拼接成完整推理。這種「模糊思考 + 精確證明」的訓練機制,有效提升了小模型的數學理解深度。


在最終性能評估中,DeepSeek-Prover-V2-671B 在 MiniF2F 測試中實現了 88.9% 的通過率,成功解出 PutnamBench 數據集中的 49 道難題。

與此同時,DeepSeek還同步推出了一個全新的數學形式化數據集 ProverBench,共包含 325 道問題題目。涵蓋:

AIME 競賽題(15 題)

數論、代數、線性代數、微積分、實分析等多個方向


這一數據集不僅包含真實的高中競賽題目,還涵蓋從基礎代數、實變分析到概率論等多個本科階段知識點,能夠系統評估模型在不同數學領域的推理能力。

結果顯示,在 15 道 AIME 競賽題中,DeepSeek-Prover-V2 成功解出其中 6 道,而 DeepSeek-V3 使用多數投票方式(majority voting)則解決了 8 道。

按照官方的說法,這組對比凸顯出一個重要趨勢:大型語言模型在「非正式數學推理」和「正式數學推理」之間的表現差距正在明顯縮小。

非正式數學推理:指模型像人類一樣用自然語言思考、理解并解答數學題,比如我們日常說「這道題怎么算?」的方式。它更靈活、不需要嚴格的邏輯形式。

正式數學推理:指模型能用像 Lean 這樣的形式語言,寫出符合數學邏輯、可被驗證器檢驗的嚴謹證明。它像數學論文中的證明,強調每一步推理都必須嚴格準確。

換句話說,過去模型更像是「會算但不會寫出嚴謹證明」。而現在,在模型結構和訓練策略不斷演進下,語言模型也逐步學會了寫出規范、可驗證的數學證明。

此外,DeepSeek 宣布新模型的使用將遵循其公開許可證。

https://github.com/deepseek-ai/DeepSeek-Prover-V2/blob/main/LICENSE-MODEL

目前,Prover-V2 系列已可通過 Hugging Face 平臺免費下載,并支持 Transformers 接口部署。Novita AI 是首批上線 Prover-V2-671B 推理服務的第三方提供商, 我們也借此測試了一些問題。


經典的「一根 5.5 米長的竹竿可以通過高 4 米寬 3 米的門嗎?」很遺憾,結果它沒答對。


對于這道抽象代數,它的回答不僅正確,還能從基本定義出發,解釋了什么是群同態、Z?? 和 Z? 的含義,以及同態的運算規則,顯然,這對于初學者很友好。


從論文所透露的方向來看,DeepSeek-Prover-V2 給出的不僅是數學答案,更指明了語言模型下一階段的可能路徑。

如果說過去我們關心的是大模型「能說什么」,那么在 Prover-V2 身上,我們得需要關注它「能證明什么」。

數學只是切入口,推理才是 DeepSeek 這次真正下注的方向。

從生成內容邁向生成結構化邏輯,這條路線不夠性感,也不容易講故事,卻可能最早觸碰通用人工智能的底層結構。

畢竟,AI 可以不懂人情世故,但它必須學會推理,因為任何知識系統的邊界,歸根結底都是邏輯能否閉環、以及推理能否成立。

最后附上相關地址:

1?? DeepSeek-Prover-V2-7B HuggingFace 地址:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B

2?? DeepSeek-Prover-V2-671B HuggingFace 地址:
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

3?? DeepSeek-ProverBench HuggingFace 地址:
https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

4??DeepSeek-Prover-V2GitHub 地址:
https://github.com/deepseek-ai/DeepSeek-Prover-V2

文 | Prover

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
隨著沙特2-0巴林,世預賽最新積分榜:印尼晉級附加賽,國足出局

隨著沙特2-0巴林,世預賽最新積分榜:印尼晉級附加賽,國足出局

侃球熊弟
2025-06-06 02:05:43
香港演員溫兆倫現狀:定居北京,61歲依然帥氣,10歲女兒好漂亮

香港演員溫兆倫現狀:定居北京,61歲依然帥氣,10歲女兒好漂亮

阿廢冷眼觀察所
2025-06-02 18:17:51
就連王菲都沒想到,負債上億的前夫李亞鵬,走上了一條“上坡路”

就連王菲都沒想到,負債上億的前夫李亞鵬,走上了一條“上坡路”

山河月明史
2025-06-03 22:36:19
歐盟通過法案: 將90%的基礎藥物產能遷回歐洲,針對中國供應鏈!

歐盟通過法案: 將90%的基礎藥物產能遷回歐洲,針對中國供應鏈!

現代春秋
2025-06-04 13:59:00
伊朗航空通過神秘中間人,引進了香港航空的退役兩架A330!

伊朗航空通過神秘中間人,引進了香港航空的退役兩架A330!

說說史事
2025-06-02 17:02:39
銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

詩詞中國
2025-05-28 12:59:14
中美貿易戰勝負已分?6月6日,凌晨的三大重要消息持續發酵!

中美貿易戰勝負已分?6月6日,凌晨的三大重要消息持續發酵!

風口招財豬
2025-06-06 01:09:49
張馨予臀橋突破100斤,曾因“體脂肪含量32%”登上熱搜

張馨予臀橋突破100斤,曾因“體脂肪含量32%”登上熱搜

大象新聞
2025-06-04 18:11:11
美記:錫伯杜早在凱爾特人系列賽期間就知道尼克斯可能解雇自己

美記:錫伯杜早在凱爾特人系列賽期間就知道尼克斯可能解雇自己

雷速體育
2025-06-05 20:45:53
張雪峰:如果你不好好學習,一旦掉入社會底層,和一幫沒有素質的人混在一起...

張雪峰:如果你不好好學習,一旦掉入社會底層,和一幫沒有素質的人混在一起...

譚老師地理工作室
2025-04-15 19:30:45
法網女單決賽出爐!誕生3個意想不到,黑馬慘敗,衛冕冠軍被淘汰

法網女單決賽出爐!誕生3個意想不到,黑馬慘敗,衛冕冠軍被淘汰

知軒體育
2025-06-06 02:14:02
NBA宣布!美國隊打世界隊!全明星有救了

NBA宣布!美國隊打世界隊!全明星有救了

籃球教學論壇
2025-06-05 10:46:00
真正的戰爭能有多殘酷?網友:被無人機發現活下來概率只有0.001%

真正的戰爭能有多殘酷?網友:被無人機發現活下來概率只有0.001%

解讀熱點事件
2025-05-29 00:22:23
在最后關頭談判破裂,中方拒絕簽字,馬克龍別無選擇

在最后關頭談判破裂,中方拒絕簽字,馬克龍別無選擇

趣味萌寵的日常
2025-05-19 03:12:39
中國主動公布東風5說明美國已經走在軍事冒險的路上了!

中國主動公布東風5說明美國已經走在軍事冒險的路上了!

林子說事
2025-06-04 17:14:26
男子深夜與情人在車上“翻云覆雨”,情人一陣抽搐昏死過去,最終搶救無效死亡

男子深夜與情人在車上“翻云覆雨”,情人一陣抽搐昏死過去,最終搶救無效死亡

張曉磊
2025-05-29 07:59:30
男子買95萬二手房裝修,發現臥室面積少4平米,砸開墻后頓時愣住

男子買95萬二手房裝修,發現臥室面積少4平米,砸開墻后頓時愣住

程哥講堂
2025-06-02 18:21:32
吃中國飯,反過來又砸中國碗的,就是小陳這種敗類。

吃中國飯,反過來又砸中國碗的,就是小陳這種敗類。

楊哥歷史
2025-06-05 13:40:51
中國唯一全免費的城市,上學、交通、水電、看病全免,買房僅1元,坐擁10萬億資源,還不準老外進入

中國唯一全免費的城市,上學、交通、水電、看病全免,買房僅1元,坐擁10萬億資源,還不準老外進入

背包旅行
2025-04-27 10:07:37
不要盲目減肥了,看看楊天真的肚子和腿,皮膚松松垮垮很難看

不要盲目減肥了,看看楊天真的肚子和腿,皮膚松松垮垮很難看

說說史事
2025-06-04 12:56:52
2025-06-06 03:44:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5362文章數 26570關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

藝術
手機
游戲
房產
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

領先蘋果iPhone 17 Air!華為Mate XTs三折疊將國內首發eSIM

《馬里奧賽車世界》M站已有評測:兩家媒體給90+分

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 越西县| 三江| 山西省| 资讯 | 武清区| 合川市| 义乌市| 于都县| 梅州市| 高雄市| 孝感市| 哈巴河县| 芜湖县| 平度市| 收藏| 乌拉特中旗| 丰台区| 霞浦县| 金塔县| 南投县| 阿勒泰市| 梁山县| 宁远县| 商洛市| 乐都县| 仲巴县| 岐山县| 安西县| 襄城县| 象山县| 宿迁市| 垣曲县| 乌拉特中旗| 昌宁县| 竹山县| 三门县| 屏边| 木里| 灵山县| 清流县| 曲周县|