就在所有人都在期待DeepSeek官宣R2大模型之際,公司卻出其不意地在"五一"前夕投下了另一枚技術炸彈。
4月30日,DeepSeek在Hugging Face平臺上悄然開源了其最新模型——DeepSeek-Prover-V2-671B,一個專注于數學定理證明的大語言模型,專門針對形式化數學證明任務進行優化。
DeepSeek-Prover-V2-671B使用了DeepSeek-V3架構,參數高達6710億,采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。
模型使用了更高效的safetensors文件格式,同時支持BF16、FP8、F32等多種計算精度,這使得模型可以更快、更省資源地進行訓練和部署。據OSCHINA分析,該模型分為163個分片,每個分片大小約為4.3GB,充分證明了其規模之龐大。
值得注意的是,3月發布的V3-0324版本已被業內視為未來R2的基礎模型。這一版本通過6850億參數的MoE架構升級,代碼能力獲得相比顯著增強。
數學AI的重磅升級:DeepSeek再開源6710億參數模型
從技術層面來看,DeepSeek-Prover-V2-671B使用了DeepSeek-V3架構,采用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。更令人驚嘆的是,其最大位置嵌入達到了16.38萬,這意味著它能夠處理極其復雜的數學證明問題。
DeepSeek-Prover是DeepSeek團隊開發的一系列專注于數學定理證明的開源大語言模型,通過大規模合成數據訓練并結合強化學習(RL)與蒙特卡洛樹搜索(MCTS)等優化技術,在形式化定理證明領域取得了顯著進展。
DeepSeek-Prover通過創新的訓練框架與高效的推理策略,在形式化數學證明領域樹立了新標桿。其結合合成數據、強化學習與樹搜索的技術路徑,不僅提升了模型性能,也為AI在嚴謹數學推理中的應用開辟了新方向。
OSCHINA分析稱,新模型具有以下特點:
DeepSeekR2 還會遠嗎?
- 模型規模巨大:參數量約為 671B(6710 億參數),這從模型分片數量(163 個)和每個分片大小(約 4.3GB)可以看出
- 使用了 DeepSeek-V3 的架構:采用 MoE(混合專家)模式,具有 61 層 Transformer 層,7168 維隱藏層
- 專為數學定理證明優化:從名稱 "Prover"(證明者)可以看出,這是一個專注于數學推理和定理證明的專業模型
- 支持超長上下文:最大位置嵌入達 163840,使其能處理復雜的數學證明
- 采用 FP8 量化:通過量化技術減小模型大小,提高推理效率
DeepSeek創始人梁文鋒曾表示:“中國也要逐步成為創新貢獻者,而不是一直搭便車。” 他將探索通用人工智能的本質作為核心使命。
根據《中國企業家》的報道,DeepSeek創始人梁文鋒帶領的AI團隊一直保持著與國際巨頭同步的產品迭代節奏——2024年9月推出V2.5版本,12月發布V3基礎架構,次年3月升級至V3-0324版本,形成每季度重大更新的開發范式。
值得注意的是,3月發布的V3-0324版本已被業內視為未來R2的基礎模型。這一版本通過6850億參數的MoE架構升級,代碼能力獲得顯著增強。
如此穩健而高效的產品迭代節奏,不禁讓人思考:傳言已久的DeepSeek R2大模型還會遠嗎?這款新的數學模型是否只是DeepSeek即將發布更大規模通用模型的前奏?
在社交平臺X上,有網友表示:
“R2 指日可待......”
“昨天 Qwen 3,今天 DeepSeek Prover V2...”
還有測評稱,在實際效果上,“在高中數學題測試中,成功率從 50% 提高到了 63.5%。”
“V1.5還只是參數只有7B的小模型,這次直接升到大模型。”
“中國的 AI 初創公司永遠不會讓人失望!他們真的在改變整個游戲規則!”
“中國最近正在將一些功夫應用于 AI”
“這是個令人興奮的消息!”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.