網易首頁 > 網易號 > 正文申請入駐

DeepSeek R-1更新，讓人更期待R2的“雄心與真誠”

2025-05-30 23:53:48　來源: 未盡研究

上海舉報

分享至

R2沒來，R1-0528來了。

這款以半年前的DeepSeek V3 Base模型為基座，在后訓練階段投入更多算力的升級版推理模型，同樣非常能打，讓DeepSeek穩居全球第二AI實驗室的位置。寬松的MIT許可也沒變化，兌現了向全球技術生態提供強大開源模型的承諾。這更讓人期待V4與真正的R2了。

在多項基準測試中，DeepSeek-R1-0528在數學、編程和通用邏輯上的性能，足以媲美最強閉源模型o3和Gemini 2.5 Pro，也超越了最強開源模型Qwen3-235B。它還在幻覺改善、創意寫作、工具調用與前端代碼生成上有所提升。

獨立AI分析網站Artificial Analysis很快更新了領先AI大廠模型智能的排名。DeepSeek無論在性能提升還是迭代速度上，都緊緊咬住了OpenAI。差不多兩年前，奧特曼與伊萊亞被問及，開源模型能否趕上GPT-4時，還非常自信地認為，即使趕上了，兩者在真正的前沿模型上的差距也會越拉越大；當時，DeepSeek正式成立剛剛滿月。

DeepSeek同時發布蒸餾版的R1-0528-Qwen3-8B，在數學測試中的表現，與比它大數十倍的Qwen3-235B相當，提升了學術界與工業界對最先進AI的可訪問性。DeepSeek官方公眾號特地將這一重要意義加黑加粗了。

在DeepSeek社交媒體平臺X的官方賬號下，開源社區對它樸素的版本命名規則給與好評，甚至認為在自己心里，它就是R2了。還有不少開發者在評論里許愿，要求下一代大模型要有更大的上下文窗口，原生的多模態功能，等等。

不妨結合DeepSeek的“歷史”與開源社區的期待，大膽推測一下它的下一代模型會是什么樣吧。

首先，R1-0528從一開始就不是R2，也不是R-1.5。DeepSeek對模型的命名，有其“潛規則”。要讓“版本號”小升級，至少要有不同Base（基座）模型級別的迭代與功能的合并。

2個月前，V3-0324更新，也沒有命名為V-3.5。因為它與之前的V3一樣，使用了同樣的Base模型，僅改進了后訓練方法。這次的R1-0528，則主要是在同樣的Base模型上，投入了更多的后訓練算力。

但是，DeepSeek是發布過V-2.5的。這是一款融合了通用與代碼能力的全新開源模型。從V-2升級到V-2.5，涉及到Base模型的切換與模型的合并。2024年5月，初代DeepSeek-V2發布；6月，DeepSeek-Coder-V2發布，6月底，V2-0628上線，用Coder-V2的Base模型，替換原有的Chat的Base模型；7月，對齊優化的Coder-V2-0724上線；9月，V2-0628與Coder-V2-0724在相同Base模型的基礎上合并，即V-2.5。12月10日，V2.5-1210上線，宣告V2系列收官。兩周后，下一代的DeepSeek-V3開源，官方稱其為“V3的首個版本”。

第二，成熟度最高的代碼能力，已經融合進去了；下一代模型很可能就是原生多模態。

在V系列基礎大型語言模型之外，DeepSeek的團隊一直在各個分支上嘗試更多元的探索，包括數學模型Math以及專門用于數學定理證明的模型Prover，混合專家視覺語言模型VL2以及自回歸的統一多模態理解與生成模型Janus等。

這體現了DeepSeek的“長期主義”與言行一致。代碼與數學，多模態與自然語言本身，三者正是DeepSeek創始人梁文鋒押注的三個方向，“數學和代碼是AGI天然的試驗場，有點像圍棋，是一個封閉的、可驗證的系統，有可能通過自我學習就能實現很高的智能”。

DeepSeek證明了自己可以很好地合并模型；而且，MoE又天然的是多專家的模型。也許最終，這三個押注方向都會合流。尤其是多模態，一直都是開源社區對DeepSeek的V4或R2的期待；至少在DeepSeek下一代模型的完整迭代周期內實現。閉源的OpenAI、谷歌已經都這么做了。

第三，下一代基礎模型的推出，至少對應著新的注意力機制創新的工程化與商業化，也越來越對應人類對“記憶”該有的樣子的理解。這種將“規模競賽”進一步扭轉為“效率競賽”的努力，事實上變相為“擴展定律”續了命，有利于在更高效的算力支出上研發更高參數規模的大模型，同時也為應用場景進一步降低了全面采用AI的成本。

這正是貫穿DeepSeek主力模型迭代始終的主線。DeepSeek-V2對傳統Transformer架構的自注意力機制進行了全方位的創新，提出了MLA（多頭潛在注意力）機制。美國知名半導體分析機構semianalysis敏銳地感覺到，這種架構創新將對OpenAI造成麻煩。V3則首創了一種無輔助損失的負載均衡策略，并設定了多token預測訓練目標以提升性能，以及開創性的適用于FP8精度的訓練框架。

最有希望引入V4或R2模型的，也許要數DeepSeek年初提出的NSA（原生可訓練稀疏注意力）機制。它能帶來的，也正是用戶目前迫切想要的長上下文。更長的上下文，意味著倉庫級代碼生成、多輪智能體間互動以及科研深度的推理能力。但是，注意力計算在總計算成本中占比，也會隨著要處理的上下文的序列的增長而急劇增長。而目前很多稀疏注意力機制只是在特定階段受限起效。

NSA支持端到端的訓練，而且硬件對齊友好，通過將文本壓縮為粗粒度語義塊（壓縮數據量）、動態篩選關鍵片段（減少計算量），并結合局部滑動窗口（限定關注長度)，既保留全局理解，又減少冗余計算。DeepSeek團隊已經在27B（3B激活參數）的MoE架構模型上做了多項測試，提升顯著。

V4還可能會帶來更多注意力機制創新。DeepSeek團隊成員提到了一項名為BSBR（帶塊檢索的塊稀疏注意力）的技術，短期記憶用傳統方法處理（塊內遞歸），長期記憶則用全局注意力機制捕捉（塊外全局注意力），保存在 SSD 硬盤里，需要時快速檢索到GPU上。

第四，DeepSeek之于整個AI生態，尤其是中國的AI生態的意義，不僅僅在于它會回答下一代模型怎么樣，還會回答適配下一代模型的基礎設施怎么樣。

去年至今，它先后用兩篇論文，分別詳細介紹了如何通過軟硬件協同優化，用A100與H800搭建出“平民版”的智算集群。H800集群已經訓練出了V2與V3，V4會擁有自己的全新的基礎設施嗎？

在這個意義上，今年年初NSA論文里提到的“基于Triton實現硬件對齊的稀疏”的細節，讓人回想起去年這個時候，微軟、Meta的工程師忙著為Triton優化。

這是專為神經網絡計算設計的跨平臺兼容的編程語言和編譯器，提供了一種從CUDA中解耦出來的可能性。當Meta發布第二代MTIA時，其工程師表示Triton “高效”且“與硬件無關”。不過，在中國以外的市場，大家還都沒有被逼到不用CUDA只用Triton的地步。

此外，開源社區也有人好奇，隨著后訓練的比重越來越大，會出現新的針對強化學習優化的AI基礎設施嗎？

25個月前，DeepSeek在前身幻方量化的公眾號上發表了其AGI征程宣言，引用到“務必要瘋狂地擁抱雄心，同時要瘋狂地真誠”。那么，也讓我們期待DeepSeek的下一代大模型會更具“雄心”與“真誠”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.