網易首頁 > 網易號 > 正文申請入駐

剛剛！梁文鋒參與發表回顧性論文：DeepSeek首次揭秘V3模型背后擴展方案

2025-05-15 18:44:31　來源: AI寒武紀

江蘇舉報

分享至

DeepSeek剛剛發表了一篇名為《深入解讀 DeepSeek-V3：AI 架構的擴展挑戰與硬件思考》（Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures）的回顧性論文，梁文鋒也是作者之一。這篇論文深入剖析了最新的大模型DeepSeek-V3及其AI基礎設施擴展方案，DeepSeek-V3的實踐充分證明了硬件-軟件協同設計在提升AI系統可擴展性、效率和魯棒性方面的巨大潛力

強烈推薦精讀！

快速解讀一下這篇論文

論文開宗明義：軟硬協同

文章一上來就點明了當前大模型（LLM）發展的核心矛盾：模型規模、訓練數據和算力需求飛速增長，但現有硬件架構在內存容量、計算效率和互連帶寬方面都面臨嚴峻挑戰。DeepSeek-V3的成功，恰恰證明了“硬件感知模型協同設計”是解決這些挑戰、實現大規模經濟高效訓練和推理的關鍵。

這篇論文的目標不是重復DeepSeek-V3的技術報告，而是從硬件架構和模型設計的雙重角度，探討它們之間復雜的相互作用，并為未來AI系統的可擴展性、成本效益提供實用藍圖

DeepSeek-V3核心設計揭秘：三大挑戰，逐個擊破

DeepSeek團隊圍繞LLM擴展的三大核心挑戰——內存效率、成本效益、推理速度——對DeepSeek-V3進行了精心設計

一、內存效率：榨干每一滴顯存

首先是低精度模型 (FP8)。相比BF16，FP8直接將模型權重內存占用減半，極大緩解了“內存墻”問題。這一點在后面會詳細展開

其次，DeepSeek-V2/V3采用的MLA (Multi-head Latent Attention) 技術，通過一個可共同訓練的投影矩陣，將所有注意力頭的KV表示壓縮到一個更小的“潛向量”（latent vector）中。推理時只需緩存這個潛向量，大幅降低內存消耗。論文給出的對比數據顯示，DeepSeek-V3 (MLA) 每token的KV Cache僅為70.272KB，而采用GQA的Qwen-2.5 72B為327.680KB，LLaMA-3.1 405B更是高達516.096KB。MLA的優勢可見一斑！

此外，論文也提及了業界其他有價值的方法，如GQA/MQA（分組/多查詢注意力）共享KV對，Windowed KV（滑動窗口），以及量化壓縮等。并展望了線性時間復雜度的注意力機制（如Mamba-2, Lightning Attention）和稀疏注意力的潛力

二、成本效益：MoE架構

DeepSeek-V3采用了其在V2中已被驗證有效的DeepSeekMoE架構（混合專家模型）。MoE的核心優勢在于“稀疏激活”：模型總參數量可以非常大，但每個token只激活一小部分專家參數

這使得訓練成本顯著降低。DeepSeek-V2有236B參數，每token激活21B；DeepSeek-V3擴展到671B參數，每token激活僅37B。相比之下，像Qwen2.5-72B和LLaMA3.1-405B這樣的密集模型，訓練時所有參數都處于激活狀態。從算力消耗對比來看，DeepSeek-V3每token訓練成本約250 GFLOPS，遠低于LLaMA-405B的2448 GFLOPS，甚至低于Qwen-72B的394 GFLOPS

MoE模型的低激活參數特性，也使得在個人電腦的AI SoC上也能實現不錯的推理速度（如DeepSeek-V2在PC上可達近20 TPS甚至更高），為個性化LLM智能體和本地化部署鋪平了道路。使用KTransformers推理引擎，DeepSeek-V3完整模型能在消費級GPU（約1萬美元成本）的服務器上跑到近20 TPS

三、推理速度：分秒必爭

DeepSeek模型從設計之初就考慮了通過雙micro-batch重疊（dual micro-batch overlap）來隱藏通信延遲，最大化GPU利用率。生產環境中還采用prefill和decode分離的架構，針對性優化。

對于MoE模型，專家并行（EP）的All-to-All通信是瓶頸。論文以一個例子說明：若每設備一個專家，一次處理32個token，使用CX7 400Gbps InfiniBand網卡，一次EP（dispatch和combine）的通信時間約為120.96μs。在雙micro-batch重疊的理想情況下，每層總時間約為241.92μs。DeepSeek-V3有61層，則總推理時間約為14.76ms，理論TPOT（Time Per Output Token）上限約為67 tokens/s。如果換成GB200 NVL72（900GB/s單向帶寬），通信時間降至6.72μs，理論TPOT能飆升到1200 tokens/s！這生動展示了高帶寬互連的巨大潛力。

受Gloeckle等人工作的啟發，DeepSeek-V3引入了多令牌預測 (MTP, Multi-Token Prediction) 框架。傳統自回歸模型一次解碼一個token，MTP則允許模型以較低成本生成多個候選token并并行驗證，類似 speculative decoding。這能顯著加速推理。實際數據顯示，MTP對第二個后續token的接受率在80%-90%，使生成TPS提升1.8倍。同時，MTP也增大了推理batch size，有利于提升EP計算強度和硬件利用率。

像OpenAI的o1/o3系列、DeepSeek-R1等推理模型，以及PPO、DPO等RL流程，都極度依賴高token輸出速度。

低精度驅動設計：FP8混合精度訓練的探索

DeepSeek-V3的一大亮點是成功應用了FP8混合精度訓練。在此之前，開源社區幾乎沒有基于FP8訓練的大模型。

FP8的優勢在于顯著降低內存占用和計算量。但其在Hopper GPU上也面臨硬件局限性：一是累積精度受限，Tensor Core在FP8累積時，雖然中間結果用FP22存儲，但從32位尾數乘積右移對齊后，只保留最高的13位小數進行加法，這會影響大模型訓練穩定性；二是細粒度量化開銷大，像tile-wise（激活）和block-wise（權重）這樣的細粒度量化，在將部分結果從Tensor Core傳回CUDA Core進行縮放因子乘法時，會引入大量數據搬運和計算開銷。

對此，DeepSeek的建議是：未來硬件應提高累積精度（如FP32）或支持可配置的累積精度；同時，Tensor Core應能原生支持細粒度量化，直接接收縮放因子并執行帶組縮放的矩陣乘法，避免頻繁數據搬運。NVIDIA Blackwell的microscaling數據格式正是這一方向的體現。

DeepSeek團隊還嘗試了一種名為LogFMT-nBit（對數浮點格式）的數據類型用于通信壓縮。它將激活值從線性空間映射到對數空間，使得數據分布更均勻。但其局限性在于LogFMT數據在GPU Tensor Core計算前仍需轉回FP8/BF16，log/exp運算開銷和寄存器壓力較大。因此，盡管實驗驗證了其有效性，但最終并未實際采用。他們建議未來硬件原生支持FP8或定制精度格式的壓縮/解壓單元

互連驅動設計：榨干H800的每一分帶寬

DeepSeek-V3使用的NVIDIA H800 SXM節點，NVLink帶寬有所縮減（從H100的900GB/s降至400GB/s）。為彌補這一不足，每節點配備了8個400G InfiniBand CX7 NIC

在硬件感知的并行策略上，DeepSeek訓練中因NVLink帶寬受限而避免使用張量并行（TP），推理時可選擇性使用；采用DualPipe算法重疊Attention和MoE計算與通信來增強流水線并行（PP）；并借助8個IB NIC實現超40GB/s的All-to-All通信速度以加速專家并行（EP）

模型協同設計方面，由于H800的NVLink（有效約160GB/s）和IB NIC（有效約40GB/s）帶寬差異巨大，DeepSeek-V3引入了節點限制路由 (Node-Limited Routing) 的TopK專家選擇策略：將256個路由專家分為8組，每組32個專家部署在單個節點上，并從算法上確保每個token最多路由到4個節點。這緩解了IB通信瓶頸。

關于Scale-Up與Scale-Out的融合，當前局限在于GPU SM既要處理網絡消息，又要通過NVLink轉發數據，消耗計算資源。DeepSeek建議未來硬件應集成統一網絡適配器、專用通信協處理器、靈活的轉發/廣播/Reduce機制、硬件同步原語、動態NVLink/PCIe流量優先級、I/O Die Chiplet集成NIC，以及CPU-GPU Scale-Up域互連。

大規模網絡驅動設計：多平面胖樹

DeepSeek-V3訓練中部署了多平面胖樹 (MPFT, Multi-Plane Fat-Tree) Scale-out網絡。每節點8 GPU + 8 IB NIC，每個GPU-NIC對屬于一個獨立網絡平面。

MPFT的優勢包括：作為多軌胖樹 (MRFT) 的子集可利用NCCL優化；成本效益高，用兩層胖樹即可支持超萬個端點；各平面流量隔離，單平面擁塞不影響其他；兩層拓撲延遲更低且魯棒性好。性能分析顯示，其All-to-All通信和EP場景性能與單平面MRFT非常接近，在2048 GPU上訓練DeepSeek-V3的指標也幾乎一致。

在低延遲網絡方面，IB延遲優于RoCE，但IB成本高、交換機端口密度低。對RoCE的改進建議包括：專用低延遲RoCE交換機、優化路由策略（如自適應路由）、改進流量隔離/擁塞控制機制。同時，DeepSeek也利用了InfiniBand GPUDirect Async (IBGDA) 技術來減少網絡通信延遲。

對未來AI硬件架構的展望

論文最后，DeepSeek團隊基于實踐經驗，對未來AI硬件設計提出了更宏觀的思考：

1. 魯棒性挑戰：應對互連故障、單硬件故障、靜默數據損壞等問題，硬件需集成高級錯誤檢測機制并提供診斷工具
2. CPU瓶頸與互連：解決PCIe帶寬瓶頸、高內存帶寬需求、CPU單核性能及核心數問題，建議CPU-GPU直接互連或集成到Scale-up域
3. 邁向AI智能網絡：發展硅光子、高級端到端擁塞控制、自適應路由、高效容錯協議和動態資源管理
4. 內存語義通信與順序問題：硬件應支持內建的內存語義通信順序保證（如acquire/release語義），消除sender端fence
5. 網絡內計算與壓縮：優化EP的dispatch和combine，原生集成LogFMT等壓縮技術
6. 內存為中心的創新：推廣DRAM堆疊加速器和System-on-Wafer (SoW)技術。

參考：

https://arxiv.org/pdf/2505.09343

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.