DeepSeek剛剛發表了一篇名為《深入解讀 DeepSeek-V3:AI 架構的擴展挑戰與硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顧性論文,梁文鋒也是作者之一。這篇論文深入剖析了最新的大模型DeepSeek-V3及其AI基礎設施擴展方案,DeepSeek-V3的實踐充分證明了硬件-軟件協同設計在提升AI系統可擴展性、效率和魯棒性方面的巨大潛力
強烈推薦精讀!
快速解讀一下這篇論文
論文開宗明義:軟硬協同
文章一上來就點明了當前大模型(LLM)發展的核心矛盾:模型規模、訓練數據和算力需求飛速增長,但現有硬件架構在內存容量、計算效率和互連帶寬方面都面臨嚴峻挑戰。DeepSeek-V3的成功,恰恰證明了“硬件感知模型協同設計”是解決這些挑戰、實現大規模經濟高效訓練和推理的關鍵。
這篇論文的目標不是重復DeepSeek-V3的技術報告,而是從硬件架構和模型設計的雙重角度,探討它們之間復雜的相互作用,并為未來AI系統的可擴展性、成本效益提供實用藍圖
DeepSeek-V3核心設計揭秘:三大挑戰,逐個擊破
DeepSeek團隊圍繞LLM擴展的三大核心挑戰——內存效率、成本效益、推理速度——對DeepSeek-V3進行了精心設計
一、內存效率:榨干每一滴顯存
首先是低精度模型 (FP8)。相比BF16,FP8直接將模型權重內存占用減半,極大緩解了“內存墻”問題。這一點在后面會詳細展開
其次,DeepSeek-V2/V3采用的MLA (Multi-head Latent Attention) 技術,通過一個可共同訓練的投影矩陣,將所有注意力頭的KV表示壓縮到一個更小的“潛向量”(latent vector)中。推理時只需緩存這個潛向量,大幅降低內存消耗。論文給出的對比數據顯示,DeepSeek-V3 (MLA) 每token的KV Cache僅為70.272KB,而采用GQA的Qwen-2.5 72B為327.680KB,LLaMA-3.1 405B更是高達516.096KB。MLA的優勢可見一斑!
此外,論文也提及了業界其他有價值的方法,如GQA/MQA(分組/多查詢注意力)共享KV對,Windowed KV(滑動窗口),以及量化壓縮等。并展望了線性時間復雜度的注意力機制(如Mamba-2, Lightning Attention)和稀疏注意力的潛力
二、成本效益:MoE架構
DeepSeek-V3采用了其在V2中已被驗證有效的DeepSeekMoE架構(混合專家模型)。MoE的核心優勢在于“稀疏激活”:模型總參數量可以非常大,但每個token只激活一小部分專家參數
這使得訓練成本顯著降低。DeepSeek-V2有236B參數,每token激活21B;DeepSeek-V3擴展到671B參數,每token激活僅37B。相比之下,像Qwen2.5-72B和LLaMA3.1-405B這樣的密集模型,訓練時所有參數都處于激活狀態。從算力消耗對比 來看,DeepSeek-V3每token訓練成本約250 GFLOPS,遠低于LLaMA-405B的2448 GFLOPS,甚至低于Qwen-72B的394 GFLOPS
MoE模型的低激活參數特性,也使得在個人電腦的AI SoC上也能實現不錯的推理速度(如DeepSeek-V2在PC上可達近20 TPS甚至更高),為個性化LLM智能體和本地化部署鋪平了道路。使用KTransformers推理引擎,DeepSeek-V3完整模型能在消費級GPU(約1萬美元成本)的服務器上跑到近20 TPS
三、推理速度:分秒必爭
DeepSeek模型從設計之初就考慮了通過雙micro-batch重疊(dual micro-batch overlap)來隱藏通信延遲,最大化GPU利用率。生產環境中還采用prefill和decode分離的架構,針對性優化。
對于MoE模型,專家并行(EP)的All-to-All通信是瓶頸。論文以一個例子說明:若每設備一個專家,一次處理32個token,使用CX7 400Gbps InfiniBand網卡,一次EP(dispatch和combine)的通信時間約為120.96μs。在雙micro-batch重疊的理想情況下,每層總時間約為241.92μs。DeepSeek-V3有61層,則總推理時間約為14.76ms,理論TPOT(Time Per Output Token)上限約為67 tokens/s。如果換成GB200 NVL72(900GB/s單向帶寬),通信時間降至6.72μs,理論TPOT能飆升到1200 tokens/s!這生動展示了高帶寬互連的巨大潛力。
受Gloeckle等人工作的啟發,DeepSeek-V3引入了多令牌預測 (MTP, Multi-Token Prediction) 框架。傳統自回歸模型一次解碼一個token,MTP則允許模型以較低成本生成多個候選token并并行驗證,類似 speculative decoding。這能顯著加速推理。實際數據顯示,MTP對第二個后續token的接受率在80%-90%,使生成TPS提升1.8倍。同時,MTP也增大了推理batch size,有利于提升EP計算強度和硬件利用率。
像OpenAI的o1/o3系列、DeepSeek-R1等推理模型,以及PPO、DPO等RL流程,都極度依賴高token輸出速度。
低精度驅動設計:FP8混合精度訓練的探索
DeepSeek-V3的一大亮點是成功應用了FP8混合精度訓練。在此之前,開源社區幾乎沒有基于FP8訓練的大模型。
FP8的優勢在于顯著降低內存占用和計算量。但其在Hopper GPU上也面臨硬件局限性:一是累積精度受限,Tensor Core在FP8累積時,雖然中間結果用FP22存儲,但從32位尾數乘積右移對齊后,只保留最高的13位小數進行加法,這會影響大模型訓練穩定性;二是細粒度量化開銷大,像tile-wise(激活)和block-wise(權重)這樣的細粒度量化,在將部分結果從Tensor Core傳回CUDA Core進行縮放因子乘法時,會引入大量數據搬運和計算開銷。
對此,DeepSeek的建議是:未來硬件應提高累積精度(如FP32)或支持可配置的累積精度;同時,Tensor Core應能原生支持細粒度量化,直接接收縮放因子并執行帶組縮放的矩陣乘法,避免頻繁數據搬運。NVIDIA Blackwell的microscaling數據格式正是這一方向的體現。
DeepSeek團隊還嘗試了一種名為LogFMT-nBit(對數浮點格式)的數據類型用于通信壓縮。它將激活值從線性空間映射到對數空間,使得數據分布更均勻。但其局限性在于LogFMT數據在GPU Tensor Core計算前仍需轉回FP8/BF16,log/exp運算開銷和寄存器壓力較大。因此,盡管實驗驗證了其有效性,但最終并未實際采用。他們建議未來硬件原生支持FP8或定制精度格式的壓縮/解壓單元
互連驅動設計:榨干H800的每一分帶寬
DeepSeek-V3使用的NVIDIA H800 SXM節點,NVLink帶寬有所縮減(從H100的900GB/s降至400GB/s)。為彌補這一不足,每節點配備了8個400G InfiniBand CX7 NIC
在硬件感知的并行策略上,DeepSeek訓練中因NVLink帶寬受限而避免使用張量并行(TP),推理時可選擇性使用;采用DualPipe算法重疊Attention和MoE計算與通信來增強流水線并行(PP);并借助8個IB NIC實現超40GB/s的All-to-All通信速度以加速專家并行(EP)
模型協同設計方面,由于H800的NVLink(有效約160GB/s)和IB NIC(有效約40GB/s)帶寬差異巨大,DeepSeek-V3引入了節點限制路由 (Node-Limited Routing) 的TopK專家選擇策略:將256個路由專家分為8組,每組32個專家部署在單個節點上,并從算法上確保每個token最多路由到4個節點。這緩解了IB通信瓶頸。
關于Scale-Up與Scale-Out的融合,當前局限在于GPU SM既要處理網絡消息,又要通過NVLink轉發數據,消耗計算資源。DeepSeek建議未來硬件應集成統一網絡適配器、專用通信協處理器、靈活的轉發/廣播/Reduce機制、硬件同步原語、動態NVLink/PCIe流量優先級、I/O Die Chiplet集成NIC,以及CPU-GPU Scale-Up域互連。
大規模網絡驅動設計:多平面胖樹
DeepSeek-V3訓練中部署了多平面胖樹 (MPFT, Multi-Plane Fat-Tree) Scale-out網絡。每節點8 GPU + 8 IB NIC,每個GPU-NIC對屬于一個獨立網絡平面。
MPFT的優勢包括:作為多軌胖樹 (MRFT) 的子集可利用NCCL優化;成本效益高,用兩層胖樹即可支持超萬個端點;各平面流量隔離,單平面擁塞不影響其他;兩層拓撲延遲更低且魯棒性好。性能分析顯示,其All-to-All通信和EP場景性能與單平面MRFT非常接近,在2048 GPU上訓練DeepSeek-V3的指標也幾乎一致。
在低延遲網絡方面,IB延遲優于RoCE,但IB成本高、交換機端口密度低。對RoCE的改進建議包括:專用低延遲RoCE交換機、優化路由策略(如自適應路由)、改進流量隔離/擁塞控制機制。同時,DeepSeek也利用了InfiniBand GPUDirect Async (IBGDA) 技術來減少網絡通信延遲。
對未來AI硬件架構的展望
論文最后,DeepSeek團隊基于實踐經驗,對未來AI硬件設計提出了更宏觀的思考:
1. 魯棒性挑戰:應對互連故障、單硬件故障、靜默數據損壞等問題,硬件需集成高級錯誤檢測機制并提供診斷工具
2. CPU瓶頸與互連:解決PCIe帶寬瓶頸、高內存帶寬需求、CPU單核性能及核心數問題,建議CPU-GPU直接互連或集成到Scale-up域
3. 邁向AI智能網絡:發展硅光子、高級端到端擁塞控制、自適應路由、高效容錯協議和動態資源管理
4. 內存語義通信與順序問題:硬件應支持內建的內存語義通信順序保證(如acquire/release語義),消除sender端fence
5. 網絡內計算與壓縮:優化EP的dispatch和combine,原生集成LogFMT等壓縮技術
6. 內存為中心的創新:推廣DRAM堆疊加速器和System-on-Wafer (SoW)技術。
參考:
https://arxiv.org/pdf/2505.09343
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.