作者 林易
編輯 重點君
梁文鋒親自參與的DeepSeek最新論文,來了!
剛剛,DeepSeek發布了最新一篇圍繞DeepSeek-V3 的技術論文!標題是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》
這篇論文探討了DeepSeek-V3模型在擴展過程中面臨的硬件挑戰,并提出了一系列硬件與模型協同設計的解決方案。
大家知道,大語言模型(LLM)的快速擴展暴露了當前硬件架構的一些關鍵局限性,包括內存容量、計算效率和互連帶寬。以DeepSeek-V3 為例,它是在2048 塊NVIDIA H800 GPU 集群上進行訓練,展示了硬件感知模型協同設計如何高效地應對這些限制,并最終實現了經濟高效的大規模訓練與推理。
因此,這項新研究并非重復DeepSeek-V3 的詳細架構和算法細節,而是從硬件架構和模型設計的雙重視角,探討它們之間在實現經濟高效的大規模訓練和推理過程中復雜的相互作用。通過探究這種協同作用,研究者旨在提供切實可行的見解,以洞悉如何在不犧牲性能或可訪問性的情況下高效擴展大語言模型。
總的來說,DeepSeek-V3通過硬件感知的模型設計(MLA、MoE、FP8)、網絡優化(多平面拓撲)和算法創新(MTP),在有限硬件資源下實現了高效的大規模訓練與推理。論文進一步呼吁學術界與工業界協同探索下一代硬件架構,以應對AI負載的持續增長。
更難能可貴的是,這次,DeepSeek創始人梁文峰也是這篇論文的署名作者之一。
我們剛閱讀了論文,下面給大家劃下重點:
|一、核心技術創新
內存優化
多頭潛在注意力機制(MLA):通過投影矩陣壓縮注意力頭的Key-Value(KV)緩存,將每令牌的KV緩存從傳統模型的數百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB),顯著減少長上下文推理的內存需求。
低精度模型:采用FP8混合精度訓練,相比BF16精度,權重內存占用減少50%,同時通過細粒度量化(如分塊128×128)緩解硬件累積精度不足的問題。
MoE架構的成本效益
DeepSeekMoE:通過稀疏激活專家參數(如V3的671B參數中僅激活37B/令牌),實現計算資源的高效利用。訓練成本為250 GFLOPS/令牌,遠低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。
本地部署支持:MoE架構允許在消費級GPU服務器(如$10,000配置)上實現近20 TPS的推理速度,適合資源受限場景。
推理速度提升
多令牌預測(MTP):通過輕量級模塊并行生成多個候選令牌,驗證接受率達80%~90%,推理速度提升1.8倍。
計算-通信重疊:利用雙微批次流水線,將注意力計算與專家并行通信重疊,最大化硬件利用率。
網絡與硬件協同設計
多平面Fat-Tree網絡:采用兩層拓撲替代傳統三層結構,降低集群網絡成本,支持16,384 GPU擴展,同時隔離流量并提高魯棒性。
低延遲優化:結合InfiniBand GPUDirect Async(IBGDA)繞過CPU代理,端到端延遲降低至微秒級(如跨交換機延遲3.7μs)。
|二、硬件瓶頸與未來建議
低精度計算支持。當前FP8訓練的硬件限制包括累積精度不足(FP22寄存器)和細粒度量化的高開銷。未來硬件需支持FP32累積精度和硬件級量化加速。
擴展與擴展融合。提出統一網絡適配器、專用通信協處理器和動態帶寬分配,以解決NVLink與InfiniBand帶寬差異(如H800的NVLink帶寬400GB/s vs. InfiniBand 50GB/s)導致的通信瓶頸。
網絡架構改進。推薦RoCE增強:支持自適應路由(替代ECMP)、虛擬輸出隊列(VOQ)和硬件級擁塞控制,以降低大規模All-to-All通信的延遲。
內存帶寬優化。建議采用3D堆疊DRAM(如SeDRAM)或晶圓級集成(System-on-Wafer),緩解Transformer類模型的內存墻問題。
表1 比較了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每個token 的KV 緩存內存占用情況。通過采用MLA,DeepSeek-V3 顯著減少了KV 緩存大小,每個token 僅需70 KB,遠低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。
|三、實驗驗證與性能
KV緩存壓縮:MLA將內存占用降低至傳統GQA/MQA的1/7(如LLaMA-3.1的7.28倍→DeepSeek-V3 1x)。
訓練效率:在2048 H800 GPU集群中,多平面網絡(MPFT)與多軌網絡(MRFT)性能持平,模型浮點利用率(MFU)達43.73%。
推理極限:理論最優TPOT為14.76 ms(67 TPS),采用高帶寬互聯(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。
總之,論文強調了硬件和模型協同設計,在滿足日益增長的人工智能工作負載需求方面的關鍵作用,并為下一代人工智能系統的創新提供了切實可行的藍圖。
最后,大家可以一鍵傳送原論文地址:https://arxiv.org/pdf/2505.09343
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.