網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

完整版｜梁文峰最新DeepSeek V3論文！揭秘如何用低性能GPU，訓(xùn)練出比肩OpenAI的大模型？

2025-05-15 18:56:06　來源: 劃重點(diǎn)KeyPoints

北京舉報(bào)

分享至

作者林易

編輯重點(diǎn)君

梁文鋒親自參與的DeepSeek最新論文，來了！

剛剛，DeepSeek發(fā)布了最新一篇圍繞DeepSeek-V3 的技術(shù)論文！標(biāo)題是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》

這篇論文探討了DeepSeek-V3模型在擴(kuò)展過程中面臨的硬件挑戰(zhàn)，并提出了一系列硬件與模型協(xié)同設(shè)計(jì)的解決方案。

大家知道，大語言模型（LLM）的快速擴(kuò)展暴露了當(dāng)前硬件架構(gòu)的一些關(guān)鍵局限性，包括內(nèi)存容量、計(jì)算效率和互連帶寬。以DeepSeek-V3 為例，它是在2048 塊NVIDIA H800 GPU 集群上進(jìn)行訓(xùn)練，展示了硬件感知模型協(xié)同設(shè)計(jì)如何高效地應(yīng)對(duì)這些限制，并最終實(shí)現(xiàn)了經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練與推理。

因此，這項(xiàng)新研究并非重復(fù)DeepSeek-V3 的詳細(xì)架構(gòu)和算法細(xì)節(jié)，而是從硬件架構(gòu)和模型設(shè)計(jì)的雙重視角，探討它們之間在實(shí)現(xiàn)經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理過程中復(fù)雜的相互作用。通過探究這種協(xié)同作用，研究者旨在提供切實(shí)可行的見解，以洞悉如何在不犧牲性能或可訪問性的情況下高效擴(kuò)展大語言模型。

總的來說，DeepSeek-V3通過硬件感知的模型設(shè)計(jì)（MLA、MoE、FP8）、網(wǎng)絡(luò)優(yōu)化（多平面拓?fù)洌┖退惴▌?chuàng)新（MTP），在有限硬件資源下實(shí)現(xiàn)了高效的大規(guī)模訓(xùn)練與推理。論文進(jìn)一步呼吁學(xué)術(shù)界與工業(yè)界協(xié)同探索下一代硬件架構(gòu)，以應(yīng)對(duì)AI負(fù)載的持續(xù)增長(zhǎng)。

更難能可貴的是，這次，DeepSeek創(chuàng)始人梁文峰也是這篇論文的署名作者之一。

我們剛閱讀了論文，下面給大家劃下重點(diǎn)：

|一、核心技術(shù)創(chuàng)新

內(nèi)存優(yōu)化

多頭潛在注意力機(jī)制(MLA)：通過投影矩陣壓縮注意力頭的Key-Value（KV）緩存，將每令牌的KV緩存從傳統(tǒng)模型的數(shù)百KB降低至70.27 KB（如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB），顯著減少長(zhǎng)上下文推理的內(nèi)存需求。

低精度模型：采用FP8混合精度訓(xùn)練，相比BF16精度，權(quán)重內(nèi)存占用減少50%，同時(shí)通過細(xì)粒度量化（如分塊128×128）緩解硬件累積精度不足的問題。

MoE架構(gòu)的成本效益

DeepSeekMoE：通過稀疏激活專家參數(shù)（如V3的671B參數(shù)中僅激活37B/令牌），實(shí)現(xiàn)計(jì)算資源的高效利用。訓(xùn)練成本為250 GFLOPS/令牌，遠(yuǎn)低于同等性能的密集模型（如LLaMA-405B的2448 GFLOPS/令牌）。

本地部署支持：MoE架構(gòu)允許在消費(fèi)級(jí)GPU服務(wù)器（如$10,000配置）上實(shí)現(xiàn)近20 TPS的推理速度，適合資源受限場(chǎng)景。

推理速度提升

多令牌預(yù)測(cè)（MTP）：通過輕量級(jí)模塊并行生成多個(gè)候選令牌，驗(yàn)證接受率達(dá)80%~90%，推理速度提升1.8倍。

計(jì)算-通信重疊：利用雙微批次流水線，將注意力計(jì)算與專家并行通信重疊，最大化硬件利用率。

網(wǎng)絡(luò)與硬件協(xié)同設(shè)計(jì)

多平面Fat-Tree網(wǎng)絡(luò)：采用兩層拓?fù)涮娲鷤鹘y(tǒng)三層結(jié)構(gòu)，降低集群網(wǎng)絡(luò)成本，支持16,384 GPU擴(kuò)展，同時(shí)隔離流量并提高魯棒性。

低延遲優(yōu)化：結(jié)合InfiniBand GPUDirect Async（IBGDA）繞過CPU代理，端到端延遲降低至微秒級(jí)（如跨交換機(jī)延遲3.7μs）。

|二、硬件瓶頸與未來建議

低精度計(jì)算支持。當(dāng)前FP8訓(xùn)練的硬件限制包括累積精度不足（FP22寄存器）和細(xì)粒度量化的高開銷。未來硬件需支持FP32累積精度和硬件級(jí)量化加速。

擴(kuò)展與擴(kuò)展融合。提出統(tǒng)一網(wǎng)絡(luò)適配器、專用通信協(xié)處理器和動(dòng)態(tài)帶寬分配，以解決NVLink與InfiniBand帶寬差異（如H800的NVLink帶寬400GB/s vs. InfiniBand 50GB/s）導(dǎo)致的通信瓶頸。

網(wǎng)絡(luò)架構(gòu)改進(jìn)。推薦RoCE增強(qiáng)：支持自適應(yīng)路由（替代ECMP）、虛擬輸出隊(duì)列（VOQ）和硬件級(jí)擁塞控制，以降低大規(guī)模All-to-All通信的延遲。

內(nèi)存帶寬優(yōu)化。建議采用3D堆疊DRAM（如SeDRAM）或晶圓級(jí)集成（System-on-Wafer），緩解Transformer類模型的內(nèi)存墻問題。

表1 比較了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每個(gè)token 的KV 緩存內(nèi)存占用情況。通過采用MLA，DeepSeek-V3 顯著減少了KV 緩存大小，每個(gè)token 僅需70 KB，遠(yuǎn)低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。

|三、實(shí)驗(yàn)驗(yàn)證與性能

KV緩存壓縮：MLA將內(nèi)存占用降低至傳統(tǒng)GQA/MQA的1/7（如LLaMA-3.1的7.28倍→DeepSeek-V3 1x）。

訓(xùn)練效率：在2048 H800 GPU集群中，多平面網(wǎng)絡(luò)（MPFT）與多軌網(wǎng)絡(luò)（MRFT）性能持平，模型浮點(diǎn)利用率（MFU）達(dá)43.73%。

推理極限：理論最優(yōu)TPOT為14.76 ms（67 TPS），采用高帶寬互聯(lián)（如GB200 NVL72）可提升至0.82 ms（1200 TPS）。

總之，論文強(qiáng)調(diào)了硬件和模型協(xié)同設(shè)計(jì)，在滿足日益增長(zhǎng)的人工智能工作負(fù)載需求方面的關(guān)鍵作用，并為下一代人工智能系統(tǒng)的創(chuàng)新提供了切實(shí)可行的藍(lán)圖。

最后，大家可以一鍵傳送原論文地址：https://arxiv.org/pdf/2505.09343

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.