作者 林易
編輯 重點(diǎn)君
梁文鋒親自參與的DeepSeek最新論文,來了!
剛剛,DeepSeek發(fā)布了最新一篇圍繞DeepSeek-V3 的技術(shù)論文!標(biāo)題是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》
這篇論文探討了DeepSeek-V3模型在擴(kuò)展過程中面臨的硬件挑戰(zhàn),并提出了一系列硬件與模型協(xié)同設(shè)計(jì)的解決方案。
大家知道,大語言模型(LLM)的快速擴(kuò)展暴露了當(dāng)前硬件架構(gòu)的一些關(guān)鍵局限性,包括內(nèi)存容量、計(jì)算效率和互連帶寬。以DeepSeek-V3 為例,它是在2048 塊NVIDIA H800 GPU 集群上進(jìn)行訓(xùn)練,展示了硬件感知模型協(xié)同設(shè)計(jì)如何高效地應(yīng)對(duì)這些限制,并最終實(shí)現(xiàn)了經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練與推理。
因此,這項(xiàng)新研究并非重復(fù)DeepSeek-V3 的詳細(xì)架構(gòu)和算法細(xì)節(jié),而是從硬件架構(gòu)和模型設(shè)計(jì)的雙重視角,探討它們之間在實(shí)現(xiàn)經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理過程中復(fù)雜的相互作用。通過探究這種協(xié)同作用,研究者旨在提供切實(shí)可行的見解,以洞悉如何在不犧牲性能或可訪問性的情況下高效擴(kuò)展大語言模型。
總的來說,DeepSeek-V3通過硬件感知的模型設(shè)計(jì)(MLA、MoE、FP8)、網(wǎng)絡(luò)優(yōu)化(多平面拓?fù)洌┖退惴▌?chuàng)新(MTP),在有限硬件資源下實(shí)現(xiàn)了高效的大規(guī)模訓(xùn)練與推理。論文進(jìn)一步呼吁學(xué)術(shù)界與工業(yè)界協(xié)同探索下一代硬件架構(gòu),以應(yīng)對(duì)AI負(fù)載的持續(xù)增長(zhǎng)。
更難能可貴的是,這次,DeepSeek創(chuàng)始人梁文峰也是這篇論文的署名作者之一。
我們剛閱讀了論文,下面給大家劃下重點(diǎn):
|一、核心技術(shù)創(chuàng)新
內(nèi)存優(yōu)化
多頭潛在注意力機(jī)制(MLA):通過投影矩陣壓縮注意力頭的Key-Value(KV)緩存,將每令牌的KV緩存從傳統(tǒng)模型的數(shù)百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB),顯著減少長(zhǎng)上下文推理的內(nèi)存需求。
低精度模型:采用FP8混合精度訓(xùn)練,相比BF16精度,權(quán)重內(nèi)存占用減少50%,同時(shí)通過細(xì)粒度量化(如分塊128×128)緩解硬件累積精度不足的問題。
MoE架構(gòu)的成本效益
DeepSeekMoE:通過稀疏激活專家參數(shù)(如V3的671B參數(shù)中僅激活37B/令牌),實(shí)現(xiàn)計(jì)算資源的高效利用。訓(xùn)練成本為250 GFLOPS/令牌,遠(yuǎn)低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。
本地部署支持:MoE架構(gòu)允許在消費(fèi)級(jí)GPU服務(wù)器(如$10,000配置)上實(shí)現(xiàn)近20 TPS的推理速度,適合資源受限場(chǎng)景。
推理速度提升
多令牌預(yù)測(cè)(MTP):通過輕量級(jí)模塊并行生成多個(gè)候選令牌,驗(yàn)證接受率達(dá)80%~90%,推理速度提升1.8倍。
計(jì)算-通信重疊:利用雙微批次流水線,將注意力計(jì)算與專家并行通信重疊,最大化硬件利用率。
網(wǎng)絡(luò)與硬件協(xié)同設(shè)計(jì)
多平面Fat-Tree網(wǎng)絡(luò):采用兩層拓?fù)涮娲鷤鹘y(tǒng)三層結(jié)構(gòu),降低集群網(wǎng)絡(luò)成本,支持16,384 GPU擴(kuò)展,同時(shí)隔離流量并提高魯棒性。
低延遲優(yōu)化:結(jié)合InfiniBand GPUDirect Async(IBGDA)繞過CPU代理,端到端延遲降低至微秒級(jí)(如跨交換機(jī)延遲3.7μs)。
|二、硬件瓶頸與未來建議
低精度計(jì)算支持。當(dāng)前FP8訓(xùn)練的硬件限制包括累積精度不足(FP22寄存器)和細(xì)粒度量化的高開銷。未來硬件需支持FP32累積精度和硬件級(jí)量化加速。
擴(kuò)展與擴(kuò)展融合。提出統(tǒng)一網(wǎng)絡(luò)適配器、專用通信協(xié)處理器和動(dòng)態(tài)帶寬分配,以解決NVLink與InfiniBand帶寬差異(如H800的NVLink帶寬400GB/s vs. InfiniBand 50GB/s)導(dǎo)致的通信瓶頸。
網(wǎng)絡(luò)架構(gòu)改進(jìn)。推薦RoCE增強(qiáng):支持自適應(yīng)路由(替代ECMP)、虛擬輸出隊(duì)列(VOQ)和硬件級(jí)擁塞控制,以降低大規(guī)模All-to-All通信的延遲。
內(nèi)存帶寬優(yōu)化。建議采用3D堆疊DRAM(如SeDRAM)或晶圓級(jí)集成(System-on-Wafer),緩解Transformer類模型的內(nèi)存墻問題。
表1 比較了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每個(gè)token 的KV 緩存內(nèi)存占用情況。通過采用MLA,DeepSeek-V3 顯著減少了KV 緩存大小,每個(gè)token 僅需70 KB,遠(yuǎn)低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。
|三、實(shí)驗(yàn)驗(yàn)證與性能
KV緩存壓縮:MLA將內(nèi)存占用降低至傳統(tǒng)GQA/MQA的1/7(如LLaMA-3.1的7.28倍→DeepSeek-V3 1x)。
訓(xùn)練效率:在2048 H800 GPU集群中,多平面網(wǎng)絡(luò)(MPFT)與多軌網(wǎng)絡(luò)(MRFT)性能持平,模型浮點(diǎn)利用率(MFU)達(dá)43.73%。
推理極限:理論最優(yōu)TPOT為14.76 ms(67 TPS),采用高帶寬互聯(lián)(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。
總之,論文強(qiáng)調(diào)了硬件和模型協(xié)同設(shè)計(jì),在滿足日益增長(zhǎng)的人工智能工作負(fù)載需求方面的關(guān)鍵作用,并為下一代人工智能系統(tǒng)的創(chuàng)新提供了切實(shí)可行的藍(lán)圖。
最后,大家可以一鍵傳送原論文地址:https://arxiv.org/pdf/2505.09343
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.