智東西
編譯 程茜 李水青
編輯 李水青
智東西5月15日消息,昨日下午,DeepSeek團(tuán)隊(duì)發(fā)布新論文,以DeepSeek-V3為代表,深入解讀DeepSeek在硬件架構(gòu)和模型設(shè)計(jì)方面的關(guān)鍵創(chuàng)新,為實(shí)現(xiàn)具有成本效益的大規(guī)模訓(xùn)練和推理提供思路。
DeepSeek創(chuàng)始人兼CEO梁文鋒這次同樣出現(xiàn)在了合著名單之中,在作者列表中處于倒數(shù)第五的位置。論文署名通訊地址為“中國北京”,可以推測論文研究大概率為DeepSeek北京團(tuán)隊(duì)主導(dǎo)。
大語言模型的迅猛擴(kuò)張正暴露出硬件架構(gòu)的三大瓶頸:內(nèi)存容量不足、計(jì)算效率低下、互連帶寬受限。而DeepSeek-V3卻實(shí)現(xiàn)了令人矚目的效率突破——
僅在2048塊H800 GPU上進(jìn)行訓(xùn)練,F(xiàn)P8訓(xùn)練的準(zhǔn)確率損失小于0.25%,每token的訓(xùn)練成本250 GFLOPS,而405B密集模型的訓(xùn)練成本為2.45 TFLOPS ,KV緩存低至每個(gè)token 70 KB(僅為Llama-3.1緩存的1/7)……
這些突破性數(shù)據(jù)背后,究竟隱藏著怎樣的技術(shù)革新?
其中的模型架構(gòu)和AI基礎(chǔ)設(shè)施關(guān)鍵創(chuàng)新包括:用于提高內(nèi)存效率的多頭潛在注意力(MLA)、用于優(yōu)化計(jì)算-通信權(quán)衡的混合專家(MoE)架構(gòu)、用于釋放硬件功能全部潛力的FP8混合精度訓(xùn)練,以及用于最大限度地減少集群級網(wǎng)絡(luò)開銷的多平面網(wǎng)絡(luò)拓?fù)洹?/p>
▲DeepSeek-V3基本架構(gòu)
DeepSeek的論文中驗(yàn)證了,有效的軟硬件協(xié)同設(shè)計(jì)可以實(shí)現(xiàn)大型模型的成本效益訓(xùn)練,從而為較小的團(tuán)隊(duì)提供公平的競爭環(huán)境。
也難怪OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy此前贊嘆:“DeepSeek-V3的出現(xiàn)實(shí)現(xiàn)了高性能與低成本的平衡……未來或許不需要超大規(guī)模的GPU集群了。”
DeepSeek在論文中提到,本文的目的不是重申DeepSeek-V3的詳細(xì)架構(gòu)和算法細(xì)節(jié),是跨越硬件架構(gòu)和模型設(shè)計(jì)采用雙重視角來探索它們之間錯綜復(fù)雜的相互作用,以實(shí)現(xiàn)具有成本效益的大規(guī)模訓(xùn)練和推理。側(cè)重于探討:
硬件驅(qū)動的模型設(shè)計(jì):分析FP8低精度計(jì)算和縱向擴(kuò)展/橫向擴(kuò)展網(wǎng)絡(luò)屬性等硬件功能如何影響DeepSeek-V3中的架構(gòu)選擇;
硬件和模型之間的相互依賴關(guān)系:深入了解硬件功能如何塑造模型創(chuàng)新,以及大模型不斷變化的需求如何推動對下一代硬件的需求;
硬件開發(fā)的未來方向:從DeepSeek-V3獲得可實(shí)現(xiàn)的見解,以指導(dǎo)未來硬件和模型架構(gòu)的協(xié)同設(shè)計(jì),為可擴(kuò)展、經(jīng)濟(jì)高效的AI系統(tǒng)鋪平道路;
論文地址:https://arxiv.org/abs/2505.09343
一、從源頭優(yōu)化內(nèi)存效率,MoE模型可降低成本、本地部署
開篇提到的DeepSeek-V3關(guān)鍵創(chuàng)新旨在解決擴(kuò)展中的三個(gè)核心挑戰(zhàn):內(nèi)存效率、成本效益和推理速度。
1、內(nèi)存效率:從源頭優(yōu)化內(nèi)存使用,使用MLA減少KV緩存
從源頭優(yōu)化內(nèi)存使用仍然是一種關(guān)鍵且有效的策略。與使用BF16進(jìn)行權(quán)重的模型相比,FP8將內(nèi)存消耗顯著降低了一半,有效緩解了AI內(nèi)存墻挑戰(zhàn)。
▲KV緩存大小比較(BF16精度)
使用MLA減少KV緩存。對于大模型推理,用戶請求通常涉及多輪對話。KV緩存通過緩存先前處理的token的鍵和值向量來解決這一挑戰(zhàn),無需為后續(xù)token重新計(jì)算。
在每個(gè)推理步驟匯總,模型僅計(jì)算當(dāng)前token的鍵和值向量,并通過將它們與歷史記錄中緩存的鍵值對組合來執(zhí)行注意力計(jì)算。這種增量計(jì)算使其在處理長序列或多輪輸入時(shí)非常高效。但是,它引入了內(nèi)存受限的瓶頸,因?yàn)橛?jì)算從GEMM轉(zhuǎn)移到GEMV,后者的計(jì)算與內(nèi)存比率要低得多。
為了解決這一挑戰(zhàn),研究人員采用MLA,它使用投影矩陣將所有注意力頭的KV表示壓縮成一個(gè)更小的潛在向量,讓該矩陣與模型聯(lián)合訓(xùn)練。在推理過程中,只需要緩存潛在向量,與存儲所有注意力頭的KV緩存相比減少了內(nèi)存消耗。
2、成本效益:MoE可降低訓(xùn)練成本,便于本地部署
DeepSeek開發(fā)了DeepSeekMoE,MoE模型的優(yōu)勢有兩個(gè)方面:
首先可以減少訓(xùn)練的計(jì)算要求,降低訓(xùn)練成本。MoE模型允許參數(shù)總數(shù)急劇增加,同時(shí)保持計(jì)算要求適中。例如,DeepSeek-V2具有236B參數(shù),但每個(gè)token只激活了21B參數(shù)。DeepSeek-V3擴(kuò)展到671B參數(shù),同時(shí)能將每個(gè)token的激活量保持在僅37B。相比之下,Qwen2.5-72B和LLaMa3.1-405B等稠密模型要求所有參數(shù)在訓(xùn)練期間都處于活動狀態(tài)。
其次,是個(gè)人使用和本地部署優(yōu)勢。在個(gè)性化Agent蓬勃發(fā)展的未來,MoE模型在單請求場景中提供了獨(dú)特的優(yōu)勢。由于每個(gè)請求只激活了一個(gè)參數(shù)子集,因此內(nèi)存和計(jì)算需求大大減少。例如,DeepSeek-V2(236B參數(shù))在理過程中僅激活21B參數(shù)。這使得配備AI芯片的PC能夠?qū)崿F(xiàn)每秒近20個(gè)token(TPS),甚至達(dá)到該速度的兩倍。相比之下,具有相似能力的稠密模型在類似硬件上通常只能達(dá)到個(gè)位數(shù)的TPS。
同時(shí),大語言模型推理優(yōu)化框架KTransformers允許完整版DeepSeek-V3模型在配備消費(fèi)類GPU的低成本服務(wù)器上運(yùn)行,成本約為10000美元,實(shí)現(xiàn)近20 TPS。這種效率使MoE架構(gòu)適用于硬件資源有限的本地部署和個(gè)人用戶。
二、重疊計(jì)算和通信、高帶寬縱向擴(kuò)展網(wǎng)絡(luò),提高推理速度
第三個(gè)挑戰(zhàn)是推理速度,DeepSeek通過重疊計(jì)算和通信、引入高帶寬縱向擴(kuò)展網(wǎng)絡(luò)、多token預(yù)測框架等來提高模型的推理速度。
1、重疊計(jì)算和通信:最大化吞吐量
推理速度包括系統(tǒng)范圍的最大吞吐量和單個(gè)請求延遲,為了最大限度地提高吞吐量,DeepSeek-V3從一開始就被構(gòu)建為利用雙微批處理重疊,將通信延遲與計(jì)算重疊。
DeepSeek將MLA和MoE的計(jì)算解耦為兩個(gè)不同階段。當(dāng)一個(gè)微批處理執(zhí)行MLA或MoE計(jì)算的一部分時(shí),另一個(gè)微批處理同時(shí)執(zhí)行相應(yīng)的調(diào)度通信。相反,在第二個(gè)微批處理的計(jì)算階段,第一個(gè)微批處理經(jīng)歷組合通信步驟。
這種流水線化方法實(shí)現(xiàn)了全對全通信與正在進(jìn)行的計(jì)算的無縫重疊,確保始終能充分利用GPU資源。
此外,在生產(chǎn)中,他們采用預(yù)填充-解碼分離(prefill-decode disaggregation)架構(gòu),將大批量預(yù)填充和延遲敏感的解碼請求分配給不同的專家并行組。
▲訓(xùn)練MoE和稠密模型的計(jì)算成本比較:假設(shè)序列長度為4096,測量每個(gè)token的計(jì)算成本
2、推理速度限制:高帶寬縱向擴(kuò)展網(wǎng)絡(luò)潛力
MoE模型實(shí)現(xiàn)高推理速度取決于跨計(jì)算設(shè)備高效部署專家參數(shù)。為了實(shí)現(xiàn)盡可能快的推理速度,理想情況下,每個(gè)設(shè)備都應(yīng)該為單個(gè)專家執(zhí)行計(jì)算或者多個(gè)設(shè)備應(yīng)在必要時(shí)協(xié)作計(jì)算單個(gè)專家。
但專家并行(EP)需要將token路由到適當(dāng)?shù)脑O(shè)備,這涉及跨網(wǎng)絡(luò)的多對多通信。因此,MoE推理速度的上限由互連帶寬決定。
考慮這樣一個(gè)系統(tǒng):每個(gè)設(shè)備都保存一個(gè)專家的參數(shù),一次處理大約32個(gè)token。此token計(jì)數(shù)在計(jì)算內(nèi)存比率和通信延遲之間取得平衡,此token計(jì)數(shù)可確保每個(gè)設(shè)備在專家并行期間處理相等的批量大小,從而計(jì)算通信時(shí)間。
如果使用像GB200 NVL72(72個(gè)GPU上的900GB/s單向帶寬)這樣的高帶寬互連,每個(gè)EP步驟的通信時(shí)間=(1字節(jié)+2字節(jié))×32×9×7K/900GB/s=6.72μs
假設(shè)計(jì)算時(shí)間等于通信時(shí)間,這將顯著減少總推理時(shí)間,從而實(shí)現(xiàn)超過0.82毫秒TPOT的理論上限,大約每秒1200個(gè)token。
雖然這個(gè)數(shù)字是理論上得出,尚未經(jīng)過實(shí)證驗(yàn)證,但它說明了高帶寬縱向擴(kuò)展網(wǎng)絡(luò)在加速大規(guī)模模型推理方面的潛力。
3、多token預(yù)測(Multi-Token Prediction)
DeepSeek-V3引入了多token預(yù)測(MTP)框架,該框架同時(shí)增強(qiáng)了模型性能并提高了推理速度。
推理過程中,傳統(tǒng)的自回歸模型在解碼步驟中生成一個(gè)token,這會導(dǎo)致序列瓶頸問題。MTP通過使模型能夠以較低成本生成額外的候選token并對其進(jìn)行并行驗(yàn)證,從而緩解了這一問題,這與之前基于自起草的推測性解碼方法類似。該框架在不影響準(zhǔn)確性的前提下加快了推理速度。
此外,通過預(yù)測每步多個(gè)token,MTP增加了推理批量大小,這對于提高EP計(jì)算強(qiáng)度和硬件利用率至關(guān)重要。
4、推理模型的高推理速度與測試時(shí)擴(kuò)展的研究
以O(shè)penAI的o1/o3系列為例,大模型中的測試時(shí)縮放通過在推理過程中動態(tài)調(diào)整計(jì)算資源,在數(shù)學(xué)推理、編程和一般推理方面實(shí)現(xiàn)性能提升。后續(xù)DeepSeek-R1、Gemini 2.5 Pro、Qwen3都采用了類似的策略。
對于這些推理模型,高token輸出速度至關(guān)重要。在強(qiáng)化學(xué)習(xí)(RL)工作流程中,快速生成大量樣本的必要性使推理吞吐量成為一個(gè)關(guān)鍵的瓶頸。同樣,延長的推理序列會增加用戶的等待時(shí)間,從而降低此類模型的實(shí)際可用性。
因此,通過協(xié)同硬件和軟件創(chuàng)新來優(yōu)化推理速度對于提高推理模型的效率必不可少。
三、DeepSeek-V3實(shí)踐:軟硬件協(xié)同突破效率極限
基于上述核心設(shè)計(jì)原則,DeepSeek詳細(xì)描述了低精度訓(xùn)練、互連優(yōu)化、網(wǎng)絡(luò)拓?fù)涞染唧w技術(shù)的實(shí)現(xiàn)細(xì)節(jié)。
在低精度技術(shù)突破方面,DeepSee通過采用FP8混合精度訓(xùn)練,將模型內(nèi)存占用直接減少50%,有效緩解“內(nèi)存墻”難題。DeepSeek還提出LogFMT對數(shù)空間量化方案,能在相同比特下實(shí)現(xiàn)更高精度。
在互連優(yōu)化方面,DeepSeek提出了硬件感知并行策略。團(tuán)隊(duì)摒棄傳統(tǒng)張量并行(TP),轉(zhuǎn)而采用流水線并行(PP)和專家并行(EP),配合自主研發(fā)的DeepEP庫,實(shí)現(xiàn)通信效率的飛躍。
在網(wǎng)絡(luò)拓?fù)浞矫?/strong>,DeepSeek推出的兩層多層胖樹(MPFT)網(wǎng)絡(luò)拓?fù)?/strong>,通過8個(gè)獨(dú)立平面實(shí)現(xiàn)故障隔離與負(fù)載均衡,成本相比傳統(tǒng)三層拓?fù)浣档?0%以上,且在全到全通信性能上與單層多軌網(wǎng)絡(luò)旗鼓相當(dāng),為集群擴(kuò)展提供了堅(jiān)實(shí)保障。
▲八平面兩層胖樹可擴(kuò)展網(wǎng)絡(luò)
四、六大關(guān)鍵,打造下一代AI基礎(chǔ)設(shè)施
針對當(dāng)前硬件痛點(diǎn),DeepSeek提出下一代AI基礎(chǔ)設(shè)施的核心升級路徑。
跳出DeepSeek-V3的具體實(shí)現(xiàn),DeepSeek從硬件架構(gòu)演進(jìn)的角度提出六大未來挑戰(zhàn)與解決方案,涵蓋內(nèi)存、互連、網(wǎng)絡(luò)、計(jì)算等核心領(lǐng)域。
1、魯棒性優(yōu)先:構(gòu)建不易崩潰的訓(xùn)練系統(tǒng)
現(xiàn)有硬件對GPU故障、內(nèi)存靜默錯誤等缺乏有效檢測,大規(guī)模訓(xùn)練中斷風(fēng)險(xiǎn)高。
對此,DeepSeek提出硬件必須引入傳統(tǒng)ECC之外的高級錯誤檢測機(jī)制。基于校驗(yàn)和的驗(yàn)證或硬件加速冗余檢查等技術(shù),為大規(guī)模部署提供更高可靠性。
此外,硬件供應(yīng)商應(yīng)向終端用戶提供全面的診斷工具包,使其能夠嚴(yán)格驗(yàn)證系統(tǒng)完整性并主動識別潛在的靜默數(shù)據(jù)損壞。
2、顛覆互連架構(gòu):CPU-GPU直連消除節(jié)點(diǎn)瓶頸
CPU在協(xié)調(diào)計(jì)算、管理I/O和維持系統(tǒng)吞吐量方面仍不可或缺,當(dāng)前架構(gòu)面臨若干關(guān)鍵瓶頸。
CPU與GPU之間的PCIe接口在大規(guī)模參數(shù)、梯度或KV緩存?zhèn)鬏斊陂g常成為帶寬瓶頸。為緩解這一問題,未來系統(tǒng)應(yīng)采用直接的CPU-GPU互連(如NVLink或Infinity Fabric),或?qū)PU和GPU集成到擴(kuò)展域中,從而消除節(jié)點(diǎn)內(nèi)瓶頸。
除PCIe限制外,維持如此高的數(shù)據(jù)傳輸速率還需要極高的內(nèi)存帶寬。最后,內(nèi)核啟動和網(wǎng)絡(luò)處理等延遲敏感任務(wù)需要高單核CPU性能,通常需要基頻超過4GHz。此外,現(xiàn)代AI工作負(fù)載需要每個(gè)GPU配備足夠的 CPU核心,以避免控制端瓶頸。對于基于小芯片的架構(gòu),需要額外核心支持緩存感知的工作負(fù)載分區(qū)和隔離。
3、智能網(wǎng)絡(luò)升級:動態(tài)路由實(shí)現(xiàn)低延遲
為滿足延遲敏感型工作負(fù)載的需求,未來互連必須同時(shí)優(yōu)先考慮低延遲和智能網(wǎng)絡(luò)。
共封裝光學(xué):集成硅光子學(xué)可實(shí)現(xiàn)更高帶寬擴(kuò)展性和更強(qiáng)能效,這對大規(guī)模分布式系統(tǒng)至關(guān)重要。
無損網(wǎng)絡(luò):基于信用的流量控制(CBFC)機(jī)制可確保無損數(shù)據(jù)傳輸,但單純觸發(fā)流量控制可能導(dǎo)致嚴(yán)重的隊(duì)頭阻塞。因此,必須部署先進(jìn)的端點(diǎn)驅(qū)動擁塞控制(CC)算法,主動調(diào)節(jié)注入速率并避免異常擁塞場景。
自適應(yīng)路由:如5.2.2節(jié)所述,未來網(wǎng)絡(luò)應(yīng)標(biāo)準(zhǔn)化動態(tài)路由方案(如分組噴射和擁塞感知路徑選擇),持續(xù)監(jiān)控實(shí)時(shí)網(wǎng)絡(luò)狀況并智能重新分配流量。
高效容錯協(xié)議:通過部署自愈協(xié)議、冗余端口和快速故障轉(zhuǎn)移技術(shù),可顯著增強(qiáng)故障魯棒性。
動態(tài)資源管理:為有效處理混合工作負(fù)載,未來硬件應(yīng)支持動態(tài)帶寬分配和流量優(yōu)先級。
4、通信順序“硬件化”:消除軟件額外開銷
使用加載/存儲內(nèi)存語義的節(jié)點(diǎn)間通信高效且便于編程,但當(dāng)前實(shí)現(xiàn)受內(nèi)存順序挑戰(zhàn)的阻礙。
DeepSeek主張硬件支持為內(nèi)存語義通信提供內(nèi)置順序保證。這種一致性應(yīng)在編程層(如通過獲取/釋放語義)和接收方硬件層強(qiáng)制執(zhí)行,實(shí)現(xiàn)有序傳遞而無額外開銷。
5、網(wǎng)絡(luò)計(jì)算融合:硬件加速通信效率
混合專家模型(MoE)的分發(fā)與組合階段存在網(wǎng)絡(luò)優(yōu)化空間。論文建議,在網(wǎng)絡(luò)硬件中集成自動分組復(fù)制、硬件級歸約功能,并支持LogFMT壓縮,降低通信帶寬需求。
6、內(nèi)存架構(gòu)重構(gòu):從“芯片堆疊”到“晶圓集成”
模型規(guī)模的指數(shù)級增長已超過高帶寬內(nèi)存(HBM)技術(shù)的進(jìn)步,這種差距造成內(nèi)存瓶頸。
DeepSeek推薦DRAM堆疊加速器,利用先進(jìn)的3D堆疊技術(shù),DRAM die可垂直集成在邏輯die頂部,從而實(shí)現(xiàn)極高的內(nèi)存帶寬、超低延遲和實(shí)用內(nèi)存容量(盡管受堆疊限制)。
DeepSeek還提到了晶圓級系統(tǒng)(SoW),晶圓級集成可最大限度地提高計(jì)算密度和內(nèi)存帶寬,滿足超大規(guī)模模型的需求。
結(jié)語:模型進(jìn)化,倒逼下一代算力革新
AI產(chǎn)業(yè)正進(jìn)入軟硬件深度協(xié)同時(shí)代。通過將硬件特性融入模型設(shè)計(jì)、反向驅(qū)動硬件升級,DeepSeek 開創(chuàng)了軟硬件良性迭代閉環(huán)。
從硬件到模型,DeepSeek-V3體現(xiàn)了軟硬件協(xié)同設(shè)計(jì)在推進(jìn)大規(guī)模AI系統(tǒng)的可擴(kuò)展性、效率和魯棒性方面的變革潛力。
從模型回到硬件,DeepSeek則跳出DeepSeek-V3具體模型,來定義未來硬件需為大模型優(yōu)化的核心方向,從內(nèi)存、互連、網(wǎng)絡(luò)、計(jì)算等多層面提出了建設(shè)性建議,對產(chǎn)業(yè)生態(tài)具有重要參考意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.