99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-V3再發(fā)論文,梁文鋒署名,低成本訓(xùn)練大模型的秘密揭開

0
分享至



機(jī)器之心報道

機(jī)器之心編輯部

關(guān)于 DeepSeek-V3,你需要了解的一切。

雖然此前 DeepSeek 已經(jīng)發(fā)布了 V3 模型的技術(shù)報告,但剛剛,他們又悄然發(fā)布了另一篇圍繞 DeepSeek-V3 的技術(shù)論文!

這篇 14 頁的論文瞄向了「Scaling 挑戰(zhàn)以及對 AI 架構(gòu)所用硬件的思考」。從中你不僅能讀到 DeepSeek 在開發(fā)和訓(xùn)練 V3 過程中發(fā)現(xiàn)的問題和積累的心得,還能收獲他們?yōu)槲磥淼挠布O(shè)計給出的思考和建議。這一次,DeepSeek CEO 梁文鋒同樣也是署名作者之一。



  • 論文標(biāo)題:Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures
  • 論文地址:https://arxiv.org/pdf/2505.09343

眾所周知,如今大語言模型(LLM)的快速擴(kuò)展暴露了當(dāng)前硬件架構(gòu)的一些關(guān)鍵局限性,包括內(nèi)存容量、計算效率和互連帶寬。以 DeepSeek-V3 為例,它是在 2048 塊 NVIDIA H800 GPU 集群上進(jìn)行訓(xùn)練,展示了硬件感知模型協(xié)同設(shè)計如何高效地應(yīng)對這些限制,并最終實(shí)現(xiàn)了經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練與推理。

因此,這項(xiàng)新研究并非重復(fù) DeepSeek-V3 的詳細(xì)架構(gòu)和算法細(xì)節(jié),而是從硬件架構(gòu)和模型設(shè)計的雙重視角,探討它們之間在實(shí)現(xiàn)經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理過程中復(fù)雜的相互作用。通過探究這種協(xié)同作用,研究者旨在提供切實(shí)可行的見解,以洞悉如何在不犧牲性能或可訪問性的情況下高效擴(kuò)展 LLM。

具體而言,本文的重點(diǎn)包括如下:

  • 硬件驅(qū)動的模型設(shè)計:分析硬件特性(如 FP8 低精度計算和 scale-up/scale-out 擴(kuò)展網(wǎng)絡(luò)屬性)如何影響 DeepSeek-V3 中的架構(gòu)選擇。
  • 硬件與模型之間的相互依賴關(guān)系:研究硬件能力如何影響模型創(chuàng)新,以及 LLM 不斷變化的需求如何推動對下一代硬件的需求。
  • 硬件開發(fā)的未來方向:從 DeepSeek-V3 中獲取可行性見解,以指導(dǎo)未來硬件和模型架構(gòu)的共同設(shè)計,為可擴(kuò)展、經(jīng)濟(jì)高效的人工智能系統(tǒng)鋪平道路。

DeepSeek 模型的設(shè)計原則

如圖 1 所示,DeepSeek-V3 采用了 DeepSeekMoE 架構(gòu)和多頭潛在注意力(MLA)架構(gòu)。其中,DeepSeekMoE 充分釋放了混合專家(MoE)架構(gòu)的潛力,而 MLA 則通過壓縮鍵值(KV)緩存顯著降低了內(nèi)存消耗。

此外,DeepSeek-V3 引入了 FP8 混合精度訓(xùn)練技術(shù),在保證模型質(zhì)量的同時大幅降低了計算成本,使大規(guī)模訓(xùn)練更加可行。

為了提高推理速度,DeepSeek-V3 在其多 Token 預(yù)測模塊 (Multi-Token Prediction Module) 的基礎(chǔ)上集成了推測解碼,從而顯著提高了生成速度。

除了模型架構(gòu)之外,DeepSeek 還探索了經(jīng)濟(jì)高效的 AI 基礎(chǔ)架構(gòu),通過部署多平面雙層胖樹網(wǎng)絡(luò)(Multi-Plane two-layer Fat-Tree)來取代傳統(tǒng)的三層胖樹拓?fù)浣Y(jié)構(gòu),從而降低了集群網(wǎng)絡(luò)成本。



這一系列創(chuàng)新旨在解決擴(kuò)展 LLM 時的三個核心挑戰(zhàn) —— 內(nèi)存效率、成本效益和推理速度。

內(nèi)存效率

LLM 通常需要大量的內(nèi)存資源,其內(nèi)存需求每年增長超過 1000%。相比之下,高速內(nèi)存(例如 HBM)容量的增長速度要慢得多,通常每年不到 50% 。雖然多節(jié)點(diǎn)并行是解決內(nèi)存限制的可行方案,但在源頭優(yōu)化內(nèi)存使用仍然是一個關(guān)鍵且有效的策略。

為了解決這一瓶頸,DeepSeek 采用了多頭潛在注意力 (MLA),它使用投影矩陣將所有注意力頭的鍵值表示壓縮為一個較小的潛在向量,并與模型聯(lián)合訓(xùn)練。在推理過程中,只需緩存潛在向量,與存儲所有注意力頭的鍵值緩存相比,顯著降低了內(nèi)存消耗。

除了 MLA 之外,DeepSeek 還提出了其他幾種方法來減少 KV 緩存的大小。這些方法非常有價值,為內(nèi)存高效注意力機(jī)制的進(jìn)步提供了重要的啟發(fā):

共享 KV(GQA;MQA):多個注意力頭共享一組鍵值對,而不是為每個注意力頭維護(hù)單獨(dú)的鍵值對,從而顯著壓縮了鍵值對的存儲量。代表性方法包括 GQA 和 MQA。

此外,還包括窗口 KV、量化壓縮等。

表 1 比較了 DeepSeek-V3、Qwen-2.5 72B 和 LLaMA-3.1 405B 中每個 token 的 KV 緩存內(nèi)存占用情況。通過采用 MLA,DeepSeek-V3 顯著減少了 KV 緩存大小,每個 token 僅需 70 KB,遠(yuǎn)低于 LLaMA-3.1 405B 的 516 KB 和 Qwen-2.5 72B 的 327 KB。



MoE 模型的成本效益

對于稀疏計算,DeepSeek 開發(fā)了 DeepSeekMoE,這是一種先進(jìn)的混合專家 (MoE) 架構(gòu),如圖 1 右下角所示。MoE 模型的優(yōu)勢在于兩方面。

在訓(xùn)練時,降低計算需求。MoE 架構(gòu)的主要優(yōu)勢在于它能夠顯著降低訓(xùn)練成本。通過選擇性地激活專家參數(shù)的子集,MoE 模型允許總參數(shù)數(shù)量大幅增加,同時保持適度的計算需求。例如,DeepSeek-V2 擁有 236B 參數(shù),但每個 token 僅激活 21B 參數(shù)。同樣,DeepSeek-V3 擴(kuò)展到 671B 參數(shù) —— 幾乎是 V2 的三倍 —— 同時每個 token 的激活量僅為 37B。相比之下,Qwen2.5-72B 和 LLaMa3.1-405B 等密集模型則要求在訓(xùn)練期間所有參數(shù)都處于激活狀態(tài)。

如表 2 所示,DeepSeekV3 的總計算成本約為每 token 250 GFLOPS,而 72B 密集模型需要 394 GFLOPS,405B 密集模型則需要 2448 GFLOPS。這表明,MoE 模型在計算資源消耗量少一個數(shù)量級的情況下,實(shí)現(xiàn)了與密集模型相當(dāng)甚至更優(yōu)的性能。



個人使用和本地部署的優(yōu)勢。未來個性化 LLM 智能體將無處不在,而 MoE 模型在單請求場景中將展現(xiàn)出獨(dú)特的優(yōu)勢。由于每個請求僅激活一小部分參數(shù),內(nèi)存和計算需求將大幅降低。例如,DeepSeek-V2(236B 參數(shù))在推理過程中僅激活 21B 參數(shù)。這使得搭載 AI SoC 芯片的個人電腦能夠達(dá)到近每秒 20 個 Token (TPS),甚至兩倍于此的速度,這對于個人使用來說已經(jīng)綽綽有余。相比之下,類似能力(例如 70B 參數(shù))的密集模型在類似硬件上通常只能達(dá)到個位數(shù)的 TPS。

提高推理速度

計算與通信重疊:最大化吞吐量。推理速度既包括系統(tǒng)級最大吞吐量,也包括單請求延遲。為了最大化吞吐量,模型從一開始就采用雙微批次重疊架構(gòu),有意將通信延遲與計算重疊。

此外,DeepSeek 將 MLA 和 MoE 的計算解耦為兩個不同的階段。當(dāng)一個微批次執(zhí)行部分 MLA 或 MoE 計算時,另一個微批次同時執(zhí)行相應(yīng)的調(diào)度通信。相反,在第二個微批次的計算階段,第一個微批次則進(jìn)行組合通信步驟。這種流水線方法實(shí)現(xiàn)了全對全(all-to-all)通信與持續(xù)計算的無縫重疊,確保 GPU 始終保持完全利用率。此外,在生產(chǎn)環(huán)境中,DeepSeek 采用預(yù)填充和解碼分離架構(gòu),將大批量預(yù)填充和延遲敏感的解碼請求分配給不同規(guī)模的專家并行組。這一策略最終在實(shí)際服務(wù)條件下實(shí)現(xiàn)了系統(tǒng)吞吐量的最大化。

推理速度和測試時間擴(kuò)展。以 OpenAI 的 o1/o3 系列為例,LLM 中的測試時間擴(kuò)展通過在推理過程中動態(tài)調(diào)整計算資源,推動了數(shù)學(xué)推理、編程和通用推理的重大進(jìn)步。后續(xù)模型 —— 包括 DeepSeek-R1、Claude-3.7 Sonnet 、Gemini 2.5 Pro、Seed1.5-Thinking 和 Qwen3—— 也采用了類似的策略,并在這些任務(wù)中取得了顯著的改進(jìn)。

對于這些推理模型來說,較高的 token 輸出速度至關(guān)重要。在強(qiáng)化學(xué)習(xí) (RL) 工作流程中 —— 例如 PPO、DPO 和 GRPO —— 快速生成大量樣本的需求使得推理吞吐量成為關(guān)鍵的瓶頸。同樣,冗長的推理序列會增加用戶等待時間,從而降低此類模型的實(shí)際可用性。因此,通過軟硬件協(xié)同創(chuàng)新來優(yōu)化推理速度對于提高推理模型的效率至關(guān)重要。

低精度驅(qū)動設(shè)計

FP8 混合精度訓(xùn)練

GPTQ 和 AWQ 等量化技術(shù)顯著降低了內(nèi)存需求。然而,這些技術(shù)主要應(yīng)用于推理階段以節(jié)省內(nèi)存,而非訓(xùn)練階段。NVIDIA 的 Transformer Engine 已經(jīng)支持 FP8 混合精度訓(xùn)練,但在 DeepSeek-V3 之前,尚無開源大型模型利用 FP8 進(jìn)行訓(xùn)練。

通過基礎(chǔ)設(shè)施團(tuán)隊(duì)和算法團(tuán)隊(duì)的深入合作,以及大量的實(shí)驗(yàn)和創(chuàng)新,DeepSeek 開發(fā)了一個兼容 FP8 的 MoE 模型訓(xùn)練框架。圖 1 展示了在訓(xùn)練過程中使用 FP8 精度前向和后向處理的計算組件。

LogFMT

在當(dāng)前的 DeepSeek-V3 架構(gòu)中,DeepSeek 采用低精度壓縮進(jìn)行網(wǎng)絡(luò)通信。在 EP 并行過程中,Token 使用細(xì)粒度的 FP8 量化進(jìn)行調(diào)度,與 BF16 相比,通信量減少了 50%。這顯著縮短了通信時間。

除了這些傳統(tǒng)的浮點(diǎn)格式外,DeepSeek 還嘗試了一種新的數(shù)據(jù)類型,稱為 LogFMT-nBit( Logarithmic Floating-Point Formats )。

互連驅(qū)動的設(shè)計

當(dāng)前的硬件架構(gòu)

DeepSeek 目前使用的 NVIDIA H800 GPU SXM 架構(gòu)(如圖 2 所示)基于 Hopper 架構(gòu)構(gòu)建,與 H100 GPU 類似。然而,為了符合法規(guī)要求,它的 FP64 計算性能和 NVLink 帶寬有所降低。具體而言,H800 SXM 節(jié)點(diǎn)中的 NVLink 帶寬從 900 GB/s 降至了 400 GB/s。節(jié)點(diǎn)內(nèi)擴(kuò)展帶寬的顯著降低對高性能工作負(fù)載構(gòu)成了挑戰(zhàn)。為了彌補(bǔ)這一缺陷,每個節(jié)點(diǎn)都配備了八個 400G Infiniband (IB) CX7 網(wǎng)卡,以增強(qiáng)擴(kuò)展能力,從而彌補(bǔ)帶寬不足。



為了解決這些硬件限制,DeepSeek-V3 模型融入了多項(xiàng)與硬件優(yōu)勢和局限性相符的設(shè)計考量。

硬件感知型并行化設(shè)計

為了適應(yīng) H800 架構(gòu)的限制,DeepSeek-V3 考慮了這些并行策略:避免張量并行 (TP)、增強(qiáng) Pipeline 并行 (PP)、加速專家并行 (EP)。對這些策略的具體說明請?jiān)L問原論文。

模型協(xié)同設(shè)計:節(jié)點(diǎn)受限式路由

在 H800 架構(gòu)中,縱向擴(kuò)展(scale-up,節(jié)點(diǎn)內(nèi))和橫向擴(kuò)展(scale-out,節(jié)點(diǎn)間)通信之間的帶寬差異約為 4:1。具體而言,NVLink 可提供 200GB/s 的帶寬(其中實(shí)際可實(shí)現(xiàn)約 160GB/s),而每個 400Gbps IB 網(wǎng)卡僅提供 50GB/s 的帶寬(考慮到較小的消息大小和延遲影響,有效帶寬為 40GB/s)。為了平衡并充分利用更高的節(jié)點(diǎn)內(nèi)帶寬,模型架構(gòu)與硬件進(jìn)行了協(xié)同設(shè)計,尤其是在 TopK 專家選擇策略方面。

假設(shè)一個包含 8 個節(jié)點(diǎn)(共 64 臺 GPU)和 256 個路由專家(每臺 GPU 4 個專家)的設(shè)置。對于 DeepSeek-V3,每個 token 會被路由到 1 個共享專家和 8 個路由專家。如果 8 個目標(biāo)專家分布在所有 8 個節(jié)點(diǎn)上,則通過 IB 的通信時間將為 8,其中 表示通過 IB 發(fā)送一個 token 的時間。但是,通過利用更高的 NVLink 帶寬,路由到同一節(jié)點(diǎn)的 token 可以通過 IB 發(fā)送一次,然后通過 NVLink 轉(zhuǎn)發(fā)到其他節(jié)點(diǎn)內(nèi) GPU。NVLink 轉(zhuǎn)發(fā)功能可以對 IB 流量進(jìn)行去重。當(dāng)給定 token 的目標(biāo)專家分布在 個節(jié)點(diǎn)上時,去重后的 IB 通信成本將降低至 ( < 8)。

由于 IB 流量僅依賴于 ,DeepSeek-V3 為 TopK 專家選擇策略引入了節(jié)點(diǎn)受限路由。具體來說,DeepSeek 將 256 位路由專家分成 8 組,每組 32 位專家,并將每組部署在單個節(jié)點(diǎn)上。在此部署基礎(chǔ)上,DeepSeek 通過算法確保每個 token 最多路由到 4 個節(jié)點(diǎn)。這種方法緩解了 IB 通信瓶頸,并提高了訓(xùn)練期間的有效通信帶寬。

縱向擴(kuò)展和橫向擴(kuò)展收斂

當(dāng)前實(shí)現(xiàn)的局限性。雖然節(jié)點(diǎn)受限的路由策略降低了通信帶寬需求,但由于節(jié)點(diǎn)內(nèi) (NVLink) 和節(jié)點(diǎn)間 (IB) 互連之間的帶寬差異,它使通信流水線內(nèi)核的實(shí)現(xiàn)變得復(fù)雜。

在實(shí)際應(yīng)用中,GPU Streaming Multiprocessors (SM) 線程既用于網(wǎng)絡(luò)消息處理(例如,填充 QP 和 WQE),也用于通過 NVLink 進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā),這會消耗大量的計算資源。例如,在訓(xùn)練期間,H800 GPU 上多達(dá) 20 個 SM 會被分配用于通信相關(guān)操作,導(dǎo)致實(shí)際計算資源減少。為了最大限度地提高在線推理的吞吐量,DeepSeek 完全通過 NIC RDMA 進(jìn)行 EP 的 all-to-all 通信,從而避免了 SM 資源爭用并提高了計算效率。這凸顯了 RDMA 異步通信模型在計算和通信重疊方面的優(yōu)勢。

SM 在 EP 通信過程中執(zhí)行的關(guān)鍵任務(wù)包括轉(zhuǎn)發(fā)數(shù)據(jù)、數(shù)據(jù)傳輸、Reduce 操作、管理內(nèi)存布局、數(shù)據(jù)類型轉(zhuǎn)換,尤其是在組合階段的 Reduce 操作和數(shù)據(jù)類型轉(zhuǎn)換方面。如果將這些任務(wù)卸載到專用通信硬件,可以釋放 SM 以用于計算內(nèi)核,從而顯著提高整體效率。

針對此,DeepSeek 給出了一些建議,其中最核心的是「將節(jié)點(diǎn)內(nèi)(縱向擴(kuò)展)和節(jié)點(diǎn)間(橫向擴(kuò)展)通信集成到一個統(tǒng)一的框架中」。

通過集成專用協(xié)處理器進(jìn)行網(wǎng)絡(luò)流量管理以及 NVLink 和 IB 域之間的無縫轉(zhuǎn)發(fā),此類設(shè)計可以降低軟件復(fù)雜性并最大限度地提高帶寬利用率。例如,DeepSeek-V3 中采用的節(jié)點(diǎn)受限路由策略可以通過硬件支持動態(tài)流量去重進(jìn)一步優(yōu)化。

DeepSeek 還探究了新興的互連協(xié)議,例如 Ultra Ethernet Consortium (UEC)、Ultra Accelerator Link (UALink)。近期,Unified Bus (UB) 引入了一種全新的縱向擴(kuò)展和橫向擴(kuò)展融合方法。

DeepSeek 在這里主要關(guān)注了在編程框架層面實(shí)現(xiàn)縱向擴(kuò)展和橫向擴(kuò)展的融合的方法,具體包括統(tǒng)一網(wǎng)絡(luò)適配器、專用通信協(xié)處理器、靈活的轉(zhuǎn)發(fā)和廣播及 Reduce 機(jī)制、硬件同步原語。詳見原論文。

帶寬爭用和延遲

當(dāng)前硬件還存在另一大局限:缺乏在 NVLink 和 PCIe 上不同類型流量之間動態(tài)分配帶寬的靈活性。

例如,在推理過程中,將鍵值緩存數(shù)據(jù)從 CPU 內(nèi)存?zhèn)鬏數(shù)?GPU 會消耗數(shù)十 GB/s 的帶寬,從而導(dǎo)致 PCIe 帶寬飽和。如果 GPU 同時使用 IB 進(jìn)行 EP 通信,KV 緩存?zhèn)鬏敽?EP 通信之間的爭用可能會降低整體性能并導(dǎo)致延遲峰值。

針對這些問題,DeepSeek 同樣給出了一些建議,包括動態(tài) NVLink/PCIe 流量優(yōu)先級、I/O 芯片芯片集成、縱向擴(kuò)展域內(nèi)的 CPU-GPU 互連。

大規(guī)模網(wǎng)絡(luò)驅(qū)動的設(shè)計

網(wǎng)絡(luò)協(xié)同設(shè)計:多平面胖樹

在 DeepSeek-V3 的訓(xùn)練過程中,DeepSeek 部署了一個多平面胖樹 (MPFT) 橫向擴(kuò)展(scale-out)網(wǎng)絡(luò),如圖 3 所示。



其中,每個節(jié)點(diǎn)配備 8 臺 GPU 和 8 個 IB 網(wǎng)卡,每個 GPU - 網(wǎng)卡對分配到不同的網(wǎng)絡(luò)平面。此外,每個節(jié)點(diǎn)還配備一個 400 Gbps 以太網(wǎng) RoCE 網(wǎng)卡,連接到單獨(dú)的存儲網(wǎng)絡(luò)平面,用于訪問 3FS 分布式文件系統(tǒng)。在橫向擴(kuò)展網(wǎng)絡(luò)中,他們使用了 64 端口 400G IB 交換機(jī),使該拓?fù)淅碚撋献疃嗫芍С?16,384 臺 GPU,同時保留了雙層網(wǎng)絡(luò)的成本和延遲優(yōu)勢。然而,由于政策和監(jiān)管限制,最終部署的 GPU 數(shù)量僅為兩千余臺。

此外,由于 IB ConnectX-7 目前的局限性,DeepSeek 部署的 MPFT 網(wǎng)絡(luò)未能完全實(shí)現(xiàn)預(yù)期的架構(gòu)。理想情況下,如圖 4 所示,每個網(wǎng)卡 (NIC) 應(yīng)具有多個物理端口,每個端口連接到單獨(dú)的網(wǎng)絡(luò)平面,但通過端口綁定,共同作為單個邏輯接口向用戶公開。



從用戶的角度來看,單個隊(duì)列對 (QP) 可以在所有可用端口之間無縫地發(fā)送和接收消息,類似于數(shù)據(jù)包噴射。因此,來自同一 QP 的數(shù)據(jù)包可能會穿越不同的網(wǎng)絡(luò)路徑,并以無序方式到達(dá)接收方,因此需要在網(wǎng)卡內(nèi)原生支持無序布局,以保證消息一致性并保留正確的排序語義。例如,InfiniBand ConnectX-8 原生支持四平面。未來的網(wǎng)卡能夠完全支持高級多平面功能,從而使雙層胖樹網(wǎng)絡(luò)能夠有效地擴(kuò)展到更大的 AI 集群,這將大有裨益。總體而言,多平面架構(gòu)在故障隔離、穩(wěn)健性、負(fù)載均衡和大規(guī)模系統(tǒng)可擴(kuò)展性方面具有顯著優(yōu)勢。

DeepSeek 還介紹了多平面胖樹的幾大優(yōu)勢,包括 MPFT 由多軌胖樹 (MRFT) 的子集構(gòu)成(因此可以無縫整合英偉達(dá)和 NCCL 為 MRFT 網(wǎng)絡(luò)開發(fā)的現(xiàn)有優(yōu)化技術(shù))、成本效益、流量隔離、延遲降低、穩(wěn)健性等,詳見原論文。

DeepSeek 還對 MPFT 和 MRFT 進(jìn)行了對比性的性能分析,結(jié)果見圖 5 和 6 以及表 4。







基于此,他們得到了一些關(guān)鍵發(fā)現(xiàn),包括多平面網(wǎng)絡(luò)的 all-to-all 性能與單平面多軌網(wǎng)絡(luò)非常相似;在 2048 塊 GPU 上訓(xùn)練 V3 模型時,MPFT 的性能與 MRFT 的性能幾乎相同。

低延遲網(wǎng)絡(luò)

在 DeepSeek 的模型推理中,大規(guī)模 EP 嚴(yán)重依賴于 all-to-all 通信,而這種通信對帶寬和延遲都非常敏感。舉一個典型場景的例子,在 50GB/s 的網(wǎng)絡(luò)帶寬下,理想情況下數(shù)據(jù)傳輸大約需要 120 s。因此,微秒級的固有網(wǎng)絡(luò)延遲會對系統(tǒng)性能產(chǎn)生嚴(yán)重影響,其影響不容忽視。

那么,DeepSeek 是怎么做的呢?

首先分析一下 IB 或 RoCE。如表 5 所示,IB 始終能保持較低的延遲,這使得使其成為了分布式訓(xùn)練和推理等延遲敏感型工作負(fù)載的首選。盡管 IB 的延遲性能優(yōu)于基于融合以太網(wǎng)的 RDMA (RoCE),但它也存在一些局限性,包括成本和擴(kuò)展性方面的問題。



雖然 RoCE 有可能成為 IB 的經(jīng)濟(jì)高效的替代方案,但其目前在延遲和可擴(kuò)展性方面的限制使其無法完全滿足大規(guī)模 AI 系統(tǒng)的需求。DeepSeek 也給出了一些改進(jìn) RoCE 的具體建議,包括使用專用低延遲 RoCE 交換機(jī)、優(yōu)化路由策略、改進(jìn)流量隔離或擁塞控制機(jī)制。

為降低網(wǎng)絡(luò)通信延遲,DeepSeek 使用了 InfiniBand GPUDirect Async (IBGDA)。

傳統(tǒng)上,網(wǎng)絡(luò)通信涉及創(chuàng)建 CPU 代理(proxy)線程:GPU 準(zhǔn)備好數(shù)據(jù)后,必須通知 CPU 代理,然后 CPU 代理填充工作請求 (WR) 的控制信息,并通過門鈴機(jī)制向 NIC) 發(fā)出信號,以啟動數(shù)據(jù)傳輸。此過程會帶來額外的通信開銷。

IBGDA 是如何解決此問題的?實(shí)際上,它的做法是允許 GPU 直接填充 WR 內(nèi)容并寫入 RDMA 門鈴 MMIO 地址。

通過在 GPU 內(nèi)部管理整個控制平面,IBGDA 消除了與 GPU-CPU 通信相關(guān)的顯著延遲開銷。此外,在發(fā)送大量小數(shù)據(jù)包時,控制平面處理器很容易成為瓶頸。由于 GPU 具有多個并行線程,發(fā)送方可以利用這些線程來分配工作負(fù)載,從而避免此類瓶頸。包括 DeepSeek 的 DeepEP 在內(nèi)的一系列工作都利用了 IBGDA,并報告使用它取得了顯著的性能提升 。因此,DeepSeek 提倡在各種加速器設(shè)備上廣泛支持此類功能。

未來硬件架構(gòu)設(shè)計的討論與見解

前面在具體的應(yīng)用場景(application contexts)中指出了硬件局限性,并提供了相應(yīng)的建議。在此基礎(chǔ)上,接下來將討論擴(kuò)展到更廣泛的考量,并為未來的硬件架構(gòu)設(shè)計提出前瞻性方向:

  • 魯棒性挑戰(zhàn): 如何通過更先進(jìn)的錯誤檢測與糾正機(jī)制,應(yīng)對硬件故障和靜默數(shù)據(jù)損壞,構(gòu)建永不停歇的 AI 基礎(chǔ)設(shè)施。
  • CPU 瓶頸與互聯(lián)限制: 如何優(yōu)化 CPU 與加速器之間的協(xié)同,特別是突破 PCIe 等傳統(tǒng)接口的限制,實(shí)現(xiàn)高速、無瓶頸的節(jié)點(diǎn)內(nèi)部通信。
  • 面向 AI 的智能網(wǎng)絡(luò): 如何打造具備低延遲和智能感知能力的網(wǎng)絡(luò),通過光互聯(lián)、無損機(jī)制、自適應(yīng)路由等技術(shù),應(yīng)對復(fù)雜的通信需求。
  • 內(nèi)存語義通信與排序: 如何解決當(dāng)前內(nèi)存語義通信中的數(shù)據(jù)一致性與排序挑戰(zhàn),探索硬件層面的內(nèi)建保證,提升通信效率。
  • 網(wǎng)絡(luò)中計算與壓縮: 如何將計算和壓縮能力下沉到網(wǎng)絡(luò)中,特別是針對 EP 等特定負(fù)載,釋放網(wǎng)絡(luò)帶寬潛力。
  • 以內(nèi)存為中心的架構(gòu)創(chuàng)新: 如何應(yīng)對模型規(guī)模指數(shù)級增長帶來的內(nèi)存帶寬危機(jī),探索 DRAM 堆疊、晶圓級集成等前沿技術(shù)。

魯棒性挑戰(zhàn)(Robustness Challenges)

現(xiàn)有限制

  • 互連故障(Interconnect Failures): 高性能互聯(lián)(如 IB 和 NVLink)易在實(shí)際部署中出現(xiàn)間歇性連接中斷,影響節(jié)點(diǎn)間通信。尤其在通信密集型負(fù)載(例如 EP)中,即使短暫中斷亦可導(dǎo)致顯著性能下降,甚至任務(wù)失敗。
  • 單點(diǎn)硬件故障(Single Hardware Failures): 節(jié)點(diǎn)宕機(jī)、GPU 故障或 ECC(錯誤更正碼)內(nèi)存出錯等單點(diǎn)硬件故障,可能影響長時間運(yùn)行的訓(xùn)練任務(wù),常需高昂重啟。大規(guī)模部署中,這類單點(diǎn)故障概率隨系統(tǒng)規(guī)模擴(kuò)大顯著上升。
  • 靜默數(shù)據(jù)損壞(Silent Data Corruption): 例如多位內(nèi)存翻轉(zhuǎn)或計算精度誤差等繞過 ECC 檢測機(jī)制的錯誤,可能導(dǎo)致模型質(zhì)量受損。這類錯誤尤為隱蔽,易在長時間運(yùn)行任務(wù)中累積傳播并污染下游計算(downstream computations)。目前多數(shù)應(yīng)用層啟發(fā)式緩解策略(mitigation strategies)難以實(shí)現(xiàn)系統(tǒng)級全面魯棒保障。

面向高級錯誤檢測與糾正的建議

為緩解靜默損壞風(fēng)險,硬件應(yīng)集成超越傳統(tǒng) ECC 的高級錯誤檢測機(jī)制,如基于校驗(yàn)和驗(yàn)證、硬件加速冗余校驗(yàn),以提升大規(guī)模部署可靠性。

此外,廠商應(yīng)提供全面診斷工具包,使用戶能精確驗(yàn)證系統(tǒng)完整性,主動預(yù)警潛在靜默損壞。將工具包作為標(biāo)準(zhǔn)硬件配置部署,可促進(jìn)全生命周期持續(xù)驗(yàn)證和透明度,增強(qiáng)系統(tǒng)整體可信度。

CPU 瓶頸與互聯(lián)網(wǎng)絡(luò)限制

盡管加速器(accelerator)設(shè)計常為系統(tǒng)優(yōu)化核心,但 CPU 在協(xié)調(diào)計算任務(wù)、管理 I/O 和維持整體系統(tǒng)吞吐方面仍扮演關(guān)鍵角色。然而,當(dāng)前硬件架構(gòu)存在若干關(guān)鍵瓶頸:

首先,如前所述,CPU 與 GPU 間的 PCIe 接口在大規(guī)模參數(shù)、梯度或 KV 緩存(KV cache)傳輸中常成帶寬瓶頸。為緩解此問題,未來系統(tǒng)應(yīng)引入 CPU–GPU 直連互聯(lián)方案(例如 NVLink 或 Infinity Fabric),或?qū)?CPU 與 GPU 集成于 scale-up domain,消除節(jié)點(diǎn)內(nèi)部數(shù)據(jù)傳輸瓶頸。

除 PCIe 限制外,維持如此高數(shù)據(jù)傳輸速率需極高內(nèi)存帶寬。例如,要充分利用 160 通道 PCIe 5.0 接口,每節(jié)點(diǎn)需超過 640 GB/s 數(shù)據(jù)傳輸能力,這意味約 1 TB/s 每節(jié)點(diǎn)內(nèi)存帶寬,對傳統(tǒng) DRAM 架構(gòu)是一大挑戰(zhàn)。

最后,對延遲敏感任務(wù)(諸如 kernel launch、網(wǎng)絡(luò)處理)需高單核 CPU 性能,通?;A(chǔ)主頻需達(dá) 4 GHz 以上。此外,現(xiàn)代 AI 工作負(fù)載要求每 GPU 配備足夠 CPU 核心,避免控制側(cè)瓶頸。對于基于芯粒(chiplet)的架構(gòu),還需額外 CPU 核心支持實(shí)現(xiàn)面向緩存的負(fù)載劃分與隔離策略(cache-aware workload partitioning and isolation)。

面向 AI 的智能網(wǎng)絡(luò)架構(gòu)

為了應(yīng)對延遲敏感型工作負(fù)載的需求,未來的互聯(lián)網(wǎng)絡(luò)需同時具備「低延遲」與「智能感知」的能力,具體可從以下幾個方向探索:

封裝內(nèi)光互聯(lián)(Co-Packaged Optics):通過集成硅光子(silicon photonics)技術(shù),能夠?qū)崿F(xiàn)可擴(kuò)展的高帶寬互聯(lián),并顯著提升能效,這對于構(gòu)建大規(guī)模分布式 AI 系統(tǒng)至關(guān)重要。

無損網(wǎng)絡(luò)(Lossless Network):基于信用的流控機(jī)制(Credit-Based Flow Control, CBFC)可實(shí)現(xiàn)無損數(shù)據(jù)傳輸,但若采用基礎(chǔ)策略觸發(fā)流控,可能引發(fā)嚴(yán)重的隊(duì)首阻塞(head-of-line blocking)。因此,必須部署更先進(jìn)的端側(cè)驅(qū)動擁塞控制算法(congestion control, CC),以主動調(diào)節(jié)注入速率,避免網(wǎng)絡(luò)擁塞惡化為系統(tǒng)性瓶頸。

自適應(yīng)路由(Adaptive Routing):如前所述,未來網(wǎng)絡(luò)應(yīng)標(biāo)準(zhǔn)化采用動態(tài)路由機(jī)制,如數(shù)據(jù)包噴灑(packet spraying)與擁塞感知路徑選擇策略(congestion-aware path selection)。這些策略可持續(xù)感知當(dāng)前網(wǎng)絡(luò)狀態(tài)并智能調(diào)度通信流,有效緩解網(wǎng)絡(luò)熱點(diǎn),特別是在 all-to-all 與 reduce-scatter 等集合通信操作中,對緩解通信瓶頸效果顯著。

高效的容錯協(xié)議(Efficient Fault-Tolerant Protocols):通過自愈協(xié)議、自適應(yīng)端口冗余和快速故障轉(zhuǎn)移機(jī)制,可顯著提升系統(tǒng)在故障情境下的魯棒性。例如,鏈路級重試機(jī)制(link-layer retry)和選擇性重傳協(xié)議(selective retransmission protocols)是提升大規(guī)模網(wǎng)絡(luò)可靠性、減少停機(jī)時間的關(guān)鍵組件,能夠在面對間歇性故障時確保系統(tǒng)無縫運(yùn)行。

動態(tài)資源管理(Dynamic Resource Management):為更高效地處理混合型工作負(fù)載,未來硬件需支持動態(tài)帶寬調(diào)度與流量優(yōu)先級控制。例如,統(tǒng)一的多任務(wù)集群中應(yīng)將推理任務(wù)與訓(xùn)練通信隔離調(diào)度,以確保延遲敏感型應(yīng)用的響應(yīng)能力。

內(nèi)存語義通信與內(nèi)存排序問題的探討

基于加載 / 存儲語義(load/store memory semantics)進(jìn)行節(jié)點(diǎn)間通信,具有高效且對程序員友好的優(yōu)勢。

但當(dāng)前實(shí)現(xiàn)方案普遍受限于內(nèi)存排序一致性問題。例如,發(fā)送端通常需要在寫入數(shù)據(jù)后,執(zhí)行顯式的內(nèi)存屏障操作(memory fence),再更新標(biāo)志位以通知接收端,從而確保數(shù)據(jù)一致性。

這種強(qiáng)排序要求引入了額外的往返延遲(round-trip time, RTT),可能阻塞發(fā)出線程,影響寫操作重疊能力,最終降低吞吐率。

類似的亂序同步問題,在基于消息語義的遠(yuǎn)程直接內(nèi)存訪問(Remote Direct Memory Access, RDMA)中同樣存在。例如,在 InfiniBand 或 NVIDIA BlueField-3 上,若在常規(guī) RDMA 寫操作之后再執(zhí)行采用數(shù)據(jù)包噴灑(packet spraying)的 RDMA 原子加(atomic add)操作,也會引入額外的 RTT 開銷。

為應(yīng)對上述挑戰(zhàn),DeepSeek 團(tuán)隊(duì)主張從硬件層面引入內(nèi)建排序保證,以強(qiáng)化內(nèi)存語義通信中的數(shù)據(jù)一致性。這種一致性應(yīng)同時在編程接口層(如 acquire/release 語義)和接收端硬件層實(shí)施,從而實(shí)現(xiàn)無需額外開銷的有序數(shù)據(jù)交付。

可行路徑包括:在接收端緩存原子消息,并通過數(shù)據(jù)包序號實(shí)現(xiàn)順序處理;但相比之下,基于 acquire/release 的機(jī)制更加優(yōu)雅且具效率優(yōu)勢。

DeepSeek 團(tuán)隊(duì)提出一種簡單的概念機(jī)制 —— 區(qū)域獲取 / 釋放機(jī)制(Region Acquire/Release Mechanism, RAR):在該方案中,接收端硬件維護(hù)一個用于跟蹤內(nèi)存區(qū)域狀態(tài)的位圖,獲取與釋放操作基于 RAR 地址范圍生效。

該機(jī)制延伸了最小位圖開銷下的高效排序保障,由硬件強(qiáng)制執(zhí)行排序邏輯,完全擺脫發(fā)送端對顯式屏障指令的依賴,理想情況下實(shí)現(xiàn)于網(wǎng)絡(luò)接口卡(NIC)或 I/O 芯片上。

值得強(qiáng)調(diào)的是,RAR 機(jī)制不僅適用于基于內(nèi)存語義的通信場景,也可覆蓋基于消息語義的 RDMA 操作,具有廣泛的實(shí)際適用性。

網(wǎng)絡(luò)中計算與壓縮機(jī)制

EP(Expert Parallelism)任務(wù)涉及兩個關(guān)鍵的全對全通信階段:分發(fā)(dispatch)與合并(combine),它們構(gòu)成網(wǎng)絡(luò)級優(yōu)化的重要著力點(diǎn)。

分發(fā)階段類似于小規(guī)模的多播(multicast)操作,需要將一條消息轉(zhuǎn)發(fā)至多個目標(biāo)設(shè)備。若在硬件協(xié)議層支持自動包復(fù)制與多目標(biāo)轉(zhuǎn)發(fā),將大幅減少通信開銷,提升總體效率。

合并階段則近似于小規(guī)模規(guī)約(reduction)操作,可通過網(wǎng)絡(luò)中的聚合機(jī)制實(shí)現(xiàn)場內(nèi)計算(in-network aggregation)。然而,由于 EP 合并操作通常規(guī)約范圍有限、負(fù)載不均,實(shí)現(xiàn)靈活、高效的網(wǎng)絡(luò)內(nèi)規(guī)約尚具挑戰(zhàn)性。

此外,如前所指出,LogFMT 可在基本不影響模型性能的前提下實(shí)現(xiàn)低精度 token 傳輸。若將 LogFMT 原生集成進(jìn)網(wǎng)絡(luò)硬件,可通過提升信息熵密度(entropy density)降低帶寬消耗,進(jìn)一步優(yōu)化通信性能。依托硬件加速的壓縮 / 解壓模塊,LogFMT 可無縫融入分布式系統(tǒng),從而顯著提升整體吞吐能力。

以內(nèi)存為中心的架構(gòu)創(chuàng)新

內(nèi)存帶寬的限制

近年來模型規(guī)模呈指數(shù)級增長,遠(yuǎn)超高帶寬存儲器(High-Bandwidth Memory, HBM)技術(shù)的發(fā)展速度。這種增長差距使得「內(nèi)存瓶頸」問題愈發(fā)突出,尤其在像 Transformer 這類注意力機(jī)制密集的模型結(jié)構(gòu)中尤為嚴(yán)重。

架構(gòu)性建議

DRAM 堆疊加速器(DRAM-Stacked Accelerators):通過 3D 封裝技術(shù),可將 DRAM 芯片垂直集成于邏輯底片之上,從而獲得極高的內(nèi)存帶寬、超低訪問延遲以及現(xiàn)實(shí)可用的內(nèi)存容量(受堆疊層數(shù)限制)。該架構(gòu)模型在追求極速推理的專家混合模型(Mixture-of-Experts, MoE)中尤顯優(yōu)勢,因其對內(nèi)存吞吐極度敏感。如 SeDRAM 等架構(gòu)即展示了此方法在內(nèi)存受限工作負(fù)載中的顛覆式性能潛力。

晶圓級集成系統(tǒng)(System-on-Wafer, SoW):晶圓級集成(wafer-scale integration)可最大化計算密度與內(nèi)存帶寬,是應(yīng)對超大規(guī)模模型所需帶寬密度的可行途徑。

了解更多內(nèi)容,請參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
熱點(diǎn)城市聚焦:上海反向換房又開始流行了!

熱點(diǎn)城市聚焦:上海反向換房又開始流行了!

童童聊娛樂啊
2025-05-16 14:57:56
恭喜字母哥!轉(zhuǎn)投西部第二!絕妙四換一曝光,聯(lián)盟爭冠變天

恭喜字母哥!轉(zhuǎn)投西部第二!絕妙四換一曝光,聯(lián)盟爭冠變天

老余聊球420
2025-05-16 13:41:20
G7×7!約基奇迎來生涯第七次搶七 前六次場均24+15+7 戰(zhàn)績4勝2負(fù)

G7×7!約基奇迎來生涯第七次搶七 前六次場均24+15+7 戰(zhàn)績4勝2負(fù)

直播吧
2025-05-16 11:28:02
32歲女子撿到浣熊養(yǎng)6年,醫(yī)生檢查后直打顫:你搞錯了,這不是浣熊

32歲女子撿到浣熊養(yǎng)6年,醫(yī)生檢查后直打顫:你搞錯了,這不是浣熊

蕭竹輕語
2025-05-16 14:34:38
老人銀行取款死亡事件已和解,家屬:壓力很大,銀行給了賠償

老人銀行取款死亡事件已和解,家屬:壓力很大,銀行給了賠償

Mr王的飯后茶
2025-05-16 11:08:28
遭羈押645天被判無罪,巴薩前主席羅塞爾獲23.25萬歐國家賠償

遭羈押645天被判無罪,巴薩前主席羅塞爾獲23.25萬歐國家賠償

懂球帝
2025-05-17 02:23:31
亞洲驕傲!李月汝成為新賽季W(wǎng)NBA賽場唯一的亞洲球員

亞洲驕傲!李月汝成為新賽季W(wǎng)NBA賽場唯一的亞洲球員

雷速體育
2025-05-16 15:43:15
供不應(yīng)求!“黑金”碳纖維又大漲價,這些公司提前“上車”

供不應(yīng)求!“黑金”碳纖維又大漲價,這些公司提前“上車”

金色光
2025-05-16 16:59:35
歐洲領(lǐng)導(dǎo)人在伊斯坦布爾與烏克蘭談判后譴責(zé)俄羅斯

歐洲領(lǐng)導(dǎo)人在伊斯坦布爾與烏克蘭談判后譴責(zé)俄羅斯

仗劍看世界
2025-05-17 03:22:17
婚禮即將舉行 馬筱梅與汪小菲用餐結(jié)束獨(dú)自離開

婚禮即將舉行 馬筱梅與汪小菲用餐結(jié)束獨(dú)自離開

陳意小可愛
2025-05-17 01:08:23
懷森加盟在即!皇馬連簽三“強(qiáng)援”,阿隆索親自出馬,劍指世俱杯

懷森加盟在即!皇馬連簽三“強(qiáng)援”,阿隆索親自出馬,劍指世俱杯

奧拜爾
2025-05-16 23:41:57
都說你36歲該退役了,如今卻打成聯(lián)盟第一,還要沖擊總冠軍

都說你36歲該退役了,如今卻打成聯(lián)盟第一,還要沖擊總冠軍

大西體育
2025-05-16 19:45:32
十年寒窗苦讀不如“名門之女”?從協(xié)和4+4的董小姐談到職場中的“關(guān)系戶”……

十年寒窗苦讀不如“名門之女”?從協(xié)和4+4的董小姐談到職場中的“關(guān)系戶”……

一刻talks丨硬科技趣思想
2025-05-16 20:32:36
遼寧男女一夜情,“男子尺寸過大導(dǎo)致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導(dǎo)致女子死亡”事件,真相曝光~

書畫藝術(shù)收藏
2025-03-15 19:15:05
德國新任總理:將堅(jiān)決敦促中國為結(jié)束俄烏沖突做出貢獻(xiàn)

德國新任總理:將堅(jiān)決敦促中國為結(jié)束俄烏沖突做出貢獻(xiàn)

風(fēng)華講史
2025-05-16 09:16:25
咬牙切齒??!4年時間不到,昆山這套房直接4折了,536萬跌至230萬

咬牙切齒?。?年時間不到,昆山這套房直接4折了,536萬跌至230萬

火山詩話
2025-05-16 13:33:11
陳清晨/王汀戈34分鐘0-2不敵對手,國羽男女雙打全部出局

陳清晨/王汀戈34分鐘0-2不敵對手,國羽男女雙打全部出局

懂球帝
2025-05-16 14:18:16
強(qiáng)硬表態(tài)!教宗良十四世拒絕同性婚姻:“家庭只能是男女結(jié)合”

強(qiáng)硬表態(tài)!教宗良十四世拒絕同性婚姻:“家庭只能是男女結(jié)合”

意訊
2025-05-16 20:39:51
天降神兵??!搶七又來了!這小子,救了掘金,也救了威少??!

天降神兵?。屍哂謥砹?!這小子,救了掘金,也救了威少??!

野球帝
2025-05-16 11:46:25
來了來了!安東尼宣布參加!以湖人身份退出NBA……

來了來了!安東尼宣布參加!以湖人身份退出NBA……

籃球?qū)崙?zhàn)寶典
2025-05-16 18:47:18
2025-05-17 05:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10494文章數(shù) 142315關(guān)注度
往期回顧 全部

科技要聞

雷軍:一場事故讓我們受到狂風(fēng)暴雨般的質(zhì)疑

頭條要聞

特朗普"生日閱兵":士兵1天只吃1頓熱餐 花3千萬美元

頭條要聞

特朗普"生日閱兵":士兵1天只吃1頓熱餐 花3千萬美元

體育要聞

退役8個月后喜提3冠,人生的轉(zhuǎn)折如此突然

娛樂要聞

嘉行回應(yīng)黃楊鈿甜風(fēng)波翻車,引發(fā)眾怒

財經(jīng)要聞

一船難求,又要開始了?

汽車要聞

吉利發(fā)布最強(qiáng)一季報后,繼續(xù)整合、補(bǔ)短板是關(guān)鍵

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
手機(jī)
健康

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

溫馨暖調(diào) 現(xiàn)代極簡空間

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

下周見!李杰預(yù)熱一加Ace 5至尊系列:旗艦芯+超強(qiáng)續(xù)航

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 林甸县| 炎陵县| 遂川县| 海口市| 和平县| 报价| 屏东市| 嵊泗县| 灵山县| 探索| 阿瓦提县| 进贤县| 平乐县| 改则县| 土默特左旗| 东港市| 湘潭市| 四川省| 抚顺市| 临清市| 宁明县| 梁河县| 堆龙德庆县| 砚山县| 沙田区| 图木舒克市| 三穗县| 丽水市| 高邑县| 嘉义市| 城步| 塘沽区| 积石山| 台中县| 金昌市| 小金县| 汉寿县| 长宁区| 澳门| 长汀县| 民权县|