大模型訓練，一半時間在摸魚？

2025-06-03 18:59:09　來源: 虎嗅APP

北京舉報

分享至

三分之一個世紀前，加拿大學者們提出了經(jīng)典的MoE模型神經(jīng)網(wǎng)絡結(jié)構(gòu)，在人類探索AI的「石器時代」中，為后世留下了變革的火種。

近十年前，美國硅谷的互聯(lián)網(wǎng)巨擎在理論和工程等方面，突破了MoE模型的原始架構(gòu)，讓這個原本被置于學術(shù)高閣的理念，化身成為了隨后AI競爭的導火索。

如今，后發(fā)優(yōu)勢再一次來到了大洋此岸，以華為為代表的中國科技企業(yè)，紛紛提出對MoE架構(gòu)的優(yōu)化重組方案。尤其是華為的MoGE架構(gòu)，不僅克服了MoE負載不均衡及效率瓶頸的弊病，還能夠降本增效，便于訓練和部署。

AI之戰(zhàn)遠未終結(jié)，但正如在其他領域中「多快好省」的中國產(chǎn)業(yè)底色一樣，大模型這棵生于西方長于彼岸的科技樹，也同樣會被東方智慧經(jīng)手后，進化為更加普適和親切的工具。

近期，虎嗅將打造《華為技術(shù)披露集》系列內(nèi)容，通過一連串的技術(shù)報告，首次全面披露相關(guān)的技術(shù)細節(jié)。

希望本系列內(nèi)容能為業(yè)界起到參考價值，也希望更多人能與華為一起，共同打造長期持續(xù)的開放協(xié)作生態(tài)環(huán)境，讓昇騰生態(tài)在中國茁壯成長。

《華為技術(shù)披露集》系列 VOL.9 ：訓練加速

隨著大模型的迅猛發(fā)展，混合專家（MoE）模型憑借其獨特的架構(gòu)優(yōu)勢，成為擴展模型能力的重要方向。MoE通過創(chuàng)新性的路由機制，動態(tài)地將輸入token分配給不同的專家網(wǎng)絡，不僅高效實現(xiàn)了模型參數(shù)的規(guī)模化擴展，更在處理復雜任務時展現(xiàn)出顯著優(yōu)勢。然而，將MoE模型在分布式集群環(huán)境下進行訓練時，訓練效率不足，已成為亟待解決的難題。

MoE大規(guī)模訓練難題：一半以上的訓練時間在等待？

實踐表明，MoE模型訓練集群的效率面臨兩方面挑戰(zhàn)：

1. 專家并行引入計算和通信等待，當模型規(guī)模較大時，需要切分專家到不同設備形成并行（EP），這就引入額外All-to-All通信，同時MoE層絕大部分EP通信與計算存在時序依賴關(guān)系，一般的串行執(zhí)行模式會導致大量計算單元空閑，等待通信；

2. 負載不均引入計算和計算等待，MOE算法核心是“有能者居之”，在訓練過程中會出現(xiàn)部分熱專家被頻繁調(diào)用，而冷專家使用率較低；同時，真實訓練數(shù)據(jù)的長度不一，不同的模型層（如稀疏層、嵌入層等）的計算量也存在明顯差異，造成不同卡之間計算也在互相等待。

形象地說，MoE訓練系統(tǒng)就像一個交通擁塞嚴重的城區(qū)：

1. 人車混行阻塞，所有車輛（計算）必須等待行人（通信）完全通過斑馬線才能通行，造成大量無效等待；

2. 車道分配僵化，固定劃分的直行、左轉(zhuǎn)車道就像靜態(tài)的專家分配，導致熱門車道（熱專家）大排長龍，而冷門車道（冷專家）閑置。為此，華為團隊構(gòu)建了一套叫做Adaptive Pipe & EDPB的優(yōu)化方案，就像一個“上帝視角的智慧樞紐”，讓MoE訓練集群這個“城市交通”實現(xiàn)無等待的流暢運行。

DeployMind仿真平臺，小時級自動并行尋優(yōu)

華為構(gòu)建了名為AutoDeploy的仿真平臺，它是一個基于昇騰硬件訓練系統(tǒng)的“數(shù)字孿生”平臺，通過計算/通信/內(nèi)存三維度的多層級建模、昇騰硬件系統(tǒng)的高精度映射、全局化算法加速運行等技術(shù)，能在1小時內(nèi)模擬百萬次訓練場景，實現(xiàn)MoE模型多樣化訓練負載的快速分析和自動找到與集群硬件規(guī)格匹配的最優(yōu)策略選擇。在訓練實踐驗證中，該建模框架可達到90%精度指標，實現(xiàn)低成本且高效的最優(yōu)并行選擇。

針對Pangu Ultra MoE 718B模型，在單卡內(nèi)存使用約束下，華為通過AutoDeploy以訓練性能為目標找到了TP8/PP16/VPP2/EP32（其中TP只作用于Attention），這一最適合昇騰集群硬件規(guī)格的并行方案，綜合實現(xiàn)計算、通信、內(nèi)存的最佳平衡。

Adaptive Pipe通信掩蓋>98%，讓計算不再等待通信

華為構(gòu)建了一套稱為Adaptive Pipe的通信掩蓋框架，在AutoDeploy仿真平臺自動求解最優(yōu)并行的基礎上，采用層次化All-to-All降低機間通信和自適應細粒度前反向掩蓋，實現(xiàn)通信幾乎“零暴露”。

層次化專家并行通信。針對不同服務器之間通信帶寬低，但機內(nèi)通信帶寬高的特點，華為創(chuàng)新地將通信過程拆成了兩步走：

第一步，讓各個機器上“位置相同”的計算單元聯(lián)手，快速地從所有機器上收集完整的數(shù)據(jù)塊（Token）；

第二步，每臺機器內(nèi)部先對數(shù)據(jù)塊進行整理，然后利用機器內(nèi)部的高速通道，快速完成互相交換。這種分層設計的巧妙之處在于，它把每個數(shù)據(jù)塊最多的復制分發(fā)操作都限制在單臺機器內(nèi)部的高速網(wǎng)絡上完成，而在跨機器傳輸時，每個數(shù)據(jù)塊只需要發(fā)送一份拷貝，相比傳統(tǒng)All-to-All通信加速1倍。

自適應細粒度前反向掩蓋。在DualPipe掩蓋框架的基礎上，華為基于虛擬流水線并行技術(shù)，實現(xiàn)了更精密的調(diào)度，Adaptive Pipe（圖1）。相比DualPipe，Adaptive Pipe僅利用一份權(quán)重，不僅將流水線并行所需的內(nèi)存占用減半，有效降低了計算“空泡”，釋放了流水線的峰值性能潛力；同時，該策略能夠額外實現(xiàn)與分層通信的完美協(xié)同，無縫覆蓋機間與機內(nèi)兩層通信的掩蓋。在這種層次化通信和細粒度計算通信切分調(diào)度優(yōu)化下，Adaptive Pipe可實現(xiàn)98%以上的EP通信掩蓋，讓計算引擎不受通信等待的束縛。

圖1 ：自適應細粒度前反向掩蓋方案：(a) warmup階段純前向；(b) cooldown階段純反向；(c) stable階段前反向掩蓋；第一行為計算算子，第二行為機內(nèi)EP通信，第三行為機間EP通信；F代表前向算子，B代表反向算子，R代表重計算算子，PP P2P代表stage間的P2P通信。

EDPB全局負載均衡：讓計算之間不再互相等待，訓練再加速25%

在最優(yōu)并行和通信掩蓋基礎上，由于MoE模型訓練過程中天然存在的負載不均問題，集群訓練效率時高時低。華為團隊創(chuàng)新性地提出了EDPB全局負載均衡，實現(xiàn)專家均衡調(diào)度（圖2），在最優(yōu)并行和通信掩蓋基礎上，再取得了25.5%的吞吐提升收益。

圖2：集群P2P通信分析對比

專家預測動態(tài)遷移（E）。MoE模型訓練中，設備間的專家負載不均衡如同“蹺蹺板”——部分設備滿載運行，另一些卻處于“半休眠”狀態(tài)。團隊提出了基于多目標優(yōu)化的專家動態(tài)遷移技術(shù)，讓專家在分布式設備間“智能流動”。該技術(shù)主要有三個特點：

預測先行：讓專家負載“看得見未來”：預測負載趨勢，實現(xiàn)“計算零存儲開銷，預測毫秒級響應”；

雙層優(yōu)化：計算與通信的黃金分割點：提出節(jié)點-設備雙層貪心優(yōu)化架構(gòu)，在讓計算資源“齊步走”的同時，給通信鏈路“減負”；

智能觸發(fā)：給專家遷移裝上“紅綠燈”：設計分層遷移閾值機制，通過預評估遷移收益動態(tài)決策，實現(xiàn)專家遷移的智能觸發(fā)。

圖3：基于專家動態(tài)遷移的EP間負載均衡整體框架圖

數(shù)據(jù)重排Attention計算均衡（D）。在模型預訓練中普遍采用數(shù)據(jù)拼接固定長度的策略，但跨數(shù)據(jù)的稀疏Attention計算量差異顯著，會引入負載不均衡問題，導致DP間出現(xiàn)“快等慢”的資源浪費。為解決這一問題，華為團隊提出了一種精度無損的動態(tài)數(shù)據(jù)重排方案，其核心在于：通過線性模型量化單樣本計算耗時，在嚴格保持訓練精度無損下，批次內(nèi)采用貪心算法構(gòu)建最小化耗時的數(shù)據(jù)重排，實現(xiàn)負載均衡。

虛擬流水線層間負載均衡（P）。MoE模型通常采用混合結(jié)構(gòu)，Dense層、MTP層、輸出層所在的Stage與純MoE層所在的Stage負載不均，會造成的Stage間等待。團隊提出虛擬流水線層間負載均衡技術(shù)，將MTP層與輸出層分離，同時將MTP Layer的 Embedding計算前移至首個Stage，有效規(guī)避Stage間等待問題，實現(xiàn)負載均衡。

整體系統(tǒng)收益

回到最開始提到的城市交通場景，Adaptive Pipe & EDPB這套方案，形象的說就是創(chuàng)新性地引入智慧化交通設施：

首先，建造"行人地下通道"（通信掩蓋），徹底分離人車動線，使車輛（計算）無需等待即可持續(xù)通行，行人（通信）在底層獨立穿行。

其次，部署"智能可變車道"（動態(tài)專家遷移），根據(jù)實時車流（數(shù)據(jù)分布）動態(tài)調(diào)整車道功能，讓閑置的左轉(zhuǎn)車道也能分擔直行壓力，實現(xiàn)負載均衡，整體讓城市交通實現(xiàn)無堵車流暢運行。

在Pangu Ultra MoE 718B模型的訓練實踐中，華為團隊在8K序列上測試了Adaptive Pipe & EDPB吞吐收益情況，在最優(yōu)并行策略的初始性能基礎上，實現(xiàn)了系統(tǒng)端到端72.6%的訓練吞吐提升。

本內(nèi)容為作者獨立觀點，不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載，授權(quán)事宜請聯(lián)系 hezuo@huxiu.com

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4422371.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.