三分之一個世紀前,加拿大學者們提出了經(jīng)典的MoE模型神經(jīng)網(wǎng)絡結(jié)構(gòu),在人類探索AI的「石器時代」中,為后世留下了變革的火種。
近十年前,美國硅谷的互聯(lián)網(wǎng)巨擎在理論和工程等方面,突破了MoE模型的原始架構(gòu),讓這個原本被置于學術(shù)高閣的理念,化身成為了隨后AI競爭的導火索。
如今,后發(fā)優(yōu)勢再一次來到了大洋此岸,以華為為代表的中國科技企業(yè),紛紛提出對MoE架構(gòu)的優(yōu)化重組方案。尤其是華為的MoGE架構(gòu),不僅克服了MoE負載不均衡及效率瓶頸的弊病,還能夠降本增效,便于訓練和部署。
AI之戰(zhàn)遠未終結(jié),但正如在其他領域中「多快好省」的中國產(chǎn)業(yè)底色一樣,大模型這棵生于西方長于彼岸的科技樹,也同樣會被東方智慧經(jīng)手后,進化為更加普適和親切的工具。
近期,虎嗅將打造《華為技術(shù)披露集》系列內(nèi)容,通過一連串的技術(shù)報告,首次全面披露相關(guān)的技術(shù)細節(jié)。
希望本系列內(nèi)容能為業(yè)界起到參考價值,也希望更多人能與華為一起,共同打造長期持續(xù)的開放協(xié)作生態(tài)環(huán)境,讓昇騰生態(tài)在中國茁壯成長。
《華為技術(shù)披露集》系列 VOL.9 :訓練加速
隨著大模型的迅猛發(fā)展,混合專家(MoE)模型憑借其獨特的架構(gòu)優(yōu)勢,成為擴展模型能力的重要方向。MoE通過創(chuàng)新性的路由機制,動態(tài)地將輸入token分配給不同的專家網(wǎng)絡,不僅高效實現(xiàn)了模型參數(shù)的規(guī)模化擴展,更在處理復雜任務時展現(xiàn)出顯著優(yōu)勢。然而,將MoE模型在分布式集群環(huán)境下進行訓練時,訓練效率不足,已成為亟待解決的難題。
MoE大規(guī)模訓練難題:一半以上的訓練時間在等待?
實踐表明,MoE模型訓練集群的效率面臨兩方面挑戰(zhàn):
1. 專家并行引入計算和通信等待,當模型規(guī)模較大時,需要切分專家到不同設備形成并行(EP),這就引入額外All-to-All通信,同時MoE層絕大部分EP通信與計算存在時序依賴關(guān)系,一般的串行執(zhí)行模式會導致大量計算單元空閑,等待通信;
2. 負載不均引入計算和計算等待,MOE算法核心是“有能者居之”,在訓練過程中會出現(xiàn)部分熱專家被頻繁調(diào)用,而冷專家使用率較低;同時,真實訓練數(shù)據(jù)的長度不一,不同的模型層(如稀疏層、嵌入層等)的計算量也存在明顯差異,造成不同卡之間計算也在互相等待。
形象地說,MoE訓練系統(tǒng)就像一個交通擁塞嚴重的城區(qū):
1. 人車混行阻塞,所有車輛(計算)必須等待行人(通信)完全通過斑馬線才能通行,造成大量無效等待;
2. 車道分配僵化,固定劃分的直行、左轉(zhuǎn)車道就像靜態(tài)的專家分配,導致熱門車道(熱專家)大排長龍,而冷門車道(冷專家)閑置。為此,華為團隊構(gòu)建了一套叫做Adaptive Pipe & EDPB的優(yōu)化方案,就像一個“上帝視角的智慧樞紐”,讓MoE訓練集群這個“城市交通”實現(xiàn)無等待的流暢運行。
DeployMind仿真平臺,小時級自動并行尋優(yōu)
華為構(gòu)建了名為AutoDeploy的仿真平臺,它是一個基于昇騰硬件訓練系統(tǒng)的“數(shù)字孿生”平臺,通過計算/通信/內(nèi)存三維度的多層級建模、昇騰硬件系統(tǒng)的高精度映射、全局化算法加速運行等技術(shù),能在1小時內(nèi)模擬百萬次訓練場景,實現(xiàn)MoE模型多樣化訓練負載的快速分析和自動找到與集群硬件規(guī)格匹配的最優(yōu)策略選擇。在訓練實踐驗證中,該建模框架可達到90%精度指標,實現(xiàn)低成本且高效的最優(yōu)并行選擇。
針對Pangu Ultra MoE 718B模型,在單卡內(nèi)存使用約束下,華為通過AutoDeploy以訓練性能為目標找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),這一最適合昇騰集群硬件規(guī)格的并行方案,綜合實現(xiàn)計算、通信、內(nèi)存的最佳平衡。
Adaptive Pipe通信掩蓋>98%,讓計算不再等待通信
華為構(gòu)建了一套稱為Adaptive Pipe的通信掩蓋框架,在AutoDeploy仿真平臺自動求解最優(yōu)并行的基礎上,采用層次化All-to-All降低機間通信和自適應細粒度前反向掩蓋,實現(xiàn)通信幾乎“零暴露”。
層次化專家并行通信。針對不同服務器之間通信帶寬低,但機內(nèi)通信帶寬高的特點,華為創(chuàng)新地將通信過程拆成了兩步走:
第一步,讓各個機器上“位置相同”的計算單元聯(lián)手,快速地從所有機器上收集完整的數(shù)據(jù)塊(Token);
第二步,每臺機器內(nèi)部先對數(shù)據(jù)塊進行整理,然后利用機器內(nèi)部的高速通道,快速完成互相交換。這種分層設計的巧妙之處在于,它把每個數(shù)據(jù)塊最多的復制分發(fā)操作都限制在單臺機器內(nèi)部的高速網(wǎng)絡上完成,而在跨機器傳輸時,每個數(shù)據(jù)塊只需要發(fā)送一份拷貝,相比傳統(tǒng)All-to-All通信加速1倍。
自適應細粒度前反向掩蓋。在DualPipe掩蓋框架的基礎上,華為基于虛擬流水線并行技術(shù),實現(xiàn)了更精密的調(diào)度,Adaptive Pipe(圖1)。相比DualPipe,Adaptive Pipe僅利用一份權(quán)重,不僅將流水線并行所需的內(nèi)存占用減半,有效降低了計算“空泡”,釋放了流水線的峰值性能潛力;同時,該策略能夠額外實現(xiàn)與分層通信的完美協(xié)同,無縫覆蓋機間與機內(nèi)兩層通信的掩蓋。在這種層次化通信和細粒度計算通信切分調(diào)度優(yōu)化下,Adaptive Pipe可實現(xiàn)98%以上的EP通信掩蓋,讓計算引擎不受通信等待的束縛。
圖1 :自適應細粒度前反向掩蓋方案:(a) warmup階段純前向;(b) cooldown階段純反向;(c) stable階段前反向掩蓋;第一行為計算算子,第二行為機內(nèi)EP通信,第三行為機間EP通信;F代表前向算子,B代表反向算子,R代表重計算算子,PP P2P代表stage間的P2P通信。
EDPB全局負載均衡:讓計算之間不再互相等待,訓練再加速25%
在最優(yōu)并行和通信掩蓋基礎上,由于MoE模型訓練過程中天然存在的負載不均問題,集群訓練效率時高時低。華為團隊創(chuàng)新性地提出了EDPB全局負載均衡,實現(xiàn)專家均衡調(diào)度(圖2),在最優(yōu)并行和通信掩蓋基礎上,再取得了25.5%的吞吐提升收益。
圖2:集群P2P通信分析對比
專家預測動態(tài)遷移(E)。MoE模型訓練中,設備間的專家負載不均衡如同“蹺蹺板”——部分設備滿載運行,另一些卻處于“半休眠”狀態(tài)。團隊提出了基于多目標優(yōu)化的專家動態(tài)遷移技術(shù),讓專家在分布式設備間“智能流動”。該技術(shù)主要有三個特點:
預測先行:讓專家負載“看得見未來”:預測負載趨勢,實現(xiàn)“計算零存儲開銷,預測毫秒級響應”;
雙層優(yōu)化:計算與通信的黃金分割點:提出節(jié)點-設備雙層貪心優(yōu)化架構(gòu),在讓計算資源“齊步走”的同時,給通信鏈路“減負”;
智能觸發(fā):給專家遷移裝上“紅綠燈”:設計分層遷移閾值機制,通過預評估遷移收益動態(tài)決策,實現(xiàn)專家遷移的智能觸發(fā)。
圖3:基于專家動態(tài)遷移的EP間負載均衡整體框架圖
數(shù)據(jù)重排Attention計算均衡(D)。在模型預訓練中普遍采用數(shù)據(jù)拼接固定長度的策略,但跨數(shù)據(jù)的稀疏Attention計算量差異顯著,會引入負載不均衡問題,導致DP間出現(xiàn)“快等慢”的資源浪費。為解決這一問題,華為團隊提出了一種精度無損的動態(tài)數(shù)據(jù)重排方案,其核心在于:通過線性模型量化單樣本計算耗時,在嚴格保持訓練精度無損下,批次內(nèi)采用貪心算法構(gòu)建最小化耗時的數(shù)據(jù)重排,實現(xiàn)負載均衡。
虛擬流水線層間負載均衡(P)。MoE模型通常采用混合結(jié)構(gòu),Dense層、MTP層、輸出層所在的Stage與純MoE層所在的Stage負載不均,會造成的Stage間等待。團隊提出虛擬流水線層間負載均衡技術(shù),將MTP層與輸出層分離,同時將MTP Layer的 Embedding計算前移至首個Stage,有效規(guī)避Stage間等待問題,實現(xiàn)負載均衡。
整體系統(tǒng)收益
回到最開始提到的城市交通場景,Adaptive Pipe & EDPB這套方案,形象的說就是創(chuàng)新性地引入智慧化交通設施:
首先,建造"行人地下通道"(通信掩蓋),徹底分離人車動線,使車輛(計算)無需等待即可持續(xù)通行,行人(通信)在底層獨立穿行。
其次,部署"智能可變車道"(動態(tài)專家遷移),根據(jù)實時車流(數(shù)據(jù)分布)動態(tài)調(diào)整車道功能,讓閑置的左轉(zhuǎn)車道也能分擔直行壓力,實現(xiàn)負載均衡,整體讓城市交通實現(xiàn)無堵車流暢運行。
在Pangu Ultra MoE 718B模型的訓練實踐中,華為團隊在8K序列上測試了Adaptive Pipe & EDPB吞吐收益情況,在最優(yōu)并行策略的初始性能基礎上,實現(xiàn)了系統(tǒng)端到端72.6%的訓練吞吐提升。
本內(nèi)容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4422371.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.