99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型訓練,一半時間在摸魚?

0
分享至


三分之一個世紀前,加拿大學者們提出了經(jīng)典的MoE模型神經(jīng)網(wǎng)絡結(jié)構(gòu),在人類探索AI的「石器時代」中,為后世留下了變革的火種。

近十年前,美國硅谷的互聯(lián)網(wǎng)巨擎在理論和工程等方面,突破了MoE模型的原始架構(gòu),讓這個原本被置于學術(shù)高閣的理念,化身成為了隨后AI競爭的導火索。

如今,后發(fā)優(yōu)勢再一次來到了大洋此岸,以華為為代表的中國科技企業(yè),紛紛提出對MoE架構(gòu)的優(yōu)化重組方案。尤其是華為的MoGE架構(gòu),不僅克服了MoE負載不均衡及效率瓶頸的弊病,還能夠降本增效,便于訓練和部署。

AI之戰(zhàn)遠未終結(jié),但正如在其他領域中「多快好省」的中國產(chǎn)業(yè)底色一樣,大模型這棵生于西方長于彼岸的科技樹,也同樣會被東方智慧經(jīng)手后,進化為更加普適和親切的工具。

近期,虎嗅將打造《華為技術(shù)披露集》系列內(nèi)容,通過一連串的技術(shù)報告,首次全面披露相關(guān)的技術(shù)細節(jié)。

希望本系列內(nèi)容能為業(yè)界起到參考價值,也希望更多人能與華為一起,共同打造長期持續(xù)的開放協(xié)作生態(tài)環(huán)境,讓昇騰生態(tài)在中國茁壯成長。

《華為技術(shù)披露集》系列 VOL.9 :訓練加速

隨著大模型的迅猛發(fā)展,混合專家(MoE)模型憑借其獨特的架構(gòu)優(yōu)勢,成為擴展模型能力的重要方向。MoE通過創(chuàng)新性的路由機制,動態(tài)地將輸入token分配給不同的專家網(wǎng)絡,不僅高效實現(xiàn)了模型參數(shù)的規(guī)模化擴展,更在處理復雜任務時展現(xiàn)出顯著優(yōu)勢。然而,將MoE模型在分布式集群環(huán)境下進行訓練時,訓練效率不足,已成為亟待解決的難題。

MoE大規(guī)模訓練難題:一半以上的訓練時間在等待?

實踐表明,MoE模型訓練集群的效率面臨兩方面挑戰(zhàn):

1. 專家并行引入計算和通信等待,當模型規(guī)模較大時,需要切分專家到不同設備形成并行(EP),這就引入額外All-to-All通信,同時MoE層絕大部分EP通信與計算存在時序依賴關(guān)系,一般的串行執(zhí)行模式會導致大量計算單元空閑,等待通信;

2. 負載不均引入計算和計算等待,MOE算法核心是“有能者居之”,在訓練過程中會出現(xiàn)部分熱專家被頻繁調(diào)用,而冷專家使用率較低;同時,真實訓練數(shù)據(jù)的長度不一,不同的模型層(如稀疏層、嵌入層等)的計算量也存在明顯差異,造成不同卡之間計算也在互相等待。

形象地說,MoE訓練系統(tǒng)就像一個交通擁塞嚴重的城區(qū):

1. 人車混行阻塞,所有車輛(計算)必須等待行人(通信)完全通過斑馬線才能通行,造成大量無效等待;

2. 車道分配僵化,固定劃分的直行、左轉(zhuǎn)車道就像靜態(tài)的專家分配,導致熱門車道(熱專家)大排長龍,而冷門車道(冷專家)閑置。為此,華為團隊構(gòu)建了一套叫做Adaptive Pipe & EDPB的優(yōu)化方案,就像一個“上帝視角的智慧樞紐”,讓MoE訓練集群這個“城市交通”實現(xiàn)無等待的流暢運行。

DeployMind仿真平臺,小時級自動并行尋優(yōu)

華為構(gòu)建了名為AutoDeploy的仿真平臺,它是一個基于昇騰硬件訓練系統(tǒng)的“數(shù)字孿生”平臺,通過計算/通信/內(nèi)存三維度的多層級建模、昇騰硬件系統(tǒng)的高精度映射、全局化算法加速運行等技術(shù),能在1小時內(nèi)模擬百萬次訓練場景,實現(xiàn)MoE模型多樣化訓練負載的快速分析和自動找到與集群硬件規(guī)格匹配的最優(yōu)策略選擇。在訓練實踐驗證中,該建模框架可達到90%精度指標,實現(xiàn)低成本且高效的最優(yōu)并行選擇。

針對Pangu Ultra MoE 718B模型,在單卡內(nèi)存使用約束下,華為通過AutoDeploy以訓練性能為目標找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),這一最適合昇騰集群硬件規(guī)格的并行方案,綜合實現(xiàn)計算、通信、內(nèi)存的最佳平衡。

Adaptive Pipe通信掩蓋>98%,讓計算不再等待通信

華為構(gòu)建了一套稱為Adaptive Pipe的通信掩蓋框架,在AutoDeploy仿真平臺自動求解最優(yōu)并行的基礎上,采用層次化All-to-All降低機間通信和自適應細粒度前反向掩蓋,實現(xiàn)通信幾乎“零暴露”。

層次化專家并行通信。針對不同服務器之間通信帶寬低,但機內(nèi)通信帶寬高的特點,華為創(chuàng)新地將通信過程拆成了兩步走:

第一步,讓各個機器上“位置相同”的計算單元聯(lián)手,快速地從所有機器上收集完整的數(shù)據(jù)塊(Token);

第二步,每臺機器內(nèi)部先對數(shù)據(jù)塊進行整理,然后利用機器內(nèi)部的高速通道,快速完成互相交換。這種分層設計的巧妙之處在于,它把每個數(shù)據(jù)塊最多的復制分發(fā)操作都限制在單臺機器內(nèi)部的高速網(wǎng)絡上完成,而在跨機器傳輸時,每個數(shù)據(jù)塊只需要發(fā)送一份拷貝,相比傳統(tǒng)All-to-All通信加速1倍。

自適應細粒度前反向掩蓋。在DualPipe掩蓋框架的基礎上,華為基于虛擬流水線并行技術(shù),實現(xiàn)了更精密的調(diào)度,Adaptive Pipe(圖1)。相比DualPipe,Adaptive Pipe僅利用一份權(quán)重,不僅將流水線并行所需的內(nèi)存占用減半,有效降低了計算“空泡”,釋放了流水線的峰值性能潛力;同時,該策略能夠額外實現(xiàn)與分層通信的完美協(xié)同,無縫覆蓋機間與機內(nèi)兩層通信的掩蓋。在這種層次化通信和細粒度計算通信切分調(diào)度優(yōu)化下,Adaptive Pipe可實現(xiàn)98%以上的EP通信掩蓋,讓計算引擎不受通信等待的束縛。



圖1 :自適應細粒度前反向掩蓋方案:(a) warmup階段純前向;(b) cooldown階段純反向;(c) stable階段前反向掩蓋;第一行為計算算子,第二行為機內(nèi)EP通信,第三行為機間EP通信;F代表前向算子,B代表反向算子,R代表重計算算子,PP P2P代表stage間的P2P通信。

EDPB全局負載均衡:讓計算之間不再互相等待,訓練再加速25%

在最優(yōu)并行和通信掩蓋基礎上,由于MoE模型訓練過程中天然存在的負載不均問題,集群訓練效率時高時低。華為團隊創(chuàng)新性地提出了EDPB全局負載均衡,實現(xiàn)專家均衡調(diào)度(圖2),在最優(yōu)并行和通信掩蓋基礎上,再取得了25.5%的吞吐提升收益。


圖2:集群P2P通信分析對比

專家預測動態(tài)遷移(E)。MoE模型訓練中,設備間的專家負載不均衡如同“蹺蹺板”——部分設備滿載運行,另一些卻處于“半休眠”狀態(tài)。團隊提出了基于多目標優(yōu)化的專家動態(tài)遷移技術(shù),讓專家在分布式設備間“智能流動”。該技術(shù)主要有三個特點:

預測先行:讓專家負載“看得見未來”:預測負載趨勢,實現(xiàn)“計算零存儲開銷,預測毫秒級響應”;

雙層優(yōu)化:計算與通信的黃金分割點:提出節(jié)點-設備雙層貪心優(yōu)化架構(gòu),在讓計算資源“齊步走”的同時,給通信鏈路“減負”;

智能觸發(fā):給專家遷移裝上“紅綠燈”:設計分層遷移閾值機制,通過預評估遷移收益動態(tài)決策,實現(xiàn)專家遷移的智能觸發(fā)。


圖3:基于專家動態(tài)遷移的EP間負載均衡整體框架圖

數(shù)據(jù)重排Attention計算均衡(D)。在模型預訓練中普遍采用數(shù)據(jù)拼接固定長度的策略,但跨數(shù)據(jù)的稀疏Attention計算量差異顯著,會引入負載不均衡問題,導致DP間出現(xiàn)“快等慢”的資源浪費。為解決這一問題,華為團隊提出了一種精度無損的動態(tài)數(shù)據(jù)重排方案,其核心在于:通過線性模型量化單樣本計算耗時,在嚴格保持訓練精度無損下,批次內(nèi)采用貪心算法構(gòu)建最小化耗時的數(shù)據(jù)重排,實現(xiàn)負載均衡。

虛擬流水線層間負載均衡(P)。MoE模型通常采用混合結(jié)構(gòu),Dense層、MTP層、輸出層所在的Stage與純MoE層所在的Stage負載不均,會造成的Stage間等待。團隊提出虛擬流水線層間負載均衡技術(shù),將MTP層與輸出層分離,同時將MTP Layer的 Embedding計算前移至首個Stage,有效規(guī)避Stage間等待問題,實現(xiàn)負載均衡。


整體系統(tǒng)收益

回到最開始提到的城市交通場景,Adaptive Pipe & EDPB這套方案,形象的說就是創(chuàng)新性地引入智慧化交通設施:

首先,建造"行人地下通道"(通信掩蓋),徹底分離人車動線,使車輛(計算)無需等待即可持續(xù)通行,行人(通信)在底層獨立穿行。

其次,部署"智能可變車道"(動態(tài)專家遷移),根據(jù)實時車流(數(shù)據(jù)分布)動態(tài)調(diào)整車道功能,讓閑置的左轉(zhuǎn)車道也能分擔直行壓力,實現(xiàn)負載均衡,整體讓城市交通實現(xiàn)無堵車流暢運行。

在Pangu Ultra MoE 718B模型的訓練實踐中,華為團隊在8K序列上測試了Adaptive Pipe & EDPB吞吐收益情況,在最優(yōu)并行策略的初始性能基礎上,實現(xiàn)了系統(tǒng)端到端72.6%的訓練吞吐提升。


本內(nèi)容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4422371.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
汪東興晚年懊悔:我當年怎么就瞎了眼,推薦了這樣一個人給毛主席

汪東興晚年懊悔:我當年怎么就瞎了眼,推薦了這樣一個人給毛主席

方圓文史
2023-10-23 19:32:54
凌晨突發(fā)!5.0級地震!救援人員已趕赴震中

凌晨突發(fā)!5.0級地震!救援人員已趕赴震中

蓬勃新聞
2025-06-05 08:18:23
美國宣布全面限制12國公民入境,特朗普:與科羅拉多州襲擊事件有關(guān)

美國宣布全面限制12國公民入境,特朗普:與科羅拉多州襲擊事件有關(guān)

環(huán)球網(wǎng)資訊
2025-06-05 10:20:57
普京開始復仇,俄發(fā)起斬首行動,不到24小時,烏克蘭迎來5個噩耗

普京開始復仇,俄發(fā)起斬首行動,不到24小時,烏克蘭迎來5個噩耗

明月聊史
2025-06-04 15:55:14
與女子發(fā)生性關(guān)系后,趁女子熟睡叫來朋友發(fā)生性關(guān)系,構(gòu)成何罪?

與女子發(fā)生性關(guān)系后,趁女子熟睡叫來朋友發(fā)生性關(guān)系,構(gòu)成何罪?

微法官
2025-06-05 09:44:49
阿里納斯:唐斯的身材像個懦夫 似WNBA球員 屁股也和女人一樣

阿里納斯:唐斯的身材像個懦夫 似WNBA球員 屁股也和女人一樣

直播吧
2025-06-05 10:01:16
國民黨主席改選,盧秀燕涼涼,韓國瑜、蔣萬安不參與,黑馬將曝光

國民黨主席改選,盧秀燕涼涼,韓國瑜、蔣萬安不參與,黑馬將曝光

時尚的弄潮
2025-06-04 17:12:05
剛剛,朱立倫動作轟動兩岸!賴清德措手不及,統(tǒng)一時間要到了

剛剛,朱立倫動作轟動兩岸!賴清德措手不及,統(tǒng)一時間要到了

熒惑手心
2025-06-05 09:27:16
趙薇慶生畫面曝光,在云南農(nóng)場吃大餐,女兒和父親關(guān)系曝光!

趙薇慶生畫面曝光,在云南農(nóng)場吃大餐,女兒和父親關(guān)系曝光!

古希臘掌管月桂的神
2025-06-04 17:54:24
記者:尼克斯多名球員對布倫森父親、助教里克-布倫森感到不滿

記者:尼克斯多名球員對布倫森父親、助教里克-布倫森感到不滿

懂球帝
2025-06-05 10:41:55
在哈佛演講的女孩,是不是‘水貨’,咱們來對比看一下!

在哈佛演講的女孩,是不是‘水貨’,咱們來對比看一下!

占理兒
2025-06-04 21:09:45
三亞死亡女子家屬回應質(zhì)疑:第二家醫(yī)院使用了血清搶救,愿意尸檢配合調(diào)查

三亞死亡女子家屬回應質(zhì)疑:第二家醫(yī)院使用了血清搶救,愿意尸檢配合調(diào)查

封面新聞
2025-06-04 21:22:05
新能源汽車下鄉(xiāng),釋放了怎樣的信號?

新能源汽車下鄉(xiāng),釋放了怎樣的信號?

牲產(chǎn)隊2024
2025-06-04 22:45:07
陳學冬消失2年首曬照!頭發(fā)花白面容憔悴,車禍后遺癥如此嚴重?

陳學冬消失2年首曬照!頭發(fā)花白面容憔悴,車禍后遺癥如此嚴重?

溫讀史
2025-06-05 09:29:33
美國的“全面反擊”開始!特朗普三管齊下,一定要讓中國交出稀土

美國的“全面反擊”開始!特朗普三管齊下,一定要讓中國交出稀土

悅悅侃歷史
2025-06-04 14:01:46
女子蛇咬死亡后續(xù):傷口小如針孔,專家猜定品種,家屬態(tài)度轉(zhuǎn)變!

女子蛇咬死亡后續(xù):傷口小如針孔,專家猜定品種,家屬態(tài)度轉(zhuǎn)變!

說說史事
2025-06-05 08:59:40
考辛斯:隆多是尼克斯新帥完美人選 他的比賽理解遠高于雷迪克

考辛斯:隆多是尼克斯新帥完美人選 他的比賽理解遠高于雷迪克

直播吧
2025-06-05 09:17:56
她的三任丈夫,一個縣委書記,一個省委書記,一個副總理!

她的三任丈夫,一個縣委書記,一個省委書記,一個副總理!

霹靂炮
2025-06-04 23:06:41
央視轉(zhuǎn)播蘇超

央視轉(zhuǎn)播蘇超

魯中晨報
2025-06-05 12:02:37
秦可卿究竟得的什么病,使她臥床期間,每日要換四五次衣裳?

秦可卿究竟得的什么病,使她臥床期間,每日要換四五次衣裳?

詩意世界
2025-06-04 12:01:50
2025-06-05 14:40:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
24226文章數(shù) 686250關(guān)注度
往期回顧 全部

科技要聞

人形機器人千億投入 年產(chǎn)量不如勞力士一周

頭條要聞

男子預付200萬回收晚清"廢棄黃河鐵橋墩" 4年后報警

頭條要聞

男子預付200萬回收晚清"廢棄黃河鐵橋墩" 4年后報警

體育要聞

從次輪末到樂透邊緣 楊瀚森的試訓有什么玄機?

娛樂要聞

陳學冬消失2年首曬照 車禍后遺癥嚴重?

財經(jīng)要聞

多半袋方便面"多半"是商標 白象致歉

汽車要聞

長安汽車升級為獨立央企 東風長安重組按下暫停鍵

態(tài)度原創(chuàng)

家居
房產(chǎn)
游戲
數(shù)碼
本地

家居要聞

潔白奶油 簡約舒適之家

房產(chǎn)要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

卡普空道歉小蘿莉為何延期?爆料人稱部分內(nèi)容被重做

數(shù)碼要聞

618 筆記本怎么選?華為筆記本 Linux 版,入手正當時

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 济源市| 大名县| 兴文县| 梅州市| 凭祥市| 嘉禾县| 察雅县| 盐池县| 洛南县| 恩平市| 年辖:市辖区| 韶关市| 灵山县| 青龙| 积石山| 巩义市| 许昌县| 务川| 沿河| 西吉县| 溆浦县| 台山市| 锡林郭勒盟| 漳州市| 杭锦旗| 武清区| 固原市| 诏安县| 威信县| 瓦房店市| 太谷县| 宜兰市| 雅江县| 岳阳县| 宁夏| 寻乌县| 凤阳县| 上杭县| 渑池县| 子长县| 乌审旗|