99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

訓練MoE足足提速70%!華為只用了3招

0
分享至

允中 發自 凹非寺
量子位 | 公眾號 QbitAI

Scaling Law之下,MoE(混合專家)如今已經成為各大模型廠商擴展模型能力的制勝法寶。

不過,在高效實現模型參數規模化的同時,MoE的訓練難題也日益凸顯:

訓練效率不足,甚至一半以上訓練時間都浪費在“等待”上



現在,為了突破MoE的訓練瓶頸,華為出手了:

構建了一套名為Adaptive Pipe & EDPB的優化方案,開啟“上帝視角”,讓MoE面臨“交通擁堵”的訓練集群,實現無等待流暢運行。

MoE大規模訓練難題:一半以上的訓練時間在等待?

實踐已經表明,MoE模型訓練集群的效率面臨兩方面挑戰:

首先,是專家并行引入了計算和通信等

當模型規模較大時,需要切分專家到不同設備形成并行(EP),這就引入額外All-to-All通信。

與此同時,MoE層絕大部分EP通信與計算存在時序依賴關系,一般的串行執行模式會導致大量計算單元空閑,等待通信。



其次,負載不均會引入計算和計算等

MoE算法核心是“有能者居之”,在訓練過程中會出現部分熱專家被頻繁調用,而冷專家使用率較低的情況。

同時,真實訓練數據的長度不一,不同的模型層(如稀疏層、嵌入層等)的計算量也存在明顯差異,造成不同卡之間計算也在互相等待。

用一個形象點的說法就是,MoE訓練系統就像一個存在局部交通阻塞的城區,面臨兩大核心問題:

  • 人車混行阻塞:所有車輛(計算)與行人(通信)在紅綠燈交替通行,互相等待。
  • 車道分配僵化:固定劃分的直行、左轉車道就像靜態的專家分配,導致熱門車道(熱專家)大排長龍,而冷門車道(冷專家)閑置。

針對以上問題,華為團隊打造了“智慧化交通”設施:

首先,建造“行人地下通道”(通信掩蓋技術),徹底分離人車動線,使計算不再等待通信。

其次,部署“智能可變車道”(動態專家路由),根據實時車流(數據分布)動態調整車道功能,讓閑置的左轉車道也能分擔直行壓力,實現負載均衡。

這套組合方案既解決了資源分配不均的問題,又消除了通信阻塞的瓶頸,就像為城市交通裝上了“智慧大腦”,讓每個方向的通行效率都得到最大化提升。

DeployMind仿真平臺,小時級自動并行尋優

具體來說,華為首先構建了名為DeployMind的仿真平臺,它是一個基于昇騰硬件訓練系統的“數字孿生”平臺,通過計算/通信/內存三維度的多層級建模、昇騰硬件系統的高精度映射、全局化算法加速運行等技術,能在1小時內模擬百萬次訓練場景,實現MoE模型多樣化訓練負載的快速分析和自動找到與集群硬件規格匹配的最優策略選擇。

在訓練實踐驗證中,該建模框架可達到90%精度指標,實現低成本且高效的最優并行選擇。

針對Pangu Ultra MoE 718B模型,在單卡內存使用約束下,華為通過DeployMind以訓練性能為目標找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),這一最適合昇騰集群硬件規格的并行方案,綜合實現計算、通信、內存的最佳平衡。

通信掩蓋>98%,讓計算不再等待通信

華為還提出了一套名為Adaptive Pipe的通信掩蓋框架。在DeployMind仿真平臺自動求解最優并行的基礎上,采用層次化All-to-All降低機間通信和自適應細粒度前反向掩蓋,實現通信幾乎“零暴露”。

層次化專家并行通信

針對不同服務器之間通信帶寬低,但機內通信帶寬高的特點,華為創新地將通信過程拆成了兩步走:

第一步,讓各個機器上“位置相同”的計算單元聯手,快速地從所有機器上收集完整的數據塊(Token);

第二步,每臺機器內部先對數據塊進行整理,然后利用機器內部的高速通道,快速完成互相交換。

這種分層設計的巧妙之處在于,它把每個數據塊最多的復制分發操作都限制在單臺機器內部的高速網絡上完成,而在跨機器傳輸時,每個數據塊只需要發送一份拷貝,相比傳統All-to-All通信加速1倍

也就是說,有效通過減少跨機通信,提升了集群的通信速度

自適應細粒度前反向掩蓋

在DualPipe掩蓋框架的基礎上,華為基于虛擬流水線并行技術,實現了更精密的調度,即Adaptive Pipe。



相比DualPipe,Adaptive Pipe僅利用一份權重,不僅將流水線并行所需的內存占用減半,有效降低了計算“空泡”,釋放了流水線的峰值性能潛力;同時,該策略能夠額外實現與分層通信的完美協同,無縫覆蓋機間與機內兩層通信的掩蓋。

在這種層次化通信和細粒度計算通信切分調度優化下,Adaptive Pipe可實現98%以上的EP通信掩蓋,讓計算引擎不受通信等待的束縛。



克服負載不均,訓練再加速25%

由于MoE模型訓練過程中天然存在的負載不均問題,集群訓練效率時高時低,華為團隊還提出了EDPB全局負載均衡,實現專家均衡調度。

在最優并行和通信掩蓋基礎上,EDPB再取得了25.5%的吞吐提升收益



△集群P2P通信分析對比

所謂EDPB,E是專家預測動態遷移

MoE模型訓練中,設備間的專家負載不均衡如同“蹺蹺板”——部分設備滿載運行,另一些卻處于“半休眠”狀態。團隊提出了基于多目標優化的專家動態遷移技術,讓專家在分布式設備間“智能流動”。

該技術主要有三個特點:

  • 預測先行,讓專家負載“看得見未來”:預測負載趨勢,實現“計算零存儲開銷,預測毫秒級響應”;
  • 雙層優化,計算與通信的黃金分割點:提出節點-設備雙層貪心優化架構,在讓計算資源“齊步走”的同時,給通信鏈路“減負”;
  • 智能觸發,給專家遷移裝上“紅綠燈”:設計分層遷移閾值機制,通過預評估遷移收益動態決策,實現專家遷移的智能觸發。



△基于專家動態遷移的EP間負載均衡整體框架圖

D是數據重排Attention計算均衡

在模型預訓練中普遍采用數據拼接固定長度的策略,但跨數據的稀疏Attention計算量差異顯著,會引入負載不均衡問題,導致DP間出現“快等慢”的資源浪費。

為解決這一問題,華為團隊提出了一種精度無損的動態數據重排方案,其核心在于:通過線性模型量化單樣本計算耗時,在嚴格保持訓練精度無損下,批次內采用貪心算法構建最小化耗時的數據重排,實現負載均衡。

P是虛擬流水線層間負載均衡

MoE模型通常采用混合結構,Dense層、MTP層、輸出層所在的Stage與純MoE層所在的Stage負載不均,會造成的Stage間等待。

華為團隊提出虛擬流水線層間負載均衡技術,將MTP層與輸出層分離,同時將MTP Layer的 Embedding計算前移至首個Stage,有效規避Stage間等待問題,實現負載均衡。



△基于異構模塊設計的VPP并行負載均衡

系統端到端72.6%訓練吞吐提升

在Pangu Ultra MoE 718B模型的訓練實踐中,華為團隊在8K序列上測試了Adaptive Pipe & EDPB吞吐收益情況。

實驗結果顯示,在最優并行策略的初始性能基礎上,華為這套“通信掩蓋+動態專家遷移”的優化方案,能實現系統端到端72.6%的訓練吞吐提升



總而言之,華為的這套打法可以說是為大模型訓練優化提供了關鍵路徑。感興趣的小伙伴可以再通過完整技術報告深入了解——

技術報告地址:

https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/DistributedOptimization

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
關于八國聯軍的三大謊言:曾家喻戶曉,很多人信以為真,其實是假

關于八國聯軍的三大謊言:曾家喻戶曉,很多人信以為真,其實是假

詩意世界
2025-06-08 23:40:44
網紅博主竟是命案犯罪嫌疑人!大連警方破獲31年前積案

網紅博主竟是命案犯罪嫌疑人!大連警方破獲31年前積案

魯中晨報
2025-06-13 09:38:07
這妞厲害!來橫店三個月從配角到女二!

這妞厲害!來橫店三個月從配角到女二!

TVB的四小花
2025-06-14 01:16:34
夜線快評:唯有真相才是最大的告慰!

夜線快評:唯有真相才是最大的告慰!

看看新聞Knews
2025-06-13 18:05:48
伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

伊媒:多名革命衛隊指揮官、核科學家身亡,哈梅內伊高級顧問重傷

澎湃新聞
2025-06-13 12:10:31
網盤中的加密文件,二十年后依然回味無窮

網盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
我偷偷將岳母床頭的避孕藥,換成維生素,3月后她下腹微凸釀成慘劇

我偷偷將岳母床頭的避孕藥,換成維生素,3月后她下腹微凸釀成慘劇

星宇共鳴
2025-06-07 12:16:14
羅嘉良兒子顏值被噴「浪費基因」!17位男神星二代「長殘」引熱議

羅嘉良兒子顏值被噴「浪費基因」!17位男神星二代「長殘」引熱議

和斌斌一起看劇
2025-06-06 06:20:03
禁酒令下,三人同事聚餐還能吃飯嗎?喝酒當心踩紅線

禁酒令下,三人同事聚餐還能吃飯嗎?喝酒當心踩紅線

娛樂圈見解說
2025-06-13 09:44:43
中央批準,馬森述履新廣東

中央批準,馬森述履新廣東

魯中晨報
2025-06-13 16:54:20
蒙古“變臉”比翻書還快!過境費從2.5億砍到1.2億,中俄會買賬嗎

蒙古“變臉”比翻書還快!過境費從2.5億砍到1.2億,中俄會買賬嗎

百科密碼
2025-06-13 17:06:51
狂歡夢碎!“高考后才知道家里沒有1萬塊”,炸出多少家庭的無奈

狂歡夢碎!“高考后才知道家里沒有1萬塊”,炸出多少家庭的無奈

振華觀史
2025-06-13 16:19:12
俄常駐聯合國代表:以方軍事冒險將中東推向全面戰爭邊緣

俄常駐聯合國代表:以方軍事冒險將中東推向全面戰爭邊緣

財聯社
2025-06-14 12:09:09
墜亡實習醫生羅帥宇媽媽最新發聲:堅信兒子的墜亡和舉報劉某峰有直接關系

墜亡實習醫生羅帥宇媽媽最新發聲:堅信兒子的墜亡和舉報劉某峰有直接關系

極目新聞
2025-06-13 15:26:23
囤積10大前鋒!穆里尼奧逼瘋加拉塔薩雷,狂人接下來如何出牌?

囤積10大前鋒!穆里尼奧逼瘋加拉塔薩雷,狂人接下來如何出牌?

漫川舟船
2025-06-14 10:04:07
陳麗華立遺囑:兒女每人100億,余下幾百億都歸“唐僧”老公

陳麗華立遺囑:兒女每人100億,余下幾百億都歸“唐僧”老公

深析古今
2025-06-13 22:38:06
56歲大爺遭妻子冷落23年,住院無人陪,醫生說出實情妻子癱坐在地

56歲大爺遭妻子冷落23年,住院無人陪,醫生說出實情妻子癱坐在地

無名講堂
2025-06-10 18:04:28
衛報:又悶又熱!梅西等球星將在世俱杯上面臨高溫考驗

衛報:又悶又熱!梅西等球星將在世俱杯上面臨高溫考驗

雷速體育
2025-06-14 11:39:20
男子將6歲女兒鎖衣柜致死,20年后回老宅聽到女兒:爸爸放我出去

男子將6歲女兒鎖衣柜致死,20年后回老宅聽到女兒:爸爸放我出去

古怪奇談錄
2025-05-27 14:13:40
美媒:美防長與民主黨議員發生激烈爭執,被后者要求“滾出”五角大樓

美媒:美防長與民主黨議員發生激烈爭執,被后者要求“滾出”五角大樓

環球網資訊
2025-06-13 10:48:50
2025-06-14 13:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
本地
時尚
藝術
健康

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

在時尚中國之夜,共赴榮耀東方時刻

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙胜| 历史| 阳春市| 遂昌县| 汕尾市| 开阳县| 鄂伦春自治旗| 绥宁县| 芦山县| 石屏县| 红桥区| 沽源县| 东宁县| 雷波县| 蓝山县| 成武县| 汝南县| 安福县| 常熟市| 阳原县| 工布江达县| 武强县| 长阳| 陇川县| 惠州市| 岱山县| 津南区| 柘城县| 孟村| 会东县| 山阴县| 马关县| 蚌埠市| 密云县| 河源市| 和平区| 郎溪县| 兴义市| 长春市| 渝中区| 崇义县|