99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<blockquote id="iaoc9"></blockquote>

<center id="iaoc9"><b id="iaoc9"><em id="iaoc9"></em></b></center>

<del id="iaoc9"><b id="iaoc9"></b></del>

<tt id="iaoc9"><em id="iaoc9"></em></tt>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

昇騰+鯤鵬聯手上大招！華為爆改MoE訓練，吞吐再飆升20%，內存省70%

2025-06-04 14:41:18　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ 桃子

【新智元導讀】最近，華為在MoE訓練系統方面，給出了MoE訓練算子和內存優化新方案：三大核心算子全面提速，系統吞吐再提20%，Selective R/S實現內存節省70%。

在通往更強大的AI路上，MoE已成為科技巨頭另一個首選路徑。

只要Scaling Law沒有失效，大模型的參數規模依舊不斷擴大，由此AI智能水平才能不斷攀升。

憑借獨特的架構設計，MoE正以前所未有的參數規模，成為突破大規模模型訓練的算力瓶頸的關鍵路徑之一。

然而，如何將MoE潛力真正轉化為高效的訓練實踐，一直是業界探索的難題。

此前，華為曾通過Adaptive Pipe&EDPB框架，實現了集群級高效分布式計算，讓通信和計算能完美并行，提高訓練集群效率。

本次，華為通過昇騰與鯤鵬算力的深度協同，進一步實現了訓練算子計算效率和內存利用率大幅提升。

他們從單節點視角出發，深入到NPU和CPU內部，對算子計算、下發、訓練內存使用等進行細粒度拆解。

令人驚喜的是，結果顯示，MoE訓練在之前的基礎上，吞吐又提升了20%，內存占用降低了70%。

這不僅是一次技術突破，更是引領MoE訓練的風向標。

MoE訓練單節點效率提升挑戰

現實中，MoE模型的訓練并非易事。

因其框架的復雜性，除了集群分布式訓練效率優化外，在單節點訓練效率提升方面有兩大核心挑戰。

· 算子計算效率低，存在等待

首先，硬件核心計算單元，如Cube利用率不足，存在冗余操作和可優化的數據流水搬運，進而拖累了整體計算吞吐。

同時，專家路由機制導致算子下發頻繁，且容易中斷。

因為，復雜的專家路由機制增加了算子下發的調度壓力，如同高速閘道入口既窄還有頻繁紅燈，形成了Host-Bound瓶頸。

· 「昂貴的」NPU內存永遠不夠用

為了擴展模型參數量以提高模型智能水平，MoE模型參數量動輒千億甚至萬億。

加之訓練過程中前向傳播累積的海量激活值，讓內存資源顯得捉襟見肘。

如果太過擠壓內存，還容易引發NPU內存溢出（OOM），造成訓練中斷。

因此，NPU內存優化是大規模MoE訓練永恒的主題。

針對這些難題，華為給出了業界最完整的解決方案。

昇騰算子計算加速

訓練吞吐飆升15%

毋庸置疑，只有更高算力的利用率，才能將AI系統的效用最大化。

除了并行策略、通算掩蓋等框架層優化方法，硬件親和算子優化，也是進一步獲得潛在性能優化的新路徑。

在MoE模型中，最「吃時間」的幾個核心算子有：融合算子FlashAttention、基礎算子MatMul，以及負責數據重排與反重排的Vector（矢量）算子。

這些算子，占據了總計算耗時75%以上。

從數學等價和昇騰硬件親和角度出發，華為提出了「瘦身術」、「均衡術」、「搬運術」三大優化策略。

得益于這些方案，MoE模型計算冗余消除，數據流效率提升，同時計算單元間數據移動減少，充分發揮出昇騰的硬件能力。

在Pangu Ultra MoE 718B模型訓練實踐中，三大算子加速實現整體訓練吞吐量提升15%。

FlashAttention「瘦身術」（RECT-FA）

針對FA算子，華為團隊優化了計算順序，進而消除了冗余計算，進一步讓FA內部處理流水排布更緊密。

它能支持原生非對齊計算，直接處理Key/Query維度不匹配場景，省去填充與切片開銷。

利用昇騰片上緩存原位累加技術，可基于數學等價計算消除旋轉位置編碼中復雜的拼接操作（如圖1所示）。

圖1：基于數學等價計算消除拼接開銷原理

通過核間高效同步與緩存智能預搬運技術，實現FA內部計算步驟的高效流水線銜接，消除等待阻塞。

通過這三點優化，實現FA前/反向性能分別提升50%/30%；

MatMul（矩陣乘法）「均衡術」（AscendP-MM）

針對矩陣乘法算子，華為優化了雙級數據流水搬運問題，如下圖2所示。

在數據從通用內存傳輸至L1緩存時，基于更小的L0緩存容量調整搬運量，從而更早啟動從L1至L0的搬運，以及后續計算。

通過矩陣子塊斜向分配計算核，降低并發沖突，提升數據在芯片內部的流水效率。

最終，實現了Cube（核心計算單元）的利用率提升10%。

圖2：MatMul算子數據流水優化前后示意圖

Vector算子「搬運術」（VectorSort）

針對Vector算子，華為充分利用了昇騰芯片Vector指令特性，融合了多個細粒度小算子，以降低內存搬運耗時。

通過等價變換（如圖3所示），減少了重排與反重排操作中數據的反復搬運。

上述優化操作的效果立竿見影，VectorSort類算子性能直接飆升3倍以上。

圖3：VectorSort重排操作優化前后流水示意圖

昇騰鯤鵬協同再加速

吞吐提升至20%，內存節省70%

通過昇騰和鯤鵬的高效協同，華為的研究團隊實現了算子下發幾乎「零」等待，內存節省70%，其中關鍵在于Host-Device協同的算子下發優化和Selective R/S精準內存手術兩項創新。

鯤鵬Host-昇騰Device協同優化算子下發

· 等效計算的同步消除

算子下發中斷通常是因為Host需要等待Device返回結果（即同步），就如同高速有車需要逆行回到閘道入口，會阻塞所有后續算子的下發。

在Host或Device上就地等效計算，避免了數據逆行，實現算子下發無同步。

圖4展示Token分發預處理過程的同步消除結果，同步消除后，算子下發不再中斷，提高Device上算力利用率。

圖4：Token分發結果預處理同步消除前后對比

· 重排下發序規避空閑等待

通過對模塊的細粒度分離并重排序（圖5所示），如同在綠燈后閘道入口優先放行起步快的小車。

這讓Device上盡快接收到計算任務，避免過長時間的空閑等待，實現單次Host-Bound從2.1ms降低至0.6ms，超過70%的降幅。

圖5：重排下發序規避空閑等待

· 昇騰+鯤鵬親和提升下發速度

為了發揮算子下發的極致性能，可以通過任務綁核來控制CPU端算子任務的處理器親和性，將主要任務綁定在最親和的核上，并隔離其余任務對算子下發線程的影響。

這如同加寬閘道，有助于提升算子的下發速度。

采用自定義粗粒度綁核方式（每NPU綁24核），完全消除系統型持續Host-Bound。

通過上述Host-Device協同優化，有效緩解了同步型與持續型Host-Bound瓶頸。

在Pangu Ultra MoE 718B模型訓練實踐中，團隊實現了算子下發幾乎零等待（free時間占比<2%），訓練吞吐量進一步提升4%，充分發揮算子加速優勢，兩者疊加可加速訓練19.6%。

Selective R/S精準內存手術方案

基于昇騰+鯤鵬內存協同架構，研究團隊提出了Selective R/S內存優化技術。

這項創新實現了對Pangu Ultra MoE 718B模型訓練多維度、定制化的「內存解剖」，在訓練實踐中可節省超過70%的激活值內存。

這項技術主要分為兩大部分：

（1）豐富多樣的、通用化、張量級的細粒度重計算以及Swap策略等組成的「顯微手術器械庫」；

（2）可自適應內存系統優化的「手術臺管理機制」。

· 細粒度重計算（R）與Swap（S）

華為實現了多個模塊重計算的細粒度支持（如表1左所示）。

而且系統可以自適應調整重計算算子的執行順序，巧妙地「隱藏」了重計算產生的額外耗時。

對于重計算過程也做了優化，包括：

·MLA重計算創新性地調整了計算順序，將KV的計算與Q解耦；

·RmsNorm重計算同時兼容了Sandwich Norm和Pre Norm；

·Permute重計算支持Token重排操作中計算與通信重計算；

·Activation重計算支持激活函數以及Prob前移乘法重計算。

在Swap方面，昇騰+鯤鵬內存協同化管理，實現了Attention模塊內激活值的張量級卸載和預取，提供了靈活的Swap策略選擇，并為MoE層中重計算代價高昂的模塊設計了Swap方案（如表1右所示）。

表1：已實現的細粒度重計算與Swap方案

如圖6所示，通過對激活值卸載與預取位置的精準調整，有效規避HBM讀寫競爭帶來的性能劣化。

圖6：Swap_attention卸載&預取的時機

· 自適應內存優化管理機制

內存優化管理機制的主要指標是Memory-Runtime（節省內存/額外耗時）性價比。

為了找到最優的自適應內存優化策略組合，需要先計算模型訓練的內存占用。

以「先增后減」的貪心算法作為基礎選擇機制，并結合對Swap帶寬競爭的分析，基于已實現的內存優化策略，最終給出最優的策略組合。

國產AI訓練優化新方案

華為昇騰+鯤鵬深度協同，結合算子計算加速和內存優化技術，為MoE訓練提供了高效、低成本的解決方案。

無論是三大算子加速、鯤鵬昇騰協同的算子下發「零等待」，還是激活內存節省70%，都展現了華為在AI算力領域的深厚技術積累。

這不僅為大規模MoE模型訓練掃清了障礙，也為行業提供了寶貴的參考路徑。

想要了解更多技術細節，請查閱完整技術報告。

報告地址：https://gitcode.com/ascend-tribe/ascend-training-system/tree/main/StandaloneOptimization

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2

20人團隊提前實現DeepSeek構想，AI算力變天？直擊大模型算力成本痛點

新智元 2025-06-10 18:48:36
2 跟貼 2

豆包1.6來了！深度推理測評超DeepSeek-R1，視頻模型超Veo3

智東西 2025-06-11 21:07:28
24 跟貼 24
中國團隊提出SRDA，一種專為AI大模型訓推設計的下一代計算架構

量子位 2025-06-09 17:50:16
10 跟貼 10

李飛飛團隊DiT設計新思路：不重訓直接「嫁接」，質量還提高了

機器之心Pro 2025-06-10 16:50:08
0 跟貼 0

老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
蘋果雖遲但到，端側AI加速爆發！AI新勢力搶先圈地突圍

智東西 2025-06-11 20:13:17
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
Meta推出開源最新世界模型，運行速度是英偉達Cosmos的30倍

DeepTech深科技 2025-06-12 13:47:10
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
394 跟貼 394
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
1 跟貼 1
銀河通用X清華大學發布首款開源人形機器人全身遙操系統OpenWBT

機器之心Pro 2025-06-12 15:02:32
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
任正非稱美國夸大了華為的成績

白話頻道 2025-06-10 14:24:28
74 跟貼 74
任正非：美國是夸大了華為的成績華為還沒有這么厲害

財聯社 2025-06-10 12:15:00
0 跟貼 0
消息稱新索尼 PlayStation 掌機將配 AI 超采樣功能和 16GB 內存

IT之家 2025-06-12 00:08:21
3 跟貼 3
任正非霸氣喊話歐美國家華為很多的東西你們非買不可

智能相對論 2025-06-10 19:02:00
7 跟貼 7
任正非：被罵了會更清醒要允許別人罵華為

網易科技態度見聞 2025-06-10 11:19:31
0 跟貼 0
臺媒討論華為新手機，蔡正元教授得意掏出他的三折疊，很可愛哈哈

常青Dx 2025-06-10 12:49:30
0 跟貼 0
余承東紀念入職華為32年，感慨變老

界面新聞 2025-06-10 19:43:44
11 跟貼 11
外國網友看中國華為智駕

大白話時尚 2025-06-11 13:38:41
0 跟貼 0
小鵬和華為聯手了！新能源市場要變天

汽車大世界V 2025-06-09 19:11:49
1 跟貼 1
中美倫敦交鋒！華為通信設備攻頂！遼寧艦亮劍第二島鏈拒止美國！

人猿星球觀察 2025-06-11 15:31:08
0 跟貼 0
PS新掌機多項參數曝光！16GB內存 AI超分技術等

游民星空 2025-06-12 11:05:40
2 跟貼 2
PlayStation掌機傳聞：將配備16GB LPDDR5X內存

3DM游戲 2025-06-12 08:38:04
42 跟貼 42
華為發布Pura 80系列：搭載“史上最貴相機模組”，余承東稱對得起那四個字

每日經濟新聞 2025-06-11 23:07:10
0 跟貼 0
除了自研芯片+華為HUD，小鵬G7還有什么亮點？｜智能車指南

吳佩頻道 2025-06-11 10:00:00
0 跟貼 0
兩分鐘發布會|首次突破華為 Pura 80系列一鏡兩目超大底雙長焦

科技美學 2025-06-12 04:17:00
0 跟貼 0
大展宏圖！一部關于華為MateBook Fold的百科全書

IT168 2025-06-09 17:34:25
0 跟貼 0
頂配2.69萬元，華為鴻蒙折疊電腦真機實探

每日經濟新聞 2025-05-19 21:14:35
198 跟貼 198
蘋果宣布：所有系統統一用年份命名！

每日經濟新聞 2025-06-10 09:42:59
4 跟貼 4
華為Pura80 Ultra拍照到底有多強？

愛范兒 2025-06-11 19:09:25
34 跟貼 34
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
13 跟貼 13
華為Pura 80 系列官方開箱遠超所望

愛范兒 2025-06-11 19:09:23
4 跟貼 4
廣汽豐田接入小米“人車家”生態，鉑智 7 將率先開放硬件接口

IT之家 2025-06-12 12:39:11
0 跟貼 0
雷軍1億搶到的男人，盧偉冰到底有多強？

華商韜略 2025-04-16 18:40:41
0 跟貼 0

難怪馬斯克公開認錯，美媒公開內幕，特朗普給他留了最后的體面

難怪馬斯克公開認錯，美媒公開內幕，特朗普給他留了最后的體面

說說史事

2025-06-12 10:58:02

男同玩SM窒息而亡，28秒視頻瘋狂流傳，死前高喊：停下！快一點

男同玩SM窒息而亡，28秒視頻瘋狂流傳，死前高喊：停下！快一點

社會醬

2025-06-11 18:09:56

國補消失背后，比你想的要復雜得多

國補消失背后，比你想的要復雜得多

曹多魚的財經世界

2025-06-12 09:08:08

反轉？女子被高壓水槍射瞎，男方想30萬私了，景區回應曝真相！

反轉？女子被高壓水槍射瞎，男方想30萬私了，景區回應曝真相！

古希臘掌管松餅的神

2025-06-11 18:25:45

高圓圓雖然很漂亮，但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮，但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花

2025-06-12 10:14:51

看看高鐵有無靠背，證明廁所確實有門，臺灣網紅“館長”登陸開啟六天直播之行

看看高鐵有無靠背，證明廁所確實有門，臺灣網紅“館長”登陸開啟六天直播之行

環球網資訊

2025-06-12 06:32:35

剛剛！特朗普：降息100個基點

剛剛！特朗普：降息100個基點

中國基金報

2025-06-12 00:17:05

怪不得寧靜說張雨綺她全身散發著肉香！現實中遇見，真的很有魅力

怪不得寧靜說張雨綺她全身散發著肉香！現實中遇見，真的很有魅力

小椰的奶奶

2025-06-12 13:37:42

太尷尬了！海口美蘭站女廁關門后，門下有很大的縫隙，被網友吐槽

太尷尬了！海口美蘭站女廁關門后，門下有很大的縫隙，被網友吐槽

火山詩話

2025-06-12 07:33:15

哈利伯頓22+9+11頭號功臣：關鍵攻傳制勝創生涯總決賽紀錄

哈利伯頓22+9+11頭號功臣：關鍵攻傳制勝創生涯總決賽紀錄

醉臥浮生

2025-06-12 11:15:37

萬科王石最新發聲！

每日經濟新聞

2025-06-10 22:50:18

中美勸不住了，戰火逼近莫斯科，普京千里之外調回“王牌打手”！

中美勸不住了，戰火逼近莫斯科，普京千里之外調回“王牌打手”！

科技有趣事

2025-06-12 13:40:09

定價500萬美元的美國“金卡”上線：卡面印特朗普肖像，公布申請者名單

定價500萬美元的美國“金卡”上線：卡面印特朗普肖像，公布申請者名單

澎湃新聞

2025-06-12 11:16:27

對話高考后挑行李回家的女生：包里三床被子要帶回家，媽媽當時就在我身后

對話高考后挑行李回家的女生：包里三床被子要帶回家，媽媽當時就在我身后

極目新聞

2025-06-11 16:52:59

曝鄭州小米SU7一腳油門撞了17輛車，美女車主事后發顏值視頻被網友怒懟

曝鄭州小米SU7一腳油門撞了17輛車，美女車主事后發顏值視頻被網友怒懟

可達鴨面面觀

2025-06-12 11:51:26

曝一車圈大V在下飛機時被當場銬走，事發時正被尊界發起民事訴訟

曝一車圈大V在下飛機時被當場銬走，事發時正被尊界發起民事訴訟

不掉線電波

2025-06-12 13:18:15

鬧大了！嘉興一老板女兒結婚吃掉50萬，拒絕結賬，直言海鮮太貴…

鬧大了！嘉興一老板女兒結婚吃掉50萬，拒絕結賬，直言海鮮太貴…

火山詩話

2025-06-11 11:41:47

揚子晚報：國足再弱也是國家隊層面，拿南通去挑戰應適可而止

揚子晚報：國足再弱也是國家隊層面，拿南通去挑戰應適可而止

懂球帝

2025-06-12 11:20:17

小米SU7路口連撞多車當地：未造成人員死亡，車主已被警方控制

小米SU7路口連撞多車當地：未造成人員死亡，車主已被警方控制

紅星新聞

2025-06-12 11:56:08

北京老太癡呆30年，突然想起在地窖囤有茅臺，專家鑒定后倒吸涼氣

北京老太癡呆30年，突然想起在地窖囤有茅臺，專家鑒定后倒吸涼氣

秋風專欄

2025-05-21 15:18:45

AI產業主平臺領航智能+時代

12863文章數 66065關注度

往期回顧全部

科技要聞

一鏡雙目捅破天，華為最快明年Q2超越蘋果

頭條要聞

女生高考后挑行李回家婉拒資助：暑假準備擺攤賣涼粉

頭條要聞

女生高考后挑行李回家婉拒資助：暑假準備擺攤賣涼粉

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

金秀賢贏了金賽綸父母“隱藏式”失蹤

財經要聞

"特馬"互撕反轉?特朗普回應馬斯克反悔

汽車要聞

全面升級一汽-大眾速騰L有望于三季度上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

旅游

時尚

本地

減重專家破解減肥九大謠言！

教育要聞

留學變天？特朗普“三十六變”，是新加坡學生闖這個賽道的好時機

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

推廣||害怕停產的單品又多了一個！夏天有它出門才不愁

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：东安县| 二手房| 宁陵县| 淮滨县| 烟台市| 繁峙县| 乌兰察布市| 九龙城区| 兴国县| 五华县| 信宜市| 旬阳县| 桑日县| 海原县| 伊宁市| 迭部县| 昂仁县| 繁峙县| 昆明市| 昭平县| 都江堰市| 平远县| 镇沅| 乌兰县| 罗源县| 循化| 伊金霍洛旗| 九台市| 唐海县| 娄烦县| 广平县| 台山市| 建始县| 武乡县| 凤山县| 阳城县| 英德市| 江阴市| 循化| 土默特左旗| 达拉特旗|

<var id="un1av"></var>

<meter id="un1av"><dfn id="un1av"></dfn></meter>