99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

不用GPU,大模型每2秒吃透一道高數大題!這就是華為的實力

0
分享至



從算力利用率突破到后訓練吞吐革新,華為用技術創新定義國產大模型訓練標桿。

作者丨李希

現在,請大家一起 數一下“1”、“2” 。

OK,短短2秒鐘時間,一個 準萬億MoE大模型 就已經 吃透 如何解一道 高等數學大題 了!

而且啊,這個大模型還是 不用GPU 來訓練,全流程都是大寫的 “國產” 的那種。

這,就是華為通過 “昇騰+Pangu Ultra MoE” 這套組合拳解鎖的效果——

不僅實現了國產算力與國產模型全流程自主可控的訓練閉環,更是在集群訓練系統性能方面達到行業領先水平。

有多領先?來看一組數據:

預訓練階段:昇騰Atlas 800T A2萬卡集群MFU提升至41%

后訓練階段:單CloudMatrix 384超節點吞吐達35K Tokens/s

值得一提的是,華為還 首次 把背后的一大秘籍給亮了出來。

具體來說,華為在這次發布的 技術報告 中,披露了在昇騰CloudMatrix 384超節點上,高效打通大稀疏比MoE強化學習后訓練框架的關鍵技術。

此舉可以說是讓以強化學習(RL)為核心機制的后訓練,進入到了超節點集群時代。

01

不用GPU的“煉”準萬億大模型方法

在深入華為Pangu Ultra MoE訓練系統全流程之前,老規矩,我們還是先來了解一下此前的技術痛點。

整體來看,在當前的MoE預訓練和強化學習后訓練過程中所存在的挑戰可以歸結為六點:

并行策略配置困難 :面對數據并行、張量并行、專家并行、流水線并行和序列并行等多種策略的組合選擇,加上稀疏激活導致的負載不平衡因素,很難通過人工經驗找到最優的并行配置方案。

All-to-All通信瓶頸 :專家并行架構需要進行大規模的token路由交換,這不僅占用大量網絡帶寬資源,還會造成計算資源長時間空閑等待,嚴重影響整體訓練效率。

系統負載分布不均 :從注意力機制中序列長度的差異,到專家激活頻率的不平衡,再到流水線并行中各階段的負載分配問題,這些多層次的不均衡現象拖累了整個集群的性能表現。

算子調度開銷過大 :動態路由機制引入了大量高頻率的小規模算子操作,增加了系統調度負擔,降低了核心矩陣計算的比重,從而顯著影響NPU的有效利用率。

訓練流程管理復雜 :強化學習后訓練涉及多個模型實例和多種訓練任務,包括MoE大模型的訓練和推理階段,整個流程的復雜性給資源分配和系統調度帶來巨大挑戰。

大規模擴展受限 : 強化學習過程中, 訓練與推理階段的參數重新映射機制,以及各計算任務間復雜的數據通信流程,成為制約后訓練大規模部署的主要瓶頸。

即使挑戰如此之多,華為在這段技術報告中依舊是給出了一套完整的端到端全流程解法。

第一招:提升訓練集群利用率

超大規模訓練集群的高效部署是提升預訓練系統性能的關鍵所在。

為此,華為團隊通過并行策略智能選擇、計算通信深度融合、全局動態負載平衡等技術創新,顯著提升了集群整體訓練效率。

首先是 建模仿真驅動的智能并行優化。

華為團隊采用如下圖所示的系統建模仿真框架,將原本需要大量人工試錯的并行策略選擇問題轉化為精確的自動化搜索過程。

基于昇騰800T A2訓練集群的硬件特性和約束條件,為Pangu Ultra MoE 718B模型確定了最優部署配置:

16路流水線并行(Pipeline Parallelism)進行模型層間切分

8路張量并行(Tensor Parallelism)專門處理注意力計算

32路專家并行(Expert Parallelism)實現專家模塊分布式計算

2路虛擬流水線并行(Virtual Pipeline Parallelism)提升流水線效率

最終實現了與昇騰架構深度適配的最優化部署方案。


訓練系統建模仿真流程

其次是 Adaptive Pipe前反向通算掩蓋 。

為了突破并行擴展中的通信瓶頸問題,華為團隊創新設計了昇騰網絡拓撲適配的分層All-to-All通信去冗余機制,結合細粒度前反向計算重疊編排,成功將大規模MoE訓練中的專家并行通信開銷降至 接近零暴露(<2%) :

層次化專家并行通信 : 華為給 出了與昇騰訓練集群拓撲深度適配的多級通信策略。首先在節點間進行去冗余的token收集操作,避免相同token在低帶寬的跨節點鏈路上重復傳輸;隨后利用節點內高帶寬優勢,通過All-to-All通信實現token的冗余分發。這一分層設計顯著提升了專家并行的整體通信效率。

自適應細粒度前反向掩蓋 :針對分層專家并行通信特點,設計了基于虛擬流水線并行(VPP)的細粒度前反向重疊掩蓋策略。相比 業界 DualPipe掩蓋方案,該策略將權重內存占用減少一半。通過進一步拆解MLP模塊計算流程,充分利用分層專家并行通信中各級帶寬相對獨立的特性,實現算子執行順序的自適應調優,最終將專家并行通信幾乎完全隱藏(未掩蓋比例僅為2%)。

最后是 EDP Balance 全局動態負載均衡 。

對于MoE模型,模型規模和集群規模的增長會導致專家計算、注意力計算以及各層間的負載不均衡問題相互疊加并被顯著放大。當多種性能瓶頸同時出現時,通信同步等待會在系統中傳播擴散,造成整體性能的嚴重惡化。

華為團隊采用系統性的分析方法,深入剖析專家并行(EP)、數據并行(DP)、流水線并行(PP)各通信域中潛在的負載均衡挑戰,提出了EDP全局負載均衡優化策略。

這個策略不僅通過專家負載預測和動態調節機制(如下圖)實現設備間計算負載的精確平衡,還通過注意力數據重排技術進一步優化了數據并行域間的負載分布效果。

此外,團隊將虛擬流水線并行(VPP)機制與硬件規格特點相結合,設計了最優混合并行架構,有效緩解了模型各層間計算負載分布不均的問題,大幅提升了整體訓練效率。


基于專家動態遷移的EP間負載均衡整體框架圖

第二招:釋放昇騰單節點算力

在昇騰超大規模集群優化實現突破性進展后,華為團隊將優化焦點轉向 底層 算子計算效率的深度挖潛。

這個階段的核心工作圍繞昇騰架構深度適配的訓練算子加速展開,通過緩解Host資源瓶頸以及內存優化策略雙重手段,成功將微批處理規模(MBS)提升至原來的兩倍。

同時團隊還對算子調度下發鏈路進行協同優化,最終實現了昇騰單節點算力的全面釋放。

華為團隊的“第二招”,同樣包含三個細分內容;首先就是 昇騰親和的訓練算子加速 。

在 大模型訓練計算過程中 ,FlashAttention、MatMul以及Permute/Unpermute等向量操作算子的執行時間占據了 算子 總計算耗時的四分之三以上。

針對這些關鍵算子類型,華為團隊充分利用昇騰微架構特性,通過算子流水線排布優化和數學等價冗余計算消除等核心技術手段,實現了訓練算子性能的顯著躍升。

其次是 Host-Device協同的算子下發優化。

針對同步型間歇性Host-Bound和系統性持續性Host-Bound問題,華為團隊充分發揮昇騰+鯤鵬異構系統協同優勢,構建了分層優化體系來實現高效算子調度:

對于同步型Host-Bound問題,不僅有效消除了同步操作引發的Host資源瓶頸,在無法完全規避同步的場景下,還通過優化鯤鵬處理器的算子下發與調度策略,顯著降低了同步后的Host-Bound開銷。

對于系統性Host-Bound問題,則采用增大微批處理規模(MBS)、鯤鵬CPU NUMA親和性優化等多維度協同手段,大幅提升算子下發效率。

通過算法與系統的深度協同優化,華為團隊成功將MoE模型訓練中的Host-Bound占比控制在2%以下,為超大規模模型訓練探索出了全新的技術范式。

最后是 Selective R/S-精準的內存手術方案 。

華為團隊構建了一個精密的內存優化框架:以豐富多樣的通用化重計算策略和Swap機制作為“精密工具庫”,涵蓋從模塊級到張量級的細粒度優化選項;配合精心設計的自適應內存管理機制作為“智能調度平臺”。

這個框架針對Pangu Ultra MoE 718B模型訓練需求,實現了多維度、定制化的內存資源精確調配。

通過構建最優內存優化策略組合,以精準的資源管理手段最大化釋放內存空間,成功實現了超過70%的激活值內存節省。

即使在微批處理規模(MBS)翻倍帶來的內存壓力挑戰下,這個方案依然為模型的長期穩定訓練提供了可靠保障。

第三招:首次披露高性能可擴展RL后訓練關鍵技術

華為團隊針對強化學習訓練中異構模型和多任務場景導致的資源利用率偏低問題,通過深入的系統分析和創新設計,提出了 RL Fusion訓推共卡技術 。

這一技術支持 訓練推理共卡 、全共卡等多種靈活部署模式(如下圖),實現推理階段資源調度的精細化可控管理,支持張量并行(TP)、數據并行(DP)、專家并行(EP)、流水線并行(PP)等多維并行策略的動態無縫切換。

可在秒級時間內完成訓推狀態轉換,最終實現了 RL后訓練 集群利用率 翻倍的 顯著提升 。


分離部署、訓推共卡部署、全共卡部署資源利用率示意圖

除此之外,華為團隊還展示了 面向大規模集群高效可擴展的后訓練框架 :

摒棄全同步迭代方式,設計容忍梯度“陳舊性”的 準異步機制StaleSync (如下圖),讓不同RL階段的不同任務在“陳舊度閾值”內并行執行。在保證模型精度的前提下,系統整體訓練吞吐提升50%。

針對RL階段多任務的處理需求,設計了 分布式數據隊列DistQueue ,實現不同計算任務之間數據的拆分、緩存與動態讀取。DistQueue對整個后訓練過程中的數據進行管理,有效緩解不同計算任務之間的數據阻塞,為后訓練任務高效調度提供數據支持。


02

2秒就能讓大模型吃透一道高數大題

通過預訓練和RL后訓練加速技術,華為團隊基于MindSpeed、Megatron以及vLLM框架,打造了昇騰全流程高效訓練系統。

這個系統可支持超大規模集群和超大規模MoE模型,并在Pangu Ultra MoE模型訓練中實現了端到端的流暢訓練。

Pangu Ultra MoE模型擁有7180億參數量,具有大稀疏比和高綜合性能的顯著特點。

其架構包含61層Transformer,前3層為稠密層,后58層為MoE層。模型隱層維度達7680,配備256個路由專家和1個共享專家,專家隱層維度為2048。

在預訓練 階段 ,華為團隊使用6K - 10K卡的昇騰800T A2集群對Pangu Ultra MoE進行訓練。 在 序列長度為8K、萬卡訓練集群的條件下,模型 算力 利用率(MFU)創下新高,達到了41%。 上述訓練系統具有很強的泛化性,可高效擴展至更大規模參數模型和更大規模卡數集群,同時如果配合昇騰 CloudMatrix 384超 節點的高速互聯特性,預計可支撐訓練集群 MFU > 50%, 相關技術迭代實踐結果也將在日后技術報告中發布。

而在RL后訓練階段,于Pangu Ultra MoE昇騰CloudMatrix 384超節點集群的后訓練中,采用訓練推理混合并行策略(訓練:PP16/VPP2/EP32/TP8,推理:PP1/EP64//TP1),并結合異步RL算法與訓練框架系統的協同創新,實現了每超節點35K Tokens/s的高吞吐能力。同時支持高效擴展超過4K卡的集群,這一效率相當于每2秒就能 吃透 一道高等數學大題,實現了昇騰超節點吞吐的新突破。

以上便是華為Pangu Ultra MoE訓練系統全流程的深度揭秘了。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名男演員減肥瘦到脫相,否認用“科技”!曾自曝45天瘦45斤

知名男演員減肥瘦到脫相,否認用“科技”!曾自曝45天瘦45斤

魯中晨報
2025-06-02 16:35:35
不留情面!中方明確拒絕特朗普來華請求,限期半個月讓美“退場”

不留情面!中方明確拒絕特朗普來華請求,限期半個月讓美“退場”

小lu侃侃而談
2025-06-02 19:16:22
真是太難了!燃油車價格大降,最高下調50%,合資車成“白菜價”

真是太難了!燃油車價格大降,最高下調50%,合資車成“白菜價”

侃故事的阿慶
2025-06-01 10:57:40
趙睿10中3拿9分,胡明軒表現如何?

趙睿10中3拿9分,胡明軒表現如何?

老夳古裝影視解說
2025-06-03 03:45:47
妻子出軌,丈夫將15公分蠟燭塞進妻子的陰道內

妻子出軌,丈夫將15公分蠟燭塞進妻子的陰道內

胖胖侃咖
2025-04-13 08:00:08
韓國前總統尹錫悅5月穿棉襖悠然散步街頭引韓國網友猛批

韓國前總統尹錫悅5月穿棉襖悠然散步街頭引韓國網友猛批

隨波蕩漾的漂流瓶
2025-06-01 19:41:37
抵達米蘭將接受體檢,路易斯-恩里克:我準備好參加世俱杯了

抵達米蘭將接受體檢,路易斯-恩里克:我準備好參加世俱杯了

懂球帝
2025-06-02 23:36:15
上海明確:9個區納入試點!持續半年!37.6%老齡化下,陪診、收納、照護...養老服務可找物業搞定

上海明確:9個區納入試點!持續半年!37.6%老齡化下,陪診、收納、照護...養老服務可找物業搞定

上觀新聞
2025-06-02 21:22:00
烏克蘭大規??找u俄羅斯后,美民眾恐慌:這套戰術對美國更好用!

烏克蘭大規模空襲俄羅斯后,美民眾恐慌:這套戰術對美國更好用!

阿龍聊軍事
2025-06-02 21:14:52
周杰倫和昆凌在日本京都逛街,打扮一言難盡,穿的低襠褲太丑了

周杰倫和昆凌在日本京都逛街,打扮一言難盡,穿的低襠褲太丑了

聯友說娛
2025-06-02 14:00:41
五旬老漢十年間染指村里25名女性,上到50下到15,只因抓住弱點

五旬老漢十年間染指村里25名女性,上到50下到15,只因抓住弱點

歷史八卦社
2024-05-19 18:01:45
羅馬諾:米蘭夢想免簽莫德里奇,已在內部進行討論

羅馬諾:米蘭夢想免簽莫德里奇,已在內部進行討論

懂球帝
2025-06-03 04:26:28
女童衣著暴露在漫展拍照直播引爭議, 主辦方:第一時間制止,家長現場給小孩換回普通服裝

女童衣著暴露在漫展拍照直播引爭議, 主辦方:第一時間制止,家長現場給小孩換回普通服裝

揚子晚報
2025-06-02 23:17:07
余承東稱看完后一身冷汗!“按華為質量標準,有車廠一臺車都不能發貨”

余承東稱看完后一身冷汗!“按華為質量標準,有車廠一臺車都不能發貨”

北京商報
2025-05-31 20:23:47
轟21+16!中國男籃又一18歲2米15新星崛起:新版周琦臂展2米30

轟21+16!中國男籃又一18歲2米15新星崛起:新版周琦臂展2米30

李喜林籃球絕殺
2025-06-02 12:51:42
正大量上市!女子吃完第二天就確診!福建醫生:嚴重可致死!小孩要特別注意

正大量上市!女子吃完第二天就確診!福建醫生:嚴重可致死!小孩要特別注意

福建衛生報
2025-05-30 12:50:27
我退休金7千,存款有100萬,血的教訓告訴我,不要和誰上演黃昏戀

我退休金7千,存款有100萬,血的教訓告訴我,不要和誰上演黃昏戀

白云故事
2025-05-27 08:05:08
哈佛畢業禮演講的中國女生被扒:非普通人,乃“綠發會”主任女兒

哈佛畢業禮演講的中國女生被扒:非普通人,乃“綠發會”主任女兒

小蘿卜絲
2025-05-31 13:16:41
華東師范大學經濟與管理學院教授許鑫因病逝世,年僅49歲

華東師范大學經濟與管理學院教授許鑫因病逝世,年僅49歲

澎湃新聞
2025-06-02 15:24:27
世界網壇名將炮轟鄭欽文:巡回賽最強戲精,輸球就各種理由

世界網壇名將炮轟鄭欽文:巡回賽最強戲精,輸球就各種理由

塵語者
2025-03-05 19:52:20
2025-06-03 05:08:49
雷峰網 incentive-icons
雷峰網
關注智能與未來!
66502文章數 655672關注度
往期回顧 全部

科技要聞

下周的WWDC,蘋果AI依舊不會有“驚喜”

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

頭條要聞

媒體:烏"奇襲"突破有核國家底線 俄應作出最強烈反擊

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

大S女兒來北京!馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩定幣、RWA"是什么?誰將受益?

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

教育
藝術
家居
時尚
本地

教育要聞

收藏:2024山東高考專科平均分投檔表

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

原木純白 邂逅自然本真

今年一定要擁有的10件“無齡感”單品,從20歲穿到70歲都很時髦!

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 福建省| 罗江县| 辽宁省| 平原县| 依安县| 江油市| 绥宁县| 鄂州市| 定南县| 邢台市| 宝山区| 定远县| 龙井市| 鹤庆县| 万盛区| 江安县| 江永县| 德兴市| 高唐县| 东丽区| 屏东市| 东宁县| 马公市| 从化市| 南汇区| 绥德县| 黎川县| 洛浦县| 当阳市| 延吉市| 金川县| 义乌市| 禄丰县| 珲春市| 梁河县| 梅河口市| 浪卡子县| 京山县| 疏附县| 齐河县| 绵阳市|