99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Bye,英偉達!華為NPU,跑出了準萬億參數(shù)大模型

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

現(xiàn)在,跑準萬億參數(shù)的大模型,可以徹底跟英偉達Say Goodbye了。

完成此舉的,正是華為!



技術(shù)報告:arxiv.org/abs/2505.04519

要知道,在此之前,訓(xùn)練萬億參數(shù)大模型這事,是有諸多“攔路虎”在身上的。

例如負載均衡難、通信開銷大、訓(xùn)練效率低等等。

而華為盤古團隊(包含諾亞方舟實驗室、華為云等)基于昇騰國產(chǎn)算力平臺,一舉攻破了上述所有的挑戰(zhàn)——

6000+塊昇騰NPU集群上完成了7180億(718B)參數(shù)MoE模型的長期穩(wěn)定訓(xùn)練,并通過多項突破性系統(tǒng)優(yōu)化技術(shù)實現(xiàn)了顯著性能提升。

這些創(chuàng)新大幅提高了訓(xùn)練效率,支撐了行業(yè)頂尖水平模型的開發(fā)!



不得不說,“國產(chǎn)”二字在大模型硬件上的含金量還在持續(xù)上升。



純國產(chǎn)NPU,絲滑跑通準萬億參數(shù)大模型

在拆解華為一系列“黑科技”之前,我們先需要更深入地了解一下訓(xùn)練超大參數(shù)MoE模型背后的困難。

總體來看,在這條路上有“四大金剛”在嚴陣把守。

首先就是架構(gòu)參數(shù)優(yōu)化難題,需在眾多參數(shù)組合中探索最優(yōu)配置,設(shè)計適配昇騰NPU的大規(guī)模MoE架構(gòu),實現(xiàn)計算資源的高效利用。

其次是動態(tài)負載均衡挑戰(zhàn),路由機制需要智能分配任務(wù),避免專家資源分配不均;這種不平衡不僅會因“木桶效應(yīng)”降低訓(xùn)練效率,更可能導(dǎo)致模型收斂異常,影響最終性能表現(xiàn)。

還有分布式通信的瓶頸,在近萬億參數(shù)規(guī)模下,token在不同計算節(jié)點間的專家流轉(zhuǎn)會產(chǎn)生巨大通信開銷,“通信墻”問題成為制約訓(xùn)練效率的關(guān)鍵因素。

最后就是硬件適配復(fù)雜度,實現(xiàn)MoE算法與昇騰NPU等專用AI加速器的深度協(xié)同,需要打通算法設(shè)計、軟件框架和硬件特性的全棧優(yōu)化,充分釋放硬件計算潛力。

針對這些問題,華為的這份技術(shù)報告分別從模型架構(gòu)、MoE訓(xùn)練分析、系統(tǒng)優(yōu)化等方面,詳細介紹了其如何見招拆招。

首先就是MoE結(jié)構(gòu)選型與昇騰親和結(jié)構(gòu)優(yōu)化

團隊先進行先導(dǎo)實驗,確定了細粒度專家加上共享專家這樣的范式。隨后在模型選型的時候,考慮了多個方面的因素。

在計算與訪存親和方面,通過增大模型里的hidden size(隱藏層大小),同時降低激活參數(shù)量,這樣不僅能提升模型的計算量,還可以降低訪存量,提高了模型訓(xùn)練時對算力的利用率,以及推理時的吞吐量。

在多維并行親和方面,采用數(shù)量為2的指數(shù)級的專家數(shù)量,達成了TP8×EP4超融合并行的方式。

運用TP-extend-EP技術(shù),避免因 TP 切分細粒度專家造成MatMul(矩陣乘法)等算子的效率下降,同時使用分組 AllToAll 通信技術(shù)來減少 EP 通信所產(chǎn)生的開銷。

在 DaVinci 架構(gòu)親和方面,將張量按照256進行對齊處理,使其能完美匹配16×16矩陣計算單元,充分釋放昇騰NPU的算力。

在流水線編排親和方面,采用PP(流水線并行)、VPP(可變流水線并行)、空層等技術(shù),實現(xiàn)PP和VPP的負載均衡,減少計算資源閑置(空泡)的情況。



模型結(jié)構(gòu)仿真方面,團隊根據(jù)硬件的適配特點,對模型參數(shù)的選擇范圍進行了大幅調(diào)整,把原本龐大的參數(shù)搜索空間縮小到了10000個左右。

為了能更準確地知道不同模型的性能極限,團隊開發(fā)了一套專門的建模仿真工具。這個工具很厲害,它把模型結(jié)構(gòu)、運行時采用的策略,還有硬件系統(tǒng),都拆分成了一個個小的參數(shù)。

通過對算子、Block、Layer這些層級的計算、數(shù)據(jù)傳輸和讀取操作進行模擬,就能算出模型從頭到尾的整體性能。經(jīng)過和實際測試數(shù)據(jù)對比,發(fā)現(xiàn)這個仿真工具的準確率能達到85%以上。

團隊用這個建模仿真工具,把所有符合硬件適配要求的參數(shù)組合都測試了一遍,仔細評估它們在訓(xùn)練和推理時的數(shù)據(jù)處理速度,最后找到了性能相對更好的模型結(jié)構(gòu),具體情況可以看下面的圖。



接下來,我們再看下MoE訓(xùn)練的分析

在訓(xùn)練MoE模型的時候,和普通的稠密模型相比,有個特別讓人頭疼的問題,就是負載不均衡。

打個比方,就像一群人干活,有的人忙得不可開交,有的人卻閑著沒事干,這樣效率肯定高不了。

為了解決這個問題,科研界從算法角度想了很多辦法,提出了各種各樣的輔助損失函數(shù),這些函數(shù)關(guān)注的均衡范圍不太一樣。

比如,早期有專門針對序列級別的均衡輔助損失,還有通義千問提出的DP - Group(也就是全局批次大小)均衡輔助損失。

這些輔助損失函數(shù),就像是給MoE模型里的路由模塊(負責(zé)分配任務(wù)的部分)定了規(guī)矩,通過不同程度的約束,讓它把任務(wù)分配得更均勻一些。具體的約束情況,都整理在下面的表格里了。

△Balance BSZ表示用來計算專家選擇頻率的tokens個數(shù)



團隊還研發(fā)出了一種全新的EP組負載均衡損失算法

和傳統(tǒng)的micro-batch輔助損失相比,它不會過度強求局部任務(wù)分配的絕對均衡,避免了“矯枉過正”;跟DP組的均衡損失比起來,它在數(shù)據(jù)傳輸時耗費的資源更少,能節(jié)省不少通信成本。

而且在對專家任務(wù)量的約束程度上,它處于兩者之間,是個更折中的方案。

為了驗證這個新算法的效果,團隊在一個總參數(shù)量達200億(20B)的先導(dǎo)MoE模型上,專門做了消融實驗,具體情況如下:



為了應(yīng)對專家負載不均的“木桶效應(yīng)”,MoE可以采用drop-and-pad的方式來提升訓(xùn)練的吞吐。

團隊首先在一個20B的先導(dǎo)MoE上對比了不同專家總數(shù)下drop-and-pad和dropless的性能:



結(jié)果顯示,dropless總是優(yōu)于drop-and-pad方案。

并且這種性能的差距會隨著專家數(shù)變多、模型參數(shù)變大而進一步放大。

因此在訓(xùn)練盤古Ultra MoE時采用了dropless的方案,并重點優(yōu)化了這一策略下的訓(xùn)練效率。

具體而言,團隊從四個關(guān)鍵方向?qū)ΡP古Ultra MoE 模型進行了全面優(yōu)化,包括改進并行計算策略、優(yōu)化數(shù)據(jù)傳輸效率、提升顯存使用效果,以及讓任務(wù)分配更均勻。

在由6000+個昇騰NPU組成的大型計算集群上,模型的算力利用率(MFU,即Model FLOPs Utilization)達到了30.0%,和優(yōu)化前相比,提升幅度高達58.7%。

團隊用一套能模擬全流程的模型仿真系統(tǒng),反復(fù)試驗尋找最佳的并行計算方案。

最終確定的方案是:采用16路流水線并行、8路張量并行、4路專家并行、2路虛擬流水線并行,以及48路數(shù)據(jù)并行。

在專家并行這塊,團隊用了TP拓展EP的策略。

簡單來說,就是讓TP組來劃分專家數(shù)量,這樣做能避免因為TP組拆分專家參數(shù),導(dǎo)致GMM算子在處理小規(guī)模專家數(shù)據(jù)時效率暴跌的問題。

整個系統(tǒng)里,專家組總數(shù)是32組(TP 和 EP 組合計算得出),一共劃分成256個專家。

虛擬流水線并行策略效果特別好,以前訓(xùn)練時,計算資源閑置(空泡率)的情況占18.98%,用了新策略后,直接降到10.49% 。

同時,通過合理分配MTP層和損失函數(shù)層的任務(wù),把任務(wù)分配不均衡導(dǎo)致的負載溢出,控制在5%以內(nèi),大大減少了任務(wù)分配不均帶來的負面影響。



為了解決并行擴展中的通信瓶頸,團隊還設(shè)計了兩個主要技術(shù)。

首先就是Hierarchical EP Communication分級EP通信

相比機內(nèi)通信,跨機通信帶寬較低。團隊采用分級EP通信,減少跨機通信量。

具體來說,采用跨機Allgather 通信將所有tokens同步到機內(nèi),然后在機內(nèi)對token排序并采用機內(nèi)AlltoAll通信對tokens重新分配。

機內(nèi)通信和機間通信都可以通過前反向通信掩蓋技術(shù)掩蓋,從下圖的通信量對比可以看到分級EP通信對跨機通信量減少的效果。



其次是Adaptive Pipe Overlap Mechanism自適應(yīng)前反向掩蓋策略

即使采用分級EP通信策略,EP通信的耗時占比仍然很高。前反向的大部分EP通信與計算均具有依賴關(guān)系,自然掩蓋策略會暴露大部分EP通信。

如果采用通算融合算子等自掩蓋策略,又不可避免地會降低計算效率。

因此,團隊采用基于VPP調(diào)度的自適應(yīng)前反向掩蓋策略,實現(xiàn)如下圖流程的前向計算掩蓋反向通信,反向計算掩蓋前向通信。

核心設(shè)計包括:利用機間與機內(nèi)通信鏈路帶寬獨立特點實現(xiàn)機內(nèi)通信與機間通信的互相掩蓋,利用算子的有效排布緩解host bound,將專家反向dw計算與dx計算分離做更細粒度的掩蓋。



對顯存進行優(yōu)化時,團隊采用了新的計算方式。

不再使用傳統(tǒng)的全重計算,而是對細粒度模塊,像MLA、Permute和激活函數(shù)進行重新計算,這樣能避免額外的計算消耗。

同時,運用Tensor Swapping技術(shù),把重新計算不太劃算的激活值,先轉(zhuǎn)移到CPU那邊,等需要反向計算時再提前取回來,讓NPU內(nèi)存得到更高效的利用。

團隊還在研究新的顯存節(jié)省方法,準備把多種優(yōu)化策略組合起來,根據(jù)不同的設(shè)備配置,找到最適合的組合,既能提高顯存利用率,又不會降低模型性能。

讓每臺設(shè)備上專家處理的任務(wù)量(token 數(shù)量)盡量均勻,能大幅提升訓(xùn)練效率。

為此,團隊設(shè)計了一套動態(tài)的設(shè)備級負載均衡機制。

首先,規(guī)劃器就像一個“小管家”,通過觀察一段時間內(nèi)專家的工作負載情況,預(yù)測未來的任務(wù)量,再用貪心算法規(guī)劃出如何重新分配專家,讓設(shè)備間的任務(wù)更均衡。

然后,執(zhí)行器定期行動,把不同Transformer層的專家參數(shù)和優(yōu)化器狀態(tài)在設(shè)備間轉(zhuǎn)移。通過這種動態(tài)調(diào)整,模型的MFU提高了10%。



除了上面這些,團隊還開發(fā)了一些專門適配昇騰設(shè)備的技術(shù),包括主機端優(yōu)化、計算卸載與數(shù)據(jù)共享,以及融合算子。

  • 算子下發(fā)優(yōu)化:為了解決host端性能瓶頸問題,團隊減少了那些需要頻繁同步操作的算子,避免不必要的等待。同時,使用細粒度CPU綁核技術(shù),讓CPU和NPU配合得更好,任務(wù)下發(fā)更順暢。
  • 計算卸載與數(shù)據(jù)共享:當遇到NPU處理起來效率低的數(shù)據(jù)計算,或者在TP區(qū)域內(nèi)數(shù)據(jù)傳輸慢的情況,作者把這些不適合NPU的計算從主計算流程中分離出來,交給CPU在數(shù)據(jù)加載時處理。再結(jié)合數(shù)據(jù)共享技術(shù),讓同一節(jié)點內(nèi)的計算和數(shù)據(jù)傳輸速度都大大提高。
  • 融合算子:除了盤古稠密模型里已有的FlashAttention 和 RMSNorm融合算子,團隊在MoE模型里又加入了 GMMAdd、Permute和Umpermute融合算子。GMMAdd融合算子把GroupedMatMul的反向計算和梯度累加放在一起處理,利用并行和流水線技術(shù)減少調(diào)度時間。Permute和Unpermute融合算子整合了多種操作,能更快地讀寫內(nèi)存。



實驗結(jié)果

在訓(xùn)練數(shù)據(jù)集構(gòu)建過程中,團隊實施嚴格的數(shù)據(jù)質(zhì)量控制,并著重強調(diào)語料庫的多樣性、復(fù)雜性和全面性。

針對長鏈思維樣本引入特殊標記符號對推理軌跡與最終答案進行結(jié)構(gòu)化分隔。

后訓(xùn)練階段采用指令微調(diào)策略,數(shù)據(jù)涵蓋領(lǐng)域廣泛,包含通用問答、文本生成、語義分類、代碼編程、數(shù)理邏輯推理及工具使用等。

特別將推理與非推理樣本比例設(shè)定為3:1,進一步提升推理性能。

實驗表明,盤古Ultra MoE對話版本在多領(lǐng)域均展現(xiàn)出卓越競爭力,在大多數(shù)benchmark上與DeepSeek-R1表現(xiàn)相當。比如通用理解任務(wù)(如CLUEWSC 94.8分、MMLU 91.5分)中展現(xiàn)卓越理解力,在數(shù)學(xué)推理與代碼生成等高難度測試(如AIME2024 81.3分、MBPP+ 81.2分)中表現(xiàn)優(yōu)異,具備突出的代碼與數(shù)學(xué)解題能力。



團隊還對盤古Ultra MoE進行了專家專業(yè)度分析。

在不同任務(wù)中,同一網(wǎng)絡(luò)層的token會被優(yōu)先路由至不同專家,專家專業(yè)化程度存在顯著任務(wù)差異性。

這證實了盤古Ultra MoE已形成顯著的專家差異化,這種特性不僅增強了模型的表達能力,更為其卓越性能提供了關(guān)鍵支撐。



盤古Ultra MoE的MoE層輸出由共享專家和路由專家共同貢獻的加權(quán)和構(gòu)成。

因此,保持二者輸出的平衡至關(guān)重要。

下圖中展示了路由專家在各網(wǎng)絡(luò)層均保持著與共享專家相當?shù)呢暙I強度,這種均衡的協(xié)同作用有效提升了模型的整體表征能力。



團隊還分析了專家的共激活現(xiàn)象,激活分數(shù)越高,說明兩個專家之間的相關(guān)性越強。

在下圖中,除少數(shù)例外情況外,這三層中的專家之間并未出現(xiàn)明顯的共激活現(xiàn)象,這反映了盤古Ultra MoE的專家冗余度較低。



以上便是華為國產(chǎn)NPU跑準萬億參數(shù)大模型背后的奧義了。

華為盤古Ultra MoE技術(shù)的突破,不僅標志著國產(chǎn)算力平臺在AI大模型訓(xùn)練領(lǐng)域邁入世界領(lǐng)先行列,更彰顯了中國科技自主創(chuàng)新的強大實力。

它證明了中國企業(yè)在全球AI競賽中已具備從跟跑到并跑,甚至領(lǐng)跑的實力。

未來,隨著技術(shù)的持續(xù)迭代與應(yīng)用場景的拓展,盤古Ultra MoE將為千行百業(yè)的智能化轉(zhuǎn)型注入強勁動力,助力中國在新一輪科技革命中占據(jù)制高點,為人類科技進步貢獻更多“中國智慧”。

技術(shù)報告下載地址:
arxiv.org/abs/2505.04519

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普最新表態(tài)!不會下調(diào)對中國的145%關(guān)稅,談判是中國人主動提出的

特朗普最新表態(tài)!不會下調(diào)對中國的145%關(guān)稅,談判是中國人主動提出的

西游日記
2025-05-08 13:04:17
天吶!45歲胡杏兒太敢穿了,不轉(zhuǎn)身還挺好 一轉(zhuǎn)身是不是有點尷尬?

天吶!45歲胡杏兒太敢穿了,不轉(zhuǎn)身還挺好 一轉(zhuǎn)身是不是有點尷尬?

小椰的奶奶
2025-05-09 01:02:37
炸了!烏克蘭無人機襲擊了俄閱兵飛行特技表演隊基地

炸了!烏克蘭無人機襲擊了俄閱兵飛行特技表演隊基地

史政先鋒
2025-05-08 10:11:00
好消息,庫里在勇士打森林狼的第二場比賽前被發(fā)現(xiàn)參加了投籃訓(xùn)練

好消息,庫里在勇士打森林狼的第二場比賽前被發(fā)現(xiàn)參加了投籃訓(xùn)練

好火子
2025-05-09 01:16:00
恭喜德布勞內(nèi)!空降意甲爭冠!3年長約+承諾核心,欲復(fù)仇曼城

恭喜德布勞內(nèi)!空降意甲爭冠!3年長約+承諾核心,欲復(fù)仇曼城

阿泰希特
2025-05-08 12:12:49
上海交大女博士舉報導(dǎo)師:導(dǎo)師本人回應(yīng),舉報帖消失,女生再發(fā)聲

上海交大女博士舉報導(dǎo)師:導(dǎo)師本人回應(yīng),舉報帖消失,女生再發(fā)聲

影像溫度
2025-05-08 21:24:14
特朗普:與英國達成“重大協(xié)議” 將為美國產(chǎn)品擴大市場準入

特朗普:與英國達成“重大協(xié)議” 將為美國產(chǎn)品擴大市場準入

財聯(lián)社
2025-05-08 23:16:03
俄羅斯將舉行紅場大閱兵,今年有何“大不同”?

俄羅斯將舉行紅場大閱兵,今年有何“大不同”?

上觀新聞
2025-05-08 21:06:09
只安分30小時,印軍再次襲擊巴基斯坦,擊毀中國產(chǎn)防空系統(tǒng)?

只安分30小時,印軍再次襲擊巴基斯坦,擊毀中國產(chǎn)防空系統(tǒng)?

阿纂看事
2025-05-09 00:05:23
武契奇在莫斯科紅場:答應(yīng)過普京我會來

武契奇在莫斯科紅場:答應(yīng)過普京我會來

環(huán)球時報國際
2025-05-08 18:38:45
“如果英偉達無法進入中國,美國等同把3600億AI市場拱手讓給華為”|鈦媒體AGI

“如果英偉達無法進入中國,美國等同把3600億AI市場拱手讓給華為”|鈦媒體AGI

鈦媒體APP
2025-05-08 09:44:15
原來劉畊宏夫婦,他們有一個大團隊啊,果然沒有普通的網(wǎng)紅

原來劉畊宏夫婦,他們有一個大團隊啊,果然沒有普通的網(wǎng)紅

西樓知趣雜談
2025-05-08 12:12:55
莫斯科導(dǎo)彈工廠遭受大規(guī)模空襲!烏軍攻擊卡盧加空軍基地

莫斯科導(dǎo)彈工廠遭受大規(guī)模空襲!烏軍攻擊卡盧加空軍基地

項鵬飛
2025-05-08 19:42:53
周受資夫婦亮相MetGala:周太太銀色裙裝設(shè)計優(yōu)雅大氣

周受資夫婦亮相MetGala:周太太銀色裙裝設(shè)計優(yōu)雅大氣

述家娛記
2025-05-07 08:45:29
“晚上來,喝點酒才放得開” 記者暗訪臺球女助教,真相讓人意外

“晚上來,喝點酒才放得開” 記者暗訪臺球女助教,真相讓人意外

小人物看盡人間百態(tài)
2025-05-08 22:12:48
江蘇省人社廳發(fā)布2025年退休人員漲工資方案

江蘇省人社廳發(fā)布2025年退休人員漲工資方案

景來律師
2025-05-08 22:12:52
成都市金堂縣文聯(lián)原主席李曉旭接受審查調(diào)查

成都市金堂縣文聯(lián)原主席李曉旭接受審查調(diào)查

魯中晨報
2025-05-08 16:20:02
重慶一大學(xué)生手握十余篇論文和多項發(fā)明專利獲國家獎學(xué)金 網(wǎng)友質(zhì)疑其學(xué)術(shù)造假 校方回應(yīng)

重慶一大學(xué)生手握十余篇論文和多項發(fā)明專利獲國家獎學(xué)金 網(wǎng)友質(zhì)疑其學(xué)術(shù)造假 校方回應(yīng)

封面新聞
2025-05-08 20:22:07
44歲男歌手被發(fā)現(xiàn)在家中去世,在上海參加選秀走紅!死因曝光,真的太可惜……

44歲男歌手被發(fā)現(xiàn)在家中去世,在上海參加選秀走紅!死因曝光,真的太可惜……

環(huán)球網(wǎng)資訊
2025-05-08 12:05:05
17歲森碟在北京合生匯被偶遇,純素顏買倉鼠,下巴矯正后好漂亮

17歲森碟在北京合生匯被偶遇,純素顏買倉鼠,下巴矯正后好漂亮

漣漪讀史
2025-05-08 14:10:51
2025-05-09 06:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10443文章數(shù) 176133關(guān)注度
往期回顧 全部

科技要聞

理想L煥新版來了,輔助駕駛芯片全系升級

頭條要聞

普雷沃斯特當選新一任天主教羅馬教皇

頭條要聞

普雷沃斯特當選新一任天主教羅馬教皇

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風(fēng)波口碑翻車!

財經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長舉措

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態(tài)度原創(chuàng)

家居
旅游
親子
本地
公開課

家居要聞

侘寂美學(xué) 樸素而有生機

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

當媽第一年,我被這10條育兒“偽科學(xué)”坑慘了……你踩過幾條?

本地新聞

非遺里的河南|汴梁鳶舞千年韻!宋室風(fēng)箏藏多少絕活

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 龙川县| 合江县| 敦煌市| 喀什市| 灌阳县| 托克逊县| 会理县| 鞍山市| 米脂县| 阜新市| 崇仁县| 会同县| 凤庆县| 中宁县| 临西县| 广宗县| 四子王旗| 安远县| 祁阳县| 汕尾市| 炉霍县| 渭源县| 嘉禾县| 四川省| 梅州市| 洪湖市| 巨野县| 余江县| 麻阳| 永昌县| 永善县| 渝北区| 鄂托克前旗| 江都市| 丹东市| 都匀市| 龙川县| 崇礼县| 广西| 开封市| 平安县|