“盤古Pro MoE帶領(lǐng)大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」。”
作者丨李希
當(dāng)前,混合專家模型(Mixture of Experts, MoE )在大型語言模型中的興起,使得以較小的計(jì)算開銷換取更大能力成為可能。然而,傳統(tǒng) MoE 普遍存在專家激活頻次高度不均衡現(xiàn)象,當(dāng)專家并行部署于不同硬件設(shè)備時(shí),易引發(fā)系統(tǒng)效率瓶頸。
為此,華為盤古團(tuán)隊(duì)提出 分組混合專家模型(Mixture of Grouped Experts, MoGE ) ,通過在專家選擇階段引入分組機(jī)制,可確保跨設(shè)備的計(jì)算負(fù)載均衡,成功在 4K 昇騰大規(guī)模集群 進(jìn)行高效訓(xùn)練。
同時(shí),基于 MoGE 架構(gòu)構(gòu)建的 盤古 Pro MoE 大模型(72B 總參數(shù)、16B 激活參數(shù)) 在昇騰 300I Duo 和 800I A2 可實(shí)現(xiàn)更優(yōu)的專家負(fù)載分布與計(jì)算效率(321 tokens/s 和 1528 tokens/s)。
在模型能力方面,盤古 Pro MoE 在最新一期業(yè)界權(quán)威大模型榜單 SuperCLUE 上交出了超能打的成績(jī),實(shí)現(xiàn)了綜合能力的領(lǐng)先。
具體來說,和其他動(dòng)輒千億以上的大模型(如 DeepSeek-R1 具有 671B 參數(shù))相比,盤古 Pro MoE 以 72B 總參數(shù)量達(dá)到了 59 分,千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。并且,16B 激活參數(shù)量可以媲美其他廠商更大規(guī)模的模型。
中文技術(shù)報(bào)告:
https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main
英文技術(shù)報(bào)告:https://arxiv.org/pdf/2505.21411
圖源:https://www.superclueai.com/
昇騰原生的 MoGE 大模型 架構(gòu) ,訓(xùn)練效率更優(yōu)
路由專家被均勻劃分為 個(gè) 不重疊的組,其中每個(gè)組內(nèi)的專家將 被分配到同一個(gè)設(shè)備上。對(duì)于每個(gè)輸入特征, MoGE 首先通過全局 softmax 路由器計(jì)算所有專家 的門控得分。接著,在每個(gè)專家組內(nèi),根據(jù)這些得分選出 ′ = / 個(gè) 得分最高的專家(圖中為 從每組 4 個(gè) 專家中選取 2 個(gè) )。未被選中的專家,其對(duì)應(yīng)權(quán)重被置為 0。最終 MoGE 的輸出由被 激活專家的輸出和共享專家的輸出加權(quán)求和得到。
01
序言
混合專家模型已成為大型語言模型領(lǐng)域的革新范式 —— 近年來,模型與數(shù)據(jù)集規(guī)模呈 指數(shù)級(jí) 增長(zhǎng),而 MoE 通過稀疏激活機(jī)制(僅針對(duì)每個(gè) token 激活部分專家子集),在維持 高表 達(dá)能力的同時(shí)降低計(jì)算開銷,使其在大規(guī)模應(yīng)用中極具吸引力。
然而,傳統(tǒng) MoE 架構(gòu)面臨的核心挑戰(zhàn)是專家負(fù)載不均衡:當(dāng)部分專家因過度專業(yè)化或 token 分配過載時(shí),其他專家則處于低效利用狀態(tài)。由于專家通常分布于多設(shè)備并行執(zhí)行, MoE 模塊的整體時(shí)延往往由承載最多 token 的設(shè)備決定,這種不均衡會(huì)嚴(yán)重?fù)p害計(jì)算效率與系統(tǒng)吞吐量。
針對(duì)這一行業(yè)難題,華為盤古團(tuán)隊(duì)(以下簡(jiǎn)稱團(tuán)隊(duì))推出 全新盤古 Pro MoE 大模型 。
該模型創(chuàng)新性提出分組均衡路由技術(shù),通過硬約束的負(fù)載均衡策略,確保每個(gè) token 在預(yù)定義的專家分組內(nèi)激活等量專家,這樣就天然的確保了跨設(shè)備的專家負(fù)載均衡;結(jié)合仿真優(yōu)化算法,從層數(shù)、寬度、專家數(shù)等多維度優(yōu)化資源分配,構(gòu)建出昇騰親和的盤古 Pro MoE 架構(gòu)。同時(shí),深度融合昇騰 300I Duo/800I A2 硬件加速架構(gòu)的并行計(jì)算特性與 算子級(jí)編譯 優(yōu)化技術(shù),實(shí)現(xiàn)從算法設(shè)計(jì)到系統(tǒng)落地的全棧創(chuàng)新。
實(shí)驗(yàn)表明,盤古 Pro MoE 在同等 算力條件 下推理延遲更低,和業(yè)界同規(guī)模大模型相比,通用和復(fù)雜推理綜合精度領(lǐng)先,為超大規(guī)模模型的工業(yè)化部署提供新范式。
接下來將系統(tǒng)性解析盤古 Pro MoE 的核心技術(shù)原理與工程實(shí)現(xiàn)路徑。
02
昇騰原生的MoGE新架構(gòu)
從「無序激活」到「精準(zhǔn)協(xié)同」
問題背景
傳統(tǒng) Top-K 路由存在無序激活的缺陷,也就是說,專家激活無限制,導(dǎo)致某些專家并行(EP)組負(fù)載過高(如某些組激活 4 個(gè) 專家,某些組專家無激活),引發(fā)計(jì)算瓶頸和端到端延遲上升。
如下圖所示,子圖 (a) 展示了在專家并行度 (EP)=4 時(shí),從 24 個(gè) 專家池中選取 8 個(gè)專家的激活專家分布對(duì)比;子圖 (b) 則呈現(xiàn)了傳統(tǒng) MoE 和本 文所提 MoGE 兩種路由機(jī)制 下估計(jì) 的不平衡分?jǐn)?shù)分布,其中分布估計(jì)的參數(shù)設(shè)定為 N=64( 總專家 數(shù))、K=8(單 token 選擇專家數(shù))、M=8(組數(shù))、∣X∣=16(輸入序列長(zhǎng)度)。
通過可視化可觀察到,傳統(tǒng) Top-K 路由易導(dǎo)致專家負(fù)載傾斜。這是基于 MoE 的大模型的行業(yè)痛點(diǎn),負(fù)載不均衡導(dǎo)致硬件資源利用率低下,推理速度無法線性擴(kuò)展,尤其在分布式訓(xùn)練和推理場(chǎng)景中問題加劇。
分組均衡路由
為了解決傳統(tǒng) Top-K 路由無序激活的問題,團(tuán)隊(duì)提出分組均衡路由的設(shè)計(jì)思想:強(qiáng)制每個(gè) Token 在每個(gè)專家組內(nèi)激活相同數(shù)量的專家(如每組激活 1 個(gè) 專家,總激活數(shù) = 組數(shù) × 每組激活數(shù)),確保計(jì)算負(fù)載均勻分布。
實(shí)現(xiàn)細(xì)節(jié)如下:
專家均勻劃分為 M 組(如 64 專家→8 組,每組 8 專家);每組內(nèi)獨(dú)立進(jìn)行 Top-K 路由(如每組 Top-2),全局激活數(shù) = 組數(shù) × 每組激活數(shù)。
分組均衡路由的優(yōu)勢(shì)包括:1)吞吐友好: 組間負(fù)載差異為 0,避免跨組通信瓶頸;2)動(dòng)態(tài)擴(kuò)展性:Batch Size 變化時(shí)負(fù)載均衡性穩(wěn)定。
均衡輔助損失
團(tuán)隊(duì)采用 Batch 級(jí)輔助均衡輔助損失函數(shù),其形式定義為:
其中超參數(shù) α 控制輔助損失的強(qiáng)度。此處, f_i 表示批次 B 中被路由到專家 i 的 token 占比, p_i 則代表該專家在整個(gè)批次內(nèi)的平均專家權(quán)重:
式中 I { ? } 為指示函數(shù), s_i,t 表示 token t 對(duì)專家 i 的門控得分。
架構(gòu)仿真
基于分組均衡路由的 MoGE 模塊,團(tuán)隊(duì)繼續(xù)通過仿真設(shè)計(jì)出昇騰親和的模型架構(gòu)。在模型設(shè)計(jì)過程中,采用分層策略,通過從粗粒度到細(xì)粒度的漸進(jìn)式調(diào)優(yōu),平衡昇騰 300I Duo 和 800I A2 平臺(tái)上的精度與推理效率。
該策略包含三個(gè)階段:首先,通過粗粒度篩選依據(jù)單服務(wù)器內(nèi)存帶寬和時(shí)延約束確定參數(shù)范圍;其次,基于領(lǐng)域知識(shí)對(duì)潛在模型進(jìn)行候選集縮減,縮小設(shè)計(jì)空間;最后,利用 算子級(jí) 仿真器評(píng)估候選模型性能。該仿真器關(guān)聯(lián)系統(tǒng)硬件參數(shù)(如 TFLOPS、內(nèi)存訪問帶寬、內(nèi)存容量及互連拓?fù)洌⒆詣?dòng)搜索最優(yōu)并行策略。
通過分層策略與細(xì)粒度仿真,下圖中標(biāo) 橘黃色星的 模型在指定條件下展現(xiàn)出對(duì)昇騰 300I Duo 和 800I A2 平臺(tái)的最佳親和性,本文即采用該組超參數(shù)配置。
推理性能
盤古 Pro MoE 在昇騰平臺(tái)上實(shí)現(xiàn)了混合并行與通信優(yōu)化等軟硬協(xié)同的系統(tǒng)優(yōu)化、量化壓縮等算法優(yōu)化、 MulAttention 和 SwiftGMM 等高性能算子優(yōu)化,在一系列模型和系統(tǒng)聯(lián)合優(yōu)化的推理加速技術(shù)加持下,顯著提升了模型的推理效率。
在昇騰 300I Duo 平臺(tái)的支持下,盤古 Pro MoE 單卡吞吐可達(dá) 201 tokens/s,并通過引入 MTP 解碼和多 token 優(yōu)化可進(jìn)一步提升至 321 tokens/s,展現(xiàn)出百億級(jí)大模型推理的極致性價(jià)比。
基于昇騰 800I A2 平臺(tái),在低并發(fā)場(chǎng)景下模型可實(shí)現(xiàn)毫秒級(jí)響應(yīng);在高并發(fā)條件下單卡吞吐可達(dá) 1148 tokens/s,結(jié)合 MTP 解碼等聯(lián)合優(yōu)化可提升至 1528 tokens/s,性能大幅領(lǐng)先于同等規(guī)模的 320 億和 720 億參數(shù)稠密模型。
盤古 Pro MoE 全面賦能業(yè)務(wù)高效落地與大規(guī)模部署,助力各類應(yīng)用場(chǎng)景實(shí)現(xiàn)高性能推理體驗(yàn)。
03
模型能力
業(yè)界公開測(cè)評(píng)
盤古 Pro MoE 基礎(chǔ)模型在跨語言多領(lǐng)域基準(zhǔn)測(cè)試中展現(xiàn)出色性能:英語能力涵蓋通用推理、閱讀理解及常識(shí)推理;邏輯推理能力覆蓋代碼生成和中英雙語數(shù)學(xué)問題等;中文評(píng)估則包含知識(shí)問答和閱讀理解等,全面驗(yàn)證模型在復(fù)雜認(rèn)知任務(wù)上的通用性與領(lǐng)域適應(yīng)性。
在監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的雙重優(yōu)化下,盤古 Pro MoE 展現(xiàn)出卓越的復(fù)雜推理能力。
模型在多領(lǐng)域評(píng)測(cè)體系進(jìn)行測(cè)試:通用能力涵蓋英語與中文,代碼能力依托 LiveCodeBench 實(shí)時(shí)編程及 MBPP+,數(shù)學(xué)推理則通過 AIME 競(jìng)賽題、MATH-500 難題及中國(guó)數(shù)學(xué)奧林匹克 (CNMO) 驗(yàn)證。
對(duì)比基線選取同規(guī)模前沿模型,包括開源的稠密模型 Qwen3-32B、GLM4-Z1-32B)及 MoE 模型(Llama4 Scout),盤古 Pro MoE 在復(fù)雜推理任務(wù)上展示出同規(guī)模最優(yōu)的性能。
硬件效能革命
MoE 架構(gòu)中的專家負(fù)載均衡與資源效率提升及模型行為穩(wěn)定性增強(qiáng)相關(guān)。為探究此問題,本文對(duì)比分析了主流開源 MoE 模型 DeepSeek-V2 和盤古 Pro MoE 的專家負(fù)載分布。
如下圖所示,DeepSeek-V2 存在顯著失衡,負(fù)載最高的專家處理高達(dá) 30% 的總 token 量;呈現(xiàn)高度集中現(xiàn)象。相比之下,盤古 Pro MoE 展現(xiàn)出近 乎均勻的分布特性,各專家處理 token 占比均約 12.5%,與理論理想 值高度 吻合。
這種均衡激活模式表明盤古 Pro MoE 對(duì)專家容量的高效利用,負(fù)載均衡對(duì)大規(guī)模 MoE 模型有助于實(shí)現(xiàn)高效可擴(kuò)展性能。
04
行業(yè)價(jià)值
讓「大模型」回歸實(shí)用場(chǎng)景
盤古 Pro MoE 的誕生,標(biāo)志著大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」:在企業(yè)級(jí)應(yīng)用中,其動(dòng)態(tài)負(fù)載均衡技術(shù)有效降低云端推理成本,支撐高并發(fā)實(shí)時(shí)場(chǎng)景;同時(shí)通過輕量化推理引擎適配華為昇 騰系列 芯片,賦能廣大客戶運(yùn)行百億級(jí)模型,為 AI 產(chǎn)業(yè)應(yīng)用領(lǐng)域開辟新藍(lán)海。
華為以硬核創(chuàng)新重新定義大模型的價(jià)值。盤古 Pro MoE 的發(fā)布,不僅是 AI 領(lǐng)域的一次范式革命,更將為全球企業(yè)提供「高效、普惠」的智能底座。即刻體驗(yàn)技術(shù)突破,攜手華為共啟智能新時(shí)代!
華為發(fā)布OmniPlacement技術(shù),實(shí)現(xiàn)超大規(guī)模MoE專家最優(yōu)動(dòng)態(tài)部署,提升昇騰推理系統(tǒng)吞吐10%
華為全面揭秘超大規(guī)模MoE模型昇騰推理部署技術(shù),國(guó)產(chǎn)芯片推理性能再創(chuàng)新高
昇騰超大規(guī)模MoE模型推理優(yōu)化技術(shù)揭秘:MTP調(diào)度10倍提速,INT打平FP8
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.