網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華為盤古首次露出，昇騰原生72B?MoE架構(gòu)，SuperCLUE千億內(nèi)模型并列國(guó)內(nèi)第一

2025-05-28 20:30:45　來源: 雷峰網(wǎng)

北京舉報(bào)

分享至

“盤古Pro MoE帶領(lǐng)大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」。”

作者丨李希

當(dāng)前，混合專家模型（Mixture of Experts, MoE ）在大型語言模型中的興起，使得以較小的計(jì)算開銷換取更大能力成為可能。然而，傳統(tǒng) MoE 普遍存在專家激活頻次高度不均衡現(xiàn)象，當(dāng)專家并行部署于不同硬件設(shè)備時(shí)，易引發(fā)系統(tǒng)效率瓶頸。

為此，華為盤古團(tuán)隊(duì)提出分組混合專家模型（Mixture of Grouped Experts, MoGE ），通過在專家選擇階段引入分組機(jī)制，可確保跨設(shè)備的計(jì)算負(fù)載均衡，成功在 4K 昇騰大規(guī)模集群進(jìn)行高效訓(xùn)練。

同時(shí)，基于 MoGE 架構(gòu)構(gòu)建的盤古 Pro MoE 大模型（72B 總參數(shù)、16B 激活參數(shù)）在昇騰 300I Duo 和 800I A2 可實(shí)現(xiàn)更優(yōu)的專家負(fù)載分布與計(jì)算效率（321 tokens/s 和 1528 tokens/s）。

在模型能力方面，盤古 Pro MoE 在最新一期業(yè)界權(quán)威大模型榜單 SuperCLUE 上交出了超能打的成績(jī)，實(shí)現(xiàn)了綜合能力的領(lǐng)先。

具體來說，和其他動(dòng)輒千億以上的大模型（如 DeepSeek-R1 具有 671B 參數(shù)）相比，盤古 Pro MoE 以 72B 總參數(shù)量達(dá)到了 59 分，千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。并且，16B 激活參數(shù)量可以媲美其他廠商更大規(guī)模的模型。

中文技術(shù)報(bào)告：

https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main

英文技術(shù)報(bào)告：https://arxiv.org/pdf/2505.21411

圖源：https://www.superclueai.com/

昇騰原生的 MoGE 大模型架構(gòu) ，訓(xùn)練效率更優(yōu)

路由專家被均勻劃分為個(gè) 不重疊的組，其中每個(gè)組內(nèi)的專家將被分配到同一個(gè)設(shè)備上。對(duì)于每個(gè)輸入特征， MoGE 首先通過全局 softmax 路由器計(jì)算所有專家的門控得分。接著，在每個(gè)專家組內(nèi)，根據(jù)這些得分選出 ′ = / 個(gè) 得分最高的專家（圖中為從每組 4 個(gè) 專家中選取 2 個(gè) ）。未被選中的專家，其對(duì)應(yīng)權(quán)重被置為 0。最終 MoGE 的輸出由被激活專家的輸出和共享專家的輸出加權(quán)求和得到。

序言

混合專家模型已成為大型語言模型領(lǐng)域的革新范式 —— 近年來，模型與數(shù)據(jù)集規(guī)模呈指數(shù)級(jí) 增長(zhǎng)，而 MoE 通過稀疏激活機(jī)制（僅針對(duì)每個(gè) token 激活部分專家子集），在維持高表達(dá)能力的同時(shí)降低計(jì)算開銷，使其在大規(guī)模應(yīng)用中極具吸引力。

然而，傳統(tǒng) MoE 架構(gòu)面臨的核心挑戰(zhàn)是專家負(fù)載不均衡：當(dāng)部分專家因過度專業(yè)化或 token 分配過載時(shí)，其他專家則處于低效利用狀態(tài)。由于專家通常分布于多設(shè)備并行執(zhí)行， MoE 模塊的整體時(shí)延往往由承載最多 token 的設(shè)備決定，這種不均衡會(huì)嚴(yán)重?fù)p害計(jì)算效率與系統(tǒng)吞吐量。

針對(duì)這一行業(yè)難題，華為盤古團(tuán)隊(duì)（以下簡(jiǎn)稱團(tuán)隊(duì)）推出全新盤古 Pro MoE 大模型。

該模型創(chuàng)新性提出分組均衡路由技術(shù)，通過硬約束的負(fù)載均衡策略，確保每個(gè) token 在預(yù)定義的專家分組內(nèi)激活等量專家，這樣就天然的確保了跨設(shè)備的專家負(fù)載均衡；結(jié)合仿真優(yōu)化算法，從層數(shù)、寬度、專家數(shù)等多維度優(yōu)化資源分配，構(gòu)建出昇騰親和的盤古 Pro MoE 架構(gòu)。同時(shí)，深度融合昇騰 300I Duo/800I A2 硬件加速架構(gòu)的并行計(jì)算特性與算子級(jí)編譯優(yōu)化技術(shù)，實(shí)現(xiàn)從算法設(shè)計(jì)到系統(tǒng)落地的全棧創(chuàng)新。

實(shí)驗(yàn)表明，盤古 Pro MoE 在同等算力條件下推理延遲更低，和業(yè)界同規(guī)模大模型相比，通用和復(fù)雜推理綜合精度領(lǐng)先，為超大規(guī)模模型的工業(yè)化部署提供新范式。

接下來將系統(tǒng)性解析盤古 Pro MoE 的核心技術(shù)原理與工程實(shí)現(xiàn)路徑。

昇騰原生的MoGE新架構(gòu)

從「無序激活」到「精準(zhǔn)協(xié)同」

問題背景

傳統(tǒng) Top-K 路由存在無序激活的缺陷，也就是說，專家激活無限制，導(dǎo)致某些專家并行（EP）組負(fù)載過高（如某些組激活 4 個(gè) 專家，某些組專家無激活），引發(fā)計(jì)算瓶頸和端到端延遲上升。

如下圖所示，子圖 (a) 展示了在專家并行度 (EP)=4 時(shí)，從 24 個(gè) 專家池中選取 8 個(gè)專家的激活專家分布對(duì)比；子圖 (b) 則呈現(xiàn)了傳統(tǒng) MoE 和本文所提 MoGE 兩種路由機(jī)制下估計(jì) 的不平衡分?jǐn)?shù)分布，其中分布估計(jì)的參數(shù)設(shè)定為 N=64（總專家數(shù)）、K=8（單 token 選擇專家數(shù)）、M=8（組數(shù)）、∣X∣=16（輸入序列長(zhǎng)度）。

通過可視化可觀察到，傳統(tǒng) Top-K 路由易導(dǎo)致專家負(fù)載傾斜。這是基于 MoE 的大模型的行業(yè)痛點(diǎn)，負(fù)載不均衡導(dǎo)致硬件資源利用率低下，推理速度無法線性擴(kuò)展，尤其在分布式訓(xùn)練和推理場(chǎng)景中問題加劇。

分組均衡路由

為了解決傳統(tǒng) Top-K 路由無序激活的問題，團(tuán)隊(duì)提出分組均衡路由的設(shè)計(jì)思想：強(qiáng)制每個(gè) Token 在每個(gè)專家組內(nèi)激活相同數(shù)量的專家（如每組激活 1 個(gè) 專家，總激活數(shù) = 組數(shù) × 每組激活數(shù)），確保計(jì)算負(fù)載均勻分布。

實(shí)現(xiàn)細(xì)節(jié)如下：

專家均勻劃分為 M 組（如 64 專家→8 組，每組 8 專家）；每組內(nèi)獨(dú)立進(jìn)行 Top-K 路由（如每組 Top-2），全局激活數(shù) = 組數(shù) × 每組激活數(shù)。

分組均衡路由的優(yōu)勢(shì)包括：1）吞吐友好：組間負(fù)載差異為 0，避免跨組通信瓶頸；2）動(dòng)態(tài)擴(kuò)展性：Batch Size 變化時(shí)負(fù)載均衡性穩(wěn)定。

均衡輔助損失

團(tuán)隊(duì)采用 Batch 級(jí)輔助均衡輔助損失函數(shù)，其形式定義為：

其中超參數(shù) α 控制輔助損失的強(qiáng)度。此處， f_i 表示批次 B 中被路由到專家 i 的 token 占比， p_i 則代表該專家在整個(gè)批次內(nèi)的平均專家權(quán)重：

式中 I { ? } 為指示函數(shù)， s_i,t 表示 token t 對(duì)專家 i 的門控得分。

架構(gòu)仿真

基于分組均衡路由的 MoGE 模塊，團(tuán)隊(duì)繼續(xù)通過仿真設(shè)計(jì)出昇騰親和的模型架構(gòu)。在模型設(shè)計(jì)過程中，采用分層策略，通過從粗粒度到細(xì)粒度的漸進(jìn)式調(diào)優(yōu)，平衡昇騰 300I Duo 和 800I A2 平臺(tái)上的精度與推理效率。

該策略包含三個(gè)階段：首先，通過粗粒度篩選依據(jù)單服務(wù)器內(nèi)存帶寬和時(shí)延約束確定參數(shù)范圍；其次，基于領(lǐng)域知識(shí)對(duì)潛在模型進(jìn)行候選集縮減，縮小設(shè)計(jì)空間；最后，利用算子級(jí) 仿真器評(píng)估候選模型性能。該仿真器關(guān)聯(lián)系統(tǒng)硬件參數(shù)（如 TFLOPS、內(nèi)存訪問帶寬、內(nèi)存容量及互連拓?fù)洌⒆詣?dòng)搜索最優(yōu)并行策略。

通過分層策略與細(xì)粒度仿真，下圖中標(biāo) 橘黃色星的模型在指定條件下展現(xiàn)出對(duì)昇騰 300I Duo 和 800I A2 平臺(tái)的最佳親和性，本文即采用該組超參數(shù)配置。

推理性能

盤古 Pro MoE 在昇騰平臺(tái)上實(shí)現(xiàn)了混合并行與通信優(yōu)化等軟硬協(xié)同的系統(tǒng)優(yōu)化、量化壓縮等算法優(yōu)化、 MulAttention 和 SwiftGMM 等高性能算子優(yōu)化，在一系列模型和系統(tǒng)聯(lián)合優(yōu)化的推理加速技術(shù)加持下，顯著提升了模型的推理效率。

在昇騰 300I Duo 平臺(tái)的支持下，盤古 Pro MoE 單卡吞吐可達(dá) 201 tokens/s，并通過引入 MTP 解碼和多 token 優(yōu)化可進(jìn)一步提升至 321 tokens/s，展現(xiàn)出百億級(jí)大模型推理的極致性價(jià)比。

基于昇騰 800I A2 平臺(tái)，在低并發(fā)場(chǎng)景下模型可實(shí)現(xiàn)毫秒級(jí)響應(yīng)；在高并發(fā)條件下單卡吞吐可達(dá) 1148 tokens/s，結(jié)合 MTP 解碼等聯(lián)合優(yōu)化可提升至 1528 tokens/s，性能大幅領(lǐng)先于同等規(guī)模的 320 億和 720 億參數(shù)稠密模型。

盤古 Pro MoE 全面賦能業(yè)務(wù)高效落地與大規(guī)模部署，助力各類應(yīng)用場(chǎng)景實(shí)現(xiàn)高性能推理體驗(yàn)。

模型能力

業(yè)界公開測(cè)評(píng)

盤古 Pro MoE 基礎(chǔ)模型在跨語言多領(lǐng)域基準(zhǔn)測(cè)試中展現(xiàn)出色性能：英語能力涵蓋通用推理、閱讀理解及常識(shí)推理；邏輯推理能力覆蓋代碼生成和中英雙語數(shù)學(xué)問題等；中文評(píng)估則包含知識(shí)問答和閱讀理解等，全面驗(yàn)證模型在復(fù)雜認(rèn)知任務(wù)上的通用性與領(lǐng)域適應(yīng)性。

在監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的雙重優(yōu)化下，盤古 Pro MoE 展現(xiàn)出卓越的復(fù)雜推理能力。

模型在多領(lǐng)域評(píng)測(cè)體系進(jìn)行測(cè)試：通用能力涵蓋英語與中文，代碼能力依托 LiveCodeBench 實(shí)時(shí)編程及 MBPP+，數(shù)學(xué)推理則通過 AIME 競(jìng)賽題、MATH-500 難題及中國(guó)數(shù)學(xué)奧林匹克 (CNMO) 驗(yàn)證。

對(duì)比基線選取同規(guī)模前沿模型，包括開源的稠密模型 Qwen3-32B、GLM4-Z1-32B）及 MoE 模型（Llama4 Scout），盤古 Pro MoE 在復(fù)雜推理任務(wù)上展示出同規(guī)模最優(yōu)的性能。

硬件效能革命

MoE 架構(gòu)中的專家負(fù)載均衡與資源效率提升及模型行為穩(wěn)定性增強(qiáng)相關(guān)。為探究此問題，本文對(duì)比分析了主流開源 MoE 模型 DeepSeek-V2 和盤古 Pro MoE 的專家負(fù)載分布。

如下圖所示，DeepSeek-V2 存在顯著失衡，負(fù)載最高的專家處理高達(dá) 30% 的總 token 量；呈現(xiàn)高度集中現(xiàn)象。相比之下，盤古 Pro MoE 展現(xiàn)出近乎均勻的分布特性，各專家處理 token 占比均約 12.5%，與理論理想值高度吻合。

這種均衡激活模式表明盤古 Pro MoE 對(duì)專家容量的高效利用，負(fù)載均衡對(duì)大規(guī)模 MoE 模型有助于實(shí)現(xiàn)高效可擴(kuò)展性能。

行業(yè)價(jià)值

讓「大模型」回歸實(shí)用場(chǎng)景

盤古 Pro MoE 的誕生，標(biāo)志著大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」：在企業(yè)級(jí)應(yīng)用中，其動(dòng)態(tài)負(fù)載均衡技術(shù)有效降低云端推理成本，支撐高并發(fā)實(shí)時(shí)場(chǎng)景；同時(shí)通過輕量化推理引擎適配華為昇騰系列芯片，賦能廣大客戶運(yùn)行百億級(jí)模型，為 AI 產(chǎn)業(yè)應(yīng)用領(lǐng)域開辟新藍(lán)海。

華為以硬核創(chuàng)新重新定義大模型的價(jià)值。盤古 Pro MoE 的發(fā)布，不僅是 AI 領(lǐng)域的一次范式革命，更將為全球企業(yè)提供「高效、普惠」的智能底座。即刻體驗(yàn)技術(shù)突破，攜手華為共啟智能新時(shí)代！

華為發(fā)布OmniPlacement技術(shù)，實(shí)現(xiàn)超大規(guī)模MoE專家最優(yōu)動(dòng)態(tài)部署，提升昇騰推理系統(tǒng)吞吐10%

華為全面揭秘超大規(guī)模MoE模型昇騰推理部署技術(shù)，國(guó)產(chǎn)芯片推理性能再創(chuàng)新高

昇騰超大規(guī)模MoE模型推理優(yōu)化技術(shù)揭秘：MTP調(diào)度10倍提速，INT打平FP8

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.