99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為盤古首次露出,昇騰原生72B?MoE架構(gòu),SuperCLUE千億內(nèi)模型并列國(guó)內(nèi)第一

0
分享至



盤古Pro MoE帶領(lǐng)大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」。

作者丨李希

當(dāng)前,混合專家模型(Mixture of Experts, MoE )在大型語言模型中的興起,使得以較小的計(jì)算開銷換取更大能力成為可能。然而,傳統(tǒng) MoE 普遍存在專家激活頻次高度不均衡現(xiàn)象,當(dāng)專家并行部署于不同硬件設(shè)備時(shí),易引發(fā)系統(tǒng)效率瓶頸。

為此,華為盤古團(tuán)隊(duì)提出 分組混合專家模型(Mixture of Grouped Experts, MoGE ) ,通過在專家選擇階段引入分組機(jī)制,可確保跨設(shè)備的計(jì)算負(fù)載均衡,成功在 4K 昇騰大規(guī)模集群 進(jìn)行高效訓(xùn)練。

同時(shí),基于 MoGE 架構(gòu)構(gòu)建的 盤古 Pro MoE 大模型(72B 總參數(shù)、16B 激活參數(shù)) 在昇騰 300I Duo 和 800I A2 可實(shí)現(xiàn)更優(yōu)的專家負(fù)載分布與計(jì)算效率(321 tokens/s 和 1528 tokens/s)。

在模型能力方面,盤古 Pro MoE 在最新一期業(yè)界權(quán)威大模型榜單 SuperCLUE 上交出了超能打的成績(jī),實(shí)現(xiàn)了綜合能力的領(lǐng)先。

具體來說,和其他動(dòng)輒千億以上的大模型(如 DeepSeek-R1 具有 671B 參數(shù))相比,盤古 Pro MoE 以 72B 總參數(shù)量達(dá)到了 59 分,千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。并且,16B 激活參數(shù)量可以媲美其他廠商更大規(guī)模的模型。


中文技術(shù)報(bào)告:

https://gitcode.com/ascend-tribe/pangu-pro-moe/tree/main

英文技術(shù)報(bào)告:https://arxiv.org/pdf/2505.21411


圖源:https://www.superclueai.com/


昇騰原生的 MoGE 大模型 架構(gòu) ,訓(xùn)練效率更優(yōu)

路由專家被均勻劃分為 個(gè) 不重疊的組,其中每個(gè)組內(nèi)的專家將 被分配到同一個(gè)設(shè)備上。對(duì)于每個(gè)輸入特征, MoGE 首先通過全局 softmax 路由器計(jì)算所有專家 的門控得分。接著,在每個(gè)專家組內(nèi),根據(jù)這些得分選出 ′ = / 個(gè) 得分最高的專家(圖中為 從每組 4 個(gè) 專家中選取 2 個(gè) )。未被選中的專家,其對(duì)應(yīng)權(quán)重被置為 0。最終 MoGE 的輸出由被 激活專家的輸出和共享專家的輸出加權(quán)求和得到。

01

序言

混合專家模型已成為大型語言模型領(lǐng)域的革新范式 —— 近年來,模型與數(shù)據(jù)集規(guī)模呈 指數(shù)級(jí) 增長(zhǎng),而 MoE 通過稀疏激活機(jī)制(僅針對(duì)每個(gè) token 激活部分專家子集),在維持 高表 達(dá)能力的同時(shí)降低計(jì)算開銷,使其在大規(guī)模應(yīng)用中極具吸引力。

然而,傳統(tǒng) MoE 架構(gòu)面臨的核心挑戰(zhàn)是專家負(fù)載不均衡:當(dāng)部分專家因過度專業(yè)化或 token 分配過載時(shí),其他專家則處于低效利用狀態(tài)。由于專家通常分布于多設(shè)備并行執(zhí)行, MoE 模塊的整體時(shí)延往往由承載最多 token 的設(shè)備決定,這種不均衡會(huì)嚴(yán)重?fù)p害計(jì)算效率與系統(tǒng)吞吐量。

針對(duì)這一行業(yè)難題,華為盤古團(tuán)隊(duì)(以下簡(jiǎn)稱團(tuán)隊(duì))推出 全新盤古 Pro MoE 大模型 。

該模型創(chuàng)新性提出分組均衡路由技術(shù),通過硬約束的負(fù)載均衡策略,確保每個(gè) token 在預(yù)定義的專家分組內(nèi)激活等量專家,這樣就天然的確保了跨設(shè)備的專家負(fù)載均衡;結(jié)合仿真優(yōu)化算法,從層數(shù)、寬度、專家數(shù)等多維度優(yōu)化資源分配,構(gòu)建出昇騰親和的盤古 Pro MoE 架構(gòu)。同時(shí),深度融合昇騰 300I Duo/800I A2 硬件加速架構(gòu)的并行計(jì)算特性與 算子級(jí)編譯 優(yōu)化技術(shù),實(shí)現(xiàn)從算法設(shè)計(jì)到系統(tǒng)落地的全棧創(chuàng)新。

實(shí)驗(yàn)表明,盤古 Pro MoE 在同等 算力條件 下推理延遲更低,和業(yè)界同規(guī)模大模型相比,通用和復(fù)雜推理綜合精度領(lǐng)先,為超大規(guī)模模型的工業(yè)化部署提供新范式。

接下來將系統(tǒng)性解析盤古 Pro MoE 的核心技術(shù)原理與工程實(shí)現(xiàn)路徑。

02

昇騰原生的MoGE新架構(gòu)

從「無序激活」到「精準(zhǔn)協(xié)同」

問題背景

傳統(tǒng) Top-K 路由存在無序激活的缺陷,也就是說,專家激活無限制,導(dǎo)致某些專家并行(EP)組負(fù)載過高(如某些組激活 4 個(gè) 專家,某些組專家無激活),引發(fā)計(jì)算瓶頸和端到端延遲上升。

如下圖所示,子圖 (a) 展示了在專家并行度 (EP)=4 時(shí),從 24 個(gè) 專家池中選取 8 個(gè)專家的激活專家分布對(duì)比;子圖 (b) 則呈現(xiàn)了傳統(tǒng) MoE 和本 文所提 MoGE 兩種路由機(jī)制 下估計(jì) 的不平衡分?jǐn)?shù)分布,其中分布估計(jì)的參數(shù)設(shè)定為 N=64( 總專家 數(shù))、K=8(單 token 選擇專家數(shù))、M=8(組數(shù))、∣X∣=16(輸入序列長(zhǎng)度)。

通過可視化可觀察到,傳統(tǒng) Top-K 路由易導(dǎo)致專家負(fù)載傾斜。這是基于 MoE 的大模型的行業(yè)痛點(diǎn),負(fù)載不均衡導(dǎo)致硬件資源利用率低下,推理速度無法線性擴(kuò)展,尤其在分布式訓(xùn)練和推理場(chǎng)景中問題加劇。


分組均衡路由

為了解決傳統(tǒng) Top-K 路由無序激活的問題,團(tuán)隊(duì)提出分組均衡路由的設(shè)計(jì)思想:強(qiáng)制每個(gè) Token 在每個(gè)專家組內(nèi)激活相同數(shù)量的專家(如每組激活 1 個(gè) 專家,總激活數(shù) = 組數(shù) × 每組激活數(shù)),確保計(jì)算負(fù)載均勻分布。

實(shí)現(xiàn)細(xì)節(jié)如下:

專家均勻劃分為 M 組(如 64 專家→8 組,每組 8 專家);每組內(nèi)獨(dú)立進(jìn)行 Top-K 路由(如每組 Top-2),全局激活數(shù) = 組數(shù) × 每組激活數(shù)。

分組均衡路由的優(yōu)勢(shì)包括:1)吞吐友好: 組間負(fù)載差異為 0,避免跨組通信瓶頸;2)動(dòng)態(tài)擴(kuò)展性:Batch Size 變化時(shí)負(fù)載均衡性穩(wěn)定。

均衡輔助損失

團(tuán)隊(duì)采用 Batch 級(jí)輔助均衡輔助損失函數(shù),其形式定義為:

其中超參數(shù) α 控制輔助損失的強(qiáng)度。此處, f_i 表示批次 B 中被路由到專家 i 的 token 占比, p_i 則代表該專家在整個(gè)批次內(nèi)的平均專家權(quán)重:

式中 I { ? } 為指示函數(shù), s_i,t 表示 token t 對(duì)專家 i 的門控得分。

架構(gòu)仿真

基于分組均衡路由的 MoGE 模塊,團(tuán)隊(duì)繼續(xù)通過仿真設(shè)計(jì)出昇騰親和的模型架構(gòu)。在模型設(shè)計(jì)過程中,采用分層策略,通過從粗粒度到細(xì)粒度的漸進(jìn)式調(diào)優(yōu),平衡昇騰 300I Duo 和 800I A2 平臺(tái)上的精度與推理效率。

該策略包含三個(gè)階段:首先,通過粗粒度篩選依據(jù)單服務(wù)器內(nèi)存帶寬和時(shí)延約束確定參數(shù)范圍;其次,基于領(lǐng)域知識(shí)對(duì)潛在模型進(jìn)行候選集縮減,縮小設(shè)計(jì)空間;最后,利用 算子級(jí) 仿真器評(píng)估候選模型性能。該仿真器關(guān)聯(lián)系統(tǒng)硬件參數(shù)(如 TFLOPS、內(nèi)存訪問帶寬、內(nèi)存容量及互連拓?fù)洌⒆詣?dòng)搜索最優(yōu)并行策略。

通過分層策略與細(xì)粒度仿真,下圖中標(biāo) 橘黃色星的 模型在指定條件下展現(xiàn)出對(duì)昇騰 300I Duo 和 800I A2 平臺(tái)的最佳親和性,本文即采用該組超參數(shù)配置。


推理性能

盤古 Pro MoE 在昇騰平臺(tái)上實(shí)現(xiàn)了混合并行與通信優(yōu)化等軟硬協(xié)同的系統(tǒng)優(yōu)化、量化壓縮等算法優(yōu)化、 MulAttention 和 SwiftGMM 等高性能算子優(yōu)化,在一系列模型和系統(tǒng)聯(lián)合優(yōu)化的推理加速技術(shù)加持下,顯著提升了模型的推理效率。

在昇騰 300I Duo 平臺(tái)的支持下,盤古 Pro MoE 單卡吞吐可達(dá) 201 tokens/s,并通過引入 MTP 解碼和多 token 優(yōu)化可進(jìn)一步提升至 321 tokens/s,展現(xiàn)出百億級(jí)大模型推理的極致性價(jià)比。

基于昇騰 800I A2 平臺(tái),在低并發(fā)場(chǎng)景下模型可實(shí)現(xiàn)毫秒級(jí)響應(yīng);在高并發(fā)條件下單卡吞吐可達(dá) 1148 tokens/s,結(jié)合 MTP 解碼等聯(lián)合優(yōu)化可提升至 1528 tokens/s,性能大幅領(lǐng)先于同等規(guī)模的 320 億和 720 億參數(shù)稠密模型。

盤古 Pro MoE 全面賦能業(yè)務(wù)高效落地與大規(guī)模部署,助力各類應(yīng)用場(chǎng)景實(shí)現(xiàn)高性能推理體驗(yàn)。

03

模型能力

業(yè)界公開測(cè)評(píng)

盤古 Pro MoE 基礎(chǔ)模型在跨語言多領(lǐng)域基準(zhǔn)測(cè)試中展現(xiàn)出色性能:英語能力涵蓋通用推理、閱讀理解及常識(shí)推理;邏輯推理能力覆蓋代碼生成和中英雙語數(shù)學(xué)問題等;中文評(píng)估則包含知識(shí)問答和閱讀理解等,全面驗(yàn)證模型在復(fù)雜認(rèn)知任務(wù)上的通用性與領(lǐng)域適應(yīng)性。

在監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的雙重優(yōu)化下,盤古 Pro MoE 展現(xiàn)出卓越的復(fù)雜推理能力。

模型在多領(lǐng)域評(píng)測(cè)體系進(jìn)行測(cè)試:通用能力涵蓋英語與中文,代碼能力依托 LiveCodeBench 實(shí)時(shí)編程及 MBPP+,數(shù)學(xué)推理則通過 AIME 競(jìng)賽題、MATH-500 難題及中國(guó)數(shù)學(xué)奧林匹克 (CNMO) 驗(yàn)證。

對(duì)比基線選取同規(guī)模前沿模型,包括開源的稠密模型 Qwen3-32B、GLM4-Z1-32B)及 MoE 模型(Llama4 Scout),盤古 Pro MoE 在復(fù)雜推理任務(wù)上展示出同規(guī)模最優(yōu)的性能。



硬件效能革命

MoE 架構(gòu)中的專家負(fù)載均衡與資源效率提升及模型行為穩(wěn)定性增強(qiáng)相關(guān)。為探究此問題,本文對(duì)比分析了主流開源 MoE 模型 DeepSeek-V2 和盤古 Pro MoE 的專家負(fù)載分布。

如下圖所示,DeepSeek-V2 存在顯著失衡,負(fù)載最高的專家處理高達(dá) 30% 的總 token 量;呈現(xiàn)高度集中現(xiàn)象。相比之下,盤古 Pro MoE 展現(xiàn)出近 乎均勻的分布特性,各專家處理 token 占比均約 12.5%,與理論理想 值高度 吻合。

這種均衡激活模式表明盤古 Pro MoE 對(duì)專家容量的高效利用,負(fù)載均衡對(duì)大規(guī)模 MoE 模型有助于實(shí)現(xiàn)高效可擴(kuò)展性能。


04

行業(yè)價(jià)值

讓「大模型」回歸實(shí)用場(chǎng)景

盤古 Pro MoE 的誕生,標(biāo)志著大模型從「參數(shù)軍備競(jìng)賽」轉(zhuǎn)向「實(shí)效主義」:在企業(yè)級(jí)應(yīng)用中,其動(dòng)態(tài)負(fù)載均衡技術(shù)有效降低云端推理成本,支撐高并發(fā)實(shí)時(shí)場(chǎng)景;同時(shí)通過輕量化推理引擎適配華為昇 騰系列 芯片,賦能廣大客戶運(yùn)行百億級(jí)模型,為 AI 產(chǎn)業(yè)應(yīng)用領(lǐng)域開辟新藍(lán)海。

華為以硬核創(chuàng)新重新定義大模型的價(jià)值。盤古 Pro MoE 的發(fā)布,不僅是 AI 領(lǐng)域的一次范式革命,更將為全球企業(yè)提供「高效、普惠」的智能底座。即刻體驗(yàn)技術(shù)突破,攜手華為共啟智能新時(shí)代!


華為發(fā)布OmniPlacement技術(shù),實(shí)現(xiàn)超大規(guī)模MoE專家最優(yōu)動(dòng)態(tài)部署,提升昇騰推理系統(tǒng)吞吐10%


華為全面揭秘超大規(guī)模MoE模型昇騰推理部署技術(shù),國(guó)產(chǎn)芯片推理性能再創(chuàng)新高


昇騰超大規(guī)模MoE模型推理優(yōu)化技術(shù)揭秘:MTP調(diào)度10倍提速,INT打平FP8


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不是病死的,而是治死的?這幾種病不去醫(yī)院活得更久?告訴你實(shí)情

不是病死的,而是治死的?這幾種病不去醫(yī)院活得更久?告訴你實(shí)情

牛鍋巴小釩
2025-05-29 13:39:05
廣東男籃全運(yùn)12人名單曝光?杜鋒太狠了:帶10大國(guó)手沖擊冠軍!

廣東男籃全運(yùn)12人名單曝光?杜鋒太狠了:帶10大國(guó)手沖擊冠軍!

籃球快餐車
2025-06-01 03:15:59
孫繼海淘汰邊緣球員不收費(fèi)!怪不得張卓毅母親敢提無理要求

孫繼海淘汰邊緣球員不收費(fèi)!怪不得張卓毅母親敢提無理要求

金牌娛樂
2025-06-01 09:21:46
李斌坦言:樂道一線已裁員40%

李斌坦言:樂道一線已裁員40%

車轱轆話V
2025-05-31 15:37:45
20年,維持原判!李鐵二審結(jié)果出爐,退贓金額曝光,里皮被提起

20年,維持原判!李鐵二審結(jié)果出爐,退贓金額曝光,里皮被提起

體育有點(diǎn)水
2025-04-30 11:16:52
自斷根脈的刀法——川建國(guó)砍向了中國(guó)留學(xué)生

自斷根脈的刀法——川建國(guó)砍向了中國(guó)留學(xué)生

超級(jí)學(xué)爸蛋總
2025-06-01 08:29:12
孫儷把唇下痣切了,網(wǎng)友猜測(cè)與朱媛媛有關(guān),娘娘也沒想到鬧這大吧

孫儷把唇下痣切了,網(wǎng)友猜測(cè)與朱媛媛有關(guān),娘娘也沒想到鬧這大吧

七阿姨愛八卦
2025-05-31 16:44:36
她是王勵(lì)勤前女友,分手后3年內(nèi)嫁2富豪,現(xiàn)已生娃,39歲魅力動(dòng)人

她是王勵(lì)勤前女友,分手后3年內(nèi)嫁2富豪,現(xiàn)已生娃,39歲魅力動(dòng)人

啟視說
2025-05-31 12:50:03
“醫(yī)院免陪照護(hù)”為什么不被看好?主要面臨五大實(shí)施難題——

“醫(yī)院免陪照護(hù)”為什么不被看好?主要面臨五大實(shí)施難題——

艾米手工作品
2025-05-30 12:30:16
調(diào)整有魄力!馬琳用人有想法,放棄孫穎莎隊(duì)友,王曼昱成中流砥柱

調(diào)整有魄力!馬琳用人有想法,放棄孫穎莎隊(duì)友,王曼昱成中流砥柱

忠橙家族
2025-05-31 18:05:26
湖南985研究生夫妻,抱嬰兒從25樓跳下,31頁遺書字字血淚

湖南985研究生夫妻,抱嬰兒從25樓跳下,31頁遺書字字血淚

罪案洞察者
2025-05-29 14:16:19
樊振東主動(dòng)加盟德甲,釋放三大信號(hào),重返國(guó)乒或只是時(shí)間問題

樊振東主動(dòng)加盟德甲,釋放三大信號(hào),重返國(guó)乒或只是時(shí)間問題

曉隯就是我
2025-06-01 12:24:59
步行者4-2尼克斯 進(jìn)總決賽!哈利伯頓21+6+13 西卡31+5獲東決MVP

步行者4-2尼克斯 進(jìn)總決賽!哈利伯頓21+6+13 西卡31+5獲東決MVP

老王大話體育
2025-06-01 10:50:47
71歲的趙雅芝為啥不敢退休?葉童暗諷,兒子黃愷杰稱她家庭主婦

71歲的趙雅芝為啥不敢退休?葉童暗諷,兒子黃愷杰稱她家庭主婦

寶馬哦112
2025-05-31 16:23:56
少婦診所里遭侵入式猥褻:不雅聊天流出,涉事醫(yī)生被扒,照片曝光

少婦診所里遭侵入式猥褻:不雅聊天流出,涉事醫(yī)生被扒,照片曝光

博士觀察
2025-05-31 12:55:23
特朗普火力全開,僅24小時(shí)內(nèi),就給中國(guó)送了5個(gè)助攻

特朗普火力全開,僅24小時(shí)內(nèi),就給中國(guó)送了5個(gè)助攻

前沿天地
2025-06-01 13:47:54
臺(tái)劇又出佳作,女性題材成制勝法寶,劉若英首次執(zhí)導(dǎo)劇集就這么頂

臺(tái)劇又出佳作,女性題材成制勝法寶,劉若英首次執(zhí)導(dǎo)劇集就這么頂

最愛酷影視
2025-06-01 09:40:08
瞞不住了!印軍總參謀長(zhǎng):排除中國(guó)軍援巴鐵可能,承認(rèn)印戰(zhàn)機(jī)受損

瞞不住了!印軍總參謀長(zhǎng):排除中國(guó)軍援巴鐵可能,承認(rèn)印戰(zhàn)機(jī)受損

今墨緣
2025-06-01 13:46:13
悲催!一深圳求職者發(fā)帖哭訴,拿到offer后遭惡意降薪,怎么辦?

悲催!一深圳求職者發(fā)帖哭訴,拿到offer后遭惡意降薪,怎么辦?

火山詩話
2025-05-30 08:39:27
起風(fēng)了,南京樓市變了,南京奧體南房?jī)r(jià)從4.5萬變成3.7萬

起風(fēng)了,南京樓市變了,南京奧體南房?jī)r(jià)從4.5萬變成3.7萬

有事問彭叔
2025-05-31 17:11:08
2025-06-01 15:03:00
雷峰網(wǎng) incentive-icons
雷峰網(wǎng)
關(guān)注智能與未來!
66499文章數(shù) 655671關(guān)注度
往期回顧 全部

科技要聞

特朗普突然炒掉NASA準(zhǔn)局長(zhǎng),嫌他不"忠誠(chéng)"?

頭條要聞

開了4年的特斯拉突然被通知要花15萬換電池 女子懵了

頭條要聞

開了4年的特斯拉突然被通知要花15萬換電池 女子懵了

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

張若昀夫婦國(guó)外遛娃 男方推平價(jià)兒童車

財(cái)經(jīng)要聞

油價(jià)繼續(xù)下跌?歐佩克宣布將再度增產(chǎn)

汽車要聞

零跑汽車5月交付量達(dá)45,067臺(tái) 穩(wěn)居新勢(shì)力前三

態(tài)度原創(chuàng)

旅游
家居
房產(chǎn)
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

原木純白 邂逅自然本真

房產(chǎn)要聞

金地華南落子海南自貿(mào)港22萬㎡標(biāo)桿項(xiàng)目,夯實(shí)代建行業(yè)領(lǐng)軍者地位

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長(zhǎng)在香會(huì)大肆渲染中國(guó)威脅 中方回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 沽源县| 织金县| 肥乡县| 云霄县| 兴国县| 呈贡县| 乐平市| 雅江县| 关岭| 昌乐县| 儋州市| 峨眉山市| 无极县| 准格尔旗| 新龙县| 利津县| 新津县| 加查县| 嘉定区| 厦门市| 凤阳县| 长兴县| 明溪县| 屏东市| 浮梁县| 博乐市| 天气| 弋阳县| 兰溪市| 灵丘县| 新竹县| 三原县| 高州市| 江陵县| 惠安县| 榆中县| 水城县| 磐石市| 荃湾区| 蓬溪县| 平谷区|