剛剛,華為宣布開源盤古7B稠密和72B混合專家模型!
嘿嘿,一直以來“神龍見首不見尾”的華為盤古,終于亮劍。
此次,華為開源了兩款模型:
1、7B參數量的稠密模型
2、72B參數量的MoE模型
在發布說明中,菊廠給出了一份并不算驚艷的測試對比表。
因為比的對象,大部分都不是“名流”。稍有點說服力的是跟同樣MoE且激活參數量更大的Llama-4-Scout相比,基本全面碾壓。
當然,既然是“后發”,菊廠肯定要拿出點不一樣東西↓
別人都叫MoE,而這次華為提出了MoGE:分組混合專家模型(Mixture of Grouped Experts)。
MoGE核心就是要解決當下MoE最大的難題——專家負載失衡,傳統的Top-K路由會把大量Token塞給同一張卡處理,導致整體吞吐被最慢的卡拖死。
MoGE先將專家劃分為若干等規模的分組,再從每個分組中選取相同數量的專家進行激活。
在典型的分布式部署中,每個專家分組對應獨立的計算設備,從而 MoGE 天然地實現了跨設備的計算負載均衡。
同時,菊廠把這個模型稱為「昇騰原生的分組混合專家模型」,再次把菊廠軟硬協同的優勢打了出來。
怎么「原生」法?說白了,是針對菊廠自己的昇騰鏟子,做了以下優化↓
1、分層混合并行+通信裁剪:MFU提升35%
2、專家感知量化與KV壓縮:幾乎為0的量化精度誤差,大幅降低顯存占用。
3、定制化算子——MulAttention+SwiftGMM。
4、MoGE分組路由天然負載均衡:訓推都不卡長尾,效率提升。
5、MTP多Token并行解碼:滿足低延遲高并發場景。
就不詳說了,大家可以去看論文原文:
https://raw.gitcode.com/ascend-tribe/pangu-pro-moe/raw/main/Pangu-Pro-MoE-CN-Report.pdf
話說,自從大模型爆火以來,華為盤古大模型一直只聞其聲,未見其形,只在行業場景咔咔落地,凡間吃瓜群眾卻難得上手把玩。
這一次,菊廠來真的了,在開源兩個盤古模型的同時,華為也開源了推理代碼,不光給你金坷垃,還給你金鏟鏟。
華為下場收割,說明大模型市場已經進入成熟期,這個市場更要卷起來啦。
不過,有吃瓜群眾表示,光這倆模型還不夠看,期待下一步能有吊打DeepSeek滿血版、Qwen3-235B的菊廠大核彈!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.