機器之心發布
機器之心編輯部
在通往通用人工智能(AGI)的進程中,混合專家(MoE)模型憑借動態稀疏計算優勢,成為大模型推理提效的關鍵路徑。華為團隊重磅推出昇騰平臺原生設計的 Pangu Pro MoE 72B模型,大幅降低計算開銷,并在SuperCLUE千億內模型并列國內第一
通過系統級軟硬協同優化、高性能算子融合優化、模型原生投機算法優化,Pangu Pro MoE 推理性能提升 6~8 倍,在昇騰 300I Duo 上單卡吞吐可達 321 tokens/s,實現極致性價比;在昇騰 800I A2 上更可飆升至 1528 tokens/s,全面釋放硬件潛力,打造極致的推理體驗。
技術報告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/blob/main/%E6%98%87%E8%85%BE%E5%B9%B3%E5%8F%B0Pangu%20Pro%20MoE%E5%85%A8%E9%93%BE%E8%B7%AF%E9%AB%98%E6%80%A7%E8%83%BD%E6%8E%A8%E7%90%86%E7%B3%BB%E7%BB%9F%E4%BC%98%E5%8C%96%E5%AE%9E%E8%B7%B5.pdf
推理效率拉滿:全鏈路推理系統優化,釋放昇騰澎湃算力
在大模型的分布式推理中,每個計算節點都像一個團隊成員,信息流通、協調協作不可避免。就像一場跨部門的大項目,若每一步都開「全員大會」,溝通成本高、效率低,項目推進自然慢半拍。聰明的做法,是開對會、分好組,精準溝通、各司其職。這正是華為團隊在 Pangu Pro MoE 大模型推理優化中的靈感來源!
分層混合并行(H2P):不再「全員大會」,「專人專會」推理才高效!
還在用「一刀切」的并行方式處理大模型?就像公司里什么事都開全員大會,不管你是財務還是研發,全都坐在會議室浪費時間 —— 看似熱鬧,實則低效。
華為團隊另辟蹊徑,靈感來自「專人專會」策略,提出創新性的H2P 分層混合并行(Hierarchical & Hybrid Parallelism)。與其讓所有模塊頻繁地「開大會」,不如根據任務特性「分工開小會」,讓每個部分在各自的通信域內中高效執行!
該策略精準匹配模型結構和硬件互聯拓撲特性:Attention 模塊采用 DP2+TP4 并行方案,輕量參數聚焦單 CPU 內高效通信;Expert 模塊針對路由專家的分組與動態負載,采用 TP2+EP4 策略,實現計算均衡與效率提升;共享專家則以 TP8 全芯并行,加速稠密計算,全方位激發昇騰平臺算力潛能。
H2P策略進一步在 Attention 模塊引入 Reduce-Scatter 替代 AllReduce,避免數據聚合操作導致后續通信傳輸數據量膨脹,并通過優化 AllGather 插入位置,降低冗余向量計算;同時基于分組專家設計,Expert 模塊利用全局 AllGather 高效完成 token 與專家的動態匹配,結合全局 Reduce-Scatter 實現路由專家與共享專家的歸一通信。
通過這種「哪類事開哪類會」的智慧分工方式,H2P策略讓每個模塊都在最適合的并行方式下發揮最大潛能,擺脫了傳統「大鍋飯式」并行的性能瓶頸,讓推理效率飛升一大截,Decode 吞吐性能相比純 TP 方案提升 33.1%
圖 1H2P優化方案示意圖
攻克通信瓶頸(TopoComm):拒絕「冗余發言」,「言簡意賅」推理才暢通!
在大模型推理中,通信就像一場大型數據會議:「會前準備」是靜態開銷,「會中發言」則對應數據傳輸。華為團隊以「提高開會效率」為目標,設計 TopoComm 優化方案,從會前準備到會中交流環節全方位深度優化集合通信,讓數據傳得快、講得清、效率高。
針對靜態開銷,提出SlimRing 算法,利用 Ring 鏈路通信對象固定特性,合并相鄰通信步的后同步與前同步操作,同步次數降低 35%。針對傳輸耗時,提出NHD 算法,通過拓撲親和的分級通信等效提高鏈路有效帶寬 21%;進一步引入 INT8 AllGather + FP16 Reduce-Scatter 的混合量化通信策略,結合跨芯校準與量化因子復用,實現通信數據壓縮 25%,AllGather 通信耗時降低 39%
圖 2 TopoComm 優化方案示意圖
計算 & 通信融合(DuoStream):告別「干等閑耗」,推理「開會干活」兩不誤!
大模型分布式并行推理就像一個協作型項目,需要多卡在通信(開會)與計算(干活)之間不斷交替執行。高效的團隊往往能在會議中一邊討論、一邊分工執行,真正做到邊「開會」邊「干活」,從而大大提高整體效率。華為團隊正是借助這一理念,深入挖掘昇騰平臺多流架構的潛力,提出DuoStream 算子級多流融合通算優化方案,實現計算與通信的細粒度并發調度,大幅提升推理計算效率。
針對 Pangu Pro MoE 模型中 Expert 模塊通信占比高的問題,構建GMMRS(GroupedMatmul+Reduce-Scatter)AGMM(AllGather+Matmul)兩大融合策略,有效克服通信與數據搬運和計算之間的瓶頸,實現關鍵通信路徑的流水掩蓋,進一步釋放模型在昇騰平臺上的推理性能。通過這套 “邊討論邊干活” 的融合式優化機制,通信與數據搬運和計算協同推進,顯著提升了模型在昇騰平臺上的推理效率,最大化釋放硬件資源潛能。
圖 3 DuoStream 優化方案示意圖
打造六邊形算子戰隊:單兵作戰到特種部隊,融合算子釋放昇騰潛能
在大模型推理的算力戰場上,傳統算子如同各自為戰的「單兵」,每個算子獨立執行、協作脫節。數據搬運兵(內存訪問) 與計算突擊手(矩陣乘)各自為戰,每次任務需反復傳遞數據(全局內存讀寫),大量兵力浪費在資源協調上(Kernel 啟動開銷),導致資源調度低效、內存搬運頻繁,造成大模型推理的「單兵算子困局」。為終結算力內耗以釋放硬件潛力,華為團隊重構算子執行范式,打造兩支精銳「融合算子特種部隊」——MulAttention 和 SwiftGMM,實現了從資源訪問、計算調度到數據搬運的全鏈路優化,顯著提升推理性能表現。
MulAttention:注意力計算尖刀連,打下推理 KV 搬運橋頭堡
隨著并發數和序列長度持續增長,Attention 計算時延在整網占比達 30% 至 50%,其中 KV 緩存搬運占據了約 70% 的算子執行耗時。為此,華為團隊基于昇騰架構打造原生高性能融合算子 ——MulAttention。
該算子圍繞增量推理階段 KV 數據搬運與計算的高效流水編排開展優化,通過構建KV 大包連續搬運優化策略,極大提高了訪存帶寬利用率。同時設計KV 預取流水機制,有效降低計算的暴露時延。進一步構建了KV 雙循環結構,解耦矩陣與向量計算間數據依賴,緩解指令隊列堵塞同時提高向量計算并行度。最終實現Attention 計算加速 4.5 倍,達成 89% 以上的數據搬運流水占用率以及 87% 的訪存帶寬利用率
圖 4 MulAttention 融合算子優化設計示意圖
SwiftGMM:專家計算突擊隊,閃電速度抵達推理算力戰場
路由專家權重搬運已成為 MoE 模型端到端時延的核心瓶頸,且其稀疏激活特性導致的負載動態波動進一步放大了性能優化的挑戰。對此,華為團隊面向昇騰平臺推出高性能矩陣計算引擎 ——SwiftGMM。
SwiftGMM 引入基于歷史數據的智能分塊緩存策略,通過動態預測并調整最優分塊參數,規避重排開銷;同時根據計算負載強度,動態切換 GEMV 與 GEMM 執行模式,實現輕重計算任務的靈活調度,保障算子始終運行在高效區間。此外,該算子結合左矩陣單次加載與常駐方案以及雙緩存機制,進一步實現數據搬運與計算的高效流水。通過上述系列「閃電突襲」,實現GMM 計算加速 2.1 倍,解碼階段整網推理時延降低 48.7%
圖 5 SwiftGMM 融合算子優化設計示意圖
推理算法加速:降本增效,實現推理性能與資源效率的雙重躍升
推理系統端到端競爭力不僅涉及單一模型推理,還涉及輸入輸出序列長度優化,多個模型組合推理。華為團隊提出專家動態剪枝算法 PreMoE。針對慢思考輸出序列長度過長,提出反思壓縮 TrimR 算法。針對多個模型協同,設計實現了反思投機 SpecReason 算法。
PreMoE:給 MoE 模型動態「瘦身」
MoE 模型在處理不同任務時,只有特定的專家會被顯著激活。和去醫院就診一樣,每次掛號去一個科室。MoE 模型的專家動態剪枝 PreMoE 算法,由兩個創新性技術組件組成:PEP 用來度量專家重要性,選出給定任務最相關的專家;TAER 查詢相似性動態加載與任務相關的專家。保持模型準確率的同時,實現推理吞吐提升 10%+。
組合拳出擊:多個模型協同優化
在復雜邏輯問題上,慢思考生成冗長的中間「思考」。但是一旦模型找到正確答案,更進一步的思考收益甚微(「過度思考」);在非常困難的問題上,模型在不同的解決方案之間頻繁切換(「欠思考」)。華為團隊提出TrimR 反思壓縮算法,用一個小的 7B 模型去動態監測大模型是否出現過度思考和欠思考,如果思考過程異常,通過修改 Prompt 及時讓大模型終止并給出最終答案,推理步數降低 14%。
大模型通常能力較強,小模型相對能力偏弱,但是小模型能夠解答子問題。SpecReason 反思投機算法使用小模型首先生成 token 序列(如短分析段或假設),而不是單 token 預測,然后大模型執行正確性驗證:如果有效,將內容合成為濃縮摘要,并為下一個分析步驟提供方向性指導(如指定下一步探索哪個方面);如果無效,調整小模型的推理方向,使其重新考慮假設或轉向替代假設。SpecReason 充分發揮了小模型的優勢,推理吞吐提升 30%。
性能全面突破:昇騰親和軟硬協同優化,推理解碼性能暴漲 6~8 倍
昇騰 800I A2:大模型的高性能推理平臺
在解碼階段采用 4 卡部署策略,Pangu Pro MoE 模型實現了卓越的推理性能:小并發場景下(BS=1,Seq=2k)權重搬運量僅 16B,具備低時延響應能力;大并發場景下(BS=456,Seq=2k),單卡吞吐達 1148 tokens/s,較 72B 和 32B 稠密模型分別提升 97% 和 18%。結合 MTP 投機推理技術,在 token 接受率達 0.9 時,單卡 BS 可提升至 146,平均時延降至 95.56 ms,最高吞吐突破 1528 tokens/s,顯著提升高并發任務的推理效率。
表 1 昇騰 800I A2 服務器 4 卡配置下解碼階段推理性能測試結果(輸入長度 2k)。* 表示在 MTP 投機推理接受率達到 0.9 條件下可達到的最高輸出吞吐。
昇騰 300I Duo:極致性價比的推理平臺
依托 Pangu Pro MoE 模型與昇騰平臺的深度協同,昇騰 300I Duo 在百億級 MoE 模型推理中展現出卓越性能與極高性價比。在預填充階段,2 卡 2 路并發下實現 2k 序列輸入僅 1.94s 延遲,單卡吞吐達 1055 tokens/s。在解碼階段,4 卡部署靈活適配不同并發需求:小并發場景下延遲低至 50ms,大并發場景(BS=80)下單卡吞吐達 201 tokens/s,兼顧低延遲與高吞吐。結合高接受率的 MTP 技術,單卡 Batch Size 可提升至 32,平均時延降至 99.7ms,吞吐最高達 321 tokens/s,充分釋放 MoE 模型在昇騰平臺的推理潛能。與 800I A2 推理相比,300I DUO 能夠提供更加經濟的 MoE 推理解決方案,為各行各業的推理應用部署提供極具性價比的選擇
表 2 昇騰 300I Duo 服務器 4 卡配置下解碼階段推理性能測試結果(輸入長度 2k)。* 表示在 MTP 投機推理接受率達到 0.9 條件下可達到的最高輸出吞吐。
至此,昇騰盤古推理系統的全流程優化已全面揭曉。從系統級優化到高性能算子,軟硬協同、層層突破、步步精進,構建起高性能、大規模、低成本的推理能力底座。華為團隊持續深耕模型 - 系統的軟硬協同創新,為通用大模型的規模部署和高效落地提供了堅實支撐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.