網易首頁 > 網易號 > 正文申請入駐

算芯合一！華為披露昇騰體系大模型核心算子設計細節

2025-05-23 18:14:42　來源: 雷峰網

北京舉報

分享至

“算力利用率突破 70%、跨卡延遲低至亞微秒級，華為算子技術如何重新定義硬件性能？”

作者丨李希

AMLA × 融合算子 × SMTurbo —— 讓大模型推理速度與能效雙重革命

基于昇騰算力，華為團隊本次發布了三項重要的硬件親和算子技術研究：

AMLA：用 “ 數學魔法 ” 重構浮點運算，讓昇騰芯片的算力利用率突破 70%！

融合算子優化：像指揮交響樂團一樣調度硬件資源，讓計算與通信 “無縫協奏”！

SMTurbo：打造內存訪問的 “高速公路”，跨 384 卡延遲低至亞微秒級！

大模型推理的 “樂高積木”：算子為何如此重要？

算子是 AI 大模型執行計算的 “原子級工具”，如同樂高積木中的基礎模塊，負責從加減乘除到特征提取的一切核心操作。它們不僅是模型的效率引擎，更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制，讓芯片處理海量數據時如虎添翼。而昇騰此次開源的三大技術，正是算子優化的 “終極形態”。

技術全景：三大黑科技如何顛覆 AI 計算？

1、AMLA：以加代乘的“魔法”讓芯片算力利用率飆升

“數字煉金術”：對二進制表示重解析，將復雜乘法轉換為加法運算，充分利用存內算力，算力利用率飆升至 71%！

針對Decode階段的MLA 計算，華為團隊提出了AMLA（Ascend MLA）算子，通過數學等價變化和硬件親和的深度優化，釋放昇騰芯片澎湃算力。具體而言，通過對浮點數二進制編碼的重解析，把復雜的乘法運算變成簡單的加法操作，AMLA實現了基于存內計算的變量更新，充分利用算力的同時減少數據搬運；結合一系列基于昇騰硬件的計算流程及流水優化手段，進一步提升算子的整體性能。當前AMLA算法的Attention 算子充分發揮昇騰硬件的計算能力，平均算力利用率達到55%，最高可達71%，優于FlashMLA公開的結果。

2、融合算子優化：硬件資源的 “交響樂指揮家”

將多個算子合而為一，讓計算、通信、存儲 “三重協奏”！

基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗，華為團隊提煉出三大昇騰算子融合設計原理：硬件單元間并行度優化、冗余數據搬運消除、數學等價重構計算流。首先，利用昇騰芯片的多硬件單元并行的能力，將跨硬件單元串行算子融合為復合算子，通過指令級流水編排實現計算耗時相互掩蓋；其次，對串行向量算子實施融合處理，構建全局內存與計算單元緩存的直通數據通道，使中間結果全程駐留高速緩存；最后，華為團隊運用數學等價關系解耦算子間數據依賴，重構計算順序實現并行加速。該技術體系在模型推理中實現了大幅性能提升。

3、SMTurbo：384 卡內存共享的 “超低延遲高速公路”

昇騰原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代！

華為CloudMatrix 384支持384卡規模原生Load/Store語義。因其低延遲、上下文切換代價小、可細粒度流水等優勢，受到業界廣泛關注。基于共享內存的集合通信滿足了小數據量、大范圍集合通信場景需求，成為稀疏模型推理的關鍵能力。

面向原生Load/Store內存語義通信提供軟硬件加速能力，ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將Load/Store在讀和寫兩個方向上并行，發揮了昇騰芯片讀寫分離的微架構優勢；針對數據保序場景下的同步開銷問題，引入了批處理與中轉機制，降低了控制邏輯的開銷。在跨機訪存通信場景下，方案可以提升CloudMatrix 384中昇騰芯片每線程的訪存吞吐20%以上。

未來與展望

如上提到的三個算子層面優化技術的未來發展上，針對AMLA，將研究僅KVCache 量化和全量化場景的MLA 算子優化，進一步擴展算子應用場景；針對融合算子優化，將進一步探索融合算子在更多模型架構上的應用，推動大語言模型在昇騰硬件上的高效推理與廣泛應用；針對L oad/Store 的優化技術，將結合業務設計精巧的流水實現，平衡讀寫平面的負載分擔，將CPP 思想引入Deepseek dispatch 與combine 場景，在大BatchSize下取得實際收益。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.