網易首頁 > 網易號 > 正文申請入駐

以加代乘？華為數學家出手,昇騰算子的高能設計與優化，性能升30%

2025-05-23 16:13:18　來源: 機器之心Pro

北京舉報

分享至

現如今，隨著參數規模的指數級增長，大語言模型（LLM）的能力邊界不斷被打破，AI 的智力正在經歷快速躍遷。但隨之而來的是，大模型在落地過程中面臨著一系列推理層面的難題，比如推不動、算不起、部署慢，導致推理成本高昂，性能冗余浪費嚴重。

因此，大模型推理的「速度」與「能效」成為所有算力廠商與算法團隊繞不開的核心命題，如何讓它們真正「跑得快、用得省」亟需全新的解法。這顯然不僅僅是工程挑戰，更要在承接大模型推理壓力的同時，在能效、延遲、成本等多方面實現可控與優化。

在這一背景下，華為團隊和昨天一樣（參考：幫大模型提速 80%，華為拿出昇騰推理殺手锏 FlashComm，三招搞定通算瓶頸），用數學補物理，給出了一份深度融合軟硬件的系統性方案！

他們基于昇騰算力，正式發布了三項重要的硬件親和算子技術研究，帶來了大模型推理速度與能效的雙重革命。具體包括如下：

AMLA—— 以加代乘的高性能昇騰 MLA 算子。用「數學魔法」重構浮點運算，讓昇騰芯片的算力利用率突破 70%！
基于昇騰的融合算子技術與設計原理。像指揮交響樂團一樣調度硬件資源，讓計算與通信「無縫協奏」！
SMTurbo—— 面向高性能原生 Load/Store 語義加速。打造內存訪問的「高速公路」，跨 384 卡延遲低至亞微秒級！

可以看到，華為團隊著力通過對大模型推理中關鍵算子的重構優化，實現能效、多卡協同和速度三大維度的全面突破。

作為 AI 大模型執行計算的「原子級工具」，算子如同樂高積木中的基礎模塊，負責從加減乘除到特征提取的一切核心操作。它們不僅是模型的效率引擎，更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制，讓芯片處理海量數據時如虎添翼。

華為團隊此次發布的三大技術，正是算子優化的「終極形態」。

技術全景三大黑科技如何顛覆 AI 計算？

AMLA：以加代乘的「魔法」讓芯片算力利用率飆升

「數字煉金術」：對二進制表示重解析，將復雜乘法轉換為加法運算，充分利用存內算力，算力利用率飆升至 71%！

針對 Decode 階段的 MLA 計算，華為團隊提出了 AMLA（Ascend MLA）算子，通過數學等價變化和硬件親和的深度優化，釋放昇騰芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技術創新點，主要就是減少推理過程的 KV Cache，實現在更少的設備上推理更長的 Context，極大地降低推理成本。FlashMLA 是該技術的高效實現版本。

針對MLA 架構，華為團隊通過精妙的數學變換，讓其變得更加昇騰親和，并做到了更高的算力利用率。

具體而言，通過對浮點數二進制編碼的重解析，把復雜的乘法運算變成簡單的加法操作，AMLA 實現了基于存內計算的變量更新，充分利用算力的同時減少數據搬運；結合一系列基于昇騰硬件的計算流程及流水優化手段，進一步提升算子的整體性能。

當前 AMLA 算法的 Attention 算子充分發揮昇騰硬件的計算能力，性能提升 30% 以上，平均算力利用率達到 55%，最高可達 71%，優于 FlashMLA 公開的結果（67％）。

博客鏈接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md

融合算子優化：硬件資源的「交響樂指揮家」

將多個算子合而為一，讓計算、通信、存儲「三重協奏」！

基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗，華為團隊提煉出三大昇騰算子融合設計原理：硬件單元間并行度優化、冗余數據搬運消除、數學等價重構計算流。

首先，利用昇騰芯片的多硬件單元并行的能力，將跨硬件單元串行算子融合為復合算子，通過指令級流水編排實現計算耗時相互掩蓋。

其次，對串行向量算子實施融合處理，構建全局內存與計算單元緩存的直通數據通道，使中間結果全程駐留高速緩存。

最后，華為團隊運用數學等價關系解耦算子間數據依賴，重構計算順序實現并行加速。該技術體系在模型推理中實現了大幅性能提升。

博客鏈接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md

SMTurbo：384 卡內存共享的「超低延遲高速公路」

昇騰原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代！

華為 CloudMatrix 384 支持 384 卡規模原生 Load/Store 語義。因其低延遲、上下文切換代價小、可細粒度流水等優勢，受到業界廣泛關注。基于共享內存的集合通信滿足了小數據量、大范圍集合通信場景需求，成為稀疏模型推理的關鍵能力。

面向原生 Load/Store 內存語義通信提供軟硬件加速能力，ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將 Load/Store 在讀和寫兩個方向上并行，發揮了昇騰芯片讀寫分離的微架構優勢；針對數據保序場景下的同步開銷問題，引入了批處理與中轉機制，降低了控制邏輯的開銷。在跨機訪存通信場景下，方案可以提升 CloudMatrix 384 中昇騰芯片每線程的訪存吞吐 20% 以上。

博客鏈接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md

未來與展望

如上提到的三個算子層面優化技術的未來發展上，針對 AMLA，將研究僅 KV Cache 量化和全量化場景的 MLA 算子優化，進一步擴展算子應用場景；針對融合算子優化，將進一步探索融合算子在更多模型架構上的應用，推動大語言模型在昇騰硬件上的高效推理與廣泛應用；針對 Load/Store 的優化技術，將結合業務設計精巧的流水實現，平衡讀寫平面的負載分擔，將該思想引入 Deepseek dispatch 與 combine 場景，在大 BatchSize 下取得實際收益。

面向未來，這三類算子層面的優化技術不僅將在昇騰生態中發揮關鍵價值，也有望為整個行業提供一個參考性范本。在大模型架構日趨復雜、推理場景更加多樣化的當下，算子層的優化正從單一性能突破邁向「數學創新、架構感知、硬件親和」協同演進的全新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.