現如今,隨著參數規模的指數級增長,大語言模型(LLM)的能力邊界不斷被打破,AI 的智力正在經歷快速躍遷。但隨之而來的是,大模型在落地過程中面臨著一系列推理層面的難題,比如推不動、算不起、部署慢,導致推理成本高昂,性能冗余浪費嚴重。
因此,大模型推理的「速度」與「能效」成為所有算力廠商與算法團隊繞不開的核心命題,如何讓它們真正「跑得快、用得省」亟需全新的解法。這顯然不僅僅是工程挑戰,更要在承接大模型推理壓力的同時,在能效、延遲、成本等多方面實現可控與優化。
在這一背景下,華為團隊和昨天一樣(參考:幫大模型提速 80%,華為拿出昇騰推理殺手锏 FlashComm,三招搞定通算瓶頸),用數學補物理,給出了一份深度融合軟硬件的系統性方案!
他們基于昇騰算力,正式發布了三項重要的硬件親和算子技術研究,帶來了大模型推理速度與能效的雙重革命。具體包括如下:
- AMLA—— 以加代乘的高性能昇騰 MLA 算子。用「數學魔法」重構浮點運算,讓昇騰芯片的算力利用率突破 70%!
- 基于昇騰的融合算子技術與設計原理。像指揮交響樂團一樣調度硬件資源,讓計算與通信「無縫協奏」!
- SMTurbo—— 面向高性能原生 Load/Store 語義加速。打造內存訪問的「高速公路」,跨 384 卡延遲低至亞微秒級!
可以看到,華為團隊著力通過對大模型推理中關鍵算子的重構優化,實現能效、多卡協同和速度三大維度的全面突破。
作為 AI 大模型執行計算的「原子級工具」,算子如同樂高積木中的基礎模塊,負責從加減乘除到特征提取的一切核心操作。它們不僅是模型的效率引擎,更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制,讓芯片處理海量數據時如虎添翼。
華為團隊此次發布的三大技術,正是算子優化的「終極形態」。
技術全景三大黑科技如何顛覆 AI 計算?
AMLA:以加代乘的「魔法」讓芯片算力利用率飆升
- 「數字煉金術」:對二進制表示重解析,將復雜乘法轉換為加法運算,充分利用存內算力,算力利用率飆升至 71%!
針對 Decode 階段的 MLA 計算,華為團隊提出了 AMLA(Ascend MLA)算子,通過數學等價變化和硬件親和的深度優化,釋放昇騰芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技術創新點,主要就是減少推理過程的 KV Cache,實現在更少的設備上推理更長的 Context,極大地降低推理成本。FlashMLA 是該技術的高效實現版本。
針對MLA 架構,華為團隊通過精妙的數學變換,讓其變得更加昇騰親和,并做到了更高的算力利用率。
具體而言,通過對浮點數二進制編碼的重解析,把復雜的乘法運算變成簡單的加法操作,AMLA 實現了基于存內計算的變量更新,充分利用算力的同時減少數據搬運;結合一系列基于昇騰硬件的計算流程及流水優化手段,進一步提升算子的整體性能。
當前 AMLA 算法的 Attention 算子充分發揮昇騰硬件的計算能力,性能提升 30% 以上,平均算力利用率達到 55%,最高可達 71%,優于 FlashMLA 公開的結果(67%)。
博客鏈接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md
融合算子優化:硬件資源的 「交響樂指揮家」
- 將多個算子合而為一,讓計算、通信、存儲「三重協奏」!
基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗,華為團隊提煉出三大昇騰算子融合設計原理:硬件單元間并行度優化、冗余數據搬運消除、數學等價重構計算流。
首先,利用昇騰芯片的多硬件單元并行的能力,將跨硬件單元串行算子融合為復合算子,通過指令級流水編排實現計算耗時相互掩蓋。
其次,對串行向量算子實施融合處理,構建全局內存與計算單元緩存的直通數據通道,使中間結果全程駐留高速緩存。
最后,華為團隊運用數學等價關系解耦算子間數據依賴,重構計算順序實現并行加速。該技術體系在模型推理中實現了大幅性能提升。
博客鏈接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md
SMTurbo:384 卡內存共享的「超低延遲高速公路」
- 昇騰原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代!
華為 CloudMatrix 384 支持 384 卡規模原生 Load/Store 語義。因其低延遲、上下文切換代價小、可細粒度流水等優勢,受到業界廣泛關注。基于共享內存的集合通信滿足了小數據量、大范圍集合通信場景需求,成為稀疏模型推理的關鍵能力。
面向原生 Load/Store 內存語義通信提供軟硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將 Load/Store 在讀和寫兩個方向上并行,發揮了昇騰芯片讀寫分離的微架構優勢;針對數據保序場景下的同步開銷問題,引入了批處理與中轉機制,降低了控制邏輯的開銷。在跨機訪存通信場景下,方案可以提升 CloudMatrix 384 中昇騰芯片每線程的訪存吞吐 20% 以上。
博客鏈接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md
未來與展望
如上提到的三個算子層面優化技術的未來發展上,針對 AMLA,將研究僅 KV Cache 量化和全量化場景的 MLA 算子優化,進一步擴展算子應用場景;針對融合算子優化,將進一步探索融合算子在更多模型架構上的應用,推動大語言模型在昇騰硬件上的高效推理與廣泛應用;針對 Load/Store 的優化技術,將結合業務設計精巧的流水實現,平衡讀寫平面的負載分擔,將該思想引入 Deepseek dispatch 與 combine 場景,在大 BatchSize 下取得實際收益。
面向未來,這三類算子層面的優化技術不僅將在昇騰生態中發揮關鍵價值,也有望為整個行業提供一個參考性范本。在大模型架構日趨復雜、推理場景更加多樣化的當下,算子層的優化正從單一性能突破邁向「數學創新、架構感知、硬件親和」協同演進的全新階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.