“算力利用率突破 70%、跨卡延遲低至亞微秒級,華為算子技術如何重新定義硬件性能?”
作者丨李希
AMLA × 融合算子 × SMTurbo —— 讓大模型推理速度與能效雙重革命
基于昇騰算力,華為團隊本次發布了三項重要的硬件親和算子技術研究:
AMLA:用 “ 數學魔法 ” 重構浮點運算,讓 昇騰 芯片的算力利用率突破 70%!
融合算子優化:像指揮交響樂團一樣調度硬件資源,讓計算與通信 “無縫協奏”!
SMTurbo:打造內存訪問的 “高速公路”,跨 384 卡延遲低至亞微秒級!
大模型推理的 “樂高積木”:算子為何如此重要?
算子是 AI 大模型執行計算的 “原子級工具”,如同樂高積木中的基礎模塊,負責從加減乘除到特征提取的一切核心操作。它們不僅是模型的效率引擎,更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制,讓芯片處理海量數據時如虎添翼。而昇騰此次開源的三大技術,正是算子優化的 “終極形態”。
技術全景:三大黑科技如何顛覆 AI 計算?
1、AMLA:以加代乘的“魔法”讓芯片算力利用率飆升
“數字煉金術”:對二進制表示重解析,將復雜乘法轉換為加法運算,充分利用存內算力,算力利用率飆升至 71%!
針對Decode階段的MLA 計算,華為團隊提出了AMLA(Ascend MLA)算子,通過數學等價變化和硬件親和的深度優化, 釋放昇騰芯片澎湃算力 。具體而言,通過 對浮點數二進制編碼的重解析 ,把復雜的乘法運算變成簡單的加法操作,AMLA實現了基于 存內計算 的變量更新,充分利用算力的同時減少數據搬運;結合一系列基于昇騰硬件的計算流程及流水優化手段,進一步提升算子的整體性能。當前AMLA算法的Attention 算子充分發揮昇騰硬件的計算能力,平均算力利用率達到55%,最高可達71%,優于FlashMLA公開的結果。
2、融合算子優化:硬件資源的 “交響樂指揮家”
將多個算子合而為一,讓計算、通信、存儲 “三重協奏”!
基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗,華為團隊提煉出三大昇騰算子融合設計原理:硬件單元間并行度優化、冗余數據搬運消除、數學等價重構計算流。首先,利用昇騰芯片的多硬件單元并行的能力,將跨硬件單元串行算子融合為復合算子,通過指令級流水編排實現計算耗時相互掩蓋;其次,對串行向量算子實施融合處理,構建全局內存與計算單元緩存的直通數據通道,使中間結果全程駐留高速緩存;最后,華為團隊運用數學等價關系解耦算子間數據依賴,重構計算順序實現并行加速。該技術體系在模型推理中實現了大幅性能提升。
3、SMTurbo:384 卡內存共享的 “超低延遲高速公路”
昇騰 原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代!
華為CloudMatrix 384支持384卡規模原生Load/Store語義。因其低延遲、上下文切換代價小、可細粒度流水等優勢,受到業界廣泛關注。基于共享內存的集合通信滿足了小數據量、大范圍集合通信場景需求,成為稀疏模型推理的關鍵能力。
面向原生Load/Store內存語義通信提供軟硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將Load/Store在讀和寫兩個方向上并行,發揮了昇騰芯片讀寫分離的微架構優勢;針對數據保序場景下的同步開銷問題,引入了批處理與中轉機制,降低了控制邏輯的開銷。在跨機訪存通信場景下,方案可以提升CloudMatrix 384中昇騰芯片每線程的訪存吞吐20%以上。
未來與展望
如上提到的三個算子層面優化技術的未來發展上,針對AMLA,將研究僅KVCache 量化和全量化場景的MLA 算子優化,進一步擴展算子應用場景;針對融合算子優化,將進一步探索融合算子在更多模型架構上的應用,推動大語言模型在昇騰硬件上的高效推理與廣泛應用;針對L oad/Store 的優化技術,將結合業務設計精巧的流水實現,平衡讀寫平面的負載分擔,將CPP 思想引入Deepseek dispatch 與combine 場景,在大BatchSize下取得實際收益。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.