沒有人不在期待大模型能夠成為下一個電動車,作為代表中國的新興產業,在世界范圍內掀起狂瀾。
然而主流的MoE架構大模型,卻苦于其結構上的“先天不足”:巨大的硬件成本與多重拖累效率的環節,使得中國企業在這場芯片堆砌與效率挖掘的苦徑上難以提速。
作為智能基礎設施提供商,華為在這場戰役中另辟蹊徑,利用其在數學算法和工程領域的深厚積累,為DeepSeek顯著提升了效率及用戶體驗。
山就在那里,但中國企業找到了不一樣的登頂之路。
近期,虎嗅將打造《華為技術披露集》系列內容,全面揭秘超大規模MoE模型推理部署技術,通過一連串的技術報告,首次全面披露技術細節。
希望本系列內容能為業界起到參考價值,也希望更多人能與華為一起,共同打造長期持續的開放協作生態環境,讓昇騰生態在中國茁壯成長。
《華為技術披露集》系列 VOL.5 :昇騰親和
算子是 AI 大模型執行計算的 “原子級工具”,如同樂高積木中的基礎模塊,負責從加減乘除到特征提取的一切核心操作。
它們不僅是模型的效率引擎,更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制,讓芯片處理海量數據時如虎添翼。而昇騰此次開源的三大技術,正是算子優化的 “終極形態”。
AMLA × 融合算子 × SMTurbo
讓大模型推理速度與能效雙重革命
基于昇騰算力,華為團隊本次發布了三項重要的硬件親和算子技術研究:
AMLA:用“數學魔法”重構浮點運算,讓昇騰芯片的算力利用率突破 70%。
融合算子優化:像指揮交響樂團一樣調度硬件資源,讓計算與通信 “無縫協奏”。
SMTurbo:打造內存訪問的 “高速公路”,跨 384 卡延遲低至亞微秒級。
技術全景:
三大黑科技如何顛覆 AI 計算?
AMLA:以加代乘的“魔法”讓芯片算力利用率飆升
“數字煉金術”:對二進制表示重解析,將復雜乘法轉換為加法運算,充分利用存內算力,算力利用率飆升至 71%。
針對Decode階段的MLA計算,華為團隊提出了AMLA(Ascend MLA)算子,通過數學等價變化和硬件親和的深度優化,釋放昇騰芯片澎湃算力。
具體而言,通過對浮點數二進制編碼的重解析,把復雜的乘法運算變成簡單的加法操作,AMLA實現了基于存內計算的變量更新,充分利用算力的同時減少數據搬運;結合一系列基于昇騰硬件的計算流程及流水優化手段,進一步提升算子的整體性能。
當前AMLA算法的Attention 算子充分發揮昇騰硬件的計算能力,平均算力利用率達到55%,最高可達71%,優于FlashMLA公開的結果。
融合算子優化:硬件資源的 “交響樂指揮家”
將多個算子合而為一,讓計算、通信、存儲 “三重協奏”。
基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗,華為團隊提煉出三大昇騰算子融合設計原理:硬件單元間并行度優化、冗余數據搬運消除、數學等價重構計算流。
首先,利用昇騰芯片的多硬件單元并行的能力,將跨硬件單元串行算子融合為復合算子,通過指令級流水編排實現計算耗時相互掩蓋。
其次,對串行向量算子實施融合處理,構建全局內存與計算單元緩存的直通數據通道,使中間結果全程駐留高速緩存。
最后,華為團隊運用數學等價關系解耦算子間數據依賴,重構計算順序實現并行加速。該技術體系在模型推理中實現了大幅性能提升。
SMTurbo:384 卡內存共享的 “超低延遲高速公路”
昇騰原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代。
華為CloudMatrix 384支持384卡規模原生Load/Store語義。因其低延遲、上下文切換代價小、可細粒度流水等優勢,受到業界廣泛關注?;诠蚕韮却娴募贤ㄐ艥M足了小數據量、大范圍集合通信場景需求,成為稀疏模型推理的關鍵能力。
面向原生Load/Store內存語義通信提供軟硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將Load/Store在讀和寫兩個方向上并行,發揮了昇騰芯片讀寫分離的微架構優勢。
針對數據保序場景下的同步開銷問題,引入了批處理與中轉機制,降低了控制邏輯的開銷。在跨機訪存通信場景下,方案可以提升CloudMatrix 384中昇騰芯片每線程的訪存吞吐20%以上。
如上,在提到的三個算子層面優化技術的未來發展上:
針對AMLA,將研究僅KVCache 量化和全量化場景的MLA 算子優化,進一步擴展算子應用場景。
針對融合算子優化,將進一步探索融合算子在更多模型架構上的應用,推動大語言模型在昇騰硬件上的高效推理與廣泛應用。
針對Load/Store的優化技術,將結合業務設計精巧的流水實現,平衡讀寫平面的負載分擔,將CPP 思想引入Deepseek dispatch 與combine 場景,在大BatchSize下取得實際收益。
本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4383770.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.