沒有人不在期待大模型能夠成為下一個電動車,作為代表中國的新興產業(yè),在世界范圍內掀起狂瀾。
然而主流的MoE架構大模型,卻苦于其結構上的“先天不足”:巨大的硬件成本與多重拖累效率的環(huán)節(jié),使得中國企業(yè)在這場芯片堆砌與效率挖掘的苦徑上難以提速。
作為智能基礎設施提供商,華為在這場戰(zhàn)役中另辟蹊徑,利用其在數(shù)學算法和工程領域的深厚積累,為DeepSeek顯著提升了效率及用戶體驗。
山就在那里,但中國企業(yè)找到了不一樣的登頂之路。
近期,虎嗅將打造《華為技術披露集》系列內容,全面揭秘超大規(guī)模MoE模型推理部署技術,通過一連串的技術報告,首次全面披露技術細節(jié)。
希望本系列內容能為業(yè)界起到參考價值,也希望更多人能與華為一起,共同打造長期持續(xù)的開放協(xié)作生態(tài)環(huán)境,讓昇騰生態(tài)在中國茁壯成長。
《華為技術披露集》系列 VOL.5 :昇騰親和
算子是 AI 大模型執(zhí)行計算的 “原子級工具”,如同樂高積木中的基礎模塊,負責從加減乘除到特征提取的一切核心操作。
它們不僅是模型的效率引擎,更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制,讓芯片處理海量數(shù)據(jù)時如虎添翼。而昇騰此次開源的三大技術,正是算子優(yōu)化的 “終極形態(tài)”。
AMLA × 融合算子 × SMTurbo
讓大模型推理速度與能效雙重革命
基于昇騰算力,華為團隊本次發(fā)布了三項重要的硬件親和算子技術研究:
AMLA:用“數(shù)學魔法”重構浮點運算,讓昇騰芯片的算力利用率突破 70%。
融合算子優(yōu)化:像指揮交響樂團一樣調度硬件資源,讓計算與通信 “無縫協(xié)奏”。
SMTurbo:打造內存訪問的 “高速公路”,跨 384 卡延遲低至亞微秒級。
技術全景:
三大黑科技如何顛覆 AI 計算?
AMLA:以加代乘的“魔法”讓芯片算力利用率飆升
“數(shù)字煉金術”:對二進制表示重解析,將復雜乘法轉換為加法運算,充分利用存內算力,算力利用率飆升至 71%。
針對Decode階段的MLA計算,華為團隊提出了AMLA(Ascend MLA)算子,通過數(shù)學等價變化和硬件親和的深度優(yōu)化,釋放昇騰芯片澎湃算力。
具體而言,通過對浮點數(shù)二進制編碼的重解析,把復雜的乘法運算變成簡單的加法操作,AMLA實現(xiàn)了基于存內計算的變量更新,充分利用算力的同時減少數(shù)據(jù)搬運;結合一系列基于昇騰硬件的計算流程及流水優(yōu)化手段,進一步提升算子的整體性能。
當前AMLA算法的Attention 算子充分發(fā)揮昇騰硬件的計算能力,平均算力利用率達到55%,最高可達71%,優(yōu)于FlashMLA公開的結果。
融合算子優(yōu)化:硬件資源的 “交響樂指揮家”
將多個算子合而為一,讓計算、通信、存儲 “三重協(xié)奏”。
基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗,華為團隊提煉出三大昇騰算子融合設計原理:硬件單元間并行度優(yōu)化、冗余數(shù)據(jù)搬運消除、數(shù)學等價重構計算流。
首先,利用昇騰芯片的多硬件單元并行的能力,將跨硬件單元串行算子融合為復合算子,通過指令級流水編排實現(xiàn)計算耗時相互掩蓋。
其次,對串行向量算子實施融合處理,構建全局內存與計算單元緩存的直通數(shù)據(jù)通道,使中間結果全程駐留高速緩存。
最后,華為團隊運用數(shù)學等價關系解耦算子間數(shù)據(jù)依賴,重構計算順序實現(xiàn)并行加速。該技術體系在模型推理中實現(xiàn)了大幅性能提升。
SMTurbo:384 卡內存共享的 “超低延遲高速公路”
昇騰原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代。
華為CloudMatrix 384支持384卡規(guī)模原生Load/Store語義。因其低延遲、上下文切換代價小、可細粒度流水等優(yōu)勢,受到業(yè)界廣泛關注。基于共享內存的集合通信滿足了小數(shù)據(jù)量、大范圍集合通信場景需求,成為稀疏模型推理的關鍵能力。
面向原生Load/Store內存語義通信提供軟硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將Load/Store在讀和寫兩個方向上并行,發(fā)揮了昇騰芯片讀寫分離的微架構優(yōu)勢。
針對數(shù)據(jù)保序場景下的同步開銷問題,引入了批處理與中轉機制,降低了控制邏輯的開銷。在跨機訪存通信場景下,方案可以提升CloudMatrix 384中昇騰芯片每線程的訪存吞吐20%以上。
如上,在提到的三個算子層面優(yōu)化技術的未來發(fā)展上:
針對AMLA,將研究僅KVCache 量化和全量化場景的MLA 算子優(yōu)化,進一步擴展算子應用場景。
針對融合算子優(yōu)化,將進一步探索融合算子在更多模型架構上的應用,推動大語言模型在昇騰硬件上的高效推理與廣泛應用。
針對Load/Store的優(yōu)化技術,將結合業(yè)務設計精巧的流水實現(xiàn),平衡讀寫平面的負載分擔,將CPP 思想引入Deepseek dispatch 與combine 場景,在大BatchSize下取得實際收益。
本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4383770.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.