99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

以加代乘?華為數學家出手,昇騰算子的高能設計與優化,性能升30%

0
分享至



現如今,隨著參數規模的指數級增長,大語言模型(LLM)的能力邊界不斷被打破,AI 的智力正在經歷快速躍遷。但隨之而來的是,大模型在落地過程中面臨著一系列推理層面的難題,比如推不動、算不起、部署慢,導致推理成本高昂,性能冗余浪費嚴重。

因此,大模型推理的「速度」與「能效」成為所有算力廠商與算法團隊繞不開的核心命題,如何讓它們真正「跑得快、用得省」亟需全新的解法。這顯然不僅僅是工程挑戰,更要在承接大模型推理壓力的同時,在能效、延遲、成本等多方面實現可控與優化。

在這一背景下,華為團隊和昨天一樣(參考:幫大模型提速 80%,華為拿出昇騰推理殺手锏 FlashComm,三招搞定通算瓶頸),用數學補物理,給出了一份深度融合軟硬件的系統性方案!

他們基于昇騰算力,正式發布了三項重要的硬件親和算子技術研究,帶來了大模型推理速度與能效的雙重革命。具體包括如下:

  • AMLA—— 以加代乘的高性能昇騰 MLA 算子。用「數學魔法」重構浮點運算,讓昇騰芯片的算力利用率突破 70%!
  • 基于昇騰的融合算子技術與設計原理。像指揮交響樂團一樣調度硬件資源,讓計算與通信「無縫協奏」!
  • SMTurbo—— 面向高性能原生 Load/Store 語義加速。打造內存訪問的「高速公路」,跨 384 卡延遲低至亞微秒級!

可以看到,華為團隊著力通過對大模型推理中關鍵算子的重構優化,實現能效、多卡協同和速度三大維度的全面突破。

作為 AI 大模型執行計算的「原子級工具」,算子如同樂高積木中的基礎模塊,負責從加減乘除到特征提取的一切核心操作。它們不僅是模型的效率引擎,更是硬件性能的放大器 —— 通過標準化設計、硬件深度適配與復用機制,讓芯片處理海量數據時如虎添翼。

華為團隊此次發布的三大技術,正是算子優化的「終極形態」。

技術全景三大黑科技如何顛覆 AI 計算?

AMLA:以加代乘的「魔法」讓芯片算力利用率飆升

  • 「數字煉金術」:對二進制表示重解析,將復雜乘法轉換為加法運算,充分利用存內算力,算力利用率飆升至 71%!



針對 Decode 階段的 MLA 計算,華為團隊提出了 AMLA(Ascend MLA)算子,通過數學等價變化和硬件親和的深度優化,釋放昇騰芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技術創新點,主要就是減少推理過程的 KV Cache,實現在更少的設備上推理更長的 Context,極大地降低推理成本。FlashMLA 是該技術的高效實現版本。

針對MLA 架構,華為團隊通過精妙的數學變換,讓其變得更加昇騰親和,并做到了更高的算力利用率。

具體而言,通過對浮點數二進制編碼的重解析,把復雜的乘法運算變成簡單的加法操作,AMLA 實現了基于存內計算的變量更新,充分利用算力的同時減少數據搬運;結合一系列基于昇騰硬件的計算流程及流水優化手段,進一步提升算子的整體性能。

當前 AMLA 算法的 Attention 算子充分發揮昇騰硬件的計算能力,性能提升 30% 以上,平均算力利用率達到 55%,最高可達 71%,優于 FlashMLA 公開的結果(67%)。



博客鏈接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md

融合算子優化:硬件資源的 「交響樂指揮家」

  • 將多個算子合而為一,讓計算、通信、存儲「三重協奏」!

基于昇騰平臺部署 DeepSeek V3/R1 大模型的實踐經驗,華為團隊提煉出三大昇騰算子融合設計原理:硬件單元間并行度優化、冗余數據搬運消除、數學等價重構計算流。

首先,利用昇騰芯片的多硬件單元并行的能力,將跨硬件單元串行算子融合為復合算子,通過指令級流水編排實現計算耗時相互掩蓋。

其次,對串行向量算子實施融合處理,構建全局內存與計算單元緩存的直通數據通道,使中間結果全程駐留高速緩存。

最后,華為團隊運用數學等價關系解耦算子間數據依賴,重構計算順序實現并行加速。該技術體系在模型推理中實現了大幅性能提升。



博客鏈接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md

SMTurbo:384 卡內存共享的「超低延遲高速公路」

  • 昇騰原生 Load/Store 語義讓跨卡訪存延遲進入亞微秒時代!

華為 CloudMatrix 384 支持 384 卡規模原生 Load/Store 語義。因其低延遲、上下文切換代價小、可細粒度流水等優勢,受到業界廣泛關注。基于共享內存的集合通信滿足了小數據量、大范圍集合通信場景需求,成為稀疏模型推理的關鍵能力。

面向原生 Load/Store 內存語義通信提供軟硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 將 Load/Store 在讀和寫兩個方向上并行,發揮了昇騰芯片讀寫分離的微架構優勢;針對數據保序場景下的同步開銷問題,引入了批處理與中轉機制,降低了控制邏輯的開銷。在跨機訪存通信場景下,方案可以提升 CloudMatrix 384 中昇騰芯片每線程的訪存吞吐 20% 以上。



博客鏈接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md

未來與展望

如上提到的三個算子層面優化技術的未來發展上,針對 AMLA,將研究僅 KV Cache 量化和全量化場景的 MLA 算子優化,進一步擴展算子應用場景;針對融合算子優化,將進一步探索融合算子在更多模型架構上的應用,推動大語言模型在昇騰硬件上的高效推理與廣泛應用;針對 Load/Store 的優化技術,將結合業務設計精巧的流水實現,平衡讀寫平面的負載分擔,將該思想引入 Deepseek dispatch 與 combine 場景,在大 BatchSize 下取得實際收益。

面向未來,這三類算子層面的優化技術不僅將在昇騰生態中發揮關鍵價值,也有望為整個行業提供一個參考性范本。在大模型架構日趨復雜、推理場景更加多樣化的當下,算子層的優化正從單一性能突破邁向「數學創新、架構感知、硬件親和」協同演進的全新階段。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
從500萬跌至240萬賣不出去!蘇州一小區一套房,僅2年市值縮水52%

從500萬跌至240萬賣不出去!蘇州一小區一套房,僅2年市值縮水52%

火山詩話
2025-05-23 08:39:48
中央批準:劉桂平任天津市委副書記

中央批準:劉桂平任天津市委副書記

上觀新聞
2025-05-23 18:48:06
李乃文繃不住了!發長文哀悼朱媛媛:我舍不得你,下輩子再做朋友

李乃文繃不住了!發長文哀悼朱媛媛:我舍不得你,下輩子再做朋友

史行途
2025-05-23 15:15:41
黃楊鈿甜的耳環值多少錢已經不重要了,她弟弟的事情才更嚴重

黃楊鈿甜的耳環值多少錢已經不重要了,她弟弟的事情才更嚴重

山客雜談
2025-05-20 21:30:30
郭艾倫解說收獲頗豐,不僅鞏固娛樂大咖低位,還贏得美女芳心!

郭艾倫解說收獲頗豐,不僅鞏固娛樂大咖低位,還贏得美女芳心!

田先生籃球
2025-05-22 20:22:35
老虎不發威當我病貓,楊議開宗立派第一刀,雙胞胎兄弟被逐出師門

老虎不發威當我病貓,楊議開宗立派第一刀,雙胞胎兄弟被逐出師門

墨印齋
2025-05-23 15:37:09
英國女子在土耳其旅游時離奇病逝,回國驗尸才發現心臟不見了

英國女子在土耳其旅游時離奇病逝,回國驗尸才發現心臟不見了

瀟湘晨報
2025-05-23 16:41:14
丹麥退休年齡到2040年將上調至70歲

丹麥退休年齡到2040年將上調至70歲

澎湃新聞
2025-05-23 13:43:07
曾經紅極一時,如今卻“跌落神壇”的5大運動品牌,穿過3個算你牛

曾經紅極一時,如今卻“跌落神壇”的5大運動品牌,穿過3個算你牛

時尚搭配師Nicole
2025-05-23 13:55:28
2025年鐵飯碗排名:公務員跌出前10,第一名你可能想不到!

2025年鐵飯碗排名:公務員跌出前10,第一名你可能想不到!

老板手記
2025-05-22 19:40:42
浙大研究:冷凍饅頭超兩天會產生黃曲霉素,查文獻終于找到真相

浙大研究:冷凍饅頭超兩天會產生黃曲霉素,查文獻終于找到真相

男女那點事兒兒
2025-05-20 11:03:52
雷軍:將面向小米車主,提供10000人的小米高階駕駛免費培訓名額

雷軍:將面向小米車主,提供10000人的小米高階駕駛免費培訓名額

瀟湘晨報
2025-05-22 21:28:04
世乒賽戰報!張本美和逆轉失敗,單局9-11憾負,王曼昱3-0沖4強!

世乒賽戰報!張本美和逆轉失敗,單局9-11憾負,王曼昱3-0沖4強!

劉姚堯的文字城堡
2025-05-23 22:07:42
憑一己之力傷透全國捐款人的心!黃楊鈿甜之后,世上恐再無捐款人

憑一己之力傷透全國捐款人的心!黃楊鈿甜之后,世上恐再無捐款人

體制內老陳
2025-05-22 11:25:42
官方首次披露!只講人情不講政治的夏建亭,已被查

官方首次披露!只講人情不講政治的夏建亭,已被查

政知新媒體
2025-05-23 17:21:06
A股:突然跳水的原因找到了!所有人準備好,下周一或先抑后揚

A股:突然跳水的原因找到了!所有人準備好,下周一或先抑后揚

二月侃事
2025-05-23 16:51:27
俄外長曾警告中國,西方正在挑起中印沖突!藏南問題需加速解決了

俄外長曾警告中國,西方正在挑起中印沖突!藏南問題需加速解決了

歷史有些冷
2025-05-22 22:00:10
海上漁民釣到大海龜當寵物養8年,專家檢查后痛哭"這不是海龜"

海上漁民釣到大海龜當寵物養8年,專家檢查后痛哭"這不是海龜"

荔枝人物記
2025-05-22 17:30:06
張仲謀拜訪任正非:為何我倆道路不一樣?任正非:我們是窮人創業

張仲謀拜訪任正非:為何我倆道路不一樣?任正非:我們是窮人創業

風起講堂
2025-05-23 09:03:42
吃相難看!《哪吒2》一再延期放映,2個嚴重的后果已經悄然出現

吃相難看!《哪吒2》一再延期放映,2個嚴重的后果已經悄然出現

青橘罐頭
2025-05-22 12:50:07
2025-05-23 23:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10522文章數 142318關注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國制造就收25%關稅

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

體育要聞

臺下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認戀情,與趙德胤沒在一起?

財經要聞

特朗普威脅自6月1日起對歐盟征收50%關稅

汽車要聞

續航720km/充電10分鐘補能500公里 理想i8信息曝光

態度原創

教育
旅游
親子
本地
游戲

教育要聞

冪的運算題目也挺難,看老師怎么解題

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

請問您是從哪個視頻開始關注的呢

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

《老頭環黑夜君臨》超帥新圖公布!藍龍大戰三勇士

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 剑河县| 辛集市| 毕节市| 通州区| 正宁县| 平邑县| 青浦区| 双峰县| 绥阳县| 肥乡县| 长汀县| 平阳县| 通榆县| 延长县| 延寿县| 高碑店市| 永福县| 定襄县| 灵璧县| 治县。| 湖南省| 衢州市| 新密市| 应城市| 仁化县| 江油市| 西青区| 墨江| 屏东县| 元江| 柳江县| 阳新县| 诏安县| 于都县| 台州市| 靖远县| 海南省| 惠州市| 临城县| 沅陵县| 浙江省|