99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華團隊提出微縮版FP4注意力機制,以即插即用方式加速推理

0
分享至

近日,清華大學團隊打造了首個用于推理加速的微縮版 FP4 注意力機制——SageAttention3,在英偉達 RTX5090 上實現了 1038TOPS 的計算性能。相比此前在英偉達 RTX5090 上計算性能最快的、由美國斯坦福大學提出的 FlashAttention,SageAttention3 的計算性能快了 5 倍。實驗表明,SageAttention3 能夠加速各種模型,并且不會導致端到端質量指標的下降。

與此同時,研究團隊還打造了首個用于訓練加速的可訓練 8 比特注意力機制——SageBwd,并探討了它在訓練任務中的可行性。其發現,8 比特注意力機制可以在微調任務中實現無損性能,不過在當前階段的預訓練任務中仍存在一定局限性。


(來源:arXiv)

由于注意力機制的時間復雜度是 n2,因此注意力機制的效率非常重要。為此,他們通過兩個關鍵貢獻提高了注意力的效率:首先,研究團隊利用英偉達 Blackwell GPU 中的新 FP4 Tensor 內核來加速注意力計算。實驗表明,SageAttention3 能夠以即插即用的方式加速各種模型的推理。其次,研究團隊在訓練任務中率先采用了低比特注意力機制,而此前包括 FlashAttention3 和 SageAttention 在內的現有低比特注意力機制僅僅關注推理。

據該研究團隊所知,本次研究首次實現了面向推理加速的 FP4 注意力機制設計,并開創性地探索了低比特注意力在大型模型訓練中的可行性。目前,相關代碼已開源:https://github.com/thu-ml/SageAttention。



解決兩大障礙和一個難點

研究團隊在論文中表示,FP4 注意力機制面臨兩個主要障礙,而 8 比特可訓練注意力機制則面臨著一個關鍵難點。具體來說:

第一個問題是:FP4 量化的數值表示范圍極為有限(僅能表示 15 個可取值),導致無論是逐張量(per-tensor)還是逐詞元(per-token)的量化方法,均無法有效保持模型精度。

第二個問題是:注意力圖 P 主要由 [0,1] 范圍內的小值組成。(注:注意力圖 P 是 Self-Attention 中的核心輸出矩陣,表示輸入序列中所有位置之間的相關性權重。)若直接量化為 FP4 格式,這些數值會迫使擴展因子的動態范圍被極度壓縮。然而,硬件要求量化因子必須采用 FP8 數據類型,這一限制導致縮放因子以 FP8 格式表示時會產生顯著的精度損失。

第三個問題是:在訓練過程中使用 8 比特注意力機制時,研究團隊發現注意力圖的梯度特別容易受到量化誤差的影響,從而導致輸入梯度中的誤差累積。

為了解決第一個問題,研究團隊提出針對注意力機制中的兩次矩陣乘法,即 QK? 和 PV 中使用 FP4 微縮放量化方法。通過將量化組大小限制為 1x16(而非基于張量或通道),讓本次方法在提高 FP4 量化精度的同時,能夠有效抑制每個塊內的異常值影響。

為了解決第二個問題,研究團隊提出了一種針對注意力圖 P 的兩級量化方法,從而充分利用了 FP8 縮放因子的表示范圍,提高了注意力圖 P 的量化精度。具體而言,該方法首先通過逐 token 量化將每個 token 的數值范圍歸一化至 [0, 448 × 6],隨后采用 FP4 微縮放量化來提升精度。

為了解決第三個問題,研究團隊在反向傳播涉及的五個矩陣乘法運算中,識別出對精度最為敏感的那個,并將其精度保持在 FP16 級別。



FP4 注意推理加速以及硬件實現與優化

在數據類型的確定上,FP4 數據類型有著兩種選擇。第一個選擇是 NVFP4,其數據類型為 E2M1,量化塊大小為 1×16,擴展因子為 E4M3 數據類型。第二個選擇是 MXFP4,它也是 E2M1 數據類型,然而其量化塊大小為 1×32,擴展因子為 E8M0 數據類型。

一番對比之后,研究團隊選擇了 NVFP4,這是因為 NVFP4 在注意力量化方面的精度遠高于 MXFP4。下表展示了在 AI 視頻生成模型 CogVideoX 所有層上使用實數 Q、K、V 的 MXFP4 和 NVFP4 的準確性。結果表明,NVFP4 的精度優于 MXFP4。


(來源:arXiv)

不同于 FP16,在 FP4 的矩陣乘法中,FP32 累加器的內存布局與其操作數 A 的寄存器布局不同。如果通過線程間數據交換來匹配操作數 A 的布局,會導致內核性能下降。研究團隊的方法是通過對 P tile 的列進行置換,來調整累加器的布局。為了保證矩陣乘法的正確性,研究團隊相應地重新排列 K 的列,這一過程可以與量化內核融合處理。

進行微縮放量化時,需要找到每行連續 16 個元素中的最大值。然而,這 16 個元素分布在 4 個線程中,這就需要線程內部先求最大值,再通過線程間的 shuffle 操作進行歸并,這大大拖慢了內核的執行速度。研究團隊針對這一做法進行了優化,即把量化過程與在線 softmax 融合處理,與此同時這種融合還能計算每行的最大值。


(來源:arXiv)

在傳統的 warp 專用內核中,消費者線程束通常同時執行矩陣乘法和存儲操作,而生產者線程束只是負責加載輸入數據,消費者線程束之間通過乒乓調度(ping-pong)調度實現階段重疊。

然而,在研究團隊的 FP4 注意力內核中,由于寄存器資源受限,這種方式無法實現。因此,研究團隊設計了新的方案,即在生產者線程束之間進行乒乓調度:當一個生產者線程束為下一次矩陣乘法操作加載輸入數據時,另一個生產者線程束同時將輸出結果存儲到全局內存中,而消費者線程束則僅負責將矩陣乘法的結果從寄存器轉移到共享內存中。

通過采用這種新穎的設計,讓他們在寄存器數量的限制下,實現了矩陣乘法和全局內存存儲操作的重疊,從而提高了吞吐量。



將 INT8 注意力用于訓練,并開展相關實驗

據了解,低比特量化注意力相關工作,比如 FlashAttention3 和 SageAttention,僅適用于推理場景。

如前所述,研究團隊提出了一種用于訓練的 INT8 注意力機制——SageBwd。該機制將注意力計算中的七個矩陣乘法里的六個量化為 INT8 精度,同時在微調任務中實現了零性能損失。

實驗中,研究團隊驗證了 SageAttention3 和 SageBwd 在語言、圖像和視頻生成等多種代表性模型中的有效性。

具體來說,他們在以下方面進行了實驗:

在文本到文本任務的測試實驗中,使用的是 Qwen2.5 和 Llama3.2;在文本到視頻任務的測試實驗中,使用的是 CogvideoX、HunyuanVideo 和 Mochi;在文本到圖像任務的測試實驗中,使用的是 Flux 和 Stable-Diffusion3.5。

研究團隊將本次方法與 FlashAttention2、xformers、SageAttention 和 SageAtteention2 進行了比較。

需要說明的是,FlashAttention3 只能在英偉達 Hopper GPU 上運行,因此 FlashAttention 2 已經是英偉達 RTX5090 和英偉達 RTX4090 上能運行的最快版本。

下圖展示了 SageAttention3 及其基線模型在 RTX 5090 上的內核運行速度。可以看出,SageAttention3 相較于 FlashAttention2 實現了 4~5 倍的加速,相較于 xformers 實現了 8~11 倍的加速。


(來源:arXiv)

下圖展示了 SageBwd 及其基線模型在英偉達 RTX 4090 上的“正向+反向”傳播的速度。結果表明,SageBwd 相較于 FlashAttention2 最多實現了 1.67 倍的加速,并且比基于 Triton 實現的 FlashAttention2 以及 xformers 具有更高的加速比。


(來源:arXiv)

在下表中,研究團隊使用 SageAttention3 和其他注意力方法比較了各種模型上的端到端質量指標。結果表明,SageAttention3 在這些模型中幾乎不會造成端到端的質量損失。


(來源:arXiv)

為了評估 SageBwd 在訓練任務中的有效性,研究團隊進行了兩個實驗。

首先,研究團隊在 GSM8K、DROP、MMLU 和 HELLASWAG 數據集上對 Qwen2.5(3B)和 Llama3.2(1B)的基礎模型進行微調。下圖顯示了微調損耗結果,表明 SageBwd 與 BF16 完全對齊。


(來源:arXiv)

此外,研究團隊對多個測試數據集上微調模型的答案質量的評估表明,SageBwd 實現了與 BF16 相同的性能。


(來源:arXiv)

其次,研究團隊使用 Llama(400M)模型在 FineWebEdu 上進行預訓練任務。下圖顯示了損耗曲線,表明雖然 SageBwd 可以實現損耗收斂,但其收斂速度相對較慢。這種限制制約了它在預訓練任務中的適用性。


(來源:arXiv)

下圖顯示了視頻生成的一些比較示例,包括使用 SageAttention3 在混元上生成視頻和在 Stable-diffsion3.5 上生成圖像。結果表明,SageAttention3 保持了完好的生成質量。


(來源:arXiv)

下圖總結了端到端推理和訓練延遲的改進情況。結果顯示,相比混元和 CogVideoX,SageAttention3 在英偉達 RTX5090 上實現了約 3 倍和 2.4 倍的端到端推理生成加速。此外,SageBwd 在英偉達 RTX4090 上使用 8K/16K token 微批量訓練 Llama(1B)時,實現了大約 1.15 倍的加速。


(來源:arXiv)

盡管 SageBwd 展現出比 FP16 實現更快的性能,但研究團隊觀察到其當前速度與理論上限之間存在顯著差距。這一差距可能是由 Triton 內核實現不夠優良導致的,研究團隊計劃進一步對其進行優化。研究團隊在論文中表示,探索低比特注意力在預訓練任務中的應用也是一個富有前景的研究方向,非常值得探索。

參考資料:

相關論文:https://.org/pdf/2505.11594

開源代碼:https://github.com/thu-ml/SageAttention

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
60歲的鞏俐這個身材,誰看了還吃得下飯,這下又要開始焦慮了

60歲的鞏俐這個身材,誰看了還吃得下飯,這下又要開始焦慮了

TVB的四小花
2025-05-22 01:27:09
荷蘭研究者發現:堅持早起的人,壽命比經常運動的人長幾年不止?

荷蘭研究者發現:堅持早起的人,壽命比經常運動的人長幾年不止?

王曉愛體彩
2025-05-30 15:58:19
項立剛:中國C919應該從中國市場下功夫,別天天想著美國帶我們玩

項立剛:中國C919應該從中國市場下功夫,別天天想著美國帶我們玩

野山歷史
2025-05-30 08:27:42
新一輪的生育計劃要來了?有著名專家提議:不生就下調養老金!

新一輪的生育計劃要來了?有著名專家提議:不生就下調養老金!

麓谷隱士
2025-05-29 09:05:36
你發現了什么?歐冠官方曬近11年決賽比分:1-0出現4次且連續出現

你發現了什么?歐冠官方曬近11年決賽比分:1-0出現4次且連續出現

直播吧
2025-05-30 11:25:05
俄外長:俄羅斯希望盡快恢復俄羅斯-印度-中國三方機制

俄外長:俄羅斯希望盡快恢復俄羅斯-印度-中國三方機制

俄羅斯衛星通訊社
2025-05-30 15:09:13
端午剩2天,獵德村的天先塌了,3條龍舟翻2條,原因出在閨女身上

端午剩2天,獵德村的天先塌了,3條龍舟翻2條,原因出在閨女身上

訪史
2025-05-30 11:08:15
金靖老公舒奕橙現身電影首映,戴眼鏡畏畏縮縮的,長相也一言難盡

金靖老公舒奕橙現身電影首映,戴眼鏡畏畏縮縮的,長相也一言難盡

玫瑰講娛
2025-05-30 12:10:18
心疼!崔永熙生日夜痛哭,現已回歸球場訓練,仍將全力沖擊NBA!

心疼!崔永熙生日夜痛哭,現已回歸球場訓練,仍將全力沖擊NBA!

籃球資訊達人
2025-05-30 14:39:48
1.4億退休老人有福了!2025年除養老金調整以外,這幾筆錢也會漲

1.4億退休老人有福了!2025年除養老金調整以外,這幾筆錢也會漲

社保小達人
2025-05-30 09:05:07
斯派克·李:我愿用奧斯卡獎杯換尼克斯奪冠,巴克利:那你留著吧

斯派克·李:我愿用奧斯卡獎杯換尼克斯奪冠,巴克利:那你留著吧

雷速體育
2025-05-30 13:43:14
陜西老總3年賺42億,女秘書換12個,知情人士吐露:吃人不吐骨頭

陜西老總3年賺42億,女秘書換12個,知情人士吐露:吃人不吐骨頭

懸案解密檔案
2025-05-19 14:44:14
《塞爾達》真人電影選角曝光:變性演員演塞爾達

《塞爾達》真人電影選角曝光:變性演員演塞爾達

游民星空
2025-05-30 09:11:09
盧偉冰痛斥友商:同款產品不同型號坑用戶 小米要改變家電行業

盧偉冰痛斥友商:同款產品不同型號坑用戶 小米要改變家電行業

快科技
2025-05-29 07:52:14
國際乒聯新主席誕生,高官賄選、逮捕對手,堪比宮斗大戲

國際乒聯新主席誕生,高官賄選、逮捕對手,堪比宮斗大戲

哄動一時啊
2025-05-29 20:55:03
蘇群:尼克斯按今天這種專注力和防守強度去打東決 可能會搶七!

蘇群:尼克斯按今天這種專注力和防守強度去打東決 可能會搶七!

直播吧
2025-05-30 11:04:13
超三萬人施工,僅12天建成的雷神山醫院,停用4年后荒廢了嗎?

超三萬人施工,僅12天建成的雷神山醫院,停用4年后荒廢了嗎?

歷史有些冷
2024-07-04 20:00:02
中方要動真格了?和談大門徹底關上?24小時內,南海傳出重要消息

中方要動真格了?和談大門徹底關上?24小時內,南海傳出重要消息

傲氣經說
2025-05-29 11:45:03
蒂亞戈-席爾瓦:明年就是世界杯,希望安切洛蒂能帶領巴西再奪冠

蒂亞戈-席爾瓦:明年就是世界杯,希望安切洛蒂能帶領巴西再奪冠

懂球帝
2025-05-30 16:33:09
美國法院竟能叫停特朗普的關稅政策?背后全依賴美國專業與公平的法律體系

美國法院竟能叫停特朗普的關稅政策?背后全依賴美國專業與公平的法律體系

爆角追蹤
2025-05-30 07:28:27
2025-05-30 17:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15231文章數 513712關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

頭條要聞

銷量承壓下寶馬重回"價格戰" 5系裸車價最低跌至26萬

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

趙麗穎新劇撲街?演技扛劇能力遭質疑

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態度原創

藝術
教育
本地
旅游
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

童言詩韻少年志 e路星光踏歌行——青島東勝路小學2025年慶“六一”表彰匯演

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

金正恩:朝鮮炮兵部隊具備實戰能力

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁夏| 碌曲县| 措美县| 澜沧| 乳山市| 商洛市| 汉中市| 建水县| 咸宁市| 合川市| 淳化县| 阿图什市| 宜黄县| 凯里市| 远安县| 东源县| 通渭县| 中西区| 丰原市| 武川县| 桦南县| 扶余县| 清水河县| 达拉特旗| 望都县| 刚察县| 新宁县| 绩溪县| 塘沽区| 黄陵县| 鹿邑县| 宝山区| 新乐市| 孝昌县| 太湖县| 房山区| 洱源县| 通化市| 阿勒泰市| 长岛县| 藁城市|