99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華團隊提出微縮版FP4注意力機制,以即插即用方式加速推理

0
分享至

近日,清華大學團隊打造了首個用于推理加速的微縮版 FP4 注意力機制——SageAttention3,在英偉達 RTX5090 上實現了 1038TOPS 的計算性能。相比此前在英偉達 RTX5090 上計算性能最快的、由美國斯坦福大學提出的 FlashAttention,SageAttention3 的計算性能快了 5 倍。實驗表明,SageAttention3 能夠加速各種模型,并且不會導致端到端質量指標的下降。

與此同時,研究團隊還打造了首個用于訓練加速的可訓練 8 比特注意力機制——SageBwd,并探討了它在訓練任務中的可行性。其發現,8 比特注意力機制可以在微調任務中實現無損性能,不過在當前階段的預訓練任務中仍存在一定局限性。


(來源:arXiv)

由于注意力機制的時間復雜度是 n2,因此注意力機制的效率非常重要。為此,他們通過兩個關鍵貢獻提高了注意力的效率:首先,研究團隊利用英偉達 Blackwell GPU 中的新 FP4 Tensor 內核來加速注意力計算。實驗表明,SageAttention3 能夠以即插即用的方式加速各種模型的推理。其次,研究團隊在訓練任務中率先采用了低比特注意力機制,而此前包括 FlashAttention3 和 SageAttention 在內的現有低比特注意力機制僅僅關注推理。

據該研究團隊所知,本次研究首次實現了面向推理加速的 FP4 注意力機制設計,并開創性地探索了低比特注意力在大型模型訓練中的可行性。目前,相關代碼已開源:https://github.com/thu-ml/SageAttention。



解決兩大障礙和一個難點

研究團隊在論文中表示,FP4 注意力機制面臨兩個主要障礙,而 8 比特可訓練注意力機制則面臨著一個關鍵難點。具體來說:

第一個問題是:FP4 量化的數值表示范圍極為有限(僅能表示 15 個可取值),導致無論是逐張量(per-tensor)還是逐詞元(per-token)的量化方法,均無法有效保持模型精度。

第二個問題是:注意力圖 P 主要由 [0,1] 范圍內的小值組成。(注:注意力圖 P 是 Self-Attention 中的核心輸出矩陣,表示輸入序列中所有位置之間的相關性權重。)若直接量化為 FP4 格式,這些數值會迫使擴展因子的動態范圍被極度壓縮。然而,硬件要求量化因子必須采用 FP8 數據類型,這一限制導致縮放因子以 FP8 格式表示時會產生顯著的精度損失。

第三個問題是:在訓練過程中使用 8 比特注意力機制時,研究團隊發現注意力圖的梯度特別容易受到量化誤差的影響,從而導致輸入梯度中的誤差累積。

為了解決第一個問題,研究團隊提出針對注意力機制中的兩次矩陣乘法,即 QK? 和 PV 中使用 FP4 微縮放量化方法。通過將量化組大小限制為 1x16(而非基于張量或通道),讓本次方法在提高 FP4 量化精度的同時,能夠有效抑制每個塊內的異常值影響。

為了解決第二個問題,研究團隊提出了一種針對注意力圖 P 的兩級量化方法,從而充分利用了 FP8 縮放因子的表示范圍,提高了注意力圖 P 的量化精度。具體而言,該方法首先通過逐 token 量化將每個 token 的數值范圍歸一化至 [0, 448 × 6],隨后采用 FP4 微縮放量化來提升精度。

為了解決第三個問題,研究團隊在反向傳播涉及的五個矩陣乘法運算中,識別出對精度最為敏感的那個,并將其精度保持在 FP16 級別。



FP4 注意推理加速以及硬件實現與優化

在數據類型的確定上,FP4 數據類型有著兩種選擇。第一個選擇是 NVFP4,其數據類型為 E2M1,量化塊大小為 1×16,擴展因子為 E4M3 數據類型。第二個選擇是 MXFP4,它也是 E2M1 數據類型,然而其量化塊大小為 1×32,擴展因子為 E8M0 數據類型。

一番對比之后,研究團隊選擇了 NVFP4,這是因為 NVFP4 在注意力量化方面的精度遠高于 MXFP4。下表展示了在 AI 視頻生成模型 CogVideoX 所有層上使用實數 Q、K、V 的 MXFP4 和 NVFP4 的準確性。結果表明,NVFP4 的精度優于 MXFP4。


(來源:arXiv)

不同于 FP16,在 FP4 的矩陣乘法中,FP32 累加器的內存布局與其操作數 A 的寄存器布局不同。如果通過線程間數據交換來匹配操作數 A 的布局,會導致內核性能下降。研究團隊的方法是通過對 P tile 的列進行置換,來調整累加器的布局。為了保證矩陣乘法的正確性,研究團隊相應地重新排列 K 的列,這一過程可以與量化內核融合處理。

進行微縮放量化時,需要找到每行連續 16 個元素中的最大值。然而,這 16 個元素分布在 4 個線程中,這就需要線程內部先求最大值,再通過線程間的 shuffle 操作進行歸并,這大大拖慢了內核的執行速度。研究團隊針對這一做法進行了優化,即把量化過程與在線 softmax 融合處理,與此同時這種融合還能計算每行的最大值。


(來源:arXiv)

在傳統的 warp 專用內核中,消費者線程束通常同時執行矩陣乘法和存儲操作,而生產者線程束只是負責加載輸入數據,消費者線程束之間通過乒乓調度(ping-pong)調度實現階段重疊。

然而,在研究團隊的 FP4 注意力內核中,由于寄存器資源受限,這種方式無法實現。因此,研究團隊設計了新的方案,即在生產者線程束之間進行乒乓調度:當一個生產者線程束為下一次矩陣乘法操作加載輸入數據時,另一個生產者線程束同時將輸出結果存儲到全局內存中,而消費者線程束則僅負責將矩陣乘法的結果從寄存器轉移到共享內存中。

通過采用這種新穎的設計,讓他們在寄存器數量的限制下,實現了矩陣乘法和全局內存存儲操作的重疊,從而提高了吞吐量。



將 INT8 注意力用于訓練,并開展相關實驗

據了解,低比特量化注意力相關工作,比如 FlashAttention3 和 SageAttention,僅適用于推理場景。

如前所述,研究團隊提出了一種用于訓練的 INT8 注意力機制——SageBwd。該機制將注意力計算中的七個矩陣乘法里的六個量化為 INT8 精度,同時在微調任務中實現了零性能損失。

實驗中,研究團隊驗證了 SageAttention3 和 SageBwd 在語言、圖像和視頻生成等多種代表性模型中的有效性。

具體來說,他們在以下方面進行了實驗:

在文本到文本任務的測試實驗中,使用的是 Qwen2.5 和 Llama3.2;在文本到視頻任務的測試實驗中,使用的是 CogvideoX、HunyuanVideo 和 Mochi;在文本到圖像任務的測試實驗中,使用的是 Flux 和 Stable-Diffusion3.5。

研究團隊將本次方法與 FlashAttention2、xformers、SageAttention 和 SageAtteention2 進行了比較。

需要說明的是,FlashAttention3 只能在英偉達 Hopper GPU 上運行,因此 FlashAttention 2 已經是英偉達 RTX5090 和英偉達 RTX4090 上能運行的最快版本。

下圖展示了 SageAttention3 及其基線模型在 RTX 5090 上的內核運行速度??梢钥闯?,SageAttention3 相較于 FlashAttention2 實現了 4~5 倍的加速,相較于 xformers 實現了 8~11 倍的加速。


(來源:arXiv)

下圖展示了 SageBwd 及其基線模型在英偉達 RTX 4090 上的“正向+反向”傳播的速度。結果表明,SageBwd 相較于 FlashAttention2 最多實現了 1.67 倍的加速,并且比基于 Triton 實現的 FlashAttention2 以及 xformers 具有更高的加速比。


(來源:arXiv)

在下表中,研究團隊使用 SageAttention3 和其他注意力方法比較了各種模型上的端到端質量指標。結果表明,SageAttention3 在這些模型中幾乎不會造成端到端的質量損失。


(來源:arXiv)

為了評估 SageBwd 在訓練任務中的有效性,研究團隊進行了兩個實驗。

首先,研究團隊在 GSM8K、DROP、MMLU 和 HELLASWAG 數據集上對 Qwen2.5(3B)和 Llama3.2(1B)的基礎模型進行微調。下圖顯示了微調損耗結果,表明 SageBwd 與 BF16 完全對齊。


(來源:arXiv)

此外,研究團隊對多個測試數據集上微調模型的答案質量的評估表明,SageBwd 實現了與 BF16 相同的性能。


(來源:arXiv)

其次,研究團隊使用 Llama(400M)模型在 FineWebEdu 上進行預訓練任務。下圖顯示了損耗曲線,表明雖然 SageBwd 可以實現損耗收斂,但其收斂速度相對較慢。這種限制制約了它在預訓練任務中的適用性。


(來源:arXiv)

下圖顯示了視頻生成的一些比較示例,包括使用 SageAttention3 在混元上生成視頻和在 Stable-diffsion3.5 上生成圖像。結果表明,SageAttention3 保持了完好的生成質量。


(來源:arXiv)

下圖總結了端到端推理和訓練延遲的改進情況。結果顯示,相比混元和 CogVideoX,SageAttention3 在英偉達 RTX5090 上實現了約 3 倍和 2.4 倍的端到端推理生成加速。此外,SageBwd 在英偉達 RTX4090 上使用 8K/16K token 微批量訓練 Llama(1B)時,實現了大約 1.15 倍的加速。


(來源:arXiv)

盡管 SageBwd 展現出比 FP16 實現更快的性能,但研究團隊觀察到其當前速度與理論上限之間存在顯著差距。這一差距可能是由 Triton 內核實現不夠優良導致的,研究團隊計劃進一步對其進行優化。研究團隊在論文中表示,探索低比特注意力在預訓練任務中的應用也是一個富有前景的研究方向,非常值得探索。

參考資料:

相關論文:https://.org/pdf/2505.11594

開源代碼:https://github.com/thu-ml/SageAttention

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
禁酒令下商家出招了!張貼“放心,本店無監控,不接待3人以上”

禁酒令下商家出招了!張貼“放心,本店無監控,不接待3人以上”

火山詩話
2025-06-15 19:19:23
伊朗又升血旗,又成了全世界的笑話

伊朗又升血旗,又成了全世界的笑話

寒叔說國際
2025-06-14 11:58:27
我61歲,經歷了3段晚年感情后才發現,老年搭伙最需要的不是金錢

我61歲,經歷了3段晚年感情后才發現,老年搭伙最需要的不是金錢

詭譎怪談
2025-05-19 17:57:34
53歲汪峰再次喜當爹!5個孩子4個媽,前妻葛薈婕:又在繁殖了

53歲汪峰再次喜當爹!5個孩子4個媽,前妻葛薈婕:又在繁殖了

趙釔是個熱血青年
2025-06-01 05:12:17
小米王化回應“山東一大學禁用紅米手機考試”

小米王化回應“山東一大學禁用紅米手機考試”

界面新聞
2025-06-16 08:17:14
匈牙利總理最新涉華表態

匈牙利總理最新涉華表態

中國網
2025-06-16 11:25:59
被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現被炒到大幾萬

被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現被炒到大幾萬

小娛樂悠悠
2025-06-15 22:13:54
直線拉升!突發利好,多股垂直漲停!

直線拉升!突發利好,多股垂直漲停!

證券時報e公司
2025-06-16 12:19:48
“扁擔女孩”劉燕首出鏡,媽媽一并露面,工作已找到,本人很漂亮

“扁擔女孩”劉燕首出鏡,媽媽一并露面,工作已找到,本人很漂亮

南宗歷史
2025-06-15 16:12:35
網暴直播抓小三!6年閨蜜竟睡了她老公3年,雙方都已婚有娃!

網暴直播抓小三!6年閨蜜竟睡了她老公3年,雙方都已婚有娃!

說點真嘞叭
2025-06-15 06:43:29
“再降薪就沒人踢了”,徐亮暴怒發聲后,才看清他與范志毅的差距

“再降薪就沒人踢了”,徐亮暴怒發聲后,才看清他與范志毅的差距

界史
2025-06-16 14:10:55
勇士5換1交易杜蘭特,詹姆斯怒批聯盟失衡!

勇士5換1交易杜蘭特,詹姆斯怒批聯盟失衡!

秘密清風
2025-06-16 10:28:37
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉野小珥
2025-06-04 03:42:44
河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

瀟湘晨報
2025-06-16 11:26:14
以伊沖突第三天:導彈互襲 鄰國遭殃 美伊角力

以伊沖突第三天:導彈互襲 鄰國遭殃 美伊角力

國際在線
2025-06-15 21:23:05
中美談判期間,美國3大部長施壓中國解禁稀土!人民日報敲響鐘聲

中美談判期間,美國3大部長施壓中國解禁稀土!人民日報敲響鐘聲

文辰國學
2025-06-15 16:42:32
殲10為何能在印巴空戰中一飛沖天?源于40年前法國人對中國的羞辱

殲10為何能在印巴空戰中一飛沖天?源于40年前法國人對中國的羞辱

阿胡
2025-05-15 15:15:40
1000美軍將進駐臺灣?我國臺辦明確提醒:“不要越線玩火”

1000美軍將進駐臺灣?我國臺辦明確提醒:“不要越線玩火”

任紀煙
2025-06-15 19:47:11
河北原配抓現行,丈夫和小三當場決裂:現場千人圍觀!

河北原配抓現行,丈夫和小三當場決裂:現場千人圍觀!

農村情感故事
2025-06-16 12:24:01
曬宏遠球衣,水哥重回廣東?沃特斯官宣,1年合同,球迷期待

曬宏遠球衣,水哥重回廣東?沃特斯官宣,1年合同,球迷期待

東球弟
2025-06-16 11:41:59
2025-06-16 17:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15298文章數 513785關注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

以發動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

頭條要聞

以發動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

消費還是得靠00后

汽車要聞

智己LS7煥新版32.99萬正式上市 這次升級很大

態度原創

手機
親子
數碼
藝術
公開課

手機要聞

雙芯魔王!REDMI K80至尊版安兔兔跑分突破324萬:同平臺新紀錄

親子要聞

王祖龍、張琦、馬永:用科學備孕為新生命鋪就“健康起跑線”!

數碼要聞

REDMI K Pad圖賞:質感與便攜兼得,全金屬機身×窄邊設計

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 固安县| 东丽区| 新津县| 观塘区| 中阳县| 安顺市| 蕉岭县| 永新县| 格尔木市| 萨迦县| 德兴市| 纳雍县| 香格里拉县| 宣化县| 青浦区| 南丹县| 汉中市| 华坪县| 运城市| 开封市| 通城县| 南丹县| 东安县| 泸溪县| 进贤县| 马鞍山市| 禹州市| 南召县| 利辛县| 汉源县| 安岳县| 开平市| 永新县| 呼玛县| 稷山县| 甘肃省| 肇庆市| 杨浦区| 神木县| 大田县| 怀宁县|