99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華SageAttention3,F(xiàn)P4量化5倍加速!且首次支持8比特訓(xùn)練

0
分享至



隨著大型模型需要處理的序列長(zhǎng)度不斷增加,注意力運(yùn)算(Attention)的時(shí)間開(kāi)銷(xiāo)逐漸成為主要開(kāi)銷(xiāo)。此前,清華大學(xué)陳鍵飛團(tuán)隊(duì)提出的即插即用的 SageAttention 和 SageAttention2 已經(jīng)被業(yè)界及社區(qū)廣泛的使用于各種開(kāi)源及商業(yè)的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,F(xiàn)lux,Llama3,Qwen 等。

近日,清華大學(xué)陳鍵飛團(tuán)隊(duì)進(jìn)一步提出了針對(duì) BlackWell 架構(gòu)的首個(gè)全 FP4 量化的即插即用注意力算子(SageAttention3)。實(shí)現(xiàn)了5倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分別達(dá)到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 達(dá)到了1040 TOPS的速度,甚至是比 RTX 5090 昂貴十幾倍的 H100 上使用 Hopper 獨(dú)有的 FlashAttention3 還要快 1.65 倍!SageAttention3 在多種視頻和圖像生成等大模型上(包括 HunyuanVideo,CogVideoX,Mochi和各類(lèi)圖像生成模型)均保持了端到端的精度表現(xiàn)。同時(shí)還首次提出可訓(xùn)練的 8 比特注意力(SageBwd)用于大模型的訓(xùn)練加速(注:FlashAttention3 的 FP8 版本也只支持前向傳播),在各項(xiàng)微調(diào)任務(wù)中均保持了與全精度注意力相同的結(jié)果。



  • 論文標(biāo)題:SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of8-bitTraining
  • 論文鏈接:https://arxiv.org/abs/2505.11594
  • 開(kāi)源代碼:https://github.com/thu-ml/SageAttention

效果預(yù)覽



SageAttention3 實(shí)現(xiàn)了高效的 Attention 算子,可以實(shí)現(xiàn)即插即用的 5 倍于 FlashAttention 的推理加速。即輸入任意 Q, K, V 矩陣,可以快速返回 Attention Output (O),真正做到了兩行代碼加速任意模型推理。(注:按照官方倉(cāng)庫(kù)中的開(kāi)源計(jì)劃,SageAttention2++ 的代碼將于6月20日左右開(kāi)源,SageAttention3 的代碼將于7月15日左右開(kāi)源。)

效果上,以 HunyuanVideo 為例,在 RTX5090 上 SageAttention3 可以 3 倍加速端到端的生成,且視頻質(zhì)量幾乎無(wú)損:


https://mp.weixin.qq.com/s/aVlYM_cMrpTKeH3ao-UJuA

視頻 1(使用 FlashAttention2,490s)


https://mp.weixin.qq.com/s/aVlYM_cMrpTKeH3ao-UJuA

視頻 2(使用 SageAttention3,164s)

(注:FlashAttention2 已經(jīng)是在 RTX5090 上最優(yōu)的 FlashAttention 實(shí)現(xiàn)。)

接下來(lái),將從前言,挑戰(zhàn),方法,以及實(shí)驗(yàn)效果四個(gè)方面介紹 SageAttention3。



SageAttention3 總體流程圖

前言

隨著大模型需要處理的序列長(zhǎng)度越來(lái)越長(zhǎng),Attention 的速度優(yōu)化變得越來(lái)越重要。下圖展示了一個(gè)標(biāo)準(zhǔn)的 Transformer 模型中各運(yùn)算的時(shí)間占比隨序列長(zhǎng)度的變化:



為了方便指代注意力運(yùn)算中的矩陣,我們先回顧一下注意力的計(jì)算公式:



研究動(dòng)機(jī):(1)Blackwell 架構(gòu)有著速度極快的 FP4 Tensor Core,以 RTX5090 為例,其速度是 FP16 Tensor Core 的 8 倍。(2)訓(xùn)練階段的注意力運(yùn)算開(kāi)銷(xiāo)也同樣重要,在此之前并沒(méi)有工作嘗試過(guò)低比特注意力加速模型訓(xùn)練,包括 FlashAttention3 的 FP8 版本也只有 Forward 過(guò)程。我們還希望同時(shí)量化注意力的前向 + 反向過(guò)程來(lái)加速訓(xùn)練。

FP4 注意力量化有什么問(wèn)題?

(1)FP4 數(shù)值類(lèi)型僅有 15 個(gè)有效數(shù)值,這使得以 Tensor(Per-tensor)或以 Token(Per-token)粒度的量化都難以有效保證量化的準(zhǔn)確度。

(2)P 矩陣的值分布在 [0, 1] 之間,直接的 FP4 量化會(huì)使量化縮放因子被限制在一個(gè)狹窄的范圍內(nèi)。然而,硬件要求這些量化因子必須采用 FP8 數(shù)據(jù)類(lèi)型表示。此時(shí),將縮放因子轉(zhuǎn)為 FP8 時(shí)會(huì)導(dǎo)致顯著的精度損失。

8-Bit 注意力用于訓(xùn)練有什么問(wèn)題?

(1)P 矩陣的梯度對(duì)量化誤差過(guò)于敏感,并且在反向過(guò)程中還會(huì)沿著序列長(zhǎng)度對(duì) Q 和 K 的梯度造成誤差累積。

技術(shù)方案

為了解決上述的挑戰(zhàn),研究團(tuán)隊(duì)提出了對(duì)應(yīng)的解決辦法。

(1)為了提高 FP4 的量化精度。研究團(tuán)隊(duì)采用了 Microscaling FP4 量化,這是 BlackWell 硬件層面支持的一種量化方式。即可以采用 或 的量化粒度進(jìn)行矩陣量化,NIVIDA 在硬件層面自動(dòng)支持了反量化過(guò)程。此外,Microscaling FP4 有兩種數(shù)據(jù)表示的形式,一種是MXFP4, 另外一種是 NVFP4。兩種格式都采用了 E2M1 的 FP4 數(shù)據(jù)類(lèi)型。不同的是,NVFP4 的量化的塊大小為,縮放因子的數(shù)據(jù)類(lèi)型為 E4M3。MXFP4 的量化的塊大小為,縮放因子的數(shù)據(jù)格式為 E8M0。研究團(tuán)隊(duì)采用了 NVFP4 數(shù)據(jù)格式,因?yàn)槠淞炕瘻?zhǔn)確率遠(yuǎn)高于 MXFP4:



(2)針對(duì) P 的縮放因子范圍狹窄的問(wèn)題,研究團(tuán)隊(duì)提出了兩階段量化(Two-level Quantization)的辦法。FlashAttention 中的 P 矩陣的值在 [0, 1] 的范圍內(nèi),導(dǎo)致 P 的縮放因子的范圍也只在 0~0.167 之間。把縮放因子直接轉(zhuǎn)換為 FP8 格式會(huì)帶來(lái)極大的精度損失。



于是研究團(tuán)隊(duì)決定先把 P 通過(guò) Per-token 量化到 [0, ] 的范圍內(nèi),再進(jìn)行 FP4 的量化:



下表展示了 Two-Level Scaling 對(duì)精度的提升:



下圖展示了 SageAttention3 的算法流程:



(3)在 8-Bit 訓(xùn)練 Attention 當(dāng)中,研究團(tuán)隊(duì)對(duì) Q,K,V 采用了 Per-block INT8 量化,對(duì) P 巧妙地采用了無(wú)量化 Overhead 的 Per-token 量化。前向過(guò)程的算法如下:



在反向傳播的過(guò)程中總共涉及到 5 個(gè)矩陣乘法:



研究團(tuán)隊(duì)發(fā)現(xiàn)是否量化 dOVT 對(duì)精度有著較大的影響:



于是研究團(tuán)隊(duì)將 dOVT 保留為 FP16 精度,而對(duì)其它四個(gè)矩陣乘法進(jìn)行了量化。以下是反向傳播的算法:



實(shí)驗(yàn)效果

SageAttention3 實(shí)現(xiàn)了 GPU 底層的 CUDA Kernel,在算子速度以及各個(gè)模型端到端準(zhǔn)確度上都有十分不錯(cuò)的表現(xiàn)。

具體來(lái)說(shuō),算子速度相比于 FlashAttention2(5090 上最快的 FlashAttention) 和 xformers 有大約 5 倍以及 10 倍的加速:



各模型在真實(shí)場(chǎng)景的端到端精度表現(xiàn)中,在視頻、圖像生成等大模型上均保持了端到端的精度表現(xiàn):



下圖是在 HunyuanVideo 當(dāng)中的可視化實(shí)例:



下圖是在 Flux 上的可視化實(shí)例:



下圖是在 Cogvideo 中的可視化實(shí)例:



下表展示了各個(gè)視頻、圖像生成模型中 SageAttention3 的端到端精度表現(xiàn):



端到端的速度表現(xiàn)上,SageAttention3 的實(shí)現(xiàn)均可以有效地對(duì)長(zhǎng)序列的模型進(jìn)行加速,比如可以端到端 3 倍加速 HunyuanVideo:



8-Bit 訓(xùn)練 Attention 在 Base Model 微調(diào)到 Instruct Model 的任務(wù)上展現(xiàn)出與 BF16 的注意力完全一致的精度表現(xiàn),下表是在多個(gè)不同的任務(wù)以及模型上微調(diào)的結(jié)果:





并且在訓(xùn)練速度上也能起到較好的加速效果:





研究團(tuán)隊(duì)還發(fā)現(xiàn),目前的 8 比特用于訓(xùn)練的 Attention 雖然在微調(diào)任務(wù)上完全無(wú)損,但是在預(yù)訓(xùn)練任務(wù)上與全精度的 Attention 在 Loss 上還有一定差距,需要未來(lái)進(jìn)一步的研究:



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
最新!那小姐有了新消息

最新!那小姐有了新消息

亞哥談古論今
2025-06-21 19:02:13
剛剛!房貸利率低至2.6%!央行公布6月最新LPR!

剛剛!房貸利率低至2.6%!央行公布6月最新LPR!

錘不倒的拖油瓶
2025-06-21 09:01:50
河南一商人稱(chēng)遭民警逼迫簽下1200萬(wàn)元調(diào)解協(xié)議后被羈押8個(gè)月,申請(qǐng)國(guó)賠近18萬(wàn)元,檢方已受理

河南一商人稱(chēng)遭民警逼迫簽下1200萬(wàn)元調(diào)解協(xié)議后被羈押8個(gè)月,申請(qǐng)國(guó)賠近18萬(wàn)元,檢方已受理

大風(fēng)新聞
2025-06-21 17:20:08
中甲積分榜:重慶銅梁龍?jiān)赓惣臼讛。浜蟀袷走|寧鐵人2分

中甲積分榜:重慶銅梁龍?jiān)赓惣臼讛。浜蟀袷走|寧鐵人2分

雷速體育
2025-06-21 21:47:26
明日花綺羅火到了中國(guó),她否認(rèn)與周鶴年有性交易,網(wǎng)友熱議未停息

明日花綺羅火到了中國(guó),她否認(rèn)與周鶴年有性交易,網(wǎng)友熱議未停息

快樂(lè)娛文
2025-06-21 11:47:49
北大人民醫(yī)院副院長(zhǎng)答紅星新聞:晚期肺癌患者生存期已顯著延長(zhǎng),甚至接近慢病化

北大人民醫(yī)院副院長(zhǎng)答紅星新聞:晚期肺癌患者生存期已顯著延長(zhǎng),甚至接近慢病化

紅星新聞
2025-06-20 18:11:36
巴黎站100米欄冠軍12秒21前八均達(dá)標(biāo)東京 林雨薇:重心放在全運(yùn)會(huì)

巴黎站100米欄冠軍12秒21前八均達(dá)標(biāo)東京 林雨薇:重心放在全運(yùn)會(huì)

勁爆體壇
2025-06-21 12:25:13
“任何侵犯中國(guó)領(lǐng)空的外國(guó)飛機(jī),直接擊落!”中國(guó)通報(bào)全球

“任何侵犯中國(guó)領(lǐng)空的外國(guó)飛機(jī),直接擊落!”中國(guó)通報(bào)全球

文雅筆墨
2025-06-20 13:06:53
以媒曝飛行追蹤數(shù)據(jù):兩架B-2轟炸機(jī)從美國(guó)本土起飛 飛往關(guān)島美軍基地

以媒曝飛行追蹤數(shù)據(jù):兩架B-2轟炸機(jī)從美國(guó)本土起飛 飛往關(guān)島美軍基地

財(cái)聯(lián)社
2025-06-21 19:01:32
全紅嬋調(diào)侃郭晶晶:想不想來(lái)我老家摘荔枝?郭晶晶回應(yīng)讓人笑翻

全紅嬋調(diào)侃郭晶晶:想不想來(lái)我老家摘荔枝?郭晶晶回應(yīng)讓人笑翻

娛最資訊
2025-06-20 17:49:10
伊朗亮出滅國(guó)威脅,以色列人被嚇哭,前國(guó)王鼓動(dòng)百萬(wàn)大軍揭竿而起

伊朗亮出滅國(guó)威脅,以色列人被嚇哭,前國(guó)王鼓動(dòng)百萬(wàn)大軍揭竿而起

大白話瞰世界
2025-06-21 11:28:19
福建一姑娘把“荔枝核”泡水里,兩周長(zhǎng)成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長(zhǎng)成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
網(wǎng)傳鳳姐可能要被遣返?這名網(wǎng)紅鼻祖曾持特殊簽證留美,未獲綠卡

網(wǎng)傳鳳姐可能要被遣返?這名網(wǎng)紅鼻祖曾持特殊簽證留美,未獲綠卡

火山詩(shī)話
2025-06-21 06:42:47
好的信號(hào)?楊瀚森的父母已經(jīng)啟程前往美國(guó) 現(xiàn)場(chǎng)支持兒子

好的信號(hào)?楊瀚森的父母已經(jīng)啟程前往美國(guó) 現(xiàn)場(chǎng)支持兒子

直播吧
2025-06-21 17:17:23
又美又能打!中國(guó)女籃鋒線悍將,15分鐘砍11分,完全頂替了李夢(mèng)

又美又能打!中國(guó)女籃鋒線悍將,15分鐘砍11分,完全頂替了李夢(mèng)

體育哲人
2025-06-21 17:04:57
可能要見(jiàn)證歷史,美軍大規(guī)模調(diào)兵備戰(zhàn),中方:所有中國(guó)人快撤

可能要見(jiàn)證歷史,美軍大規(guī)模調(diào)兵備戰(zhàn),中方:所有中國(guó)人快撤

劉振起觀點(diǎn)
2025-06-20 15:04:44
李嘉誠(chéng)再次給出神預(yù)測(cè)!不出5年,90%的家庭恐難逃這5大現(xiàn)實(shí)難題

李嘉誠(chéng)再次給出神預(yù)測(cè)!不出5年,90%的家庭恐難逃這5大現(xiàn)實(shí)難題

詩(shī)詞中國(guó)
2025-06-18 13:14:10
全面戰(zhàn)爭(zhēng)爆發(fā)前,北京2次撥號(hào),以色列掛了王毅電話后,再炸第2國(guó)

全面戰(zhàn)爭(zhēng)爆發(fā)前,北京2次撥號(hào),以色列掛了王毅電話后,再炸第2國(guó)

大白話瞰世界
2025-06-17 13:35:57
24歲男子口腔及生殖器反復(fù)潰瘍,視力下降,罕見(jiàn)病?

24歲男子口腔及生殖器反復(fù)潰瘍,視力下降,罕見(jiàn)病?

醫(yī)脈通
2025-06-20 20:10:14
新老板上任!湖人大清洗!8年老員工被開(kāi),詹姆斯欣慰第五冠有望

新老板上任!湖人大清洗!8年老員工被開(kāi),詹姆斯欣慰第五冠有望

阿泰希特
2025-06-21 11:34:18
2025-06-21 23:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
10687文章數(shù) 142343關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋(píng)果被曝正討論史上最大收購(gòu)

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

體育要聞

王欣瑜:資格賽差點(diǎn)要退賽 夢(mèng)幻般的一周

娛樂(lè)要聞

離婚7年,楊冪逆襲碾壓劉愷威

財(cái)經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車(chē)要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

藝術(shù)
游戲
房產(chǎn)
本地
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

韓國(guó)虛幻5重磅動(dòng)作新作來(lái)了!上架多平臺(tái) 2026發(fā)售

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 浦城县| 仙居县| 陆丰市| 彝良县| 达拉特旗| 福泉市| 抚顺县| 霍邱县| 桃园市| 云梦县| 永福县| 永宁县| 金寨县| 杭锦后旗| 衡水市| 嫩江县| 肥东县| 庄河市| 科尔| 海林市| 塔河县| 山东| 清河县| 太白县| 临安市| 西贡区| 昌平区| 金门县| 仁寿县| 南宁市| 衡山县| 烟台市| 珲春市| 浦江县| 佛学| 涪陵区| 诏安县| 淳化县| 霍邱县| 云南省| 弥渡县|