99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視頻生成模型無損加速兩倍,秘訣是「抓住attention時空稀疏性」

0
分享至



自 OpenAI 發(fā)布 Sora 以來,AI 視頻生成技術(shù)進入快速爆發(fā)階段。憑借擴散模型強大的生成能力,我們已經(jīng)可以看到接近現(xiàn)實的視頻生成效果。但在模型逼真度不斷提升的同時,速度瓶頸卻成為橫亙在大規(guī)模應用道路上的最大障礙。

當前最好的視頻生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個 5 秒的 720p 視頻往往需要耗時 30 分鐘以上。主要瓶頸出現(xiàn)在 3D Full Attention 模塊,約占總推理時間的 80% 以上。

為了解決這個問題,來自加州伯克利和 MIT 的研究者們提出了聯(lián)合提出了一種新穎的解決方案:Sparse VideoGen。



  • 論文標題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 論文鏈接:https://arxiv.org/abs/2502.01776
  • 代碼:https://github.com/svg-project/Sparse-VideoGenn
  • 網(wǎng)頁:https://svg-project.github.io/

這是一種完全無需重新訓練模型的視頻生成加速方法。通過挖掘注意力機制中的空間與時間稀疏性,配合自適應稀疏選擇與算子優(yōu)化,成功將推理時間減半。令人驚訝的是,它生成的視頻與 Dense Attention 方法相比,幾乎沒有肉眼可見的差別,保持極高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個能夠達到這種級別的像素保真度的方法。

目前,Sparse VideoGen 已經(jīng)支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開源模型,并且 T2V(文生視頻),I2V(圖生視頻)都可以加速。他們的所有代碼均已開源。該工作已經(jīng)被 ICML 2025 錄取。

擴散式視頻生成的性能瓶頸

擴散模型(Diffusion Models)已經(jīng)成為圖像與視頻生成的主流方案。特別是基于 Transformer 架構(gòu)的 Video Diffusion Transformers(DiTs),在建模長時空依賴與視覺細節(jié)方面具有顯著優(yōu)勢。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也帶來了巨大的計算負擔。每個 token 不僅要考慮當前幀的空間上下文,還要參與跨幀的時間建模。隨著分辨率和幀數(shù)的提升,Attention 的計算復雜度以二次增長,遠高于普通圖像生成模型。

例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 視頻需要 29 分鐘,其中Attention 計算占據(jù)超過 80% 的時間。如此高昂的代價,大大限制了擴散視頻模型在真實世界中的部署能力。



Sparse VideoGen 的核心設(shè)計

抓住 Attention 中的稀疏性

在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時間稀疏性 (Temporal sparsity)。大多數(shù) Attention Head 都可以歸類為其中之一,并可以相應地定義兩類 Attention Head:Spatial Head 和 Temporal Head。

Spatial Head - 關(guān)注空間鄰近的 Token

Spatial Head 主要關(guān)注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀布局,集中于主對角線附近。它負責建模局部空間一致性,使得圖像生成在幀內(nèi)連貫。

Temporal Head - 關(guān)注不同幀中的相同 Token

Temporal Head 主要用于捕捉幀間的 Token 關(guān)系。其 Attention Map 呈斜線式布局,并具有恒定步長。這種機制確保了時間一致性,即同一物體在多個幀中保持連貫。

這種 Attention 模式的解構(gòu),幫助模型在計算過程中識別哪些 token 是「重要的」,哪些可以忽略,從而構(gòu)建稀疏注意力策略。



實現(xiàn)無損像素保真度的關(guān)鍵

動態(tài)自適應的稀疏策略

盡管 Spatial Head 和 Temporal Head 分別解決了空間和時間一致性問題,但真正實現(xiàn)無損像素保真度的關(guān)鍵在于最優(yōu)地組合它們。

在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優(yōu)的稀疏策略可能會發(fā)生顯著變化。因此,靜態(tài)的稀疏模式無法保證最佳效果,必須采用動態(tài)、自適應的策略。

為此,Sparse VideoGen 采用了一種在線稀疏模式優(yōu)化方法(Online Profiling),通過動態(tài)的決定 Attention Mask,用于動態(tài)決定每個注意力頭所采用的稀疏策略。

其方法如下:

1. 每一步推理過程中,隨機采樣極少量(僅 0.05%,約 64 個)的 Query Token;

2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計算其注意力結(jié)果,并與 Dense Attention 對比誤差;

3. 為每個 Attention Head 選擇誤差最小的稀疏模式。

僅使用 64 個 Query Token(占全部 token 總數(shù)的 0.1%),即可準確預測最優(yōu)的稀疏模式。這種輕量級探索 + 局部誤差擬合的策略,幾乎不增加額外計算開銷(<3%),但可在不同步驟下精準選取最優(yōu)稀疏模式,從而最大限度保證畫質(zhì)(PSNR > 29)且實現(xiàn)有效加速。



從算子層優(yōu)化稀疏計算

Layout Transformation + Kernel 加速

盡管利用稀疏性能夠顯著提升 Attention 速度,但如何達到最優(yōu)的加速效果仍然是一大問題。尤其是Temporal Head 的非連續(xù)內(nèi)存訪問模式仍然對 GPU 的性能構(gòu)成挑戰(zhàn)。

Temporal Head(時間注意力頭)需要跨多個幀訪問相同空間位置的 token。然而,傳統(tǒng)的張量布局通常是以幀為主(frame-major)的順序存儲數(shù)據(jù),即同一幀的所有 token 連續(xù)存儲,而不同幀的相同位置的 token 則分散開來。

為了解決這一問題,Sparse VideoGen 引入了一種硬件友好的布局轉(zhuǎn)換方法。該方法通過將張量從幀為主的布局轉(zhuǎn)換為 token 為主(token-major)的布局,使得 Temporal Head 所需的 token 在內(nèi)存中呈現(xiàn)連續(xù)排列,從而優(yōu)化了內(nèi)存訪問模式。具體而言,這種轉(zhuǎn)換通過轉(zhuǎn)置操作實現(xiàn),將原本分散的 token 重組為連續(xù)的內(nèi)存塊,符合 GPU 的內(nèi)存訪問特性。



這種布局轉(zhuǎn)換不僅提高了內(nèi)存訪問效率,還使得稀疏注意力計算能夠更好地利用 GPU 的并行計算能力。實驗結(jié)果表明,經(jīng)過布局轉(zhuǎn)換后,Sparse VideoGen 在 Temporal Head 上實現(xiàn)了接近理論極限的加速效果,顯著提升了整體推理速度。



除了注意力機制的優(yōu)化,Sparse VideoGen 還對 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進行了定制化優(yōu)化,以進一步提升推理效率。在標準實現(xiàn)中,QK-Norm 和 RoPE 的計算開銷較大,成為推理過程中的性能瓶頸之一。為此,研究者對這兩個模塊進行了算子優(yōu)化,QK-Norm 的吞吐量在所有場景下均優(yōu)于 PyTorch 的標準實現(xiàn),平均加速比為 7.4 倍,。同樣地,定制化的 RoPE 實現(xiàn)也在所有幀數(shù)下表現(xiàn)出更高的吞吐量,平均加速比為 14.5 倍。

實驗成果

媲美原模型的畫質(zhì),顯著的推理速度提升

在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現(xiàn)出強大性能:

1. 在 H100 上將 HunyuanVideo 的推理時間從約 30 分鐘降至 15 分鐘以內(nèi);將 Wan 2.1 的推理時間從 30 分鐘將至 20 分鐘;

2. 保持 PSNR 穩(wěn)定在 29dB 以上,接近 Dense Attention 輸出畫質(zhì);

3. 可無縫接入多種現(xiàn)有 SOTA 視頻生成模型(Wan 2.1、CogVideoX、HunyuanVideo);

4. 同時支持 T2V(文本生成視頻)和 I2V(圖像生成視頻)任務(wù)。

在未來,隨著視頻擴散模型的復雜度進一步上升,如何在不損失視覺質(zhì)量的前提下提升效率,將是核心問題之一。SVG 的工作展示了一條重要方向:結(jié)構(gòu)理解 + 自適應稀疏性可能成為視頻生成推理優(yōu)化的黃金組合。

這一研究也在提示我們:視頻生成模型不必一味追求更大,理解其內(nèi)部結(jié)構(gòu)規(guī)律,或許能帶來比擴容更可持續(xù)的性能突破。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
紅場勝利日閱兵——2025年5月9日慶祝活動安排

紅場勝利日閱兵——2025年5月9日慶祝活動安排

俄羅斯衛(wèi)星通訊社
2025-05-08 15:17:50
首批加征145%關(guān)稅貨物抵美,美國港口一片冷清!商品貴了,特朗普喊話:少買點!可以暫時不用交關(guān)稅,這種操作大火……

首批加征145%關(guān)稅貨物抵美,美國港口一片冷清!商品貴了,特朗普喊話:少買點!可以暫時不用交關(guān)稅,這種操作大火……

每日經(jīng)濟新聞
2025-05-08 13:16:10
125架戰(zhàn)機激戰(zhàn)1小時后,巴鐵證實殲10立大功,法只好承認不如中國

125架戰(zhàn)機激戰(zhàn)1小時后,巴鐵證實殲10立大功,法只好承認不如中國

說天說地說實事
2025-05-08 14:16:44
人要壞成什么程度,才能堂而皇之地在陽光底下做惡!

人要壞成什么程度,才能堂而皇之地在陽光底下做惡!

胖胖說他不胖
2025-05-07 16:49:17
北京市發(fā)布雷電藍色預警

北京市發(fā)布雷電藍色預警

界面新聞
2025-05-08 16:40:29
炸了!烏克蘭無人機襲擊了俄閱兵飛行特技表演隊基地

炸了!烏克蘭無人機襲擊了俄閱兵飛行特技表演隊基地

史政先鋒
2025-05-08 10:11:00
威少19+5,掘金慘敗雷霆43分!還驗出頭號打鐵匠:投籃18中3!

威少19+5,掘金慘敗雷霆43分!還驗出頭號打鐵匠:投籃18中3!

球場沒跑道
2025-05-08 12:18:24
網(wǎng)傳臺球女助教涉“特殊服務(wù)”,記者暗訪調(diào)查

網(wǎng)傳臺球女助教涉“特殊服務(wù)”,記者暗訪調(diào)查

揚子晚報
2025-05-07 18:42:16
巴外長當眾感謝中國,但提到殲-10C時他稱:是中巴聯(lián)合研發(fā)的戰(zhàn)機

巴外長當眾感謝中國,但提到殲-10C時他稱:是中巴聯(lián)合研發(fā)的戰(zhàn)機

千里持劍
2025-05-08 08:13:37
劉耕宏直播失控!愛妻怒嗆黑粉:不信你們出去啊…掉粉900萬告急

劉耕宏直播失控!愛妻怒嗆黑粉:不信你們出去啊…掉粉900萬告急

ETtoday星光云
2025-05-08 12:38:08
烏克蘭稱30年內(nèi)不打算向西方伙伴償還債務(wù)

烏克蘭稱30年內(nèi)不打算向西方伙伴償還債務(wù)

財聯(lián)社
2025-05-08 14:42:10
88歲謝賢考慮后事,已交代陪葬品和遺產(chǎn),唯獨放不下小林青霞母子

88歲謝賢考慮后事,已交代陪葬品和遺產(chǎn),唯獨放不下小林青霞母子

橘子大娛社
2025-05-07 19:20:03
彈射座椅大廠泄露了印巴空戰(zhàn)戰(zhàn)損“天機”?

彈射座椅大廠泄露了印巴空戰(zhàn)戰(zhàn)損“天機”?

觀察者網(wǎng)
2025-05-08 17:20:03
巴基斯坦稱擊落超25架印度無人機

巴基斯坦稱擊落超25架印度無人機

財聯(lián)社
2025-05-08 17:05:15
個人賬戶被盯死!稅局打通銀行數(shù)據(jù),2025年這類轉(zhuǎn)賬立即停止!!

個人賬戶被盯死!稅局打通銀行數(shù)據(jù),2025年這類轉(zhuǎn)賬立即停止!!

祥順財稅俱樂部
2025-05-08 09:08:36
印軍戰(zhàn)機被巴鐵打爆,丟面子何止法俄,以色列也是慘敗背后的大輸家

印軍戰(zhàn)機被巴鐵打爆,丟面子何止法俄,以色列也是慘敗背后的大輸家

不掉線電波
2025-05-08 16:44:33
“不像個總統(tǒng)”,重新活躍的拜登再批特朗普

“不像個總統(tǒng)”,重新活躍的拜登再批特朗普

界面新聞
2025-05-08 15:32:32
上海交大博士研究生魏靜:被導師學術(shù)霸凌,8年畢不了業(yè)……

上海交大博士研究生魏靜:被導師學術(shù)霸凌,8年畢不了業(yè)……

吃瓜體
2025-05-08 13:48:23
男子撿到他人遺失證件經(jīng)歷13次搬家一直保存,18年后找到失主

男子撿到他人遺失證件經(jīng)歷13次搬家一直保存,18年后找到失主

上游新聞
2025-05-08 16:26:19
創(chuàng)造歷史,NBA首次出現(xiàn)常規(guī)賽60勝球隊在季后賽次輪0-2落后

創(chuàng)造歷史,NBA首次出現(xiàn)常規(guī)賽60勝球隊在季后賽次輪0-2落后

懂球帝
2025-05-08 10:16:38
2025-05-08 18:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10458文章數(shù) 142303關(guān)注度
往期回顧 全部

科技要聞

OpenAI任命"應用CEO" 奧特曼聚焦研究/安全

頭條要聞

女子走路打電話轉(zhuǎn)身撞男子摔骨折 法院調(diào)解男子賠7萬

頭條要聞

女子走路打電話轉(zhuǎn)身撞男子摔骨折 法院調(diào)解男子賠7萬

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長舉措

汽車要聞

23.68萬元起 新款途觀L Pro限時優(yōu)惠5.8萬

態(tài)度原創(chuàng)

親子
教育
數(shù)碼
藝術(shù)
軍事航空

親子要聞

假性帶娃正在奶奶群體中流行,奶奶覺得盡到義務(wù),媽媽卻很無奈

教育要聞

志愿填報“資源論”,借勢家族與時代,鋪就職業(yè)發(fā)展快車道。

數(shù)碼要聞

微軟悄悄發(fā)布Surface Arc 鼠標海洋藍、紫羅蘭配色,89.99美元

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

山東艦航母現(xiàn)身菲北部海域 國防部回應

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 鱼台县| 澄城县| 共和县| 仁寿县| 西宁市| 临漳县| 吉木乃县| 会宁县| 乌拉特前旗| 兴城市| 新余市| 永川市| 镇巴县| 石狮市| 莱芜市| 岳阳县| 泌阳县| 肃南| 保德县| 常山县| 兴化市| 南乐县| 四子王旗| 济源市| 河津市| 崇文区| 邯郸市| 环江| 尼玛县| 清水县| 安义县| 南靖县| 贵德县| 漳平市| 平陆县| 淮阳县| 虹口区| 阿克苏市| 克东县| 晋宁县| 西峡县|