99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

視頻生成模型無損加速兩倍,秘訣是「抓住attention時空稀疏性」

0
分享至



自 OpenAI 發布 Sora 以來,AI 視頻生成技術進入快速爆發階段。憑借擴散模型強大的生成能力,我們已經可以看到接近現實的視頻生成效果。但在模型逼真度不斷提升的同時,速度瓶頸卻成為橫亙在大規模應用道路上的最大障礙。

當前最好的視頻生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個 5 秒的 720p 視頻往往需要耗時 30 分鐘以上。主要瓶頸出現在 3D Full Attention 模塊,約占總推理時間的 80% 以上。

為了解決這個問題,來自加州伯克利和 MIT 的研究者們提出了聯合提出了一種新穎的解決方案:Sparse VideoGen。



  • 論文標題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 論文鏈接:https://arxiv.org/abs/2502.01776
  • 代碼:https://github.com/svg-project/Sparse-VideoGenn
  • 網頁:https://svg-project.github.io/

這是一種完全無需重新訓練模型的視頻生成加速方法。通過挖掘注意力機制中的空間與時間稀疏性,配合自適應稀疏選擇與算子優化,成功將推理時間減半。令人驚訝的是,它生成的視頻與 Dense Attention 方法相比,幾乎沒有肉眼可見的差別,保持極高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個能夠達到這種級別的像素保真度的方法。

目前,Sparse VideoGen 已經支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開源模型,并且 T2V(文生視頻),I2V(圖生視頻)都可以加速。他們的所有代碼均已開源。該工作已經被 ICML 2025 錄取。

擴散式視頻生成的性能瓶頸

擴散模型(Diffusion Models)已經成為圖像與視頻生成的主流方案。特別是基于 Transformer 架構的 Video Diffusion Transformers(DiTs),在建模長時空依賴與視覺細節方面具有顯著優勢。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也帶來了巨大的計算負擔。每個 token 不僅要考慮當前幀的空間上下文,還要參與跨幀的時間建模。隨著分辨率和幀數的提升,Attention 的計算復雜度以二次增長,遠高于普通圖像生成模型。

例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 視頻需要 29 分鐘,其中Attention 計算占據超過 80% 的時間。如此高昂的代價,大大限制了擴散視頻模型在真實世界中的部署能力。



Sparse VideoGen 的核心設計

抓住 Attention 中的稀疏性

在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時間稀疏性 (Temporal sparsity)。大多數 Attention Head 都可以歸類為其中之一,并可以相應地定義兩類 Attention Head:Spatial Head 和 Temporal Head。

Spatial Head - 關注空間鄰近的 Token

Spatial Head 主要關注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀布局,集中于主對角線附近。它負責建模局部空間一致性,使得圖像生成在幀內連貫。

Temporal Head - 關注不同幀中的相同 Token

Temporal Head 主要用于捕捉幀間的 Token 關系。其 Attention Map 呈斜線式布局,并具有恒定步長。這種機制確保了時間一致性,即同一物體在多個幀中保持連貫。

這種 Attention 模式的解構,幫助模型在計算過程中識別哪些 token 是「重要的」,哪些可以忽略,從而構建稀疏注意力策略。



實現無損像素保真度的關鍵

動態自適應的稀疏策略

盡管 Spatial Head 和 Temporal Head 分別解決了空間和時間一致性問題,但真正實現無損像素保真度的關鍵在于最優地組合它們。

在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優的稀疏策略可能會發生顯著變化。因此,靜態的稀疏模式無法保證最佳效果,必須采用動態、自適應的策略。

為此,Sparse VideoGen 采用了一種在線稀疏模式優化方法(Online Profiling),通過動態的決定 Attention Mask,用于動態決定每個注意力頭所采用的稀疏策略。

其方法如下:

1. 每一步推理過程中,隨機采樣極少量(僅 0.05%,約 64 個)的 Query Token;

2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計算其注意力結果,并與 Dense Attention 對比誤差;

3. 為每個 Attention Head 選擇誤差最小的稀疏模式。

僅使用 64 個 Query Token(占全部 token 總數的 0.1%),即可準確預測最優的稀疏模式。這種輕量級探索 + 局部誤差擬合的策略,幾乎不增加額外計算開銷(<3%),但可在不同步驟下精準選取最優稀疏模式,從而最大限度保證畫質(PSNR > 29)且實現有效加速。



從算子層優化稀疏計算

Layout Transformation + Kernel 加速

盡管利用稀疏性能夠顯著提升 Attention 速度,但如何達到最優的加速效果仍然是一大問題。尤其是Temporal Head 的非連續內存訪問模式仍然對 GPU 的性能構成挑戰。

Temporal Head(時間注意力頭)需要跨多個幀訪問相同空間位置的 token。然而,傳統的張量布局通常是以幀為主(frame-major)的順序存儲數據,即同一幀的所有 token 連續存儲,而不同幀的相同位置的 token 則分散開來。

為了解決這一問題,Sparse VideoGen 引入了一種硬件友好的布局轉換方法。該方法通過將張量從幀為主的布局轉換為 token 為主(token-major)的布局,使得 Temporal Head 所需的 token 在內存中呈現連續排列,從而優化了內存訪問模式。具體而言,這種轉換通過轉置操作實現,將原本分散的 token 重組為連續的內存塊,符合 GPU 的內存訪問特性。



這種布局轉換不僅提高了內存訪問效率,還使得稀疏注意力計算能夠更好地利用 GPU 的并行計算能力。實驗結果表明,經過布局轉換后,Sparse VideoGen 在 Temporal Head 上實現了接近理論極限的加速效果,顯著提升了整體推理速度。



除了注意力機制的優化,Sparse VideoGen 還對 Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進行了定制化優化,以進一步提升推理效率。在標準實現中,QK-Norm 和 RoPE 的計算開銷較大,成為推理過程中的性能瓶頸之一。為此,研究者對這兩個模塊進行了算子優化,QK-Norm 的吞吐量在所有場景下均優于 PyTorch 的標準實現,平均加速比為 7.4 倍,。同樣地,定制化的 RoPE 實現也在所有幀數下表現出更高的吞吐量,平均加速比為 14.5 倍。

實驗成果

媲美原模型的畫質,顯著的推理速度提升

在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現出強大性能:

1. 在 H100 上將 HunyuanVideo 的推理時間從約 30 分鐘降至 15 分鐘以內;將 Wan 2.1 的推理時間從 30 分鐘將至 20 分鐘;

2. 保持 PSNR 穩定在 29dB 以上,接近 Dense Attention 輸出畫質;

3. 可無縫接入多種現有 SOTA 視頻生成模型(Wan 2.1、CogVideoX、HunyuanVideo);

4. 同時支持 T2V(文本生成視頻)和 I2V(圖像生成視頻)任務。

在未來,隨著視頻擴散模型的復雜度進一步上升,如何在不損失視覺質量的前提下提升效率,將是核心問題之一。SVG 的工作展示了一條重要方向:結構理解 + 自適應稀疏性可能成為視頻生成推理優化的黃金組合。

這一研究也在提示我們:視頻生成模型不必一味追求更大,理解其內部結構規律,或許能帶來比擴容更可持續的性能突破。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大結局要來?以色列援軍將至,30國表態站隊,中美俄幾乎同時撤僑

大結局要來?以色列援軍將至,30國表態站隊,中美俄幾乎同時撤僑

史紀文譚
2025-06-22 19:25:35
3-2,河南隊逆轉浙江晉級,王鈺棟上晚了,足協杯8強對陣全部確定

3-2,河南隊逆轉浙江晉級,王鈺棟上晚了,足協杯8強對陣全部確定

替補席看球
2025-06-22 21:34:28
奧迪Q5L跌穿了,寶馬X3慌了 ,漢蘭達日子更難過

奧迪Q5L跌穿了,寶馬X3慌了 ,漢蘭達日子更難過

侃故事的阿慶
2025-06-21 12:26:37
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
美軍公布炸伊核設施時間線:超百架軍機參與,有的佯裝飛行

美軍公布炸伊核設施時間線:超百架軍機參與,有的佯裝飛行

澎湃新聞
2025-06-22 23:02:28
第二次世界大戰爆發的根本原因,歷史書不會告訴你

第二次世界大戰爆發的根本原因,歷史書不會告訴你

愚鑒
2025-06-21 22:01:12
亞洲球隊險首勝!2-4,蔚山HD領先后崩盤:連丟3球,2連敗遭淘汰

亞洲球隊險首勝!2-4,蔚山HD領先后崩盤:連丟3球,2連敗遭淘汰

側身凌空斬
2025-06-22 07:56:48
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
近日,解放軍報點名 SpaceX 公司的 “星鏈”……

近日,解放軍報點名 SpaceX 公司的 “星鏈”……

Hi秒懂科普
2025-06-21 11:49:12
先禍害王治郅,在毀了姚明,他做了什么竟能讓中國籃球倒退二十年

先禍害王治郅,在毀了姚明,他做了什么竟能讓中國籃球倒退二十年

二月侃事
2025-06-20 08:30:19
錄音事件發酵,佩通坦結局已定?60萬泰軍選邊站,洪森手段夠老辣

錄音事件發酵,佩通坦結局已定?60萬泰軍選邊站,洪森手段夠老辣

虎哥閑聊
2025-06-21 09:53:11
體制內怎么知道同事有沒有后臺?網友:隔個兩三年就換崗位的

體制內怎么知道同事有沒有后臺?網友:隔個兩三年就換崗位的

帶你感受人間冷暖
2025-06-17 00:15:05
那爾那茜恐被取消學歷遭封殺,但高考449分是學霸,吳京被其坑慘

那爾那茜恐被取消學歷遭封殺,但高考449分是學霸,吳京被其坑慘

古希臘掌管月桂的神
2025-06-21 22:50:24
不要害羞:兩性交往最“舒服”的8種方式,讓感情越來越好!

不要害羞:兩性交往最“舒服”的8種方式,讓感情越來越好!

伊人河畔
2025-05-21 10:48:46
清醒!瓜帥談南美隊世俱杯表現出色:歡迎來到現實世界,朋友們

清醒!瓜帥談南美隊世俱杯表現出色:歡迎來到現實世界,朋友們

直播吧
2025-06-22 09:04:12
疑似落淚!王欣瑜憂郁美一幕 頭靠擋板若有所思:首盤浪費8個機會

疑似落淚!王欣瑜憂郁美一幕 頭靠擋板若有所思:首盤浪費8個機會

風過鄉
2025-06-22 21:03:22
美空襲伊朗核設施,澳媒:特朗普下決心,向中國傳遞一個明確信號

美空襲伊朗核設施,澳媒:特朗普下決心,向中國傳遞一個明確信號

愛下廚的阿釃
2025-06-22 23:16:53
佩通坦能贏得泰國總理之位,連王室都沒發聲反對,原因有四點:

佩通坦能贏得泰國總理之位,連王室都沒發聲反對,原因有四點:

現代春秋
2025-06-22 09:27:12
女子高考成績差清華1分,父親托關系查卷,看到卷上3字瞬間癱倒

女子高考成績差清華1分,父親托關系查卷,看到卷上3字瞬間癱倒

蘭姐說故事
2025-06-19 17:00:07
百萬分之一!《暗黑4》或有游戲史最稀有怪物

百萬分之一!《暗黑4》或有游戲史最稀有怪物

游民星空
2025-06-22 18:47:25
2025-06-23 00:44:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10689文章數 142343關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

教育
游戲
房產
親子
旅游

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

《鬼武者》新作專為次世代而生!制作人解釋缺席上世代

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

親子要聞

我與兒子與同學之間的稱呼

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 孝昌县| 富顺县| 秦安县| 东方市| 昭通市| 利川市| 佳木斯市| 朝阳区| 武城县| 红河县| 乌兰浩特市| 天镇县| 龙门县| 中卫市| 绥棱县| 崇义县| 金阳县| 黄陵县| 桃园县| 平罗县| 延安市| 东兴市| 衡东县| 大冶市| 卫辉市| 孟州市| 招远市| 射阳县| 藁城市| 克拉玛依市| 山东省| 习水县| 江北区| 通许县| 横峰县| 林甸县| 平顺县| 璧山县| 沂南县| 黎城县| 揭阳市|