新智元報道
編輯:海貍 英智
【新智元導讀】刷到1分鐘AI短視頻別只顧著點贊,背后的算力成本讓人驚嘆。MIT和英偉達等提出的徑向注意力技術讓長視頻生成成本暴降4.4倍,速度飆升3.7倍,AI視頻的未來已來!
刷到1分鐘的AI生成短視頻時,你可能想象不到背后的算力成本。
傳統的視頻擴散模型,處理視頻時采用密集注意力機制。
這種方法雖然能保證畫質,但計算量大得嚇人,生成10秒視頻就要燒掉數千元算力費用,隨著視頻長度增加,算力需求呈指數級飆升。
最近,MIT英偉達等研究人員發明的「徑向注意力」技術,不僅讓長視頻生成速度提升3.7倍,還能把訓練成本砍掉4.4倍。
論文鏈接:https://www.arxiv.org/abs/2506.19852
代碼鏈接:
https://github.com/mit-han-lab/radial-attention/
徑向注意力
在擴散模型的加持下,高質量視頻生成逐漸從科幻變成現實。
但視頻的時間維度給算力增加了不少負擔,導致訓練和推理長視頻的成本飆升。
生成10秒視頻就要燒掉數千元算力費用,價格之高令人望而卻步。
對此,團隊從熱力學借了點靈感:「沒有任何傳播是無損的;信號、影響、注意力都會隨著距離衰減。」
他們發現視頻擴散模型里的注意力分數同樣遵循這個規律——softmax后的權重隨著token間的空間和時間距離遞減。
這種「時空能量衰減」現象與自然界信號的物理衰減不謀而合。
這會不會就是視頻生成降本增效的關鍵?
為進一步證實這種猜想,團隊提出了「徑向注意力」(Radial Attention):一種計算復雜度僅為O(nlog n)的稀疏注意力機制。
區別于之前SVG每次推理對空間/時間注意力進行動態選擇,徑向注意力用的是一種統一且高效的靜態掩碼。
這種掩碼把空間和時間注意力合二為一,帶來了更靈活、更快的長視頻生成體驗。
而且,這種簡潔的靜態注意力掩碼讓每個token只關注附近空間的鄰居。隨著時間距離的拉長,注意力窗口逐漸收縮。
相比傳統的O (n2)密集注意力,徑向注意力不僅大幅提升了計算效率,還比線性注意力擁有更強的表達能力。
在這項注意力機制創新的加持下,高質量視頻生成變得更快、更長。
訓練和推理的資源消耗極大地降低,為視頻擴散模型打開了新的可能。
效果有多驚艷?實測數據來說話
研究團隊在三個主流模型上做了測試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數規模的場景。
Mochi 1可以生成長達5秒、480p分辨率、162幀的視頻;HunyuanVideo可以生成長達5秒、720p分辨率、125幀的視頻;Wan2.1-14B可以生成長達5秒、720p分辨率、81幀的視頻。
速度提升1.9倍到3.7倍
在默認視頻長度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。
當視頻長度擴展到4倍時,速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!
以前一小時才能生成的視頻,現在喝杯咖啡的功夫就搞定了。
表1展示了在HunyuanVideo和Wan2.1-14B的默認生成長度下,徑向注意力與三個強稀疏注意力基線的比較。
在相同的計算預算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視頻質量,同時在相似性指標(PSNR、SSIM、LPIPS)上始終優于STA和PA,并與SVG的質量相匹配。
在單個H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實現了1.9倍和1.8倍的端到端加速,與理論計算預算節省(1.8倍和1.7倍TFLOPs)相匹配。
盡管STA通過使用 FlashAttention-3(FA-3)產生了略高的加速,但視覺質量明顯下降。
訓練費用最多節省4.4倍
長視頻生成最燒錢的其實是訓練階段。用徑向注意力配合LoRA微調技術,訓練成本直接大幅下降。
對于企業來說可是天大的好消息,以前做一個長視頻項目可能要投入幾十萬,現在可能只需要幾萬塊。
表2提供了2倍和4倍原始長度的視頻生成結果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。
當生成長視頻時,未經進一步調優的原始模型表現出顯著的質量退化,尤其是在4倍視頻長度擴展時。
雖然RIFLEx在2倍長度外推時提高了性能,但其質量在此之后惡化,表明擴展能力有限。
空間和時間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全局感受野,但未能捕捉時空相關性,導致質量下降。
有趣的是,PA在微調后視覺獎勵有很大提高,表明其原始稀疏模式與預訓練的注意力分布不一致。
微調允許模型適應施加的注意力稀疏性,改善對齊和質量。
SANA將softmax注意力替換為線性注意力,需要大規模重新訓練,并且在基于微調的視頻長度擴展下失敗。
相比之下,徑向注意力實現了與LoRA微調密集注意力模型相當的質量。甚至在默認視頻長度下,比預訓練模型略微提高了視覺獎勵。
由于O(nlog n)復雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓練加速,如表2和圖2所示。
生成4倍長的視頻時,可以節省高達4.4倍的訓練成本,并實現高達3.7倍的推理加速。
最關鍵的是,速度和成本降下來了,畫質還沒縮水。
在HunyuanVideo上,徑向注意力的PSNR值達到27.3,和原始模型基本持平;視覺獎勵分數0.134,甚至比密集注意力的0.133還高一點點。
不只是快:
徑向注意力的「隱藏技能」
很多技術升級都需要重新訓練模型,但徑向注意力不需要。
它可以直接應用在預訓練好的模型上,通過簡單的 LoRA 微調就能實現加速。
徑向注意力的一個關鍵優勢是與預訓練的特定任務LoRA(如藝術風格遷移)的無縫兼容性,這對創作者太友好了。
如圖8所示,將擴展長度LoRA與現有風格LoRA結合使用,在實現長視頻生成的同時保留了視覺質量。
研究團隊還觀察到,合并LoRA生成的內容風格與原始LoRA略有不同。
這種差異主要歸因于用于訓練擴展長度LoRA的相對較小的數據集,這可能引入輕微的風格偏差,與風格LoRA相互作用。
在更全面的數據集上訓練長度擴展LoRA,預計將有助于緩解這個問題。
以前生成1分鐘的AI視頻是很多中小團隊不敢想的,現在徑向注意力讓這事變得可行了。
以后,我們可能會看到更多AI生成的長視頻內容,像短視頻平臺的劇情號。
參考資料:
https://www.arxiv.org/abs/2506.19852
https://github.com/mit-han-lab/radial-attention/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.