99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI視頻生成革命!MIT領銜豪華天團讓生成效率暴漲370%,成本直降4.4倍

0
分享至


新智元報道

編輯:海貍 英智

【新智元導讀】刷到1分鐘AI短視頻別只顧著點贊,背后的算力成本讓人驚嘆。MIT和英偉達等提出的徑向注意力技術讓長視頻生成成本暴降4.4倍,速度飆升3.7倍,AI視頻的未來已來!

刷到1分鐘的AI生成短視頻時,你可能想象不到背后的算力成本。

傳統的視頻擴散模型,處理視頻時采用密集注意力機制。

這種方法雖然能保證畫質,但計算量大得嚇人,生成10秒視頻就要燒掉數千元算力費用,隨著視頻長度增加,算力需求呈指數級飆升。

最近,MIT英偉達等研究人員發明的「徑向注意力」技術,不僅讓長視頻生成速度提升3.7倍,還能把訓練成本砍掉4.4倍。


論文鏈接:https://www.arxiv.org/abs/2506.19852

代碼鏈接:

https://github.com/mit-han-lab/radial-attention/

徑向注意力

在擴散模型的加持下,高質量視頻生成逐漸從科幻變成現實。

但視頻的時間維度給算力增加了不少負擔,導致訓練和推理長視頻的成本飆升。

生成10秒視頻就要燒掉數千元算力費用,價格之高令人望而卻步。

對此,團隊從熱力學借了點靈感:「沒有任何傳播是無損的;信號、影響、注意力都會隨著距離衰減。」

他們發現視頻擴散模型里的注意力分數同樣遵循這個規律——softmax后的權重隨著token間的空間和時間距離遞減。

這種「時空能量衰減」現象與自然界信號的物理衰減不謀而合。

這會不會就是視頻生成降本增效的關鍵?

為進一步證實這種猜想,團隊提出了「徑向注意力」(Radial Attention):一種計算復雜度僅為O(nlog n)的稀疏注意力機制。

區別于之前SVG每次推理對空間/時間注意力進行動態選擇,徑向注意力用的是一種統一且高效的靜態掩碼。

這種掩碼把空間和時間注意力合二為一,帶來了更靈活、更快的長視頻生成體驗。


而且,這種簡潔的靜態注意力掩碼讓每個token只關注附近空間的鄰居。隨著時間距離的拉長,注意力窗口逐漸收縮。

相比傳統的O (n2)密集注意力,徑向注意力不僅大幅提升了計算效率,還比線性注意力擁有更強的表達能力。

在這項注意力機制創新的加持下,高質量視頻生成變得更快、更長。

訓練和推理的資源消耗極大地降低,為視頻擴散模型打開了新的可能。


效果有多驚艷?實測數據來說話

研究團隊在三個主流模型上做了測試:HunyuanVideo、Wan2.1-14B和Mochi 1,覆蓋了不同參數規模的場景。

Mochi 1可以生成長達5秒、480p分辨率、162幀的視頻;HunyuanVideo可以生成長達5秒、720p分辨率、125幀的視頻;Wan2.1-14B可以生成長達5秒、720p分辨率、81幀的視頻。


速度提升1.9倍到3.7倍

在默認視頻長度下(如HunyuanVideo的117幀),徑向注意力能把推理速度提升1.9倍左右。

當視頻長度擴展到4倍時,速度提升更明顯:從2895秒(近50分鐘)降到781秒(約13分鐘),足足快了3.7倍!

以前一小時才能生成的視頻,現在喝杯咖啡的功夫就搞定了。

表1展示了在HunyuanVideo和Wan2.1-14B的默認生成長度下,徑向注意力與三個強稀疏注意力基線的比較。


在相同的計算預算(以TFLOPs衡量)下,徑向注意力保留了密集注意力的視頻質量,同時在相似性指標(PSNR、SSIM、LPIPS)上始終優于STA和PA,并與SVG的質量相匹配。


在單個H100上,徑向注意力為HunyuanVideo和Wan 2.1分別實現了1.9倍和1.8倍的端到端加速,與理論計算預算節省(1.8倍和1.7倍TFLOPs)相匹配。

盡管STA通過使用 FlashAttention-3(FA-3)產生了略高的加速,但視覺質量明顯下降。

訓練費用最多節省4.4倍

長視頻生成最燒錢的其實是訓練階段。用徑向注意力配合LoRA微調技術,訓練成本直接大幅下降。

對于企業來說可是天大的好消息,以前做一個長視頻項目可能要投入幾十萬,現在可能只需要幾萬塊。

表2提供了2倍和4倍原始長度的視頻生成結果。為了確保公平性,所有稀疏注意力基線使用相似的稀疏率。


當生成長視頻時,未經進一步調優的原始模型表現出顯著的質量退化,尤其是在4倍視頻長度擴展時。

雖然RIFLEx在2倍長度外推時提高了性能,但其質量在此之后惡化,表明擴展能力有限。

空間和時間稀疏注意力受到有限感受野的影響;另一方面,LongLoRA和PA雖然具有全局感受野,但未能捕捉時空相關性,導致質量下降。

有趣的是,PA在微調后視覺獎勵有很大提高,表明其原始稀疏模式與預訓練的注意力分布不一致。

微調允許模型適應施加的注意力稀疏性,改善對齊和質量。

SANA將softmax注意力替換為線性注意力,需要大規模重新訓練,并且在基于微調的視頻長度擴展下失敗。

相比之下,徑向注意力實現了與LoRA微調密集注意力模型相當的質量。甚至在默認視頻長度下,比預訓練模型略微提高了視覺獎勵。


由于O(nlog n)復雜度,徑向注意力比原始密集注意力提供了顯著的推理和訓練加速,如表2和圖2所示。

生成4倍長的視頻時,可以節省高達4.4倍的訓練成本,并實現高達3.7倍的推理加速。

最關鍵的是,速度和成本降下來了,畫質還沒縮水。

在HunyuanVideo上,徑向注意力的PSNR值達到27.3,和原始模型基本持平;視覺獎勵分數0.134,甚至比密集注意力的0.133還高一點點。

不只是快:

徑向注意力的「隱藏技能」

很多技術升級都需要重新訓練模型,但徑向注意力不需要。

它可以直接應用在預訓練好的模型上,通過簡單的 LoRA 微調就能實現加速。

徑向注意力的一個關鍵優勢是與預訓練的特定任務LoRA(如藝術風格遷移)的無縫兼容性,這對創作者太友好了。

如圖8所示,將擴展長度LoRA與現有風格LoRA結合使用,在實現長視頻生成的同時保留了視覺質量。

研究團隊還觀察到,合并LoRA生成的內容風格與原始LoRA略有不同。

這種差異主要歸因于用于訓練擴展長度LoRA的相對較小的數據集,這可能引入輕微的風格偏差,與風格LoRA相互作用。

在更全面的數據集上訓練長度擴展LoRA,預計將有助于緩解這個問題。

以前生成1分鐘的AI視頻是很多中小團隊不敢想的,現在徑向注意力讓這事變得可行了。

以后,我們可能會看到更多AI生成的長視頻內容,像短視頻平臺的劇情號。

參考資料:

https://www.arxiv.org/abs/2506.19852

https://github.com/mit-han-lab/radial-attention/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
湖記談DFS合同僅前兩年受保障:所以他不是因為錢離開湖人?

湖記談DFS合同僅前兩年受保障:所以他不是因為錢離開湖人?

直播吧
2025-07-08 17:53:07
“把‘貿易流氓’踢出WTO,讓美國淪為‘國際棄兒’”

“把‘貿易流氓’踢出WTO,讓美國淪為‘國際棄兒’”

觀察者網
2025-07-08 08:19:03
50萬解放軍武力統一臺灣,馬英九:朝鮮戰爭讓臺灣有了喘息機會

50萬解放軍武力統一臺灣,馬英九:朝鮮戰爭讓臺灣有了喘息機會

歷史縱觀
2025-07-06 23:30:14
濟公爺爺開始帶貨,引發熱議!網友:人家走出來了,已經出戲了…

濟公爺爺開始帶貨,引發熱議!網友:人家走出來了,已經出戲了…

明月雜談
2025-07-07 18:57:38
陜西省委常委、組織部部長郭永紅,調任天津市委常委

陜西省委常委、組織部部長郭永紅,調任天津市委常委

觀察者網
2025-07-08 11:29:03
日媒吐槽中國人對日本人的優越感:講英語!中國人開辟了新的“血脈壓制”……

日媒吐槽中國人對日本人的優越感:講英語!中國人開辟了新的“血脈壓制”……

日本物語
2025-07-07 21:09:55
中國U16vs韓國U16:鄺兆鐳、萬項首發,盧琦政、梁仕宇出戰

中國U16vs韓國U16:鄺兆鐳、萬項首發,盧琦政、梁仕宇出戰

懂球帝
2025-07-08 18:35:23
“為了蘿卜,演都不演了”,女孩面試被硬扣20分,看清了現實

“為了蘿卜,演都不演了”,女孩面試被硬扣20分,看清了現實

熙熙說教
2025-07-06 18:17:00
收評:今天A股收在3497點,不出意外的話,明天很可能這樣走

收評:今天A股收在3497點,不出意外的話,明天很可能這樣走

說說史事
2025-07-08 16:35:08
金將軍機場痛哭迎靈柩,朝鮮精銳庫爾斯克血戰,用命換來了什么

金將軍機場痛哭迎靈柩,朝鮮精銳庫爾斯克血戰,用命換來了什么

流年拾光
2025-07-02 16:53:15
中國不得不防:一旦臺海爆發戰事,解放軍極可能陷入“四線作戰”

中國不得不防:一旦臺海爆發戰事,解放軍極可能陷入“四線作戰”

Ck的蜜糖
2025-07-08 13:41:00
3對母女川西墜河:父親已接走孩子遺體,搜救大佬發聲,搜救暫停

3對母女川西墜河:父親已接走孩子遺體,搜救大佬發聲,搜救暫停

涵豆說娛
2025-07-08 15:01:45
馬斯克捅了馬蜂窩,不等黨綱公布,自己或被驅逐出境,新黨要涼了

馬斯克捅了馬蜂窩,不等黨綱公布,自己或被驅逐出境,新黨要涼了

百態人間
2025-07-08 19:10:31
唆使員工半年看病300次,這家醫院騙保1200萬

唆使員工半年看病300次,這家醫院騙保1200萬

中國新聞周刊
2025-07-07 19:22:16
我是成都人,去了趟重慶發現:重慶人跟其他地方的人還真不一樣

我是成都人,去了趟重慶發現:重慶人跟其他地方的人還真不一樣

悠閑歷史
2025-07-08 09:22:34
最后48小時,特朗普突然改口,印度計劃報復美國,中方對27國亮劍

最后48小時,特朗普突然改口,印度計劃報復美國,中方對27國亮劍

掌青說歷史
2025-07-07 16:11:22
確認了!開始大裁員!9000人面臨失業

確認了!開始大裁員!9000人面臨失業

掌中邯鄲
2025-07-08 07:12:19
剛剛,上海中考放榜!各批次最低控分線出爐!這些批次竟然都降了

剛剛,上海中考放榜!各批次最低控分線出爐!這些批次竟然都降了

鬼菜生活
2025-07-08 17:21:40
網紅醫生塌房!真實身份觸目驚心,為斂財用盡各種手段,官媒出手

網紅醫生塌房!真實身份觸目驚心,為斂財用盡各種手段,官媒出手

紅色國際
2025-07-07 19:10:03
紅牛什么都干,除了生產紅牛

紅牛什么都干,除了生產紅牛

有數DataVision
2025-07-07 21:06:44
2025-07-08 20:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13019文章數 66081關注度
往期回顧 全部

科技要聞

"失去新鮮感",中國車主為何不再追捧特斯拉

頭條要聞

兩名研究生打出租從濟南去拉薩:目前打表價格已過萬

頭條要聞

兩名研究生打出租從濟南去拉薩:目前打表價格已過萬

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創”

財經要聞

新消費浪潮下的資本敘事能持續嗎?

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發布內飾官圖

態度原創

藝術
親子
家居
時尚
手機

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

在天水檢測正常,西安就不正常,連鉛中毒的事都想壓下來…

家居要聞

簡約時尚 返璞歸真之境

這些是有氣質的女性喜歡的穿搭!露膚度合適、多穿裙子更優雅

手機要聞

抗摔防水又大續航!聯想moto g100 Pro評測:千元價位罕見全能選手

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 岳普湖县| 太湖县| 延庆县| 资源县| 大足县| 鄂州市| 绍兴县| 凭祥市| 濮阳县| 灌南县| 枣强县| 揭东县| 巴青县| 安图县| 大庆市| 广昌县| 莲花县| 吉水县| 浦城县| 抚松县| 大宁县| 大化| 克拉玛依市| 东海县| 太仆寺旗| 巴彦县| 铜川市| 丰顺县| 嘉荫县| 延川县| 田东县| 泰宁县| 澎湖县| 周至县| 朝阳县| 吴忠市| 武鸣县| 镇沅| 忻城县| 天祝| 新安县|