(來源:MIT News)
如果有機會讓你一窺人工智能模型生成視頻的幕后過程,你會聯想到什么?或許你以為這類似于定格動畫的制作方式——先生成大量圖像再拼接起來。但對于 OpenAI 的 SORA 和谷歌的 VEO 2 這類“擴散模型”而言,事實并非如此。
這些系統并非逐幀(或稱“自回歸”)生成視頻,而是對整個序列進行同步處理。雖然最終生成的片段往往具有照片級真實感,但處理過程緩慢且無法實時修改。
近日,來自麻省理工學院計算機科學與人工智能實驗室(CSAIL)和 Adobe Research 的科學家們開發出了一種名為“CausVid”的混合方法,該模型能夠以每秒 9.4 幀的速度實時生成高質量視頻,首幀延遲僅為 1.3 秒
這個系統通過全序列擴散模型來訓練自回歸系統,使其既能快速預測下一幀畫面,又能確保畫質與連貫性。基于簡單文本提示,CausVid 便可實現多種創作:將靜態照片轉化為動態場景、延長視頻時長,甚至在生成過程中根據新指令實時修改內容。
該技術將原本需要 50 個步驟的流程精簡為幾個動作,實現了快速交互式內容創作。它能打造諸多充滿想象力的藝術場景:紙飛機變成天鵝、長毛猛犸象穿越雪原、孩童在水坑中蹦跳。用戶還能進行漸進式創作:先輸入“生成男子過馬路”的初始指令,待人物到達對面人行道時,再追加“他從口袋里掏出筆記本寫字”的新元素。
CSAIL 的研究人員表示,該模型可以用于不同的視頻編輯任務,例如通過生成與音頻翻譯同步的視頻來幫助觀眾理解不同語言的直播;還可以幫助在視頻游戲中渲染新內容,或快速生成訓練模擬來教機器人完成新任務。
CausVid 可以被視為一種“師生模型”。其中,全序列擴散模型充當“老師”。其與驅動 SORA 或 VEO 的強大模型類似,擅長理解視頻的整個時間流。它們可以同時預想一個序列的開頭、中間和結尾,掌握運動的細微差別、物體的永久性以及場景整體隨時間變化的穩定性。這種全面的理解使它們能夠生成極其穩定且高分辨率的視頻,但一次性處理整個序列需要耗費大量的計算資源,并且速度本身就很慢。
“學生”則是一個更簡單的自回歸模型。自回歸模型根據序列中前一個元素預測下一個元素。在視頻環境中,這意味著根據當前幀和前一幀預測下一幀。這種順序處理本質上比試圖一次性弄清楚所有內容要快得多。然而,純自回歸視頻生成的嘗試經常會失敗,最大的陷阱是“錯誤累積”。想象一下,一個模型在預測每個后續幀時都會犯一些微小的錯誤。隨著時間的推移,這些小錯誤會累積起來,導致視覺不一致、抖動,以及視頻播放過程中質量明顯下降。輸出可能開始很流暢,但很快就會變得視覺混亂。
CausVid 巧妙地利用了教師模型的預見性,從而避免了這個問題。全序列擴散教師模型能夠理解整個視頻軌跡,并在訓練階段將其專業知識傳授給自回歸學生模型。它不僅僅是告訴學生“下一幀是什么樣子”,而是訓練學生模型理解穩定視頻生成所需的底層動態和一致性。本質上,教師模型教會學生如何不僅快速地預測未來幀,而且能夠始終如一地預測,并與對整個序列的高級理解保持一致。這與之前缺乏這種總體指導的因果方法有著至關重要的區別。通過對教師模型的高質量輸出進行訓練,并受益于其全局理解,學生模型可以學會快速預測后續幀,而不會像之前的模型那樣陷入累積誤差。
當研究人員測試 CausVid 生成 10 秒高清視頻的能力時,這款模型展現出卓越的視頻制作天賦。其表現遠超“OpenSORA”和“MovieGen”等基線模型,生成速度比競品快達 100 倍,同時能輸出最穩定、最高質的視頻片段。
團隊進一步測試了 CausVid 生成 30秒長視頻的穩定性,在畫質連貫性方面同樣碾壓同類模型。這些結果表明,該技術有望實現數小時甚至無限時長的穩定視頻生成。有趣的是,作為研究一部分進行的用戶調研,為了解 CausVid 性能的實際體驗提供了寶貴的見解。相比基于擴散技術的教師模型,用戶絕大多數更喜歡學生模型生成的視頻。
“自回歸模型的速度優勢具有決定性意義,”論文作者 Tianwei Yin 指出,“其視頻質量可與教師模型媲美,雖然生成耗時更短,但代價是視覺多樣性稍遜一籌。”
在使用文本-視頻數據集進行的 900 多次提示測試中,CausVid 以 84.27 的綜合評分拔得頭籌。其在成像質量和擬人動作等指標上表現尤為突出,超越了“Vchitect”和“Gen-3”等頂尖視頻生成模型。
盡管 CausVid 已是 AI 視頻生成領域的高效突破,但通過精簡因果架構,其生成速度有望進一步提升,甚至實現即時生成。Tianwei Yin 表示,若采用特定領域數據集訓練,該模型將為機器人和游戲產業產出更優質的視頻內容。
專家認為,這種混合系統是對當前受處理速度拖累的擴散模型的重要升級。“現有視頻模型的速度遠遜于大語言模型或圖像生成模型,”未參與該研究的卡內基梅隆大學助理教授 Jun Yan Zhu 評價道,“這項突破性工作顯著提升了生成效率,意味著更流暢的串流速度、更強的交互應用潛力,以及更低的碳足跡。”
該研究獲得了亞馬遜科學中心、光州科學技術院、Adobe、谷歌、美國空軍研究實驗室及美國空軍人工智能加速器的支持。CausVid 技術將于 6 月在國際計算機視覺與模式識別會議(CVPR)正式亮相。
https://news.mit.edu/2025/causevid-hybrid-ai-model-crafts-smooth-high-quality-videos-in-seconds-0506
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.