(來源:MIT News)
如果有機(jī)會(huì)讓你一窺人工智能模型生成視頻的幕后過程,你會(huì)聯(lián)想到什么?或許你以為這類似于定格動(dòng)畫的制作方式——先生成大量圖像再拼接起來。但對于 OpenAI 的 SORA 和谷歌的 VEO 2 這類“擴(kuò)散模型”而言,事實(shí)并非如此。
這些系統(tǒng)并非逐幀(或稱“自回歸”)生成視頻,而是對整個(gè)序列進(jìn)行同步處理。雖然最終生成的片段往往具有照片級真實(shí)感,但處理過程緩慢且無法實(shí)時(shí)修改。
近日,來自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)和 Adobe Research 的科學(xué)家們開發(fā)出了一種名為“CausVid”的混合方法,該模型能夠以每秒 9.4 幀的速度實(shí)時(shí)生成高質(zhì)量視頻,首幀延遲僅為 1.3 秒
這個(gè)系統(tǒng)通過全序列擴(kuò)散模型來訓(xùn)練自回歸系統(tǒng),使其既能快速預(yù)測下一幀畫面,又能確保畫質(zhì)與連貫性?;诤唵挝谋咎崾?,CausVid 便可實(shí)現(xiàn)多種創(chuàng)作:將靜態(tài)照片轉(zhuǎn)化為動(dòng)態(tài)場景、延長視頻時(shí)長,甚至在生成過程中根據(jù)新指令實(shí)時(shí)修改內(nèi)容。
該技術(shù)將原本需要 50 個(gè)步驟的流程精簡為幾個(gè)動(dòng)作,實(shí)現(xiàn)了快速交互式內(nèi)容創(chuàng)作。它能打造諸多充滿想象力的藝術(shù)場景:紙飛機(jī)變成天鵝、長毛猛犸象穿越雪原、孩童在水坑中蹦跳。用戶還能進(jìn)行漸進(jìn)式創(chuàng)作:先輸入“生成男子過馬路”的初始指令,待人物到達(dá)對面人行道時(shí),再追加“他從口袋里掏出筆記本寫字”的新元素。
CSAIL 的研究人員表示,該模型可以用于不同的視頻編輯任務(wù),例如通過生成與音頻翻譯同步的視頻來幫助觀眾理解不同語言的直播;還可以幫助在視頻游戲中渲染新內(nèi)容,或快速生成訓(xùn)練模擬來教機(jī)器人完成新任務(wù)。
CausVid 可以被視為一種“師生模型”。其中,全序列擴(kuò)散模型充當(dāng)“老師”。其與驅(qū)動(dòng) SORA 或 VEO 的強(qiáng)大模型類似,擅長理解視頻的整個(gè)時(shí)間流。它們可以同時(shí)預(yù)想一個(gè)序列的開頭、中間和結(jié)尾,掌握運(yùn)動(dòng)的細(xì)微差別、物體的永久性以及場景整體隨時(shí)間變化的穩(wěn)定性。這種全面的理解使它們能夠生成極其穩(wěn)定且高分辨率的視頻,但一次性處理整個(gè)序列需要耗費(fèi)大量的計(jì)算資源,并且速度本身就很慢。
“學(xué)生”則是一個(gè)更簡單的自回歸模型。自回歸模型根據(jù)序列中前一個(gè)元素預(yù)測下一個(gè)元素。在視頻環(huán)境中,這意味著根據(jù)當(dāng)前幀和前一幀預(yù)測下一幀。這種順序處理本質(zhì)上比試圖一次性弄清楚所有內(nèi)容要快得多。然而,純自回歸視頻生成的嘗試經(jīng)常會(huì)失敗,最大的陷阱是“錯(cuò)誤累積”。想象一下,一個(gè)模型在預(yù)測每個(gè)后續(xù)幀時(shí)都會(huì)犯一些微小的錯(cuò)誤。隨著時(shí)間的推移,這些小錯(cuò)誤會(huì)累積起來,導(dǎo)致視覺不一致、抖動(dòng),以及視頻播放過程中質(zhì)量明顯下降。輸出可能開始很流暢,但很快就會(huì)變得視覺混亂。
CausVid 巧妙地利用了教師模型的預(yù)見性,從而避免了這個(gè)問題。全序列擴(kuò)散教師模型能夠理解整個(gè)視頻軌跡,并在訓(xùn)練階段將其專業(yè)知識傳授給自回歸學(xué)生模型。它不僅僅是告訴學(xué)生“下一幀是什么樣子”,而是訓(xùn)練學(xué)生模型理解穩(wěn)定視頻生成所需的底層動(dòng)態(tài)和一致性。本質(zhì)上,教師模型教會(huì)學(xué)生如何不僅快速地預(yù)測未來幀,而且能夠始終如一地預(yù)測,并與對整個(gè)序列的高級理解保持一致。這與之前缺乏這種總體指導(dǎo)的因果方法有著至關(guān)重要的區(qū)別。通過對教師模型的高質(zhì)量輸出進(jìn)行訓(xùn)練,并受益于其全局理解,學(xué)生模型可以學(xué)會(huì)快速預(yù)測后續(xù)幀,而不會(huì)像之前的模型那樣陷入累積誤差。
當(dāng)研究人員測試 CausVid 生成 10 秒高清視頻的能力時(shí),這款模型展現(xiàn)出卓越的視頻制作天賦。其表現(xiàn)遠(yuǎn)超“OpenSORA”和“MovieGen”等基線模型,生成速度比競品快達(dá) 100 倍,同時(shí)能輸出最穩(wěn)定、最高質(zhì)的視頻片段。
團(tuán)隊(duì)進(jìn)一步測試了 CausVid 生成 30秒長視頻的穩(wěn)定性,在畫質(zhì)連貫性方面同樣碾壓同類模型。這些結(jié)果表明,該技術(shù)有望實(shí)現(xiàn)數(shù)小時(shí)甚至無限時(shí)長的穩(wěn)定視頻生成。有趣的是,作為研究一部分進(jìn)行的用戶調(diào)研,為了解 CausVid 性能的實(shí)際體驗(yàn)提供了寶貴的見解。相比基于擴(kuò)散技術(shù)的教師模型,用戶絕大多數(shù)更喜歡學(xué)生模型生成的視頻。
“自回歸模型的速度優(yōu)勢具有決定性意義,”論文作者 Tianwei Yin 指出,“其視頻質(zhì)量可與教師模型媲美,雖然生成耗時(shí)更短,但代價(jià)是視覺多樣性稍遜一籌?!?/p>
在使用文本-視頻數(shù)據(jù)集進(jìn)行的 900 多次提示測試中,CausVid 以 84.27 的綜合評分拔得頭籌。其在成像質(zhì)量和擬人動(dòng)作等指標(biāo)上表現(xiàn)尤為突出,超越了“Vchitect”和“Gen-3”等頂尖視頻生成模型。
盡管 CausVid 已是 AI 視頻生成領(lǐng)域的高效突破,但通過精簡因果架構(gòu),其生成速度有望進(jìn)一步提升,甚至實(shí)現(xiàn)即時(shí)生成。Tianwei Yin 表示,若采用特定領(lǐng)域數(shù)據(jù)集訓(xùn)練,該模型將為機(jī)器人和游戲產(chǎn)業(yè)產(chǎn)出更優(yōu)質(zhì)的視頻內(nèi)容。
專家認(rèn)為,這種混合系統(tǒng)是對當(dāng)前受處理速度拖累的擴(kuò)散模型的重要升級。“現(xiàn)有視頻模型的速度遠(yuǎn)遜于大語言模型或圖像生成模型,”未參與該研究的卡內(nèi)基梅隆大學(xué)助理教授 Jun Yan Zhu 評價(jià)道,“這項(xiàng)突破性工作顯著提升了生成效率,意味著更流暢的串流速度、更強(qiáng)的交互應(yīng)用潛力,以及更低的碳足跡?!?/p>
該研究獲得了亞馬遜科學(xué)中心、光州科學(xué)技術(shù)院、Adobe、谷歌、美國空軍研究實(shí)驗(yàn)室及美國空軍人工智能加速器的支持。CausVid 技術(shù)將于 6 月在國際計(jì)算機(jī)視覺與模式識別會(huì)議(CVPR)正式亮相。
https://news.mit.edu/2025/causevid-hybrid-ai-model-crafts-smooth-high-quality-videos-in-seconds-0506
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.