網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

KAIST團(tuán)隊(duì)：讓AI視頻生成更懂"時(shí)間一致性"的神奇技巧

2025-06-17 21:29:08　來(lái)源: 至頂頭條

北京舉報(bào)

分享至

想象一下，如果你正在用手機(jī)拍攝一段視頻，突然發(fā)現(xiàn)鏡頭中的小貓?jiān)诓煌?huà)面里變成了不同顏色，或者一個(gè)人的臉在幾秒鐘內(nèi)完全變了模樣——這聽(tīng)起來(lái)很荒謬，對(duì)吧？但這正是當(dāng)前AI視頻生成技術(shù)面臨的一個(gè)大問(wèn)題。不過(guò)，好消息是，來(lái)自韓國(guó)科學(xué)技術(shù)院（KAIST）的研究團(tuán)隊(duì)最近找到了一個(gè)巧妙的解決方案。

這項(xiàng)由KAIST AI實(shí)驗(yàn)室的黃成元、張孝鎮(zhèn)、金基南、樸民浩和趙在?共同完成的研究，發(fā)表于2025年6月10日的《神經(jīng)信息處理系統(tǒng)會(huì)議》（NeurIPS 2025）。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文編號(hào)arXiv:2506.09229v1訪問(wèn)完整研究報(bào)告，也可以訪問(wèn)項(xiàng)目網(wǎng)站https://crepavideo.github.io查看更多演示視頻。

這個(gè)問(wèn)題其實(shí)比我們想象的更復(fù)雜。當(dāng)前最先進(jìn)的AI視頻生成模型，比如那些能夠根據(jù)文字描述生成逼真視頻的系統(tǒng)，雖然在單個(gè)畫(huà)面的質(zhì)量上已經(jīng)做得相當(dāng)不錯(cuò)，但在保持視頻前后畫(huà)面的連貫性方面還存在明顯不足。就像一個(gè)健忘的畫(huà)家，每畫(huà)一幀都忘記了前一幀畫(huà)的是什么樣子。

研究團(tuán)隊(duì)發(fā)現(xiàn)，問(wèn)題的根源在于現(xiàn)有的訓(xùn)練方法只關(guān)注每一幀畫(huà)面本身的質(zhì)量，而忽略了相鄰畫(huà)面之間的關(guān)系。這就好比我們?cè)趯W(xué)習(xí)畫(huà)連環(huán)畫(huà)時(shí)，只練習(xí)畫(huà)單張圖片，卻從不考慮故事的連貫性。結(jié)果就是，AI生成的視頻雖然每一幀看起來(lái)都很漂亮，但連起來(lái)看就會(huì)發(fā)現(xiàn)人物的衣服顏色會(huì)突然改變，背景會(huì)莫名其妙地跳躍，物體的形狀也會(huì)發(fā)生不合理的變化。

為了解決這個(gè)問(wèn)題，KAIST團(tuán)隊(duì)提出了一種他們稱為"跨幀表示對(duì)齊"（CREPA）的新方法。這個(gè)名字聽(tīng)起來(lái)很專業(yè)，但其背后的思路其實(shí)很像我們教孩子畫(huà)連環(huán)畫(huà)的方法：不僅要讓每一張畫(huà)都畫(huà)得好，還要確保前后的畫(huà)能夠連得上，形成一個(gè)完整的故事。

具體來(lái)說(shuō)，研究團(tuán)隊(duì)的方法就像給AI安裝了一個(gè)"時(shí)間記憶系統(tǒng)"。當(dāng)AI在生成某一幀畫(huà)面時(shí)，這個(gè)系統(tǒng)會(huì)提醒它："嘿，別忘了前一幀和后一幀應(yīng)該是什么樣子的，你現(xiàn)在畫(huà)的內(nèi)容要和它們保持一致。"這樣，AI就不會(huì)在生成視頻時(shí)出現(xiàn)前言不搭后語(yǔ)的情況。

為了驗(yàn)證這種方法的效果，研究團(tuán)隊(duì)在多個(gè)大型AI視頻生成模型上進(jìn)行了測(cè)試，包括擁有50億參數(shù)的CogVideoX-5B和130億參數(shù)的Hunyuan Video。這些模型就像是AI界的"超級(jí)大腦"，處理視頻生成任務(wù)時(shí)需要考慮海量的信息。

實(shí)驗(yàn)結(jié)果令人驚喜。在一個(gè)經(jīng)典的測(cè)試場(chǎng)景中，研究團(tuán)隊(duì)讓AI生成一段關(guān)于蒸汽船的黑白動(dòng)畫(huà)視頻。使用傳統(tǒng)方法訓(xùn)練的模型生成的視頻中，蒸汽船的形狀會(huì)發(fā)生奇怪的變化，煙囪冒出的煙霧也會(huì)突然消失或改變方向。而使用CREPA方法的模型生成的視頻則展現(xiàn)出了令人印象深刻的一致性：蒸汽船始終保持相同的外觀，煙霧的流動(dòng)也顯得自然而連貫，就像真正的動(dòng)畫(huà)師精心制作的作品一樣。

更有趣的是，這種改進(jìn)不僅體現(xiàn)在視覺(jué)效果上，還體現(xiàn)在語(yǔ)義理解方面。比如在生成一個(gè)關(guān)于物體被壓扁的視頻時(shí)，傳統(tǒng)方法可能會(huì)讓物體的形狀發(fā)生不符合物理規(guī)律的變化，而CREPA方法則能確保整個(gè)壓扁過(guò)程看起來(lái)既逼真又符合我們對(duì)物理世界的認(rèn)知。

研究團(tuán)隊(duì)還特別關(guān)注了訓(xùn)練效率的問(wèn)題。他們發(fā)現(xiàn)，使用CREPA方法只需要在單個(gè)A100 GPU上訓(xùn)練9到13小時(shí)，就能顯著改善視頻生成的質(zhì)量。這相比傳統(tǒng)方法來(lái)說(shuō)，既節(jié)省了計(jì)算資源，又提高了效果，可謂是一舉兩得。

在技術(shù)實(shí)現(xiàn)上，CREPA方法的核心思想是利用預(yù)訓(xùn)練的視覺(jué)編碼器來(lái)提供"參考標(biāo)準(zhǔn)"。這就像給AI提供了一本"標(biāo)準(zhǔn)答案冊(cè)"，讓它在生成每一幀時(shí)都能參考這些標(biāo)準(zhǔn)來(lái)保持一致性。更巧妙的是，CREPA不僅讓AI參考當(dāng)前幀的標(biāo)準(zhǔn)答案，還會(huì)參考相鄰幀的標(biāo)準(zhǔn)答案，確保生成的內(nèi)容在時(shí)間維度上保持連貫。

為了更科學(xué)地評(píng)估改進(jìn)效果，研究團(tuán)隊(duì)設(shè)計(jì)了多維度的評(píng)估指標(biāo)。他們不僅測(cè)量了視頻的視覺(jué)質(zhì)量，還專門(mén)評(píng)估了語(yǔ)義一致性、運(yùn)動(dòng)平滑度和背景連貫性等關(guān)鍵指標(biāo)。結(jié)果顯示，CREPA方法在幾乎所有指標(biāo)上都取得了顯著改善。

特別值得一提的是，研究團(tuán)隊(duì)還探索了CREPA方法在新視角合成任務(wù)中的應(yīng)用。這就像是給AI一種"空間想象力"——當(dāng)你給它看一個(gè)物體的正面照片時(shí)，它能想象出這個(gè)物體從側(cè)面或背面看是什么樣子。在這個(gè)任務(wù)中，CREPA方法同樣表現(xiàn)出色，生成的視頻在3D空間一致性方面有了明顯提升。

研究過(guò)程中，團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們將CREPA方法與傳統(tǒng)的訓(xùn)練方法以及其他改進(jìn)方法進(jìn)行了詳細(xì)比較。結(jié)果顯示，CREPA不僅在客觀指標(biāo)上表現(xiàn)更好，在人工評(píng)估中也獲得了更高的評(píng)分。參與評(píng)估的志愿者在文本-視頻匹配度、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量、語(yǔ)義一致性和整體偏好等多個(gè)維度上，都更傾向于選擇CREPA方法生成的視頻。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。隨著AI視頻生成技術(shù)的日益成熟，它在教育、娛樂(lè)、廣告等領(lǐng)域的應(yīng)用前景越來(lái)越廣闊。CREPA方法的出現(xiàn)，讓我們離真正實(shí)用的AI視頻生成工具又近了一步。想象一下，未來(lái)的內(nèi)容創(chuàng)作者可能只需要輸入一段文字描述，就能得到一段專業(yè)質(zhì)量的視頻內(nèi)容，這將大大降低視頻制作的門(mén)檻，讓更多人能夠參與到創(chuàng)意表達(dá)中來(lái)。

當(dāng)然，這項(xiàng)技術(shù)也帶來(lái)了一些需要思考的問(wèn)題。隨著AI生成視頻質(zhì)量的提升，如何確保這些技術(shù)被負(fù)責(zé)任地使用，如何防止虛假信息的傳播，如何保護(hù)創(chuàng)作者的權(quán)益等，都是需要我們認(rèn)真對(duì)待的社會(huì)議題。研究團(tuán)隊(duì)也在論文中提到了這些考慮，建議通過(guò)內(nèi)容標(biāo)記、使用指南和人工監(jiān)督等方式來(lái)確保技術(shù)的positive應(yīng)用。

有趣的是，CREPA方法的成功也給我們帶來(lái)了一些關(guān)于人工智能學(xué)習(xí)方式的啟發(fā)。它告訴我們，AI系統(tǒng)要想更好地理解和模擬現(xiàn)實(shí)世界，不僅需要關(guān)注局部的細(xì)節(jié)，更需要理解全局的連貫性和一致性。這種"全局思維"可能是未來(lái)AI發(fā)展的一個(gè)重要方向。

總的來(lái)說(shuō)，KAIST團(tuán)隊(duì)的這項(xiàng)研究為AI視頻生成技術(shù)的發(fā)展提供了一個(gè)新的思路和有效的解決方案。雖然在實(shí)際應(yīng)用中還有一些技術(shù)細(xì)節(jié)需要進(jìn)一步完善，比如如何為不同的視頻模型自動(dòng)選擇最優(yōu)的參數(shù)設(shè)置，但CREPA方法已經(jīng)展現(xiàn)出了巨大的潛力。相信隨著更多研究者的加入和技術(shù)的不斷完善，我們很快就能看到更多高質(zhì)量、高一致性的AI生成視頻出現(xiàn)在我們的生活中。

這項(xiàng)研究不僅推進(jìn)了AI視頻生成技術(shù)的發(fā)展，也為我們思考人工智能如何更好地理解和模擬時(shí)間序列數(shù)據(jù)提供了有價(jià)值的參考。正如研究團(tuán)隊(duì)所說(shuō)，他們計(jì)劃將代碼開(kāi)源，讓更多的研究者和開(kāi)發(fā)者能夠在此基礎(chǔ)上繼續(xù)探索和改進(jìn)。這種開(kāi)放的態(tài)度無(wú)疑將加速整個(gè)領(lǐng)域的發(fā)展，讓我們對(duì)AI視頻生成技術(shù)的未來(lái)充滿期待。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.