想象一下,如果你正在用手機(jī)拍攝一段視頻,突然發(fā)現(xiàn)鏡頭中的小貓?jiān)诓煌?huà)面里變成了不同顏色,或者一個(gè)人的臉在幾秒鐘內(nèi)完全變了模樣——這聽(tīng)起來(lái)很荒謬,對(duì)吧?但這正是當(dāng)前AI視頻生成技術(shù)面臨的一個(gè)大問(wèn)題。不過(guò),好消息是,來(lái)自韓國(guó)科學(xué)技術(shù)院(KAIST)的研究團(tuán)隊(duì)最近找到了一個(gè)巧妙的解決方案。
這項(xiàng)由KAIST AI實(shí)驗(yàn)室的黃成元、張孝鎮(zhèn)、金基南、樸民浩和趙在?共同完成的研究,發(fā)表于2025年6月10日的《神經(jīng)信息處理系統(tǒng)會(huì)議》(NeurIPS 2025)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)論文編號(hào)arXiv:2506.09229v1訪問(wèn)完整研究報(bào)告,也可以訪問(wèn)項(xiàng)目網(wǎng)站https://crepavideo.github.io查看更多演示視頻。
這個(gè)問(wèn)題其實(shí)比我們想象的更復(fù)雜。當(dāng)前最先進(jìn)的AI視頻生成模型,比如那些能夠根據(jù)文字描述生成逼真視頻的系統(tǒng),雖然在單個(gè)畫(huà)面的質(zhì)量上已經(jīng)做得相當(dāng)不錯(cuò),但在保持視頻前后畫(huà)面的連貫性方面還存在明顯不足。就像一個(gè)健忘的畫(huà)家,每畫(huà)一幀都忘記了前一幀畫(huà)的是什么樣子。
研究團(tuán)隊(duì)發(fā)現(xiàn),問(wèn)題的根源在于現(xiàn)有的訓(xùn)練方法只關(guān)注每一幀畫(huà)面本身的質(zhì)量,而忽略了相鄰畫(huà)面之間的關(guān)系。這就好比我們?cè)趯W(xué)習(xí)畫(huà)連環(huán)畫(huà)時(shí),只練習(xí)畫(huà)單張圖片,卻從不考慮故事的連貫性。結(jié)果就是,AI生成的視頻雖然每一幀看起來(lái)都很漂亮,但連起來(lái)看就會(huì)發(fā)現(xiàn)人物的衣服顏色會(huì)突然改變,背景會(huì)莫名其妙地跳躍,物體的形狀也會(huì)發(fā)生不合理的變化。
為了解決這個(gè)問(wèn)題,KAIST團(tuán)隊(duì)提出了一種他們稱為"跨幀表示對(duì)齊"(CREPA)的新方法。這個(gè)名字聽(tīng)起來(lái)很專業(yè),但其背后的思路其實(shí)很像我們教孩子畫(huà)連環(huán)畫(huà)的方法:不僅要讓每一張畫(huà)都畫(huà)得好,還要確保前后的畫(huà)能夠連得上,形成一個(gè)完整的故事。
具體來(lái)說(shuō),研究團(tuán)隊(duì)的方法就像給AI安裝了一個(gè)"時(shí)間記憶系統(tǒng)"。當(dāng)AI在生成某一幀畫(huà)面時(shí),這個(gè)系統(tǒng)會(huì)提醒它:"嘿,別忘了前一幀和后一幀應(yīng)該是什么樣子的,你現(xiàn)在畫(huà)的內(nèi)容要和它們保持一致。"這樣,AI就不會(huì)在生成視頻時(shí)出現(xiàn)前言不搭后語(yǔ)的情況。
為了驗(yàn)證這種方法的效果,研究團(tuán)隊(duì)在多個(gè)大型AI視頻生成模型上進(jìn)行了測(cè)試,包括擁有50億參數(shù)的CogVideoX-5B和130億參數(shù)的Hunyuan Video。這些模型就像是AI界的"超級(jí)大腦",處理視頻生成任務(wù)時(shí)需要考慮海量的信息。
實(shí)驗(yàn)結(jié)果令人驚喜。在一個(gè)經(jīng)典的測(cè)試場(chǎng)景中,研究團(tuán)隊(duì)讓AI生成一段關(guān)于蒸汽船的黑白動(dòng)畫(huà)視頻。使用傳統(tǒng)方法訓(xùn)練的模型生成的視頻中,蒸汽船的形狀會(huì)發(fā)生奇怪的變化,煙囪冒出的煙霧也會(huì)突然消失或改變方向。而使用CREPA方法的模型生成的視頻則展現(xiàn)出了令人印象深刻的一致性:蒸汽船始終保持相同的外觀,煙霧的流動(dòng)也顯得自然而連貫,就像真正的動(dòng)畫(huà)師精心制作的作品一樣。
更有趣的是,這種改進(jìn)不僅體現(xiàn)在視覺(jué)效果上,還體現(xiàn)在語(yǔ)義理解方面。比如在生成一個(gè)關(guān)于物體被壓扁的視頻時(shí),傳統(tǒng)方法可能會(huì)讓物體的形狀發(fā)生不符合物理規(guī)律的變化,而CREPA方法則能確保整個(gè)壓扁過(guò)程看起來(lái)既逼真又符合我們對(duì)物理世界的認(rèn)知。
研究團(tuán)隊(duì)還特別關(guān)注了訓(xùn)練效率的問(wèn)題。他們發(fā)現(xiàn),使用CREPA方法只需要在單個(gè)A100 GPU上訓(xùn)練9到13小時(shí),就能顯著改善視頻生成的質(zhì)量。這相比傳統(tǒng)方法來(lái)說(shuō),既節(jié)省了計(jì)算資源,又提高了效果,可謂是一舉兩得。
在技術(shù)實(shí)現(xiàn)上,CREPA方法的核心思想是利用預(yù)訓(xùn)練的視覺(jué)編碼器來(lái)提供"參考標(biāo)準(zhǔn)"。這就像給AI提供了一本"標(biāo)準(zhǔn)答案冊(cè)",讓它在生成每一幀時(shí)都能參考這些標(biāo)準(zhǔn)來(lái)保持一致性。更巧妙的是,CREPA不僅讓AI參考當(dāng)前幀的標(biāo)準(zhǔn)答案,還會(huì)參考相鄰幀的標(biāo)準(zhǔn)答案,確保生成的內(nèi)容在時(shí)間維度上保持連貫。
為了更科學(xué)地評(píng)估改進(jìn)效果,研究團(tuán)隊(duì)設(shè)計(jì)了多維度的評(píng)估指標(biāo)。他們不僅測(cè)量了視頻的視覺(jué)質(zhì)量,還專門(mén)評(píng)估了語(yǔ)義一致性、運(yùn)動(dòng)平滑度和背景連貫性等關(guān)鍵指標(biāo)。結(jié)果顯示,CREPA方法在幾乎所有指標(biāo)上都取得了顯著改善。
特別值得一提的是,研究團(tuán)隊(duì)還探索了CREPA方法在新視角合成任務(wù)中的應(yīng)用。這就像是給AI一種"空間想象力"——當(dāng)你給它看一個(gè)物體的正面照片時(shí),它能想象出這個(gè)物體從側(cè)面或背面看是什么樣子。在這個(gè)任務(wù)中,CREPA方法同樣表現(xiàn)出色,生成的視頻在3D空間一致性方面有了明顯提升。
研究過(guò)程中,團(tuán)隊(duì)還進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們將CREPA方法與傳統(tǒng)的訓(xùn)練方法以及其他改進(jìn)方法進(jìn)行了詳細(xì)比較。結(jié)果顯示,CREPA不僅在客觀指標(biāo)上表現(xiàn)更好,在人工評(píng)估中也獲得了更高的評(píng)分。參與評(píng)估的志愿者在文本-視頻匹配度、視覺(jué)質(zhì)量、運(yùn)動(dòng)質(zhì)量、語(yǔ)義一致性和整體偏好等多個(gè)維度上,都更傾向于選擇CREPA方法生成的視頻。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。隨著AI視頻生成技術(shù)的日益成熟,它在教育、娛樂(lè)、廣告等領(lǐng)域的應(yīng)用前景越來(lái)越廣闊。CREPA方法的出現(xiàn),讓我們離真正實(shí)用的AI視頻生成工具又近了一步。想象一下,未來(lái)的內(nèi)容創(chuàng)作者可能只需要輸入一段文字描述,就能得到一段專業(yè)質(zhì)量的視頻內(nèi)容,這將大大降低視頻制作的門(mén)檻,讓更多人能夠參與到創(chuàng)意表達(dá)中來(lái)。
當(dāng)然,這項(xiàng)技術(shù)也帶來(lái)了一些需要思考的問(wèn)題。隨著AI生成視頻質(zhì)量的提升,如何確保這些技術(shù)被負(fù)責(zé)任地使用,如何防止虛假信息的傳播,如何保護(hù)創(chuàng)作者的權(quán)益等,都是需要我們認(rèn)真對(duì)待的社會(huì)議題。研究團(tuán)隊(duì)也在論文中提到了這些考慮,建議通過(guò)內(nèi)容標(biāo)記、使用指南和人工監(jiān)督等方式來(lái)確保技術(shù)的positive應(yīng)用。
有趣的是,CREPA方法的成功也給我們帶來(lái)了一些關(guān)于人工智能學(xué)習(xí)方式的啟發(fā)。它告訴我們,AI系統(tǒng)要想更好地理解和模擬現(xiàn)實(shí)世界,不僅需要關(guān)注局部的細(xì)節(jié),更需要理解全局的連貫性和一致性。這種"全局思維"可能是未來(lái)AI發(fā)展的一個(gè)重要方向。
總的來(lái)說(shuō),KAIST團(tuán)隊(duì)的這項(xiàng)研究為AI視頻生成技術(shù)的發(fā)展提供了一個(gè)新的思路和有效的解決方案。雖然在實(shí)際應(yīng)用中還有一些技術(shù)細(xì)節(jié)需要進(jìn)一步完善,比如如何為不同的視頻模型自動(dòng)選擇最優(yōu)的參數(shù)設(shè)置,但CREPA方法已經(jīng)展現(xiàn)出了巨大的潛力。相信隨著更多研究者的加入和技術(shù)的不斷完善,我們很快就能看到更多高質(zhì)量、高一致性的AI生成視頻出現(xiàn)在我們的生活中。
這項(xiàng)研究不僅推進(jìn)了AI視頻生成技術(shù)的發(fā)展,也為我們思考人工智能如何更好地理解和模擬時(shí)間序列數(shù)據(jù)提供了有價(jià)值的參考。正如研究團(tuán)隊(duì)所說(shuō),他們計(jì)劃將代碼開(kāi)源,讓更多的研究者和開(kāi)發(fā)者能夠在此基礎(chǔ)上繼續(xù)探索和改進(jìn)。這種開(kāi)放的態(tài)度無(wú)疑將加速整個(gè)領(lǐng)域的發(fā)展,讓我們對(duì)AI視頻生成技術(shù)的未來(lái)充滿期待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.