機(jī)器之心報(bào)道
編輯:冷貓
一覺起來世界已經(jīng)進(jìn)化成這樣了?
每個(gè)人都能懂點(diǎn)魔法,能夠隨意穿梭在各個(gè)平行時(shí)空和幻想世界里。
讀者朋友們看到這說不定撇撇嘴,「這不就是 AI 視頻嗎?」
但如果加上兩個(gè)關(guān)鍵詞,這將成為 AI 視頻生成領(lǐng)域革命性的突破!
就在昨天,Decart 發(fā)布了世界上首個(gè)「實(shí)時(shí)的」「無時(shí)長(zhǎng)限制的」并且支持「任意視頻流」的擴(kuò)散視頻模型 MirageLSD!
輸入任何視頻流,無論是相機(jī)或視頻聊天、電腦屏幕還是游戲,MirageLSD 都能在40 毫秒延遲以內(nèi)將其轉(zhuǎn)化為你想要的任何世界。
這一切都看上去不可思議,AI 視頻已經(jīng)能夠?qū)崿F(xiàn)和濾鏡一樣的應(yīng)用方式,實(shí)時(shí)智能調(diào)整畫面風(fēng)格和畫面內(nèi)容,并且能夠通過文本提示任意地進(jìn)行控制。
實(shí)時(shí)視頻魔法
解鎖全新應(yīng)用可能
前特斯拉 AI 總監(jiān),OpenAI 的創(chuàng)始團(tuán)隊(duì)成員 Andrej Karpathy 為此技術(shù)展開了廣泛的想象:
- 攝像頭畫面變?yōu)?“另一個(gè)世界”。
- 自導(dǎo)自演實(shí)時(shí)電影:拿起道具、演繹場(chǎng)景,AI 負(fù)責(zé)實(shí)時(shí)布景和風(fēng)格化,秒看回放,邊演邊剪。
- 游戲開發(fā)輕松起步:用簡(jiǎn)單的球體 / 方塊編碼游戲機(jī)制,再用實(shí)時(shí)擴(kuò)散模型為游戲生成精美貼圖。
- 任意視頻流的風(fēng)格遷移:例如:只需一句提示詞就能讓《上古卷軸》看起來 “更史詩(shī)”,讓《毀滅戰(zhàn)士 2》擁有現(xiàn)代虛幻引擎畫質(zhì)。
- 視頻會(huì)議背景和實(shí)時(shí)虛擬試衣。
- AR 眼鏡升級(jí):實(shí)時(shí)將現(xiàn)實(shí)世界卡通化。
- 哈利波特的「厄里斯魔鏡」:現(xiàn)實(shí)中看似普通的鏡子,實(shí)際上會(huì)顯示出 AI 根據(jù)你 “深層欲望” 生成的理想自己或世界。
Karpathy 表示自己已經(jīng)成為了這個(gè) MirageLSD 項(xiàng)目的天使投資人,在他看來這項(xiàng)技術(shù)通用且強(qiáng)大。
也許這些都只是開始,真正的 “殺手級(jí)應(yīng)用” 還沒被發(fā)現(xiàn) —— 這個(gè)領(lǐng)域值得無限想象!
這一切讓我想起了「刀劍神域」,似乎覆蓋現(xiàn)實(shí)世界的幻想畫面真的要實(shí)現(xiàn)了?
Decart 也展示了一些構(gòu)想的演示,充分滿足了各種可能:
比如在沙漠里滑雪?
比如可以花上 30 分鐘寫個(gè)游戲代碼,然后讓 Mirage 處理圖形?
Decart 推文中笑稱,使用 Mirage「從提示詞制作 GTA VII,比 GTA VI 發(fā)售還快。」
目前 Mirage 已正式上線,與其觀看屏幕上的魔法,不如親手創(chuàng)造魔法。
Decart 將持續(xù)發(fā)布模型升級(jí)和新功能,包括面部一致性、語音控制和精確物體操控等。與此同時(shí),平臺(tái)還將上線一系列新特性 —— 如流媒體支持(以任意角色進(jìn)行直播)、游戲集成、視頻通話等功能。
- 體驗(yàn)鏈接:https://mirage.decart.ai/
魔法背后
MirageLSD技術(shù)原理
MirageLSD 主要在視頻生成的時(shí)長(zhǎng)和延遲兩大角度產(chǎn)生了突破,基于定制的模型 ——實(shí)時(shí)流擴(kuò)散(Live Stream Diffusion,LSD),該模型能夠逐幀生成并保持時(shí)間連貫性。
在視頻時(shí)長(zhǎng)方面,先前的視頻模型在生成 20-30 秒后就會(huì)因錯(cuò)誤累積而嚴(yán)重降低質(zhì)量。
在生成延時(shí)方面,它們往往需要幾分鐘的處理時(shí)間才能輸出幾秒鐘的視頻。即使是今天最接近實(shí)時(shí)速度的系統(tǒng),通常也是分塊生成視頻,從而引入不可避免的延遲,完全無法實(shí)現(xiàn)交互應(yīng)用。
無限長(zhǎng)視頻生成
MirageLSD 是第一個(gè)能夠生成無限長(zhǎng)視頻的視頻生成模型。
由于模型的自回歸特性,會(huì)導(dǎo)致誤差逐步累積,從而限制輸出的長(zhǎng)度。
為了實(shí)現(xiàn)無限自回歸生成:
- MirageLSD 基于 Diffusion Forcing 技術(shù),實(shí)現(xiàn)逐幀去噪
- 我們引入歷史增強(qiáng)方法,在訓(xùn)練中對(duì)輸入歷史幀進(jìn)行擾動(dòng),使模型學(xué)會(huì)預(yù)判并糾正輸入中的偽影,從而增強(qiáng)其對(duì)自回歸生成中常見偏移的魯棒性;
這兩者結(jié)合,使 LSD 成為第一個(gè)能夠無限生成視頻而不會(huì)崩潰的模型 —— 穩(wěn)定、可提示,并始終與場(chǎng)景和用戶輸入保持一致。
零延時(shí)視頻生成
響應(yīng)性是指最壞情況下的響應(yīng)延遲,即使是之前的自回歸模型響應(yīng)速度也比 MirageLSD 慢 16 倍以上,導(dǎo)致實(shí)時(shí)交互無法實(shí)現(xiàn)。
實(shí)時(shí)生成要求每幀的生成時(shí)間控制在40 毫秒以內(nèi),以避免被人眼察覺。我們通過以下方式實(shí)現(xiàn)這一目標(biāo):
- 設(shè)計(jì)定制的CUDA mega kernels,以最小化開銷并最大化吞吐;
- 基于shortcut distillation模型剪枝技術(shù),減少每幀所需的計(jì)算量;
- 優(yōu)化模型架構(gòu),使其與 GPU 硬件高度對(duì)齊,實(shí)現(xiàn)效率最大化。
通過上述技術(shù),我們?cè)陧憫?yīng)速度上相較于以往模型提升了 16 倍,實(shí)現(xiàn)了以 24 幀 / 秒的速率實(shí)時(shí)生成視頻。
擴(kuò)散模型與 LSD
擴(kuò)散模型通過一系列逐步去噪操作,將隨機(jī)噪聲逐漸還原為圖像或視頻。在視頻生成中,這通常意味著一次性生成固定長(zhǎng)度的視頻片段,這有助于保持時(shí)間一致性,但會(huì)帶來延遲。一些系統(tǒng)嘗試通過所謂的 “自回歸生成” 方式,逐段順序生成幀片段,以提高靈活性。然而,這種方式仍需在每一段幀生成完畢后才能響應(yīng)新的輸入,限制了交互性和實(shí)時(shí)應(yīng)用的能力。
LSD 采用了不同的方法。它一次生成一幀,使用因果性的自回歸結(jié)構(gòu),每一幀都依賴于此前生成的幀以及用戶提示。這種方式支持即時(shí)反饋、零延遲交互,并且可以持續(xù)生成視頻,無需預(yù)先設(shè)定終點(diǎn)。
在每一個(gè)時(shí)間步,模型會(huì)接收一組過去生成的幀、當(dāng)前輸入幀以及用戶定義的提示詞,然后預(yù)測(cè)下一幀輸出,該幀會(huì)立即作為輸入傳遞到下一輪生成中。
這種因果反饋機(jī)制使 LSD 能夠保持時(shí)間上的一致性,持續(xù)適應(yīng)畫面中的動(dòng)作與內(nèi)容變化,并在實(shí)時(shí)遵循用戶提示的同時(shí),生成無限長(zhǎng)度的視頻序列。
此外,它還使 LSD 能夠?qū)斎胱鞒黾磿r(shí)響應(yīng) —— 無論是文本提示還是視頻內(nèi)容的變化 —— 實(shí)現(xiàn)真正的零延遲。這正是實(shí)時(shí)編輯與轉(zhuǎn)換成為可能的關(guān)鍵。
技術(shù)缺陷與改進(jìn)方向
首先,當(dāng)前系統(tǒng)依賴于有限的歷史幀窗口。引入更長(zhǎng)期的記憶機(jī)制有望提升長(zhǎng)序列中的連貫性,從而在角色身份、場(chǎng)景布局和長(zhǎng)期動(dòng)作等方面實(shí)現(xiàn)更一致的表現(xiàn)。
此外,盡管 MirageLSD 支持基于文本的風(fēng)格變換,但對(duì)于特定物體、空間區(qū)域或動(dòng)作的精細(xì)控制仍較為有限。若能整合關(guān)鍵點(diǎn)或場(chǎng)景標(biāo)注等結(jié)構(gòu)化控制信號(hào),將有助于在實(shí)時(shí)環(huán)境中實(shí)現(xiàn)更細(xì)粒度、用戶可控的編輯操作。
在語義一致性和幾何穩(wěn)定性方面,特別是在面對(duì)極端風(fēng)格變換時(shí),仍需進(jìn)一步優(yōu)化。MirageLSD 在極端風(fēng)格變化下,可能會(huì)出現(xiàn)物體結(jié)構(gòu)或布局被扭曲的情況。
更多相關(guān)技術(shù)信息,請(qǐng)參閱 Decart 的技術(shù)介紹:
- 文章鏈接:https://about.decart.ai/publications/mirage
?文中視頻鏈接:https://mp.weixin.qq.com/s/yeWZCjtEBXmJaHsa8mf54w
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.