聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
大神Karpathy都忍不住投資的AI初創,帶來首個實時擴散視頻生成!
用掃帚當麥克風,用盒子當混音臺,無需昂貴設備就能開一場沉浸式直播。
喜歡游戲類型但不喜歡游戲的畫面?簡單,實時給它改個風格是不是就舒服多了~
以上,就是AI初創公司Decart的最新視頻模型MirageLSD的演示效果,這是首個實現零延遲無限實時視頻生成的AI模型。
只要你有想象力,Mirage就能實時生成視頻流,為你打造專屬的魔法世界~
輸入支持直播、游戲、視頻通話、相機拍攝、點播等多種形式,可以說是能轉盡轉了。
主要是Mirage和其他等待時間很久但只能生成5-10秒視頻的模型不一樣,它沒有時長限制,延遲還降到了40毫秒以下,說是零延遲也不為過吧。
響應速度比之前的模型快16倍,實現了每秒24幀的實時視頻生成,還允許在視頻生成過程中進行持續的提示、轉換和編輯。
做到了“你隨時想,我隨時轉”!
于是,AI大神卡帕西也出來力挺:實時!
同時他還透露自己也是Decart的天使投資人(非常小)。
接下來讓我們看看Mirage是如何做到的。
攻克了傳統自回歸視頻模型中“誤差累積”的核心難題
MirageLSD采用Decart自定義的實時流擴散模型Live-Stream Diffusion(LSD),LSD能夠在逐幀生成內容的同時保持時間連貫性。
在視頻生成過程中,由于自回歸模型每一幀都依賴于前一幀,一個位置偏移的陰影或者一種紋理錯誤的細節這些瑕疵會隨著時間的推移而不斷累積,這種誤差積累會使模型逐漸偏離訓練。
當前的視頻模型在生成超過20-30秒的內容時,會因為誤差累積而導致嚴重質量下降,所以一些模型只能生成固定長度的短視頻。
MirageLSD能夠實現無限生成的核心就在于解決了傳統自回歸視頻模型中“誤差累積”這一關鍵瓶頸。
它采用逐幀的因果自回歸結構處理數據,每幀生成僅依賴先前已生成的幀和用戶提示,而非完整視頻序列,這種模式為連續生成無限時長視頻奠定了基礎。
同時依托Diffusion Forcing技術,讓模型在訓練中學會獨立對單幀去噪,無需依賴完整視頻上下文,保證了逐幀生成的連貫性。
針對傳統自回歸模型中微小誤差隨時間疊加導致畫面失真的問題,MirageLSD通過歷史增強策略解決:訓練時向輸入的歷史幀中主動添加模擬模型可能生成的偽影(如噪聲、畸變),使模型學會預判并糾正這些缺陷。
此外,在推理階段明確告知模型“歷史幀可能不準確”,可以讓它保持對誤差的警惕性,持續調用訓練中學習的糾正能力。
并且之前的模型都需要幾分鐘的處理時間才能生成幾秒鐘的內容,以分塊的方式生成視頻還引入了不可避免的延遲,從而不能實現實時互動。
MirageLSD采用改進的Transformer模型架構,搭配專門設計的視覺編碼器、改進的位置編碼以及針對長時間交互序列優化的結構,來快速處理輸入和生成輸出。
同時,對生成部分的擴散模型部分應用先進的蒸餾策略,在保證生成質量的前提下有效提升運行速度,借助KV緩存技術支持的長上下文窗口,讓模型能記住之前的狀態信息,避免因頻繁處理大量歷史數據導致延遲。
在核心集成幀級提示詞處理機制,可即時解析玩家的鍵盤指令和自然語言提示,快速轉化為相應操作。
動態輸入系統則能以超低延遲處理玩家輸入,無論是生成新元素還是改變環境都能迅速響應。
此外,視覺更新通過全雙工通信通道流回,輸入與輸出并行處理,消除了數據傳輸和處理中的延遲;采用“垂直訓練”流程讓模型深入學習相關規則與模式,減少了生成過程中的計算開銷和錯誤嘗試,進一步間接提升了實時性能。
實現了“抖一抖衣服就能換裝”、“棍子變發光武器”之類的操作。
MirageLSD由位于美國加州的初創公司Decart打造,該公司成立于2023年。
2024年,Decart推出了自己的第一款模型Oasis,這是首個實時生成式AI開放世界模型。
Oasis支持實時交互,能實現每秒20幀零延遲的生成效率。
由此看來,MirageLSD如今每秒24幀的效率也有所提升。
團隊還表示將定期發布MirageLSD的升級模型和新增功能,包括面部一致性、語音控制和精確物體控制等,逐步提升用戶體驗。
體驗鏈接:https://mirage.decart.ai/
參考鏈接:
[1]https://x.com/DecartAI/status/1945947692871692667
[2]https://x.com/karpathy/status/1945979830740435186
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.