FVDM & Pusa 一作:劉耀芳目前在香港城市大學(xué)攻讀博士學(xué)位,導(dǎo)師為著名數(shù)學(xué)家 Prof. Raymond Chan (陳漢夫) 及 Prof. MOREL Jean-Michel。他也曾在騰訊 AI Lab 實習(xí),主導(dǎo) / 參與 EvalCrafter , VideoCrafter 等工作,其研究興趣包括擴(kuò)散模型,視頻生成等;項目主管:劉睿,香港中文大學(xué) MMLab 博士,華為香港研究所小藝團(tuán)隊技術(shù)負(fù)責(zé)人。
擴(kuò)散模型為圖像合成帶來了革命,其向視頻領(lǐng)域的延伸雖潛力巨大,卻長期受困于傳統(tǒng)標(biāo)量時間步對復(fù)雜時序動態(tài)的束縛。我們?nèi)ツ晏岢龅?strong>幀感知視頻擴(kuò)散模型 (FVDM),通過引入向量化時間步變量 (VTV),賦予每一幀獨(dú)立的時間演化路徑,從根本上解決了這一難題,顯著提升了時序建模能力。
然而,范式的轉(zhuǎn)變需要更多實踐的檢驗和普及。為此,我們與華為香港研究所小藝團(tuán)隊合作進(jìn)一步推出了Pusa 項目。Pusa 不僅是 FVDM 理論的直接應(yīng)用和驗證,更重要的是,它探索出了一條極低成本微調(diào)大規(guī)模預(yù)訓(xùn)練視頻模型的有效路徑。
- 論文標(biāo)題:Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
- FVDM 論文:https://arxiv.org/abs/2410.03160
- Pusa 主頁 / 代碼庫: https://github.com/Yaofang-Liu/Pusa-VidGen
具體而言,Pusa 通過對預(yù)訓(xùn)練模型如 Wan-T2V 14B 進(jìn)行非破壞性微調(diào),僅需 500 美金訓(xùn)練成本即可達(dá)到比 Wan 官方 I2V(至少O(100k)美金的訓(xùn)練成本)更好的效果,成本降低超 200 倍,數(shù)據(jù)更是減少超 2500 倍!不僅如此,Pusa-Wan 同時解鎖了圖生視頻、首尾幀、視頻過渡、視頻拓展等廣泛應(yīng)用并且還保留了文生視頻能力。
Vbench 圖生視頻測試樣例
文本指令:一只大白鯊在海里游泳(a great white shark swimming in the ocean)
文本指令:一個戴著墨鏡坐在汽車駕駛座上的男人(a man sitting in the driver's seat of a car wearing sunglasses)
文本指令:一頭棕白相間的奶牛正在吃干草(a brown and white cow eating hay)
此外,Pusa-Mochi 更是只要 100 美金訓(xùn)練成本便可實現(xiàn)如下效果。
圖生視頻效果對比
https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w
首尾幀效果對比
https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w
更多首尾幀樣例
T2V 結(jié)果與基礎(chǔ)模型 Mochi 對比
目前,Pusa 的完整代碼庫、訓(xùn)練數(shù)據(jù)集和訓(xùn)練代碼已全面開源,旨在推動整個領(lǐng)域的共同進(jìn)步。
方法:FVDM 的幀感知核心與 Pusa 的巧妙實現(xiàn)
FVDM 方法
模型實現(xiàn)
- 網(wǎng)絡(luò)架構(gòu)適配
我們以 Mochi1 及 Wan 這類先進(jìn)的開源視頻模型作為基礎(chǔ)。為了引入向量化時間步,我們對其原始的標(biāo)量時間步輸入機(jī)制進(jìn)行了擴(kuò)展。
具體而言,原先接受 (B)(批量大?。┬螤顦?biāo)量時間步的模塊,被修改為能夠處理 (B, N)(批量大小,幀數(shù))形狀的向量化時間步。通過正弦位置編碼,這些 (B, N) 的時間步被轉(zhuǎn)換為 (B, N, D) 的嵌入表示,并通過 adaLN-Zero 等條件化機(jī)制作用于 Transformer 的注意力和 MLP 層。
FVDM 論文實驗結(jié)果表明該策略可大大加速收斂且取得較原模型 Latte 更好的效果
而對于 Pusa,我們還可以簡化策略,得益于對基礎(chǔ)模型的非破壞性改造,在訓(xùn)練初始模型已經(jīng)具備充足基礎(chǔ)能力,我們只需在此基礎(chǔ)上進(jìn)行少量獨(dú)立時間步微調(diào)便可掌握時序動態(tài)控制能力
Pusa 的「十八般武藝」:零樣本解鎖多樣化視頻任務(wù),效果驚艷
總結(jié)與展望:Pusa 引領(lǐng)視頻生成進(jìn)入低成本、高靈活新時代
FVDM 理論通過其核心的向量化時間步變量 (VTV) 為視頻生成帶來了根本性的變革。而 Pusa 項目則以其驚人的低成本和高效的微調(diào)策略,成功地將這一理論付諸實踐,并將其推廣到強(qiáng)大的預(yù)訓(xùn)練模型之上。我們熱切歡迎社區(qū)的貢獻(xiàn)與合作,共同提升 Pusa 的性能,擴(kuò)展其能力,并探索更多可能性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.