FVDM & Pusa 一作:劉耀芳目前在香港城市大學攻讀博士學位,導師為著名數學家 Prof. Raymond Chan (陳漢夫) 及 Prof. MOREL Jean-Michel。他也曾在騰訊 AI Lab 實習,主導 / 參與 EvalCrafter , VideoCrafter 等工作,其研究興趣包括擴散模型,視頻生成等;項目主管:劉睿,香港中文大學 MMLab 博士,華為香港研究所小藝團隊技術負責人。
擴散模型為圖像合成帶來了革命,其向視頻領域的延伸雖潛力巨大,卻長期受困于傳統標量時間步對復雜時序動態的束縛。我們去年提出的幀感知視頻擴散模型 (FVDM),通過引入向量化時間步變量 (VTV),賦予每一幀獨立的時間演化路徑,從根本上解決了這一難題,顯著提升了時序建模能力。
然而,范式的轉變需要更多實踐的檢驗和普及。為此,我們與華為香港研究所小藝團隊合作進一步推出了Pusa 項目。Pusa 不僅是 FVDM 理論的直接應用和驗證,更重要的是,它探索出了一條極低成本微調大規模預訓練視頻模型的有效路徑。
- 論文標題:Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
- FVDM 論文:https://arxiv.org/abs/2410.03160
- Pusa 主頁 / 代碼庫: https://github.com/Yaofang-Liu/Pusa-VidGen
具體而言,Pusa 通過對預訓練模型如 Wan-T2V 14B 進行非破壞性微調,僅需 500 美金訓練成本即可達到比 Wan 官方 I2V(至少O(100k)美金的訓練成本)更好的效果,成本降低超 200 倍,數據更是減少超 2500 倍!不僅如此,Pusa-Wan 同時解鎖了圖生視頻、首尾幀、視頻過渡、視頻拓展等廣泛應用并且還保留了文生視頻能力。
Vbench 圖生視頻測試樣例
文本指令:一只大白鯊在海里游泳(a great white shark swimming in the ocean)
文本指令:一個戴著墨鏡坐在汽車駕駛座上的男人(a man sitting in the driver's seat of a car wearing sunglasses)
文本指令:一頭棕白相間的奶牛正在吃干草(a brown and white cow eating hay)
此外,Pusa-Mochi 更是只要 100 美金訓練成本便可實現如下效果。
圖生視頻效果對比
https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w
首尾幀效果對比
https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w
更多首尾幀樣例
T2V 結果與基礎模型 Mochi 對比
目前,Pusa 的完整代碼庫、訓練數據集和訓練代碼已全面開源,旨在推動整個領域的共同進步。
方法:FVDM 的幀感知核心與 Pusa 的巧妙實現
FVDM 方法
模型實現
- 網絡架構適配
我們以 Mochi1 及 Wan 這類先進的開源視頻模型作為基礎。為了引入向量化時間步,我們對其原始的標量時間步輸入機制進行了擴展。
具體而言,原先接受 (B)(批量大小)形狀標量時間步的模塊,被修改為能夠處理 (B, N)(批量大小,幀數)形狀的向量化時間步。通過正弦位置編碼,這些 (B, N) 的時間步被轉換為 (B, N, D) 的嵌入表示,并通過 adaLN-Zero 等條件化機制作用于 Transformer 的注意力和 MLP 層。
FVDM 論文實驗結果表明該策略可大大加速收斂且取得較原模型 Latte 更好的效果
而對于 Pusa,我們還可以簡化策略,得益于對基礎模型的非破壞性改造,在訓練初始模型已經具備充足基礎能力,我們只需在此基礎上進行少量獨立時間步微調便可掌握時序動態控制能力
Pusa 的「十八般武藝」:零樣本解鎖多樣化視頻任務,效果驚艷
總結與展望:Pusa 引領視頻生成進入低成本、高靈活新時代
FVDM 理論通過其核心的向量化時間步變量 (VTV) 為視頻生成帶來了根本性的變革。而 Pusa 項目則以其驚人的低成本和高效的微調策略,成功地將這一理論付諸實踐,并將其推廣到強大的預訓練模型之上。我們熱切歡迎社區的貢獻與合作,共同提升 Pusa 的性能,擴展其能力,并探索更多可能性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.