數(shù)據(jù)減少超千倍，500 美金訓(xùn)練一流視頻模型，港城、華為Pusa來了

2025-06-19 15:33:17　來源: 機(jī)器之心Pro

天津舉報

分享至

FVDM & Pusa 一作：劉耀芳目前在香港城市大學(xué)攻讀博士學(xué)位，導(dǎo)師為著名數(shù)學(xué)家 Prof. Raymond Chan (陳漢夫) 及 Prof. MOREL Jean-Michel。他也曾在騰訊 AI Lab 實習(xí)，主導(dǎo) / 參與 EvalCrafter , VideoCrafter 等工作，其研究興趣包括擴(kuò)散模型，視頻生成等；項目主管：劉睿，香港中文大學(xué) MMLab 博士，華為香港研究所小藝團(tuán)隊技術(shù)負(fù)責(zé)人。

擴(kuò)散模型為圖像合成帶來了革命，其向視頻領(lǐng)域的延伸雖潛力巨大，卻長期受困于傳統(tǒng)標(biāo)量時間步對復(fù)雜時序動態(tài)的束縛。我們?nèi)ツ晏岢龅?strong>幀感知視頻擴(kuò)散模型 (FVDM)，通過引入向量化時間步變量 (VTV)，賦予每一幀獨(dú)立的時間演化路徑，從根本上解決了這一難題，顯著提升了時序建模能力。

然而，范式的轉(zhuǎn)變需要更多實踐的檢驗和普及。為此，我們與華為香港研究所小藝團(tuán)隊合作進(jìn)一步推出了Pusa 項目。Pusa 不僅是 FVDM 理論的直接應(yīng)用和驗證，更重要的是，它探索出了一條極低成本微調(diào)大規(guī)模預(yù)訓(xùn)練視頻模型的有效路徑。

論文標(biāo)題：Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
FVDM 論文：https://arxiv.org/abs/2410.03160
Pusa 主頁 / 代碼庫: https://github.com/Yaofang-Liu/Pusa-VidGen

具體而言，Pusa 通過對預(yù)訓(xùn)練模型如 Wan-T2V 14B 進(jìn)行非破壞性微調(diào)，僅需 500 美金訓(xùn)練成本即可達(dá)到比 Wan 官方 I2V（至少O(100k)美金的訓(xùn)練成本）更好的效果，成本降低超 200 倍，數(shù)據(jù)更是減少超 2500 倍！不僅如此，Pusa-Wan 同時解鎖了圖生視頻、首尾幀、視頻過渡、視頻拓展等廣泛應(yīng)用并且還保留了文生視頻能力。

Vbench 圖生視頻測試樣例

文本指令：一只大白鯊在海里游泳（a great white shark swimming in the ocean）

文本指令：一個戴著墨鏡坐在汽車駕駛座上的男人（a man sitting in the driver's seat of a car wearing sunglasses）

文本指令：一頭棕白相間的奶牛正在吃干草（a brown and white cow eating hay）

此外，Pusa-Mochi 更是只要 100 美金訓(xùn)練成本便可實現(xiàn)如下效果。

圖生視頻效果對比

https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w

首尾幀效果對比

https://mp.weixin.qq.com/s/MCOrbgJvqWwFnYmavSde6w

更多首尾幀樣例

T2V 結(jié)果與基礎(chǔ)模型 Mochi 對比

目前，Pusa 的完整代碼庫、訓(xùn)練數(shù)據(jù)集和訓(xùn)練代碼已全面開源，旨在推動整個領(lǐng)域的共同進(jìn)步。

方法：FVDM 的幀感知核心與 Pusa 的巧妙實現(xiàn)

FVDM 方法

模型實現(xiàn)

網(wǎng)絡(luò)架構(gòu)適配

我們以 Mochi1 及 Wan 這類先進(jìn)的開源視頻模型作為基礎(chǔ)。為了引入向量化時間步，我們對其原始的標(biāo)量時間步輸入機(jī)制進(jìn)行了擴(kuò)展。

具體而言，原先接受 (B)（批量大?。┬螤顦?biāo)量時間步的模塊，被修改為能夠處理 (B, N)（批量大小，幀數(shù)）形狀的向量化時間步。通過正弦位置編碼，這些 (B, N) 的時間步被轉(zhuǎn)換為 (B, N, D) 的嵌入表示，并通過 adaLN-Zero 等條件化機(jī)制作用于 Transformer 的注意力和 MLP 層。

FVDM 論文實驗結(jié)果表明該策略可大大加速收斂且取得較原模型 Latte 更好的效果

而對于 Pusa，我們還可以簡化策略，得益于對基礎(chǔ)模型的非破壞性改造，在訓(xùn)練初始模型已經(jīng)具備充足基礎(chǔ)能力，我們只需在此基礎(chǔ)上進(jìn)行少量獨(dú)立時間步微調(diào)便可掌握時序動態(tài)控制能力

Pusa 的「十八般武藝」：零樣本解鎖多樣化視頻任務(wù)，效果驚艷

總結(jié)與展望：Pusa 引領(lǐng)視頻生成進(jìn)入低成本、高靈活新時代

FVDM 理論通過其核心的向量化時間步變量 (VTV) 為視頻生成帶來了根本性的變革。而 Pusa 項目則以其驚人的低成本和高效的微調(diào)策略，成功地將這一理論付諸實踐，并將其推廣到強(qiáng)大的預(yù)訓(xùn)練模型之上。我們熱切歡迎社區(qū)的貢獻(xiàn)與合作，共同提升 Pusa 的性能，擴(kuò)展其能力，并探索更多可能性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.