網易首頁 > 網易號 > 正文申請入駐

500美元刷新SOTA！訓練成本砍到1/200，華人團隊重構視頻生成范式

2025-07-17 14:45:03　來源: 量子位

北京舉報

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

你可能聽說過OpenAI的Sora，用數百萬視頻、千萬美元訓練出的AI視頻模型。

但你能想象，有團隊只用3860段視頻、不到500美元成本，也能在關鍵任務上做到SOTA？

比如這個圖生視頻：攀巖者在小行星攀巖，人體運動與太空光影完美仿真。

視頻擴展也是不在話下，給定起始幀或結束幀，讓存錢罐小豬直接在大溪地的沖浪圣地上沖浪。

這些精美的視頻就來自于香港城市大學等團隊最新聯合發布的圖像-視頻生成模型——Pusa V1.0（菩薩1.0）。

Pusa V1.0在基礎大模型Wan2.1-T2V-14B的基礎上引入向量時間步適應（vectorized timestep adaptation，VTA ）機制，僅使用3860對視頻-文字數據、約500美元成本進行微調，就在圖像轉視頻 (I2V) 超越了Wan-I2V-14B，實現了SOTA，并解鎖了諸多零樣本任務能力。

500美元實現SOTA

如上文所說，Pusa V1.0文本到視頻（T2V）模型 Wan-T2V-14B 微調而來，用于圖像到視頻生成（I2V）。

與其他會破壞基礎模型架構的微調模型不同，Pusa采用VTA機制，從而實現最小、非破壞性的優化，將時間步長從標量擴大到矢量。它完全保留了基礎模型的預訓練先驗，并實現了更有效的時間學習。

全面的任務支持

憑借其靈活的矢量化時間步適應策略，Pusa僅需10個推理步驟就能夠執行多種視頻生成任務。

這些能力都是其“涌現屬性”，能夠以零樣本方式（無需任何任務特定的訓練）擴展到：圖像到視頻、開始-結束幀、視頻擴展、文字轉視頻、視頻轉場等任務中。

例如，以9個起始幀（左視頻）和12個結束幀（右視頻）作為條件，讓模型生成中間的60幀畫面。

或者，直接輸入文字，讓模型把一輛汽車從金色變成白色。

VTA如何讓視頻生成更自然？

由于視頻本質上是按固定幀率（如電影的每秒 24 幀）連續播放的一系列圖片。在視頻擴散模型（VDM）中，模型通常將整段視頻拆解為逐幀圖像進行建模。

在傳統的做法中，所有幀共享一個標量時間步長變量，模型對所有幀同步進行相同程度的降噪。不過，這就意味著讓所有幀在降噪過程中步調一致，同時演化。

由此，后面的畫面無法獲得前一幀畫面的約束信息，從而使I2V（image-to-video）的效果過于僵硬。

此外，由于圖像輸入不同于模糊抽象的文本輸入，其作為剛性條件，對“視頻生成起點”限制非常嚴格。模型在保持原圖約束的同時，必須自己“猜”這個圖像之后會怎么動。

因此，為了生成連貫動態的視頻，不同幀之間應該以不同速度/時間狀態進行演化，從而讓后續幀的去噪過程能盡可能的受到前一幀先驗的控制。

由此，研究提出VTA，為每一幀引入一個獨立的時間編碼。這樣就允許模型能對每幀的去噪進度和時間位置進行精細控制，從而更好地模擬現實中幀的時序演化，使生成的視頻在動態表現上更連貫、自然。

具體而言，VTA通過幀感知的流匹配（Frame-Aware Flow Matching, FAFM）使每一幀能夠獨立演化，同時賦予模型對同步與異步時間結構的建模能力。最終，它通過向DiT注入自定義的時間嵌入，實現了高效、統一、非破壞性的多任務視頻生成。

在訓練層面，Pusa 采用了幀感知的流匹配（FAFM）目標函數，模擬每一幀在時間軸上獨立演化的理想速度。此外，為了始終保持起始圖像作為條件約束，其對應的時間步分量在整個推理過程中都被設置為零。

在模型結構上，VTA 則將這一目標通過向量時間步嵌入落實到 DiT 框架中，實現推理階段的幀級動態控制。

在推理時，Pusa 允許為每一幀指定不同時間步長，從而實現起始幀固定、末幀補齊、關鍵幀約束等多種時間控制策略。這種“從目標到機制”的結合，是 Pusa 不僅生成自然，更易泛化的關鍵。

Pusa V1.0使用LORA＋DeepSpeed Zero2在8張80GB內存的GPU上進行微調。實驗表明，Pusa V1.0 超越了同樣基于Wan-I2V-14B微調而來的Wan-I2V，實現了SOTA。

與此同時，Pusa V1.0所需的參數更新數比Wan-I2V少10倍以上，這表明Pusa僅僅關注與時間相關的模塊，從而保留了基礎模型的先驗知識。與之相對的，Wan-12V則表現出對基礎模型先驗知識的破壞。

可以說，Pusa V1.0以極致輕量化的訓練成本為之后的視頻生成建立了可擴展且多功能的范例。

模型目前已開源，詳情可參考文末鏈接。

One More Thing

根據Pusa的介紹文檔，模型的名稱源于中文中的菩薩（“千手觀音”）。

觀音菩薩多手的圖案象征著她無邊的慈悲和無量的能力。

團隊采用這個名稱是為了表明模型使用多個時間步長變量來實現豐富的視頻生成功能。

模型更小，意味著它能更快地進入每個人的電腦，而只有當技術真正服務于每一個創作者的時候，它才成為了真正的“菩薩”。

[1]項目主頁：https://yaofang-liu.github.io/Pusa_Web/

[2]huggingface:https://huggingface.co/RaphaelLiu/PusaV1

[3]arxiv:https://arxiv.org/abs/2410.03160

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.