近日,抖音內容技術團隊開源了 ContentV,一種面向視頻生成任務的高效訓練方案。該方案在多項技術優化的基礎上,使用 256 塊 NPU,在約 4 周內完成了一個 8B 參數模型的訓練。盡管資源有限,ContentV 在多個評估維度上取得了與現有主流方案相近的生成效果。
該工作探索了在有限算力條件下訓練視頻生成模型的可行路徑。目前,推理代碼與模型權重已對外開放。
- 論文標題:ContentV: Efficient Training of Video Generation Models with Limited Compute
- 技術報告:https://arxiv.org/abs/2506.05343
- 代碼倉庫:https://github.com/bytedance/ContentV
- 模型權重:https://huggingface.co/ByteDance/ContentV-8B
- 項目主頁:https://contentv.github.io
我們先來看一些效果展示視頻:
? 核心亮點
極簡設計
CogVideoX、HunyuanVideo 和 Wan2.1 等一系列優秀的開源工作表明,視頻生成的關鍵并不在于架構上的特殊設計,而在于如何高效利用有限的數據資源,并有效對齊人類偏好。
為驗證 ContentV 方案的通用性,本次開源的版本在擴散模型部分采用了經典的文生圖模型 Stable Diffusion 3.5 Large。為了適配視頻模態,模型在結構上僅做了以下兩項必要調整:
- 將原始圖像 VAE 替換為 Wan2.1 中使用的 3D-VAE;
- 將 2D 位置編碼升級為 3D 版本。在具體編碼方式上,團隊對比了傳統的絕對位置編碼與主流的旋轉位置編碼。評估結果顯示,兩者在客觀指標和主觀感受上差異較小,因此保留了計算更高效的絕對位置編碼方案。
ContentV模型結構
多階段漸進訓練策略
上述的最小化結構改動,在解鎖了視頻生成能力的同時,也最大限度地保留了原模型的圖像生成能力。實驗證明,在新的 VAE 和位置編碼的適配階段,沿用 Flow Matching 的訓練方式,僅需 1000 步左右的微調,就能基本還原模型的圖片生成能力,大幅節省圖片預訓練階段的訓練成本。
在視頻生成的預訓練階段,為加速收斂實現高效訓練,研究團隊設計了一套從「低清短片」到「高清長片」的多階段漸進式訓練流程,逐步引導模型學習時間維度與空間維度上的動態表征,從而提升視頻的連續性、動態表現力和畫面細節。
此外,實驗證明,在推理階段引入非線性采樣步長機制(Flow Shift)能夠顯著提升視頻的整體生成質量。通過多組對比實驗,團隊最終確定了最優的采樣策略,進一步優化了生成效果。
VAE適配過程
? 輕量級 RLHF 強化訓練
RLHF顯著提升畫面質感
在后訓練階段,除了使用高質量數據集進行微調外,通過 RLHF 或 DPO 等對齊人類偏好的監督訓練,也能顯著提升視頻生成質量。然而,這類方法通常依賴大量人工標注,用于訓練獎勵模型或直接監督擴散模型。同時,相較于圖像,視頻的序列長度顯著增加了 RLHF 和 DPO 的訓練資源需求。
為此,ContentV 研究團隊提出了一種輕量級的 RLHF 訓練方案,旨在不依賴人工標注的前提下,低成本提升視頻質量:
- 利用開源的圖像獎勵模型對生成視頻的單幀進行監督。相較于視頻場景,目前圖像獎勵模型的訓練數據更易獲取,且在實際效果中表現更佳。實驗證明,由于 MM DiT 采用全局注意力機制,僅優化單幀即可帶動整體視頻質量的提升;
- 將監督范圍限制在生成視頻的前 1 秒,相較于對完整視頻進行監督,可大幅減少訓練資源的消耗,同時獲得相近的質量提升效果。
采用上述策略后,在無需人工標注的情況下,僅使用少量訓練資源,便可顯著提升畫面質量。RLHF 微調后,模型在視覺質量(VQ)指標上的表現大幅提升,評估勝率高達 89.38%。
效果對比
在 VBench 這一主流視頻生成評測基準上,ContentV(8B)取得了 85.14 的綜合得分,表現優于多個現有的商業閉源模型,包括 Sora、Kling 1.6 和 Gen-3 等。
VBench 榜單 (按照 Overall 分數降序排列)
為更貼近真實用戶偏好,研究團隊圍繞感知質量、指令跟隨、物理一致性和視覺效果四個維度開展了人類偏好評估。結果顯示,ContentV 在整體表現上與 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流開源模型相比具有一定優勢。
人類偏好評估指標
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.