近日,抖音內(nèi)容技術(shù)團(tuán)隊(duì)開源了 ContentV,一種面向視頻生成任務(wù)的高效訓(xùn)練方案。該方案在多項(xiàng)技術(shù)優(yōu)化的基礎(chǔ)上,使用 256 塊 NPU,在約 4 周內(nèi)完成了一個(gè) 8B 參數(shù)模型的訓(xùn)練。盡管資源有限,ContentV 在多個(gè)評(píng)估維度上取得了與現(xiàn)有主流方案相近的生成效果。
該工作探索了在有限算力條件下訓(xùn)練視頻生成模型的可行路徑。目前,推理代碼與模型權(quán)重已對(duì)外開放。
- 論文標(biāo)題:ContentV: Efficient Training of Video Generation Models with Limited Compute
- 技術(shù)報(bào)告:https://arxiv.org/abs/2506.05343
- 代碼倉庫:https://github.com/bytedance/ContentV
- 模型權(quán)重:https://huggingface.co/ByteDance/ContentV-8B
- 項(xiàng)目主頁:https://contentv.github.io
我們先來看一些效果展示視頻:
? 核心亮點(diǎn)
極簡(jiǎn)設(shè)計(jì)
CogVideoX、HunyuanVideo 和 Wan2.1 等一系列優(yōu)秀的開源工作表明,視頻生成的關(guān)鍵并不在于架構(gòu)上的特殊設(shè)計(jì),而在于如何高效利用有限的數(shù)據(jù)資源,并有效對(duì)齊人類偏好。
為驗(yàn)證 ContentV 方案的通用性,本次開源的版本在擴(kuò)散模型部分采用了經(jīng)典的文生圖模型 Stable Diffusion 3.5 Large。為了適配視頻模態(tài),模型在結(jié)構(gòu)上僅做了以下兩項(xiàng)必要調(diào)整:
- 將原始圖像 VAE 替換為 Wan2.1 中使用的 3D-VAE;
- 將 2D 位置編碼升級(jí)為 3D 版本。在具體編碼方式上,團(tuán)隊(duì)對(duì)比了傳統(tǒng)的絕對(duì)位置編碼與主流的旋轉(zhuǎn)位置編碼。評(píng)估結(jié)果顯示,兩者在客觀指標(biāo)和主觀感受上差異較小,因此保留了計(jì)算更高效的絕對(duì)位置編碼方案。
ContentV模型結(jié)構(gòu)
多階段漸進(jìn)訓(xùn)練策略
上述的最小化結(jié)構(gòu)改動(dòng),在解鎖了視頻生成能力的同時(shí),也最大限度地保留了原模型的圖像生成能力。實(shí)驗(yàn)證明,在新的 VAE 和位置編碼的適配階段,沿用 Flow Matching 的訓(xùn)練方式,僅需 1000 步左右的微調(diào),就能基本還原模型的圖片生成能力,大幅節(jié)省圖片預(yù)訓(xùn)練階段的訓(xùn)練成本。
在視頻生成的預(yù)訓(xùn)練階段,為加速收斂實(shí)現(xiàn)高效訓(xùn)練,研究團(tuán)隊(duì)設(shè)計(jì)了一套從「低清短片」到「高清長片」的多階段漸進(jìn)式訓(xùn)練流程,逐步引導(dǎo)模型學(xué)習(xí)時(shí)間維度與空間維度上的動(dòng)態(tài)表征,從而提升視頻的連續(xù)性、動(dòng)態(tài)表現(xiàn)力和畫面細(xì)節(jié)。
此外,實(shí)驗(yàn)證明,在推理階段引入非線性采樣步長機(jī)制(Flow Shift)能夠顯著提升視頻的整體生成質(zhì)量。通過多組對(duì)比實(shí)驗(yàn),團(tuán)隊(duì)最終確定了最優(yōu)的采樣策略,進(jìn)一步優(yōu)化了生成效果。
VAE適配過程
? 輕量級(jí) RLHF 強(qiáng)化訓(xùn)練
RLHF顯著提升畫面質(zhì)感
在后訓(xùn)練階段,除了使用高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)外,通過 RLHF 或 DPO 等對(duì)齊人類偏好的監(jiān)督訓(xùn)練,也能顯著提升視頻生成質(zhì)量。然而,這類方法通常依賴大量人工標(biāo)注,用于訓(xùn)練獎(jiǎng)勵(lì)模型或直接監(jiān)督擴(kuò)散模型。同時(shí),相較于圖像,視頻的序列長度顯著增加了 RLHF 和 DPO 的訓(xùn)練資源需求。
為此,ContentV 研究團(tuán)隊(duì)提出了一種輕量級(jí)的 RLHF 訓(xùn)練方案,旨在不依賴人工標(biāo)注的前提下,低成本提升視頻質(zhì)量:
- 利用開源的圖像獎(jiǎng)勵(lì)模型對(duì)生成視頻的單幀進(jìn)行監(jiān)督。相較于視頻場(chǎng)景,目前圖像獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)更易獲取,且在實(shí)際效果中表現(xiàn)更佳。實(shí)驗(yàn)證明,由于 MM DiT 采用全局注意力機(jī)制,僅優(yōu)化單幀即可帶動(dòng)整體視頻質(zhì)量的提升;
- 將監(jiān)督范圍限制在生成視頻的前 1 秒,相較于對(duì)完整視頻進(jìn)行監(jiān)督,可大幅減少訓(xùn)練資源的消耗,同時(shí)獲得相近的質(zhì)量提升效果。
采用上述策略后,在無需人工標(biāo)注的情況下,僅使用少量訓(xùn)練資源,便可顯著提升畫面質(zhì)量。RLHF 微調(diào)后,模型在視覺質(zhì)量(VQ)指標(biāo)上的表現(xiàn)大幅提升,評(píng)估勝率高達(dá) 89.38%。
效果對(duì)比
在 VBench 這一主流視頻生成評(píng)測(cè)基準(zhǔn)上,ContentV(8B)取得了 85.14 的綜合得分,表現(xiàn)優(yōu)于多個(gè)現(xiàn)有的商業(yè)閉源模型,包括 Sora、Kling 1.6 和 Gen-3 等。
VBench 榜單 (按照 Overall 分?jǐn)?shù)降序排列)
為更貼近真實(shí)用戶偏好,研究團(tuán)隊(duì)圍繞感知質(zhì)量、指令跟隨、物理一致性和視覺效果四個(gè)維度開展了人類偏好評(píng)估。結(jié)果顯示,ContentV 在整體表現(xiàn)上與 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流開源模型相比具有一定優(yōu)勢(shì)。
人類偏好評(píng)估指標(biāo)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.