網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

256塊NPU訓(xùn)成8B視頻模型，抖音內(nèi)容技術(shù)團(tuán)隊(duì)開源ContentV

2025-06-12 15:15:45　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

近日，抖音內(nèi)容技術(shù)團(tuán)隊(duì)開源了 ContentV，一種面向視頻生成任務(wù)的高效訓(xùn)練方案。該方案在多項(xiàng)技術(shù)優(yōu)化的基礎(chǔ)上，使用 256 塊 NPU，在約 4 周內(nèi)完成了一個(gè) 8B 參數(shù)模型的訓(xùn)練。盡管資源有限，ContentV 在多個(gè)評(píng)估維度上取得了與現(xiàn)有主流方案相近的生成效果。

該工作探索了在有限算力條件下訓(xùn)練視頻生成模型的可行路徑。目前，推理代碼與模型權(quán)重已對(duì)外開放。

論文標(biāo)題：ContentV: Efficient Training of Video Generation Models with Limited Compute
技術(shù)報(bào)告：https://arxiv.org/abs/2506.05343
代碼倉庫：https://github.com/bytedance/ContentV
模型權(quán)重：https://huggingface.co/ByteDance/ContentV-8B
項(xiàng)目主頁：https://contentv.github.io

我們先來看一些效果展示視頻：

? 核心亮點(diǎn)

極簡(jiǎn)設(shè)計(jì)

CogVideoX、HunyuanVideo 和 Wan2.1 等一系列優(yōu)秀的開源工作表明，視頻生成的關(guān)鍵并不在于架構(gòu)上的特殊設(shè)計(jì)，而在于如何高效利用有限的數(shù)據(jù)資源，并有效對(duì)齊人類偏好。

為驗(yàn)證 ContentV 方案的通用性，本次開源的版本在擴(kuò)散模型部分采用了經(jīng)典的文生圖模型 Stable Diffusion 3.5 Large。為了適配視頻模態(tài)，模型在結(jié)構(gòu)上僅做了以下兩項(xiàng)必要調(diào)整：

將原始圖像 VAE 替換為 Wan2.1 中使用的 3D-VAE；
將 2D 位置編碼升級(jí)為 3D 版本。在具體編碼方式上，團(tuán)隊(duì)對(duì)比了傳統(tǒng)的絕對(duì)位置編碼與主流的旋轉(zhuǎn)位置編碼。評(píng)估結(jié)果顯示，兩者在客觀指標(biāo)和主觀感受上差異較小，因此保留了計(jì)算更高效的絕對(duì)位置編碼方案。

ContentV模型結(jié)構(gòu)

多階段漸進(jìn)訓(xùn)練策略

上述的最小化結(jié)構(gòu)改動(dòng)，在解鎖了視頻生成能力的同時(shí)，也最大限度地保留了原模型的圖像生成能力。實(shí)驗(yàn)證明，在新的 VAE 和位置編碼的適配階段，沿用 Flow Matching 的訓(xùn)練方式，僅需 1000 步左右的微調(diào)，就能基本還原模型的圖片生成能力，大幅節(jié)省圖片預(yù)訓(xùn)練階段的訓(xùn)練成本。

在視頻生成的預(yù)訓(xùn)練階段，為加速收斂實(shí)現(xiàn)高效訓(xùn)練，研究團(tuán)隊(duì)設(shè)計(jì)了一套從「低清短片」到「高清長片」的多階段漸進(jìn)式訓(xùn)練流程，逐步引導(dǎo)模型學(xué)習(xí)時(shí)間維度與空間維度上的動(dòng)態(tài)表征，從而提升視頻的連續(xù)性、動(dòng)態(tài)表現(xiàn)力和畫面細(xì)節(jié)。

此外，實(shí)驗(yàn)證明，在推理階段引入非線性采樣步長機(jī)制（Flow Shift）能夠顯著提升視頻的整體生成質(zhì)量。通過多組對(duì)比實(shí)驗(yàn)，團(tuán)隊(duì)最終確定了最優(yōu)的采樣策略，進(jìn)一步優(yōu)化了生成效果。

VAE適配過程

? 輕量級(jí) RLHF 強(qiáng)化訓(xùn)練

RLHF顯著提升畫面質(zhì)感

在后訓(xùn)練階段，除了使用高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)外，通過 RLHF 或 DPO 等對(duì)齊人類偏好的監(jiān)督訓(xùn)練，也能顯著提升視頻生成質(zhì)量。然而，這類方法通常依賴大量人工標(biāo)注，用于訓(xùn)練獎(jiǎng)勵(lì)模型或直接監(jiān)督擴(kuò)散模型。同時(shí)，相較于圖像，視頻的序列長度顯著增加了 RLHF 和 DPO 的訓(xùn)練資源需求。

為此，ContentV 研究團(tuán)隊(duì)提出了一種輕量級(jí)的 RLHF 訓(xùn)練方案，旨在不依賴人工標(biāo)注的前提下，低成本提升視頻質(zhì)量：

利用開源的圖像獎(jiǎng)勵(lì)模型對(duì)生成視頻的單幀進(jìn)行監(jiān)督。相較于視頻場(chǎng)景，目前圖像獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)更易獲取，且在實(shí)際效果中表現(xiàn)更佳。實(shí)驗(yàn)證明，由于 MM DiT 采用全局注意力機(jī)制，僅優(yōu)化單幀即可帶動(dòng)整體視頻質(zhì)量的提升；
將監(jiān)督范圍限制在生成視頻的前 1 秒，相較于對(duì)完整視頻進(jìn)行監(jiān)督，可大幅減少訓(xùn)練資源的消耗，同時(shí)獲得相近的質(zhì)量提升效果。

采用上述策略后，在無需人工標(biāo)注的情況下，僅使用少量訓(xùn)練資源，便可顯著提升畫面質(zhì)量。RLHF 微調(diào)后，模型在視覺質(zhì)量（VQ）指標(biāo)上的表現(xiàn)大幅提升，評(píng)估勝率高達(dá) 89.38%。

效果對(duì)比

在 VBench 這一主流視頻生成評(píng)測(cè)基準(zhǔn)上，ContentV（8B）取得了 85.14 的綜合得分，表現(xiàn)優(yōu)于多個(gè)現(xiàn)有的商業(yè)閉源模型，包括 Sora、Kling 1.6 和 Gen-3 等。

VBench 榜單 (按照 Overall 分?jǐn)?shù)降序排列)

為更貼近真實(shí)用戶偏好，研究團(tuán)隊(duì)圍繞感知質(zhì)量、指令跟隨、物理一致性和視覺效果四個(gè)維度開展了人類偏好評(píng)估。結(jié)果顯示，ContentV 在整體表現(xiàn)上與 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流開源模型相比具有一定優(yōu)勢(shì)。

人類偏好評(píng)估指標(biāo)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.