99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

256塊NPU訓(xùn)成8B視頻模型,抖音內(nèi)容技術(shù)團(tuán)隊(duì)開源ContentV

0
分享至



近日,抖音內(nèi)容技術(shù)團(tuán)隊(duì)開源了 ContentV,一種面向視頻生成任務(wù)的高效訓(xùn)練方案。該方案在多項(xiàng)技術(shù)優(yōu)化的基礎(chǔ)上,使用 256 塊 NPU,在約 4 周內(nèi)完成了一個(gè) 8B 參數(shù)模型的訓(xùn)練。盡管資源有限,ContentV 在多個(gè)評(píng)估維度上取得了與現(xiàn)有主流方案相近的生成效果。

該工作探索了在有限算力條件下訓(xùn)練視頻生成模型的可行路徑。目前,推理代碼與模型權(quán)重已對(duì)外開放。



  • 論文標(biāo)題:ContentV: Efficient Training of Video Generation Models with Limited Compute
  • 技術(shù)報(bào)告:https://arxiv.org/abs/2506.05343
  • 代碼倉庫:https://github.com/bytedance/ContentV
  • 模型權(quán)重:https://huggingface.co/ByteDance/ContentV-8B
  • 項(xiàng)目主頁:https://contentv.github.io

我們先來看一些效果展示視頻:





? 核心亮點(diǎn)

極簡(jiǎn)設(shè)計(jì)

CogVideoX、HunyuanVideo 和 Wan2.1 等一系列優(yōu)秀的開源工作表明,視頻生成的關(guān)鍵并不在于架構(gòu)上的特殊設(shè)計(jì),而在于如何高效利用有限的數(shù)據(jù)資源,并有效對(duì)齊人類偏好。

為驗(yàn)證 ContentV 方案的通用性,本次開源的版本在擴(kuò)散模型部分采用了經(jīng)典的文生圖模型 Stable Diffusion 3.5 Large。為了適配視頻模態(tài),模型在結(jié)構(gòu)上僅做了以下兩項(xiàng)必要調(diào)整:

  • 將原始圖像 VAE 替換為 Wan2.1 中使用的 3D-VAE;
  • 將 2D 位置編碼升級(jí)為 3D 版本。在具體編碼方式上,團(tuán)隊(duì)對(duì)比了傳統(tǒng)的絕對(duì)位置編碼與主流的旋轉(zhuǎn)位置編碼。評(píng)估結(jié)果顯示,兩者在客觀指標(biāo)和主觀感受上差異較小,因此保留了計(jì)算更高效的絕對(duì)位置編碼方案。



ContentV模型結(jié)構(gòu)

多階段漸進(jìn)訓(xùn)練策略

上述的最小化結(jié)構(gòu)改動(dòng),在解鎖了視頻生成能力的同時(shí),也最大限度地保留了原模型的圖像生成能力。實(shí)驗(yàn)證明,在新的 VAE 和位置編碼的適配階段,沿用 Flow Matching 的訓(xùn)練方式,僅需 1000 步左右的微調(diào),就能基本還原模型的圖片生成能力,大幅節(jié)省圖片預(yù)訓(xùn)練階段的訓(xùn)練成本。

在視頻生成的預(yù)訓(xùn)練階段,為加速收斂實(shí)現(xiàn)高效訓(xùn)練,研究團(tuán)隊(duì)設(shè)計(jì)了一套從「低清短片」到「高清長片」的多階段漸進(jìn)式訓(xùn)練流程,逐步引導(dǎo)模型學(xué)習(xí)時(shí)間維度與空間維度上的動(dòng)態(tài)表征,從而提升視頻的連續(xù)性、動(dòng)態(tài)表現(xiàn)力和畫面細(xì)節(jié)。

此外,實(shí)驗(yàn)證明,在推理階段引入非線性采樣步長機(jī)制(Flow Shift)能夠顯著提升視頻的整體生成質(zhì)量。通過多組對(duì)比實(shí)驗(yàn),團(tuán)隊(duì)最終確定了最優(yōu)的采樣策略,進(jìn)一步優(yōu)化了生成效果。



VAE適配過程

? 輕量級(jí) RLHF 強(qiáng)化訓(xùn)練



RLHF顯著提升畫面質(zhì)感

在后訓(xùn)練階段,除了使用高質(zhì)量數(shù)據(jù)集進(jìn)行微調(diào)外,通過 RLHF 或 DPO 等對(duì)齊人類偏好的監(jiān)督訓(xùn)練,也能顯著提升視頻生成質(zhì)量。然而,這類方法通常依賴大量人工標(biāo)注,用于訓(xùn)練獎(jiǎng)勵(lì)模型或直接監(jiān)督擴(kuò)散模型。同時(shí),相較于圖像,視頻的序列長度顯著增加了 RLHF 和 DPO 的訓(xùn)練資源需求。

為此,ContentV 研究團(tuán)隊(duì)提出了一種輕量級(jí)的 RLHF 訓(xùn)練方案,旨在不依賴人工標(biāo)注的前提下,低成本提升視頻質(zhì)量:

  • 利用開源的圖像獎(jiǎng)勵(lì)模型對(duì)生成視頻的單幀進(jìn)行監(jiān)督。相較于視頻場(chǎng)景,目前圖像獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)更易獲取,且在實(shí)際效果中表現(xiàn)更佳。實(shí)驗(yàn)證明,由于 MM DiT 采用全局注意力機(jī)制,僅優(yōu)化單幀即可帶動(dòng)整體視頻質(zhì)量的提升;
  • 將監(jiān)督范圍限制在生成視頻的前 1 秒,相較于對(duì)完整視頻進(jìn)行監(jiān)督,可大幅減少訓(xùn)練資源的消耗,同時(shí)獲得相近的質(zhì)量提升效果。

采用上述策略后,在無需人工標(biāo)注的情況下,僅使用少量訓(xùn)練資源,便可顯著提升畫面質(zhì)量。RLHF 微調(diào)后,模型在視覺質(zhì)量(VQ)指標(biāo)上的表現(xiàn)大幅提升,評(píng)估勝率高達(dá) 89.38%。

效果對(duì)比

在 VBench 這一主流視頻生成評(píng)測(cè)基準(zhǔn)上,ContentV(8B)取得了 85.14 的綜合得分,表現(xiàn)優(yōu)于多個(gè)現(xiàn)有的商業(yè)閉源模型,包括 Sora、Kling 1.6 和 Gen-3 等。



VBench 榜單 (按照 Overall 分?jǐn)?shù)降序排列)

為更貼近真實(shí)用戶偏好,研究團(tuán)隊(duì)圍繞感知質(zhì)量、指令跟隨、物理一致性和視覺效果四個(gè)維度開展了人類偏好評(píng)估。結(jié)果顯示,ContentV 在整體表現(xiàn)上與 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流開源模型相比具有一定優(yōu)勢(shì)。



人類偏好評(píng)估指標(biāo)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
邵佳一:趙發(fā)慶是老前輩,相信他能把大連鯤城帶到很高的水平

邵佳一:趙發(fā)慶是老前輩,相信他能把大連鯤城帶到很高的水平

懂球帝
2025-06-21 22:01:18
我繳10萬,可一查才發(fā)現(xiàn),個(gè)人賬戶僅4萬,剩下的6萬元被“吞噬”

我繳10萬,可一查才發(fā)現(xiàn),個(gè)人賬戶僅4萬,剩下的6萬元被“吞噬”

社保精算師
2025-03-25 20:47:03
美記:如果步行者贏下?lián)屍撸瑢⒊蔀镹BA歷史以最大黑馬身份奪冠的球隊(duì)

美記:如果步行者贏下?lián)屍撸瑢⒊蔀镹BA歷史以最大黑馬身份奪冠的球隊(duì)

雷速體育
2025-06-21 07:37:31
俗語“過了夏至節(jié),夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

俗語“過了夏至節(jié),夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

金沛的國學(xué)筆記
2025-06-21 17:44:44
不愿相信!凱特缺席賽馬會(huì)是因病情危急,此前已有化療面具征兆

不愿相信!凱特缺席賽馬會(huì)是因病情危急,此前已有化療面具征兆

李橑在北漂
2025-06-21 09:01:46
美航母去中東后,解放軍上強(qiáng)度50架軍機(jī)四面圍島,島內(nèi)亂成一鍋粥

美航母去中東后,解放軍上強(qiáng)度50架軍機(jī)四面圍島,島內(nèi)亂成一鍋粥

大道無形我有型
2025-06-20 14:51:10
重磅!湖人已瞄準(zhǔn)灰熊DPOY猛將?美記爆驚天交易方案!

重磅!湖人已瞄準(zhǔn)灰熊DPOY猛將?美記爆驚天交易方案!

田先生籃球
2025-06-21 12:21:17
事件大反轉(zhuǎn)?趙一鳴被搶后續(xù),知情人爆更多信息,稱店員指使

事件大反轉(zhuǎn)?趙一鳴被搶后續(xù),知情人爆更多信息,稱店員指使

歸史
2025-06-21 14:38:39
一天5個(gè)瓜,被曝懷孕、人設(shè)崩塌,娛樂圈的瓜一個(gè)比一個(gè)勁爆

一天5個(gè)瓜,被曝懷孕、人設(shè)崩塌,娛樂圈的瓜一個(gè)比一個(gè)勁爆

觀察鑒娛
2025-06-21 15:02:50
這個(gè)畢設(shè),尺度真大!

這個(gè)畢設(shè),尺度真大!

MICU設(shè)計(jì)
2025-06-18 11:23:49
海外最強(qiáng)華裔!土媒:費(fèi)內(nèi)巴切將報(bào)價(jià)1000萬歐,求購華裔中場(chǎng)天樂

海外最強(qiáng)華裔!土媒:費(fèi)內(nèi)巴切將報(bào)價(jià)1000萬歐,求購華裔中場(chǎng)天樂

直播吧
2025-06-20 17:00:17
發(fā)廊一店員跪著給顧客洗頭,男顧客很享受,網(wǎng)友:感覺有些擦邊

發(fā)廊一店員跪著給顧客洗頭,男顧客很享受,網(wǎng)友:感覺有些擦邊

唐小糖說情感
2025-06-17 09:40:21
死傷數(shù)倍于鄰國也要咬下人家一塊土地這場(chǎng)戰(zhàn)爭(zhēng)與俄烏戰(zhàn)爭(zhēng)何其相似

死傷數(shù)倍于鄰國也要咬下人家一塊土地這場(chǎng)戰(zhàn)爭(zhēng)與俄烏戰(zhàn)爭(zhēng)何其相似

通往遠(yuǎn)方的路
2025-05-12 09:50:32
底層百姓越來越感覺到社保已經(jīng)變成他們買不起的奢侈品!

底層百姓越來越感覺到社保已經(jīng)變成他們買不起的奢侈品!

逍遙論經(jīng)
2025-06-15 10:25:36
中甲門將微博爆雷!李平康再曝猛料:現(xiàn)役國腳級(jí)球員已被帶走

中甲門將微博爆雷!李平康再曝猛料:現(xiàn)役國腳級(jí)球員已被帶走

銜春信
2025-06-21 07:53:42
步行者3-3雷霆,搶七大戰(zhàn)誰奪冠?名嘴蘇群7字回應(yīng),NBA掌控不了

步行者3-3雷霆,搶七大戰(zhàn)誰奪冠?名嘴蘇群7字回應(yīng),NBA掌控不了

河山銳新聞
2025-06-21 11:44:16
2813枚核彈24小時(shí)待命,張召忠發(fā)出警告:一旦開戰(zhàn)無處可逃

2813枚核彈24小時(shí)待命,張召忠發(fā)出警告:一旦開戰(zhàn)無處可逃

青途歷史
2025-06-20 20:34:06
申請(qǐng)離隊(duì),李月汝官宣,原因找到,女籃計(jì)劃或打亂,李夢(mèng)祝福

申請(qǐng)離隊(duì),李月汝官宣,原因找到,女籃計(jì)劃或打亂,李夢(mèng)祝福

樂聊球
2025-06-05 10:11:21
原來那兒納茜同學(xué)沒說謊!清北近半學(xué)生,不是直接高考考進(jìn)去的

原來那兒納茜同學(xué)沒說謊!清北近半學(xué)生,不是直接高考考進(jìn)去的

深析古今
2025-06-21 22:47:43
王石再預(yù)測(cè)中國未來房地產(chǎn)走向:若無意外,大概率又是對(duì)的!

王石再預(yù)測(cè)中國未來房地產(chǎn)走向:若無意外,大概率又是對(duì)的!

巢客HOME
2025-03-21 09:10:03
2025-06-21 23:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10687文章數(shù) 142343關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

體育要聞

王欣瑜:資格賽差點(diǎn)要退賽 夢(mèng)幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財(cái)經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

手機(jī)
教育
時(shí)尚
數(shù)碼
藝術(shù)

手機(jī)要聞

曝REDMI K90系列影像新升級(jí):評(píng)估豪威OV50Q主攝

教育要聞

2025北京高招變數(shù)大!這些志愿填報(bào)的坑,千萬別踩!

天啊,凱特王妃都在準(zhǔn)備葬禮了?

數(shù)碼要聞

電視“鴻蒙”時(shí)刻?疑似搭載旗艦手機(jī)芯片,革新百年電視產(chǎn)業(yè)!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 永顺县| 思茅市| 家居| 吴江市| 渭源县| 濉溪县| 曲沃县| 沂南县| 天门市| 托克逊县| 永清县| 平安县| 安仁县| 西林县| 长治市| 高安市| 水富县| 辉南县| 垫江县| 金溪县| 太和县| 饶河县| 甘德县| 永定县| 太保市| 衡阳市| 淮阳县| 乌恰县| 宁武县| 清苑县| 大英县| 黄龙县| 铅山县| 鞍山市| 北安市| 青河县| 赣榆县| 雷州市| 靖远县| 普兰县| 乌兰浩特市|