99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VDC+VBench雙榜第一!強化學習打磨的國產(chǎn)視頻大模型,超越Sora

0
分享至

機器之心發(fā)布

機器之心編輯部

隨著 Deepseek 等強推理模型的成功,強化學習在大語言模型訓練中越來越重要,但在視頻生成領域缺少探索。復旦大學等機構將強化學習引入到視頻生成領域,經(jīng)過強化學習優(yōu)化的視頻生成模型,生成效果更加自然流暢,更加合理。并且分別在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 兩大國際權威榜單中斬獲第一。

視頻細粒度文本描述

視頻細粒度文本描述模型(video detailed caption)為視頻生成模型提供標簽,是視頻生成的基礎。復旦大學等機構提出了 Cockatiel 方法 [3],該方法在權威的 VDC(Video Detailed Captioning 視頻細粒度文本描述評測集)榜單上獲得第一名,超過了包括通義千問 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在內的多個主流視頻理解多模態(tài)大模型。





  • 論文標題:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
  • 項目主頁: https://sais-fuxi.github.io/projects/cockatiel/
  • 論文地址: https://arxiv.org/pdf/2503.09279
  • Github: https://github.com/Fr0zenCrane/Cockatiel

Cockatiel 的核心思路是:基于人類偏好對齊的高質量合成數(shù)據(jù),設計三階段微調訓練流程,系統(tǒng)集成了多個在不同描述維度上表現(xiàn)領先的模型優(yōu)勢。通過這一方法,以單機的訓練成本訓練出了一套在細粒度表達、人類偏好一致性等方面均表現(xiàn)卓越的視頻細粒度描述模型,為后續(xù)視頻生成模型的訓練和優(yōu)化打下了堅實基礎,模型細節(jié)如下(更多詳情可參考論文和開源 github):



  • 階段一:構造視頻細粒度描述的人類偏好數(shù)據(jù):分別對視頻描述的對象、對象特征、動態(tài)特征、鏡頭動作和背景的文本描述質量進行人工標注。
  • 階段二:基于打分器的多模型集成訓練:基于人工標注數(shù)據(jù)訓練獎勵函數(shù)(reward model),并多個模型合成的視頻描述計算獎勵(reward),最終對 13B 的多模態(tài)大語言模型進行人類偏好對齊優(yōu)化。
  • 階段三:蒸餾輕量化模型:基于上一步訓練的 13B 的多模態(tài)大語言模型蒸餾 8B 模型,方便后續(xù)在下游任務中低成本推理。

實驗結果顯示基于 Cockatiel 系列模型生成的視頻細粒度描述,具備維度全面、敘述精準詳實以及幻覺現(xiàn)象較少的顯著優(yōu)勢。如下圖所示,與 ViLA,LLaVA 和 Aria 的基線模型相比,Cockatiel-13B 不僅能夠準確復現(xiàn)基線模型所描述的細節(jié)(以黃底高亮部分表示),還能捕捉到基線模型遺漏的關鍵信息(以紅底高亮部分表示)。而 Cockatiel 生成的描述則大量避免了幻覺性內容,Cockatiel 展現(xiàn)了更高的可靠性和準確性。



強化學習加強的視頻生成技術

在視頻生成領域,該團隊首次提出了迭代式強化學習偏好優(yōu)化方法 IPOC [4],在權威視頻生成評測榜單 VBench (2025-04-14) 上,IPOC 以 86.57% 的總分強勢登頂,領先通義萬相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等眾多國內外知名視頻生成模型。





  • 論文標題:IPO: Iterative Preference Optimization for Text-to-Video Generation
  • 論文地址:https://arxiv.org/pdf/2502.02088
  • 項目主頁:https://yangxlarge.github.io/ipoc//
  • GitHub 地址:https://github.com/SAIS-FUXI/IPO

研究者通過迭代式強化學習優(yōu)化方式,避免了強化學習中訓練不穩(wěn)定的問題。同時只需要依賴少量的訓練數(shù)據(jù)和算力,以低成本實現(xiàn)效果優(yōu)化。 模型細節(jié)如下(更多詳情可參考論文和開源 github):



階段一:人工偏好數(shù)據(jù)標注:IPO 方法通過逐視頻打分(Pointwise Annotation)與成對視頻排序(Pairwise Annotation)兩種方式進行人工標注。標注過程中,標注者不僅需要提供評分或排序結果,還需詳細闡述評分理由,以構建具有思維鏈(Chain-of-Thought, CoT)風格的標注數(shù)據(jù)。這種標注形式有助于模型深入理解視頻內容與文本描述之間的語義一致性,從而形成高質量的人類偏好數(shù)據(jù)集。

階段二:獎勵模型訓練:IPO 方法進一步引入了一種基于多模態(tài)大模型的 “獎勵模型”(Critic Model)。獎勵模型僅通過少量人工標注數(shù)據(jù)和少量算力即可高效訓練完成,隨后可自動實現(xiàn)對單個視頻的評分以及對多個視頻的對比排序。這種設計無需在每次迭代優(yōu)化時都重新進行人工標注,顯著提高了迭代優(yōu)化效率。此外,獎勵模型具備出色的通用性和 “即插即用” 特性,可廣泛適配于各類視頻生成模型。

階段三:迭代強化學習優(yōu)化:IPO 方法利用當前的視頻生成(T2V)模型生成大量新視頻,并由已訓練的獎勵模型對這些視頻進行自動評價與標注,形成新的偏好數(shù)據(jù)集。隨后,這些自動標注的數(shù)據(jù)用于進一步優(yōu)化 T2V 模型。這一過程持續(xù)迭代循環(huán),即:“視頻生成采樣 → 樣本獎勵計算 → 偏好對齊優(yōu)化”。此外,我們提出的 IPO 框架同時兼容當前主流的偏好優(yōu)化算法,包括基于對比排序的 Diffusion-DPO 方法與基于二分類評分的 Diffusion-KTO 方法,用戶可靈活選擇訓練目標,其中兩種人類偏好對齊方法(DPO 和 KTO)的訓練目標為:

  • DPO (Direct Preference Optimization):



  • KTO (Kahneman-Tversky Optimization):



實驗結果顯示經(jīng)過優(yōu)化后,視頻生成模型在時序一致性上實現(xiàn)了顯著提升。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,獅子的行走動作更加自然連貫,整體動態(tài)流暢度有了明顯改善。




視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw

Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.

視頻生成模型在結構合理性提升明顯。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物和猛犸象具有更好結構合理性。



視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw

Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible.

視頻生成模型在動態(tài)程度和美學度都有明顯提升,相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物動作更加流暢,人物和背景更好美觀。




視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw

Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery.

相關內容:

[1].Chai, Wenhao, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, and Christopher D. Manning. "Auroracap: Efficient, performant video detailed captioning and a new benchmark." arXiv preprint arXiv:2410.03051 (2024).Project Page:https://wenhaochai.com/aurora-web/

[2].Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang et al. "Vbench: Comprehensive benchmark suite for video generative models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807-21818. 2024.Project Page:https://vchitect.github.io/VBench-project/

[3].Qin, Luozheng, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, and Hao Li. "Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption." arXiv preprint arXiv:2503.09279 (2025).Porject Page:https://sais-fuxi.github.io/projects/cockatiel/

[4].Yang, Xiaomeng, Zhiyu Tan, and Hao Li. "Ipo: Iterative preference optimization for text-to-video generation." arXiv preprint arXiv:2502.02088 (2025). Porject Page:https://yangxlarge.github.io/ipoc//

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
畢業(yè)證沒來,孫子先來了,女子曬大學兒子干的好事,意外引人羨慕

畢業(yè)證沒來,孫子先來了,女子曬大學兒子干的好事,意外引人羨慕

熙熙說教
2025-05-07 20:37:46
人社部定調,養(yǎng)老金上漲新消息!2025年調整重點確認,一類人獲益

人社部定調,養(yǎng)老金上漲新消息!2025年調整重點確認,一類人獲益

王五說說看
2025-05-09 06:55:26
怎么從拍照姿勢看出倆人發(fā)生過關系?網(wǎng)友這招太牛:連AI還原現(xiàn)場圖都有哈哈

怎么從拍照姿勢看出倆人發(fā)生過關系?網(wǎng)友這招太牛:連AI還原現(xiàn)場圖都有哈哈

經(jīng)典段子
2025-05-08 23:50:15
大反轉?寧波交警注銷短視頻賬號,為保時捷周少爺辟謠,惹爭議

大反轉?寧波交警注銷短視頻賬號,為保時捷周少爺辟謠,惹爭議

坦然風云
2025-05-08 09:24:19
美軍神話崩塌,中國戰(zhàn)機橫空出世,神童竟在5年前說中了

美軍神話崩塌,中國戰(zhàn)機橫空出世,神童竟在5年前說中了

深夜解密局
2025-02-23 12:29:42
26死46傷!全國進入緊急狀態(tài)!所有航班立即取消

26死46傷!全國進入緊急狀態(tài)!所有航班立即取消

澳洲紅領巾
2025-05-08 14:30:08
擁有核武器的9個國家中,最窮的巴基斯坦, 是如何獲得核武器的?

擁有核武器的9個國家中,最窮的巴基斯坦, 是如何獲得核武器的?

文史達觀
2025-05-03 06:45:05
“繼承權”不用爭了!2025年新規(guī)下:父母的房子全部將這樣處理

“繼承權”不用爭了!2025年新規(guī)下:父母的房子全部將這樣處理

白馬驚天劍
2025-05-01 13:55:12
養(yǎng)老金好消息!人社部發(fā)布最新工作動態(tài),明確了養(yǎng)老金的調整重點

養(yǎng)老金好消息!人社部發(fā)布最新工作動態(tài),明確了養(yǎng)老金的調整重點

博覽歷史
2025-05-08 08:10:07
被炸醒了!放棄擊落10架后,巴鐵突然態(tài)度大變,炸印軍無人機基地

被炸醒了!放棄擊落10架后,巴鐵突然態(tài)度大變,炸印軍無人機基地

說天說地說實事
2025-05-09 06:09:05
金賽綸自爆初二與金秀賢發(fā)生關系,海帶味女團成員浮出水面

金賽綸自爆初二與金秀賢發(fā)生關系,海帶味女團成員浮出水面

認真生活開心吃瓜
2025-05-07 18:22:00
據(jù)說,樓市正在醞釀重大改革?

據(jù)說,樓市正在醞釀重大改革?

中產(chǎn)先生
2025-05-08 21:07:16
好看、耐看、好耐看!歐冠女王伊娃-穆拉蒂,最美歐冠女主持人

好看、耐看、好耐看!歐冠女王伊娃-穆拉蒂,最美歐冠女主持人

小彭美識
2025-05-07 17:58:51
饒穎:趙忠祥與我發(fā)生關系多年,他有特殊癖好,令我身心受到傷害

饒穎:趙忠祥與我發(fā)生關系多年,他有特殊癖好,令我身心受到傷害

史紀文譚
2025-05-06 22:10:58
中華人民共和國和俄羅斯聯(lián)邦關于全球戰(zhàn)略穩(wěn)定的聯(lián)合聲明

中華人民共和國和俄羅斯聯(lián)邦關于全球戰(zhàn)略穩(wěn)定的聯(lián)合聲明

新京報
2025-05-09 00:54:07
國務院原副總理余秋里,秘書官至正國級,唯一的兒子娶了元帥之女

國務院原副總理余秋里,秘書官至正國級,唯一的兒子娶了元帥之女

紅色先驅
2025-05-07 17:52:31
西班牙一女子,將太陽注冊為私人財產(chǎn),要求每人交1美元,聯(lián)合國出資50萬美元購買!

西班牙一女子,將太陽注冊為私人財產(chǎn),要求每人交1美元,聯(lián)合國出資50萬美元購買!

譚老師地理工作室
2025-04-28 15:14:09
反轉太突然,巴鐵重要城市受襲,第三方武裝參戰(zhàn),印度不許掛國旗

反轉太突然,巴鐵重要城市受襲,第三方武裝參戰(zhàn),印度不許掛國旗

暖心的小屋
2025-05-08 05:16:04
謝霆鋒王菲拋磚引玉,張柏芝這次殺了個漂亮的回馬槍,贏麻了

謝霆鋒王菲拋磚引玉,張柏芝這次殺了個漂亮的回馬槍,贏麻了

葡萄說娛
2025-05-08 11:14:59
看完《人類簡史》:我才明白什么是無知的力量

看完《人類簡史》:我才明白什么是無知的力量

洞見
2025-05-08 22:37:04
2025-05-09 09:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10458文章數(shù) 142304關注度
往期回顧 全部

科技要聞

理想新車打折賣?激光雷達、Thor-U都配上了

頭條要聞

特朗普宣布與英達成重大協(xié)議 英國首相:細節(jié)仍需敲定

頭條要聞

特朗普宣布與英達成重大協(xié)議 英國首相:細節(jié)仍需敲定

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經(jīng)要聞

美英達成貿(mào)易協(xié)議!

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態(tài)度原創(chuàng)

手機
教育
藝術
房產(chǎn)
軍事航空

手機要聞

vivo X Fold5 折疊手機曝料:6000mAh 電池+90W 快充

教育要聞

哈爾濱工業(yè)大學(威海)新增4個工科試驗班,數(shù)學模擬考140分以上就能報名

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

軍事要聞

加沙多地遭襲 巴武裝人員與以軍激烈戰(zhàn)斗

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洛隆县| 菏泽市| 东莞市| 梓潼县| 道孚县| 台山市| 定陶县| 鹤壁市| 合水县| 凤翔县| 普洱| 四川省| 印江| 如皋市| 宝兴县| 涿州市| 黑山县| 彭山县| 石河子市| 梨树县| 绥化市| 镇康县| 彭山县| 古蔺县| 陆丰市| 万年县| 铜陵市| 沭阳县| 黑龙江省| 驻马店市| 安吉县| 天台县| 龙陵县| 诸城市| 容城县| 遂溪县| 炉霍县| 黑河市| 于田县| 全椒县| 西昌市|