機器之心發(fā)布
機器之心編輯部
隨著 Deepseek 等強推理模型的成功,強化學習在大語言模型訓練中越來越重要,但在視頻生成領域缺少探索。復旦大學等機構將強化學習引入到視頻生成領域,經(jīng)過強化學習優(yōu)化的視頻生成模型,生成效果更加自然流暢,更加合理。并且分別在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 兩大國際權威榜單中斬獲第一。
視頻細粒度文本描述
視頻細粒度文本描述模型(video detailed caption)為視頻生成模型提供標簽,是視頻生成的基礎。復旦大學等機構提出了 Cockatiel 方法 [3],該方法在權威的 VDC(Video Detailed Captioning 視頻細粒度文本描述評測集)榜單上獲得第一名,超過了包括通義千問 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在內的多個主流視頻理解多模態(tài)大模型。
- 論文標題:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption
- 項目主頁: https://sais-fuxi.github.io/projects/cockatiel/
- 論文地址: https://arxiv.org/pdf/2503.09279
- Github: https://github.com/Fr0zenCrane/Cockatiel
Cockatiel 的核心思路是:基于人類偏好對齊的高質量合成數(shù)據(jù),設計三階段微調訓練流程,系統(tǒng)集成了多個在不同描述維度上表現(xiàn)領先的模型優(yōu)勢。通過這一方法,以單機的訓練成本訓練出了一套在細粒度表達、人類偏好一致性等方面均表現(xiàn)卓越的視頻細粒度描述模型,為后續(xù)視頻生成模型的訓練和優(yōu)化打下了堅實基礎,模型細節(jié)如下(更多詳情可參考論文和開源 github):
- 階段一:構造視頻細粒度描述的人類偏好數(shù)據(jù):分別對視頻描述的對象、對象特征、動態(tài)特征、鏡頭動作和背景的文本描述質量進行人工標注。
- 階段二:基于打分器的多模型集成訓練:基于人工標注數(shù)據(jù)訓練獎勵函數(shù)(reward model),并多個模型合成的視頻描述計算獎勵(reward),最終對 13B 的多模態(tài)大語言模型進行人類偏好對齊優(yōu)化。
- 階段三:蒸餾輕量化模型:基于上一步訓練的 13B 的多模態(tài)大語言模型蒸餾 8B 模型,方便后續(xù)在下游任務中低成本推理。
實驗結果顯示基于 Cockatiel 系列模型生成的視頻細粒度描述,具備維度全面、敘述精準詳實以及幻覺現(xiàn)象較少的顯著優(yōu)勢。如下圖所示,與 ViLA,LLaVA 和 Aria 的基線模型相比,Cockatiel-13B 不僅能夠準確復現(xiàn)基線模型所描述的細節(jié)(以黃底高亮部分表示),還能捕捉到基線模型遺漏的關鍵信息(以紅底高亮部分表示)。而 Cockatiel 生成的描述則大量避免了幻覺性內容,Cockatiel 展現(xiàn)了更高的可靠性和準確性。
強化學習加強的視頻生成技術
在視頻生成領域,該團隊首次提出了迭代式強化學習偏好優(yōu)化方法 IPOC [4],在權威視頻生成評測榜單 VBench (2025-04-14) 上,IPOC 以 86.57% 的總分強勢登頂,領先通義萬相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等眾多國內外知名視頻生成模型。
- 論文標題:IPO: Iterative Preference Optimization for Text-to-Video Generation
- 論文地址:https://arxiv.org/pdf/2502.02088
- 項目主頁:https://yangxlarge.github.io/ipoc//
- GitHub 地址:https://github.com/SAIS-FUXI/IPO
研究者通過迭代式強化學習優(yōu)化方式,避免了強化學習中訓練不穩(wěn)定的問題。同時只需要依賴少量的訓練數(shù)據(jù)和算力,以低成本實現(xiàn)效果優(yōu)化。 模型細節(jié)如下(更多詳情可參考論文和開源 github):
階段一:人工偏好數(shù)據(jù)標注:IPO 方法通過逐視頻打分(Pointwise Annotation)與成對視頻排序(Pairwise Annotation)兩種方式進行人工標注。標注過程中,標注者不僅需要提供評分或排序結果,還需詳細闡述評分理由,以構建具有思維鏈(Chain-of-Thought, CoT)風格的標注數(shù)據(jù)。這種標注形式有助于模型深入理解視頻內容與文本描述之間的語義一致性,從而形成高質量的人類偏好數(shù)據(jù)集。
階段二:獎勵模型訓練:IPO 方法進一步引入了一種基于多模態(tài)大模型的 “獎勵模型”(Critic Model)。獎勵模型僅通過少量人工標注數(shù)據(jù)和少量算力即可高效訓練完成,隨后可自動實現(xiàn)對單個視頻的評分以及對多個視頻的對比排序。這種設計無需在每次迭代優(yōu)化時都重新進行人工標注,顯著提高了迭代優(yōu)化效率。此外,獎勵模型具備出色的通用性和 “即插即用” 特性,可廣泛適配于各類視頻生成模型。
階段三:迭代強化學習優(yōu)化:IPO 方法利用當前的視頻生成(T2V)模型生成大量新視頻,并由已訓練的獎勵模型對這些視頻進行自動評價與標注,形成新的偏好數(shù)據(jù)集。隨后,這些自動標注的數(shù)據(jù)用于進一步優(yōu)化 T2V 模型。這一過程持續(xù)迭代循環(huán),即:“視頻生成采樣 → 樣本獎勵計算 → 偏好對齊優(yōu)化”。此外,我們提出的 IPO 框架同時兼容當前主流的偏好優(yōu)化算法,包括基于對比排序的 Diffusion-DPO 方法與基于二分類評分的 Diffusion-KTO 方法,用戶可靈活選擇訓練目標,其中兩種人類偏好對齊方法(DPO 和 KTO)的訓練目標為:
- DPO (Direct Preference Optimization):
- KTO (Kahneman-Tversky Optimization):
實驗結果顯示經(jīng)過優(yōu)化后,視頻生成模型在時序一致性上實現(xiàn)了顯著提升。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,獅子的行走動作更加自然連貫,整體動態(tài)流暢度有了明顯改善。
視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw
Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.
視頻生成模型在結構合理性提升明顯。相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物和猛犸象具有更好結構合理性。
視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw
Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible.
視頻生成模型在動態(tài)程度和美學度都有明顯提升,相比于 CogVideoX-2B(左圖),IPOC-2B 生成的視頻(右圖)中,人物動作更加流暢,人物和背景更好美觀。
視頻鏈接:https://mp.weixin.qq.com/s/ul5gcS3tqrKo8Z_mSMiJhw
Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery.
相關內容:
[1].Chai, Wenhao, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, and Christopher D. Manning. "Auroracap: Efficient, performant video detailed captioning and a new benchmark." arXiv preprint arXiv:2410.03051 (2024).Project Page:https://wenhaochai.com/aurora-web/
[2].Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang et al. "Vbench: Comprehensive benchmark suite for video generative models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807-21818. 2024.Project Page:https://vchitect.github.io/VBench-project/
[3].Qin, Luozheng, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, and Hao Li. "Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption." arXiv preprint arXiv:2503.09279 (2025).Porject Page:https://sais-fuxi.github.io/projects/cockatiel/
[4].Yang, Xiaomeng, Zhiyu Tan, and Hao Li. "Ipo: Iterative preference optimization for text-to-video generation." arXiv preprint arXiv:2502.02088 (2025). Porject Page:https://yangxlarge.github.io/ipoc//
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.