99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DanceGRPO:首個統一視覺生成的強化學習框架

0
分享至




本文由字節跳動 Seed 和香港大學聯合完成。第一作者薛澤岳為香港大學 MMLab@HKU 在讀博士生,在 CVPR、NeurIPS 等國際頂級會議上發表多篇研究成果。項目通訊作者為黃偉林博士和羅平教授。

R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

現在,我們推出名為DanceGRPO的創新框架,這是首個旨在統一視覺生成強化學習的解決方案,實現了單一強化學習算法在兩大生成范式(diffusion/rectified flow)、三項任務(文本到圖像、文本到視頻、圖像到視頻)、四種基礎模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五類獎勵模型(圖像 / 視頻美學、圖文對齊、視頻動態質量、二元獎勵)中的全面覆蓋。



  • 論文標題:DanceGRPO: Unleashing GRPO on Visual Generation
  • arXiv 鏈接:https://arxiv.org/pdf/2505.07818

動機

在生成式 AI 快速發展的這三年,RLHF 逐漸的走進了大家的視野,首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義,LLM 領域的 RLHF 方案百花齊放,發展的相對成熟一些,今年更催生了 R1 這一類的大爆款工作。同時,大家也發現,對于視覺生成任務,RLHF 對美感等指標幾乎有著決定性影響,但相較 LLM 的成熟度,生成領域的 RLHF 方案顯然沒那么成熟,目前的主流方案大概分為兩類:

1. Diffusion/Flow-DPO:這一類方法是也是直接來自于 LLM 的 DPO 的影響,在實際操作中,大體分為兩種方案,第一種是離線 DPO,即讓模型去生成一批數據,然后人工標注,然后讓好和壞的數據組成 pairs 送回模型去優化,第二種是在線 DPO,即在線生成數據,然后讓 reward model 實時打分,然后拿回去訓練,這兩種思路大同小異。在實際操作中,我們發現 DPO 對模型的效果比較微弱,比如 DPO 前后的生成結果區別并不是很大,原因也很好理解,DPO 并沒有拿 reward 作為信號去 reinforce 模型的學習,而是用一種類似 SFT 的方案去做,這種情況下對模型的作用并不是很大。

2. ReFL:這一類方案是 diffusion/rectified flow 所專有的,思路非常簡單直接,就是直接在 z_t 步下直接預測 z_0 的結果,然后 vae 去 decode 直接送進 reward model 去直接反向傳播進行優化。這一類方案在圖像上效果很明顯,但是因為要對 reward model 和 decode 后的 features 進行反向傳播,在面對 100 幀以上的視頻生成的時候顯存壓力很大。而且,目前 LLM 和 diffusion 聯合訓練已成為大勢所驅,ReFL 這種通過建模 z_t 和 z_0 的關系,并且直接反向傳播的方式,似乎和這一類模型的建模策略有著很大的 gap。

于是,利用強化學習對模型進行優化的思路也就呼之欲出了,之前社區也對強化學習優化生成模型有過一些探索,例如 DDPO 和 DPOK,但是他們都有很強的局限性:

1. 嘗試的數據集非常小,一般小于 100 個 prompts,

2. 只針對文生圖 diffusion model 進行了測試,并沒有涉及到目前流行的 rectified flow 和視頻生成模型

實現目標

于是,我們的目標也呼之欲出,我們的強化學習算法需要滿足以下特征:

1. 提升明顯,reward 上漲的足夠多

2. 在 video 上實現的時候顯存壓力不能大,即,不能直接反向傳播 reward model 和 vae

3. 能在大型 prompt 數據集上訓練

4. 能遷移到 rectified flow 和視頻生成模型

DanceGRPO

核心貢獻

我們是第一個視覺生成 + 強化學習的大一統框架,一個 DanceGRPO,可以應用在 diffusion 和 rectified flow,可以應用在文生圖,文生視頻,圖生視頻三類任務,我們在四個 foundation model 上進行了測試,包括了 Stable Diffusion,FLUX,HunyuanVideo,SkyReel-I2V,我們還在五個 reward model 上進行了測試。

方案設計

受最近在 LLM 大火的 GRPO 影響,我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩定訓練,首先我們要 claim 的點是,diffusion model 和 rectified flow 的出發點雖然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況,在這種 case 下,他們的采樣方程都可以用 SDE 實現,具體的公式推導參見原文即可。

接下來,我們就開始實現啦,核心的思路還是 follow 了 DeepSeek 的 GRPO 策略,即,用一個 prompt,生成一批數據,然后用 GRPO 的目標函數進行優化,但我們并沒有加入 KL 散度的正則項,因為發現這一項實際上作用不大,以下是我們實驗過程中的一些核心發現:

1. 同一個 prompt 的初始化噪聲最好相同,不然容易 reward hacking

2. 我們可以采樣一個子集的 timesteps 來加速訓練,同時讓模型見過更多的 prompts

3. 實現中可以使用多個 reward model 疊加,而且實現的時候最好是多個 advantage 來疊加

4. DanceGRPO 可以學會 best-of-n inference scaling 的軌跡

5. 強化學習會削弱生成的多樣性

6. 訓練盡量不要打開 cfg,如果非要打開的話,一批 prompt 只能更新一次梯度

算法流程如下:



接下來是關于 reward model 的討論,我們一共使用了五類 reward model:

(1) 圖像美感

(2) 視頻美感

(3) 圖文匹配

(4) 視頻動態質量

(5) 我們提出了一種新的 reward model,即把美感 & 圖文匹配 reward model 的結果給二值化,意思是大于某個閾值就是 1,小于這個閾值就是 0

我們在文生圖,文生視頻和圖生視頻上進行了測試。

實驗結果

我們使用了 HPS-v2.1 和 Clip score 去優化模型,結果如下所示:





我們利用 VideoAlign 在 HunyuanVideo 上進行訓練:



以下是一些 reward 曲線:





ps:i2v 任務有一些區別,我們拿視覺美感 reward model 訓練的時候很容易發散,個人認為是因為 i2v 的美感更多取決于首幀,這個任務本身只有 motion quality 可言,所以我們只選擇了使用 motion quality reward 去進行訓練。

這是一個隨著 FLUX 訓練迭代次數的增加,可視化的變化,我們在訓練過程中引入隨機性,但是可視化是不會引入的,就是正常的 ODE solver。



更多的結果歡迎看原文~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
波蘭外長稱土耳其可能舉行的談判是“普京最后的機會”

波蘭外長稱土耳其可能舉行的談判是“普京最后的機會”

仗劍看世界
2025-05-15 00:07:06
殲10剛在印巴一戰成名,國安部就抓捕出賣我國戰機間諜,不容原諒

殲10剛在印巴一戰成名,國安部就抓捕出賣我國戰機間諜,不容原諒

凡知
2025-05-14 16:26:56
成都搶老年人了?三無人員可落戶成都,補繳社保一個月可領1300多

成都搶老年人了?三無人員可落戶成都,補繳社保一個月可領1300多

火山詩話
2025-05-14 10:32:43
張國榮主演電影《星月童話》定檔6月14日全國上映,豆瓣評分高達8.2分

張國榮主演電影《星月童話》定檔6月14日全國上映,豆瓣評分高達8.2分

FM93浙江交通之聲
2025-05-14 15:10:10
黃圣依母親最新采訪直接掀了楊子家老底!不斷感嘆女兒很不容易

黃圣依母親最新采訪直接掀了楊子家老底!不斷感嘆女兒很不容易

春序娛樂
2025-05-14 13:40:16
瘋狂謾罵!世體:西甲公布國家德比投訴報告,皇馬遭7次謾罵

瘋狂謾罵!世體:西甲公布國家德比投訴報告,皇馬遭7次謾罵

直播吧
2025-05-14 16:12:03
人民日報除名!干爹和知情人再曝更多內幕,霍建華都被“拖下水”

人民日報除名!干爹和知情人再曝更多內幕,霍建華都被“拖下水”

卷史
2025-05-14 12:30:41
鄭欽文VS薩巴倫卡!CCTV確定直播,鄭欽文保送冠軍?

鄭欽文VS薩巴倫卡!CCTV確定直播,鄭欽文保送冠軍?

體育就你秀
2025-05-14 08:23:54
全球禁昇騰,英偉達遭背刺!外媒:美國親手給華為造了千億市場

全球禁昇騰,英偉達遭背刺!外媒:美國親手給華為造了千億市場

一個有靈魂的作者
2025-05-14 08:42:17
和特朗普“唱反調”?馬克龍:若俄方拒絕執行“30天停火”,或面臨更多制裁!

和特朗普“唱反調”?馬克龍:若俄方拒絕執行“30天停火”,或面臨更多制裁!

財聯社
2025-05-14 09:41:06
里巴下崗危機?鄭欽文:不需要教練,因為沒人比我更了解我自己!

里巴下崗危機?鄭欽文:不需要教練,因為沒人比我更了解我自己!

網球之家
2025-05-14 14:30:46
1.68米小伙與2.2米女子戀愛懷孕 女方回應網友假孕質疑

1.68米小伙與2.2米女子戀愛懷孕 女方回應網友假孕質疑

封面新聞
2025-05-14 20:26:14
佩斯科夫:俄方代表團15日將在伊斯坦布爾等候烏克蘭代表團

佩斯科夫:俄方代表團15日將在伊斯坦布爾等候烏克蘭代表團

環球網資訊
2025-05-14 17:57:49
布倫森率尼克斯震撼世人 他當初為何被獨行俠放棄?

布倫森率尼克斯震撼世人 他當初為何被獨行俠放棄?

仰臥撐FTUer
2025-05-14 10:54:05
支付寶突然更新,新功能把全網友看傻了

支付寶突然更新,新功能把全網友看傻了

鋒潮評測
2025-05-13 12:26:11
用三種手機的人不交,開三種車的人不用,抽三種煙的人莫理!

用三種手機的人不交,開三種車的人不用,抽三種煙的人莫理!

職場火鍋
2025-05-08 18:25:03
一搶而空!iPhone 16 Pro大降價,天貓旗艦店近30萬臺蘋果備戰618

一搶而空!iPhone 16 Pro大降價,天貓旗艦店近30萬臺蘋果備戰618

時代周報
2025-05-13 23:20:16
惡搞"印度墜機",丟臉丟到全世界

惡搞"印度墜機",丟臉丟到全世界

難得君
2025-05-12 14:00:59
北京冰雹致1.8萬多起車輛受損而報案 車被冰雹砸壞了能理賠嗎

北京冰雹致1.8萬多起車輛受損而報案 車被冰雹砸壞了能理賠嗎

金融界
2025-05-14 12:37:26
美報告:大多數美國家庭的收入不足以支撐基本生活費用

美報告:大多數美國家庭的收入不足以支撐基本生活費用

海外網
2025-05-14 14:46:03
2025-05-15 01:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10484文章數 142313關注度
往期回顧 全部

科技要聞

騰訊開始靠AI賺錢 馬化騰:貢獻是實質性的

頭條要聞

印度外交部聲稱明確反對中國對藏南地區命名 中方駁斥

頭條要聞

印度外交部聲稱明確反對中國對藏南地區命名 中方駁斥

體育要聞

NBA最被低估球員,帶隊爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時間線被扒!

財經要聞

中美互降關稅:企業搶發貨 貨代頻爆單

汽車要聞

配獵鷹駕駛輔助系統/軸距超3米 風云A9L預計6月交付

態度原創

教育
游戲
手機
房產
公開課

教育要聞

解方程和因式分解是互通的,要學會觸類旁通

《刺客信條影》聯動《黎明殺機》:黑夜彌助好霸氣!

手機要聞

消息稱iPhone 18 Pro配備屏下Face ID,20周年款無邊框全面屏設計

房產要聞

狂降40萬!海口這個改善盤殺出好價?你想多了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临汾市| 彰化县| 平南县| 长垣县| 桃园市| 乌拉特中旗| 马龙县| 科技| 搜索| 迁西县| 高平市| 霍州市| 温宿县| 阿瓦提县| 霍城县| 镇安县| 甘洛县| 庆城县| 修文县| 西昌市| 淳安县| 陆川县| 泽州县| 乐山市| 怀宁县| 大同县| 宜兰市| 饶平县| 扬中市| 阿克苏市| 沅陵县| 吉安市| 育儿| 桐梓县| 固阳县| 罗定市| 青河县| 明光市| 新丰县| 赤峰市| 阜阳市|