99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DPO與GRPO誰更勝一籌?港中文、北大等發布首個系統性對比研究

0
分享至



近年來,強化學習 (RL) 在提升大型語言模型 (LLM) 的鏈式思考 (CoT) 推理能力方面展現出巨大潛力,其中直接偏好優化 (DPO) 和組相對策略優化 (GRPO) 是兩大主流算法。

如今,這股 RL 的浪潮也涌向了圖像生成領域。當我們將自回歸圖像生成也視為一種序列化的 CoT 推理過程時,一個核心問題浮出水面:DPO 和GRPO在這個新戰場上表現如何?它們各自的優勢、挑戰以及最佳實踐又是什么?

近日,一篇來自香港中文大學、北京大學及上海人工智能實驗室的最新研究給出了答案。該研究首次對 GRPO 和 DPO 算法在自回歸圖像生成中的應用進行了全面深入的比較,不僅評估了它們在域內(in-domain)和域外(out-of-domain)的性能,還細致探究了不同獎勵模型及擴展策略對其能力的影響。



  • 論文標題:Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
  • 論文鏈接:https://arxiv.org/abs/2505.17017
  • 代碼鏈接:https://github.com/ZiyuGuo99/Image-Generation-CoT

與 LLM 的 CoT 推理不同,圖像生成的 CoT 面臨著獨特的挑戰,例如確保文本 - 圖像一致性、提升圖像美學質量以及設計復雜的獎勵模型(而非簡單的基于規則的獎勵)。現有工作雖然已將 RL 引入該領域,但往往缺乏對這些領域特定挑戰以及不同 RL 策略特性的深入分析。

該團隊的這項新研究填補了這一空白,為我們揭示了 DPO 和 GRPO 在圖像生成領域的「相愛相殺」和「各自為王」。



圖 1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

研究核心發現概覽

研究團隊以最新的自回歸圖像生成模型Janus-Pro為基線,在 T2I-CompBench (域內、長文本復雜場景) 和GenEval(域外、短文本模板化) 數據集上進行了細致評估。核心發現可歸納為三大方面:

1. 域內性能 vs. 域外泛化:DPO 與 GRPO 各擅勝場

  • DPO 稱雄域內: 實驗結果顯示,離策略 (off-policy) 的 DPO 方法在域內任務上表現優于 GRPO。在 T2I-CompBench 數據集上,DPO 的平均性能比 GRPO 高出約 11.53%;在使用官方評估工具作為獎勵信號時,DPO 甚至能達到 7.8% 的峰值提升。這突顯了 DPO 在域內任務上的有效性和魯棒性。
  • GRPO 泛化更強: 與之相反,在策略 (on-policy) 的 GRPO 在域外泛化能力上表現更出色。在 GenEval 數據集上,GRPO 始終展現出比 DPO 更好的泛化性能;在使用HPS獎勵模型時,GRPO 的峰值提升甚至比 DPO 高出 2.42%。

2. 獎勵模型的影響:DPO 更敏感,優質獎勵模型提升 RL 泛化

  • DPO 對獎勵模型選擇更敏感: 研究發現,DPO 的泛化性能對獎勵模型的選擇比 GRPO 更為敏感,表現為更大的域外性能波動。GRPO 在 GenEval 上的性能方差為 0.5486,顯著低于 DPO 的 0.9547。
  • 獎勵模型的內在泛化能力至關重要: 一個具有更強內在泛化能力的獎勵模型,能夠潛在地提升 RL 算法的整體泛化性能。研究中,不同獎勵模型(如 HPS、ImageReward、Unified Reward 等)在 GenEval 上的表現排序,與它們通過 GRPO 或 DPO 優化后的 RL 模型表現排序高度一致。

3. 有效擴展策略的探索:因材施教,DPO 與 GRPO 策略迥異

研究團隊系統探索了三種主流擴展策略:擴展每個提示生成的樣本圖像數量、擴展域內訓練數據的多樣性和體量,以及采用迭代訓練方法。

  • 對于 GRPO:

  • 擴展采樣圖像數量能帶來更高效的域內性能提升。
  • 適度擴展采樣規模和域內數據有助于改善泛化能力,但過度擴展可能導致過擬合。

  • 對于 DPO:

  • 迭代訓練傾向于最大化域內性能,但在多輪迭代后可能損害泛化能力。
  • 適度采樣能銳化偏好對比,優化域內和域外性能;但過度采樣會引入偏差。
  • 擴展域內數據通過緩解小數據集帶來的偏好范圍局限,能同時提升域內和域外性能。

研究細節與洞察

研究團隊首先明確了任務設定:自回歸圖像生成模型(如 LlamaGen、Show-o、Janus-Pro)通過將圖像轉換為離散 token 序列進行預測,其過程與 LLM 的文本生成類似,因此可以無縫集成 DPO 和 GRPO 的損失機制。

在DPO 與 GRPO 的對比中,研究者確保了兩者在計算成本上的可比性。例如,DPO 中每個 prompt 生成的圖像數量與 GRPO 中的組大小對齊,并使用相同的獎勵模型。

結果清晰地顯示,DPO 憑借其對預收集靜態數據的有效利用,在域內場景(如 T2I-CompBench 的復雜長描述)中表現更佳。而 GRPO 通過迭代優化策略和在線采樣,更能適應復雜任務分布,從而在域外場景(如 GenEval 的模板化短描述)中展現出更強的泛化性。



圖 2: 域內與域外性能對比的可視化結果。

在獎勵模型影響的分析中,研究團隊考察了三類獎勵模型:基于人類偏好的模型 (HPS, ImageReward)、視覺問答模型 (UnifiedReward, Ft. ORM) 和基于度量的獎勵模型。

一個有趣的發現是,獎勵模型自身的泛化能力(通過 best-of-N 策略在 GenEval 上評估得到)與通過 RL 算法(DPO 或 GRPO)訓練后模型的泛化能力排序高度吻合(Unified Reward > Image Reward > HPS Reward)。這表明,提升獎勵模型本身的泛化性是提升 RL 泛化性的一個關鍵途徑。



圖 3: 不同獎勵模型影響的可視化結果。

在擴展策略的探索上,研究團隊針對 GRPO 和 DPO 的特性提出了不同的優化路徑。例如,對于 GRPO,增加每輪采樣的圖像數量(group size)比增加訓練數據量或迭代次數,能更經濟地提升域內性能。

而對于 DPO,迭代訓練(如 DPO-Iter)雖然能顯著提升域內分數,但過早地在泛化能力上達到瓶頸甚至衰退,這可能源于對訓練偏好數據的過擬合。另一方面,擴展域內訓練數據的多樣性和數量,則能幫助 DPO 克服小規模偏好數據集帶來的局限性,從而同時提升域內和域外表現。



圖 4: 擴展策略影響的可視化結果。

總結與展望

這項研究為我們提供了一幅關于 DPO 和 GRPO 在自回歸圖像生成領域應用的清晰圖景。它不僅揭示了 DPO 在域內任務上的優勢和 GRPO 在域外泛化上的長處,還強調了高質量、高泛化性獎勵模型的重要性,并為兩種 RL 范式提供了針對性的擴展策略建議。

這些發現為未來開發更高效的 RL 算法,以在自回歸圖像生成領域實現更魯棒的 CoT 推理,鋪平了新的道路。研究者希望這項工作能啟發更多后續研究,共同推動 AI 在視覺創造力上的邊界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最新!那小姐有了新消息

最新!那小姐有了新消息

亞哥談古論今
2025-06-21 19:02:13
剛剛!房貸利率低至2.6%!央行公布6月最新LPR!

剛剛!房貸利率低至2.6%!央行公布6月最新LPR!

錘不倒的拖油瓶
2025-06-21 09:01:50
河南一商人稱遭民警逼迫簽下1200萬元調解協議后被羈押8個月,申請國賠近18萬元,檢方已受理

河南一商人稱遭民警逼迫簽下1200萬元調解協議后被羈押8個月,申請國賠近18萬元,檢方已受理

大風新聞
2025-06-21 17:20:08
中甲積分榜:重慶銅梁龍遭賽季首敗,落后榜首遼寧鐵人2分

中甲積分榜:重慶銅梁龍遭賽季首敗,落后榜首遼寧鐵人2分

雷速體育
2025-06-21 21:47:26
明日花綺羅火到了中國,她否認與周鶴年有性交易,網友熱議未停息

明日花綺羅火到了中國,她否認與周鶴年有性交易,網友熱議未停息

快樂娛文
2025-06-21 11:47:49
北大人民醫院副院長答紅星新聞:晚期肺癌患者生存期已顯著延長,甚至接近慢病化

北大人民醫院副院長答紅星新聞:晚期肺癌患者生存期已顯著延長,甚至接近慢病化

紅星新聞
2025-06-20 18:11:36
巴黎站100米欄冠軍12秒21前八均達標東京 林雨薇:重心放在全運會

巴黎站100米欄冠軍12秒21前八均達標東京 林雨薇:重心放在全運會

勁爆體壇
2025-06-21 12:25:13
“任何侵犯中國領空的外國飛機,直接擊落!”中國通報全球

“任何侵犯中國領空的外國飛機,直接擊落!”中國通報全球

文雅筆墨
2025-06-20 13:06:53
以媒曝飛行追蹤數據:兩架B-2轟炸機從美國本土起飛 飛往關島美軍基地

以媒曝飛行追蹤數據:兩架B-2轟炸機從美國本土起飛 飛往關島美軍基地

財聯社
2025-06-21 19:01:32
全紅嬋調侃郭晶晶:想不想來我老家摘荔枝?郭晶晶回應讓人笑翻

全紅嬋調侃郭晶晶:想不想來我老家摘荔枝?郭晶晶回應讓人笑翻

娛最資訊
2025-06-20 17:49:10
伊朗亮出滅國威脅,以色列人被嚇哭,前國王鼓動百萬大軍揭竿而起

伊朗亮出滅國威脅,以色列人被嚇哭,前國王鼓動百萬大軍揭竿而起

大白話瞰世界
2025-06-21 11:28:19
福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
網傳鳳姐可能要被遣返?這名網紅鼻祖曾持特殊簽證留美,未獲綠卡

網傳鳳姐可能要被遣返?這名網紅鼻祖曾持特殊簽證留美,未獲綠卡

火山詩話
2025-06-21 06:42:47
好的信號?楊瀚森的父母已經啟程前往美國 現場支持兒子

好的信號?楊瀚森的父母已經啟程前往美國 現場支持兒子

直播吧
2025-06-21 17:17:23
又美又能打!中國女籃鋒線悍將,15分鐘砍11分,完全頂替了李夢

又美又能打!中國女籃鋒線悍將,15分鐘砍11分,完全頂替了李夢

體育哲人
2025-06-21 17:04:57
可能要見證歷史,美軍大規模調兵備戰,中方:所有中國人快撤

可能要見證歷史,美軍大規模調兵備戰,中方:所有中國人快撤

劉振起觀點
2025-06-20 15:04:44
李嘉誠再次給出神預測!不出5年,90%的家庭恐難逃這5大現實難題

李嘉誠再次給出神預測!不出5年,90%的家庭恐難逃這5大現實難題

詩詞中國
2025-06-18 13:14:10
全面戰爭爆發前,北京2次撥號,以色列掛了王毅電話后,再炸第2國

全面戰爭爆發前,北京2次撥號,以色列掛了王毅電話后,再炸第2國

大白話瞰世界
2025-06-17 13:35:57
24歲男子口腔及生殖器反復潰瘍,視力下降,罕見病?

24歲男子口腔及生殖器反復潰瘍,視力下降,罕見病?

醫脈通
2025-06-20 20:10:14
新老板上任!湖人大清洗!8年老員工被開,詹姆斯欣慰第五冠有望

新老板上任!湖人大清洗!8年老員工被開,詹姆斯欣慰第五冠有望

阿泰希特
2025-06-21 11:34:18
2025-06-21 23:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

房產
數碼
家居
藝術
健康

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

家居要聞

山水之間 墨染風雨云間

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高陵县| 平利县| 祁连县| 哈尔滨市| 阿城市| 桂阳县| 凤山县| 浦东新区| 泰和县| 蓝田县| 新津县| 屏山县| 惠水县| 类乌齐县| 革吉县| 元谋县| 稻城县| 苍溪县| 邵东县| 嘉鱼县| 南漳县| 宜昌市| 长岛县| 丰县| 昌平区| 基隆市| 邢台县| 延安市| 荣成市| 响水县| 武功县| 如皋市| 汉源县| 德化县| 巴楚县| 长顺县| 磴口县| 宜章县| 聂荣县| 泸定县| 江油市|