網易首頁 > 網易號 > 正文申請入駐

DPO與GRPO誰更勝一籌？港中文、北大等發布首個系統性對比研究

2025-06-19 18:33:56　來源: 機器之心Pro

天津舉報

分享至

近年來，強化學習 (RL) 在提升大型語言模型 (LLM) 的鏈式思考 (CoT) 推理能力方面展現出巨大潛力，其中直接偏好優化 (DPO) 和組相對策略優化 (GRPO) 是兩大主流算法。

如今，這股 RL 的浪潮也涌向了圖像生成領域。當我們將自回歸圖像生成也視為一種序列化的 CoT 推理過程時，一個核心問題浮出水面：DPO 和GRPO在這個新戰場上表現如何？它們各自的優勢、挑戰以及最佳實踐又是什么？

近日，一篇來自香港中文大學、北京大學及上海人工智能實驗室的最新研究給出了答案。該研究首次對 GRPO 和 DPO 算法在自回歸圖像生成中的應用進行了全面深入的比較，不僅評估了它們在域內（in-domain）和域外（out-of-domain）的性能，還細致探究了不同獎勵模型及擴展策略對其能力的影響。

論文標題：Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
論文鏈接：https://arxiv.org/abs/2505.17017
代碼鏈接：https://github.com/ZiyuGuo99/Image-Generation-CoT

與 LLM 的 CoT 推理不同，圖像生成的 CoT 面臨著獨特的挑戰，例如確保文本 - 圖像一致性、提升圖像美學質量以及設計復雜的獎勵模型（而非簡單的基于規則的獎勵）。現有工作雖然已將 RL 引入該領域，但往往缺乏對這些領域特定挑戰以及不同 RL 策略特性的深入分析。

該團隊的這項新研究填補了這一空白，為我們揭示了 DPO 和 GRPO 在圖像生成領域的「相愛相殺」和「各自為王」。

圖 1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽，涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

研究核心發現概覽

研究團隊以最新的自回歸圖像生成模型Janus-Pro為基線，在 T2I-CompBench (域內、長文本復雜場景) 和GenEval(域外、短文本模板化) 數據集上進行了細致評估。核心發現可歸納為三大方面：

1. 域內性能 vs. 域外泛化：DPO 與 GRPO 各擅勝場

DPO 稱雄域內：實驗結果顯示，離策略 (off-policy) 的 DPO 方法在域內任務上表現優于 GRPO。在 T2I-CompBench 數據集上，DPO 的平均性能比 GRPO 高出約 11.53%；在使用官方評估工具作為獎勵信號時，DPO 甚至能達到 7.8% 的峰值提升。這突顯了 DPO 在域內任務上的有效性和魯棒性。
GRPO 泛化更強：與之相反，在策略 (on-policy) 的 GRPO 在域外泛化能力上表現更出色。在 GenEval 數據集上，GRPO 始終展現出比 DPO 更好的泛化性能；在使用HPS獎勵模型時，GRPO 的峰值提升甚至比 DPO 高出 2.42%。

2. 獎勵模型的影響：DPO 更敏感，優質獎勵模型提升 RL 泛化

DPO 對獎勵模型選擇更敏感：研究發現，DPO 的泛化性能對獎勵模型的選擇比 GRPO 更為敏感，表現為更大的域外性能波動。GRPO 在 GenEval 上的性能方差為 0.5486，顯著低于 DPO 的 0.9547。
獎勵模型的內在泛化能力至關重要：一個具有更強內在泛化能力的獎勵模型，能夠潛在地提升 RL 算法的整體泛化性能。研究中，不同獎勵模型（如 HPS、ImageReward、Unified Reward 等）在 GenEval 上的表現排序，與它們通過 GRPO 或 DPO 優化后的 RL 模型表現排序高度一致。

3. 有效擴展策略的探索：因材施教，DPO 與 GRPO 策略迥異

研究團隊系統探索了三種主流擴展策略：擴展每個提示生成的樣本圖像數量、擴展域內訓練數據的多樣性和體量，以及采用迭代訓練方法。

對于 GRPO：

擴展采樣圖像數量能帶來更高效的域內性能提升。
適度擴展采樣規模和域內數據有助于改善泛化能力，但過度擴展可能導致過擬合。

對于 DPO：

迭代訓練傾向于最大化域內性能，但在多輪迭代后可能損害泛化能力。
適度采樣能銳化偏好對比，優化域內和域外性能；但過度采樣會引入偏差。
擴展域內數據通過緩解小數據集帶來的偏好范圍局限，能同時提升域內和域外性能。

研究細節與洞察

研究團隊首先明確了任務設定：自回歸圖像生成模型（如 LlamaGen、Show-o、Janus-Pro）通過將圖像轉換為離散 token 序列進行預測，其過程與 LLM 的文本生成類似，因此可以無縫集成 DPO 和 GRPO 的損失機制。

在DPO 與 GRPO 的對比中，研究者確保了兩者在計算成本上的可比性。例如，DPO 中每個 prompt 生成的圖像數量與 GRPO 中的組大小對齊，并使用相同的獎勵模型。

結果清晰地顯示，DPO 憑借其對預收集靜態數據的有效利用，在域內場景（如 T2I-CompBench 的復雜長描述）中表現更佳。而 GRPO 通過迭代優化策略和在線采樣，更能適應復雜任務分布，從而在域外場景（如 GenEval 的模板化短描述）中展現出更強的泛化性。

圖 2: 域內與域外性能對比的可視化結果。

在獎勵模型影響的分析中，研究團隊考察了三類獎勵模型：基于人類偏好的模型 (HPS, ImageReward)、視覺問答模型 (UnifiedReward, Ft. ORM) 和基于度量的獎勵模型。

一個有趣的發現是，獎勵模型自身的泛化能力（通過 best-of-N 策略在 GenEval 上評估得到）與通過 RL 算法（DPO 或 GRPO）訓練后模型的泛化能力排序高度吻合（Unified Reward > Image Reward > HPS Reward）。這表明，提升獎勵模型本身的泛化性是提升 RL 泛化性的一個關鍵途徑。

圖 3: 不同獎勵模型影響的可視化結果。

在擴展策略的探索上，研究團隊針對 GRPO 和 DPO 的特性提出了不同的優化路徑。例如，對于 GRPO，增加每輪采樣的圖像數量（group size）比增加訓練數據量或迭代次數，能更經濟地提升域內性能。

而對于 DPO，迭代訓練（如 DPO-Iter）雖然能顯著提升域內分數，但過早地在泛化能力上達到瓶頸甚至衰退，這可能源于對訓練偏好數據的過擬合。另一方面，擴展域內訓練數據的多樣性和數量，則能幫助 DPO 克服小規模偏好數據集帶來的局限性，從而同時提升域內和域外表現。

圖 4: 擴展策略影響的可視化結果。

總結與展望

這項研究為我們提供了一幅關于 DPO 和 GRPO 在自回歸圖像生成領域應用的清晰圖景。它不僅揭示了 DPO 在域內任務上的優勢和 GRPO 在域外泛化上的長處，還強調了高質量、高泛化性獎勵模型的重要性，并為兩種 RL 范式提供了針對性的擴展策略建議。

這些發現為未來開發更高效的 RL 算法，以在自回歸圖像生成領域實現更魯棒的 CoT 推理，鋪平了新的道路。研究者希望這項工作能啟發更多后續研究，共同推動 AI 在視覺創造力上的邊界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.