流匹配模型引入GRPO，GenEval幾近滿分，組合生圖能力遠(yuǎn)超GPT-4o

2025-05-13 17:13:09　來源: 機(jī)器之心Pro

北京舉報

分享至

本文由香港中文大學(xué)與快手可靈等團(tuán)隊聯(lián)合完成。第一作者為香港中文大學(xué) MMLab 博士生劉杰，他的研究方向為強(qiáng)化學(xué)習(xí)和生成模型，曾獲 ACL Outstanding Paper Award。

流匹配模型因其堅實的理論基礎(chǔ)和在生成高質(zhì)量圖像方面的優(yōu)異性能，已成為圖像生成（Stable Diffusion, Flux）和視頻生成（可靈，WanX，Hunyuan）領(lǐng)域最先進(jìn)模型的訓(xùn)練方法。然而，這些最先進(jìn)的模型在處理包含多個物體、屬性與關(guān)系的復(fù)雜場景，以及文本渲染任務(wù)時仍存在較大困難。與此同時，在線強(qiáng)化學(xué)習(xí)因其高效探索與反饋機(jī)制，在語言模型領(lǐng)域取得顯著進(jìn)展，但在圖像生成中的應(yīng)用仍處于初步階段。

為此，港中文 MMLab、快手可靈、清華大學(xué)等團(tuán)隊聯(lián)合提出Flow-GRPO，首個將在線強(qiáng)化學(xué)習(xí)引入 Flow Matching 模型的工作。在 Flow-GRPO 加持下，SD3.5 Medium 在 GenEval 基準(zhǔn)測試中的準(zhǔn)確率從 63% 提升到 95%，組合式生圖能力超越 GPT4o，這說明流匹配模型還有很大提升空間，F(xiàn)low-GRPO 的成功實踐，為未來利用 RL 進(jìn)一步解鎖和增強(qiáng)各類流匹配生成模型（包括但不限于圖像、視頻、3D 等）在可控性、組合性、推理能力方面的潛力，開辟了充滿希望的新范式

論文標(biāo)題：Flow-GRPO: Training Flow Matching Models via Online RL
論文鏈接：https://www.arxiv.org/pdf/2505.05470
代碼地址：https://github.com/yifan123/flow_grpo
模型地址：https://huggingface.co/jieliu/SD3.5M-FlowGRPO-GenEval

作者團(tuán)隊也會盡快提供 Gradio 在線 demo 和包含大量生成 case，強(qiáng)化學(xué)習(xí)訓(xùn)練過程中圖片變化的網(wǎng)頁，幫助讀者更好地體會 RL 對于流匹配模型的極大提升。

一．核心思路與框架概覽

Flow-GRPO 的核心在于兩項關(guān)鍵策略，旨在克服在線 RL 與流匹配模型內(nèi)在特性之間的矛盾，并提升訓(xùn)練效率：

ODE-SDE 等價轉(zhuǎn)換：流匹配模型本質(zhì)上依賴確定性的常微分方程（ODE）進(jìn)行生成。為了強(qiáng)化學(xué)習(xí)探索所需的隨機(jī)性，作者采用了一種 ODE 到隨機(jī)微分方程（SDE）的轉(zhuǎn)換機(jī)制。該機(jī)制在理論上保證了轉(zhuǎn)換后的 SDE 在所有時間步上均能匹配原始 ODE 模型的邊緣分布，從而在不改變模型基礎(chǔ)特性的前提下，為 RL 提供了有效的探索空間。
去噪步數(shù)「減負(fù)」提效：在 RL 訓(xùn)練采樣時，大膽減少生成步數(shù)（例如從 40 步減到 10 步），極大加速數(shù)據(jù)獲取；而在最終推理生成時，仍然使用完整步數(shù)，保證高質(zhì)量輸出。在極大提升 online RL 訓(xùn)練效率的同時，保證性能不下降。

圖 1 Flow-GRPO 框架

二． ODE to SDE

GRPO 的核心是依賴隨機(jī)采樣過程，以生成多樣化的軌跡批次用于優(yōu)勢估計和策略探索。但對于流匹配模型，其確定性的采樣過程不滿足 GRPO 要求。為了解決這個局限性，作者將確定性的 Flow-ODE 轉(zhuǎn)換為一個等效的 SDE，它匹配原始模型的邊際概率密度函數(shù)，在論文附錄 A 中作者提供了詳細(xì)的證明過程。原始的 flow matching 模型 inference 的時候按照如下公式：

轉(zhuǎn)變成 SDE 后，最終作者得到的采樣形式如下：

之后就可以通過控制噪聲水平的參數(shù)很好地控制 RL 策略的探索性。

三．Denoising Reduction

為了生成高質(zhì)量的圖像，流模型通常需要大量的去噪步驟，這使得在線強(qiáng)化學(xué)習(xí)的訓(xùn)練數(shù)據(jù)收集成本較高。作者發(fā)現(xiàn)，對于在線強(qiáng)化學(xué)習(xí)訓(xùn)練，較大的時間步長在樣本生成時是多余的，只需要在推理時保持原有的去噪步驟仍能獲得高質(zhì)量的樣本。作者在訓(xùn)練時將時間步長設(shè)置為 10，而推理時的時間步長保持為原始的默認(rèn)設(shè)置 40。通過這樣的「訓(xùn)練時低配，測試時滿配」的設(shè)置，達(dá)到了在不犧牲最終性能的情況下實現(xiàn)快速訓(xùn)練。

四．核心實驗效果

Flow-GRPO 在多個 T2I（文本到圖像）生成任務(wù)中表現(xiàn)卓越：

復(fù)雜組合生成能力大幅提升：在 GenEval 基準(zhǔn)上，將 SD3.5-M 的準(zhǔn)確率從 63% 提升至 95%，在物體計數(shù)、空間關(guān)系理解、屬性綁定上近乎完美，在該評測榜單上效果超越 GPT-4o！

圖 2 Flow-GRPO 訓(xùn)練過程中的性能持續(xù)上升

圖 3 GenEval 各項指標(biāo)詳細(xì)結(jié)果

圖 4 在 GenEval 基準(zhǔn)上的定性比較

文字渲染精準(zhǔn)無誤：視覺文本渲染準(zhǔn)確率從 59% 大幅提升至 92%，可以較為準(zhǔn)確地在圖片中渲染文字。

更懂人類偏好：在人類偏好對齊任務(wù)上也取得了顯著進(jìn)步。

獎勵黑客行為顯著減少： Flow-GRPO 在性能提升的同時，圖像質(zhì)量和多樣性基本未受影響，有效緩解 reward hacking 問題。

五．總結(jié)與展望

作為首個將在線強(qiáng)化學(xué)習(xí)引入流匹配模型的算法，Flow-GRPO通過將流模型的確定性采樣機(jī)制改為隨機(jī)微分方程（SDE）采樣，并引入 Denoising Reduction 技術(shù)，實現(xiàn)了在流匹配模型上的高效在線強(qiáng)化學(xué)習(xí)。實驗結(jié)果顯示，即便是當(dāng)前最先進(jìn)的 flow matching 模型，在引入強(qiáng)化學(xué)習(xí)后依然有顯著的性能提升空間。Flow-GRPO 在組合式生成、文字渲染和人類偏好等任務(wù)上，相比基線模型均取得了大幅改進(jìn)。

Flow-GRPO 的意義不僅體現(xiàn)在指標(biāo)上的領(lǐng)先，更在于其揭示了一條利用在線強(qiáng)化學(xué)習(xí)持續(xù)提升流匹配生成模型性能的可行路徑。其成功實踐為未來進(jìn)一步釋放流匹配模型在可控性、組合性與推理能力方面的潛力，尤其在圖像、視頻、3D 等多模態(tài)生成任務(wù)中，提供了一個充滿前景的新范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.