99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

流匹配模型引入GRPO,GenEval幾近滿分,組合生圖能力遠(yuǎn)超GPT-4o

0
分享至




本文由香港中文大學(xué)與快手可靈等團(tuán)隊聯(lián)合完成。第一作者為香港中文大學(xué) MMLab 博士生劉杰,他的研究方向為強(qiáng)化學(xué)習(xí)和生成模型,曾獲 ACL Outstanding Paper Award。

流匹配模型因其堅實的理論基礎(chǔ)和在生成高質(zhì)量圖像方面的優(yōu)異性能,已成為圖像生成(Stable Diffusion, Flux)和視頻生成(可靈,WanX,Hunyuan)領(lǐng)域最先進(jìn)模型的訓(xùn)練方法。然而,這些最先進(jìn)的模型在處理包含多個物體、屬性與關(guān)系的復(fù)雜場景,以及文本渲染任務(wù)時仍存在較大困難。與此同時,在線強(qiáng)化學(xué)習(xí)因其高效探索與反饋機(jī)制,在語言模型領(lǐng)域取得顯著進(jìn)展,但在圖像生成中的應(yīng)用仍處于初步階段。

為此,港中文 MMLab、快手可靈、清華大學(xué)等團(tuán)隊聯(lián)合提出Flow-GRPO,首個將在線強(qiáng)化學(xué)習(xí)引入 Flow Matching 模型的工作。在 Flow-GRPO 加持下,SD3.5 Medium 在 GenEval 基準(zhǔn)測試中的準(zhǔn)確率從 63% 提升到 95%,組合式生圖能力超越 GPT4o,這說明流匹配模型還有很大提升空間,F(xiàn)low-GRPO 的成功實踐,為未來利用 RL 進(jìn)一步解鎖和增強(qiáng)各類流匹配生成模型(包括但不限于圖像、視頻、3D 等)在可控性、組合性、推理能力方面的潛力,開辟了充滿希望的新范式



  • 論文標(biāo)題:Flow-GRPO: Training Flow Matching Models via Online RL
  • 論文鏈接:https://www.arxiv.org/pdf/2505.05470
  • 代碼地址:https://github.com/yifan123/flow_grpo
  • 模型地址:https://huggingface.co/jieliu/SD3.5M-FlowGRPO-GenEval

作者團(tuán)隊也會盡快提供 Gradio 在線 demo 和包含大量生成 case,強(qiáng)化學(xué)習(xí)訓(xùn)練過程中圖片變化的網(wǎng)頁,幫助讀者更好地體會 RL 對于流匹配模型的極大提升。

一.核心思路與框架概覽

Flow-GRPO 的核心在于兩項關(guān)鍵策略,旨在克服在線 RL 與流匹配模型內(nèi)在特性之間的矛盾,并提升訓(xùn)練效率:

  1. ODE-SDE 等價轉(zhuǎn)換: 流匹配模型本質(zhì)上依賴確定性的常微分方程(ODE)進(jìn)行生成。為了強(qiáng)化學(xué)習(xí)探索所需的隨機(jī)性,作者采用了一種 ODE 到隨機(jī)微分方程(SDE)的轉(zhuǎn)換機(jī)制。該機(jī)制在理論上保證了轉(zhuǎn)換后的 SDE 在所有時間步上均能匹配原始 ODE 模型的邊緣分布,從而在不改變模型基礎(chǔ)特性的前提下,為 RL 提供了有效的探索空間。
  2. 去噪步數(shù)「減負(fù)」提效: 在 RL 訓(xùn)練采樣時,大膽減少生成步數(shù)(例如從 40 步減到 10 步),極大加速數(shù)據(jù)獲取;而在最終推理生成時,仍然使用完整步數(shù),保證高質(zhì)量輸出。在極大提升 online RL 訓(xùn)練效率的同時,保證性能不下降。



圖 1 Flow-GRPO 框架

二. ODE to SDE

GRPO 的核心是依賴隨機(jī)采樣過程,以生成多樣化的軌跡批次用于優(yōu)勢估計和策略探索。但對于流匹配模型,其確定性的采樣過程不滿足 GRPO 要求。為了解決這個局限性,作者將確定性的 Flow-ODE 轉(zhuǎn)換為一個等效的 SDE,它匹配原始模型的邊際概率密度函數(shù),在論文附錄 A 中作者提供了詳細(xì)的證明過程。原始的 flow matching 模型 inference 的時候按照如下公式:



轉(zhuǎn)變成 SDE 后,最終作者得到的采樣形式如下:



之后就可以通過控制噪聲水平的參數(shù)很好地控制 RL 策略的探索性。

三.Denoising Reduction

為了生成高質(zhì)量的圖像,流模型通常需要大量的去噪步驟,這使得在線強(qiáng)化學(xué)習(xí)的訓(xùn)練數(shù)據(jù)收集成本較高。作者發(fā)現(xiàn),對于在線強(qiáng)化學(xué)習(xí)訓(xùn)練,較大的時間步長在樣本生成時是多余的,只需要在推理時保持原有的去噪步驟仍能獲得高質(zhì)量的樣本。作者在訓(xùn)練時將時間步長設(shè)置為 10,而推理時的時間步長保持為原始的默認(rèn)設(shè)置 40。通過這樣的「訓(xùn)練時低配,測試時滿配」的設(shè)置,達(dá)到了在不犧牲最終性能的情況下實現(xiàn)快速訓(xùn)練。

四.核心實驗效果

Flow-GRPO 在多個 T2I(文本到圖像)生成任務(wù)中表現(xiàn)卓越:

  • 復(fù)雜組合生成能力大幅提升: 在 GenEval 基準(zhǔn)上,將 SD3.5-M 的準(zhǔn)確率從 63% 提升至 95%,在物體計數(shù)、空間關(guān)系理解、屬性綁定上近乎完美,在該評測榜單上效果超越 GPT-4o!



圖 2 Flow-GRPO 訓(xùn)練過程中的性能持續(xù)上升



圖 3 GenEval 各項指標(biāo)詳細(xì)結(jié)果



圖 4 在 GenEval 基準(zhǔn)上的定性比較

  • 文字渲染精準(zhǔn)無誤: 視覺文本渲染準(zhǔn)確率從 59% 大幅提升至 92%,可以較為準(zhǔn)確地在圖片中渲染文字。



  • 更懂人類偏好: 在人類偏好對齊任務(wù)上也取得了顯著進(jìn)步。



  • 獎勵黑客行為顯著減少: Flow-GRPO 在性能提升的同時,圖像質(zhì)量和多樣性基本未受影響,有效緩解 reward hacking 問題。



五.總結(jié)與展望

作為首個將在線強(qiáng)化學(xué)習(xí)引入流匹配模型的算法,Flow-GRPO通過將流模型的確定性采樣機(jī)制改為隨機(jī)微分方程(SDE)采樣,并引入 Denoising Reduction 技術(shù),實現(xiàn)了在流匹配模型上的高效在線強(qiáng)化學(xué)習(xí)。實驗結(jié)果顯示,即便是當(dāng)前最先進(jìn)的 flow matching 模型,在引入強(qiáng)化學(xué)習(xí)后依然有顯著的性能提升空間。Flow-GRPO 在組合式生成、文字渲染和人類偏好等任務(wù)上,相比基線模型均取得了大幅改進(jìn)。

Flow-GRPO 的意義不僅體現(xiàn)在指標(biāo)上的領(lǐng)先,更在于其揭示了一條利用在線強(qiáng)化學(xué)習(xí)持續(xù)提升流匹配生成模型性能的可行路徑。其成功實踐為未來進(jìn)一步釋放流匹配模型在可控性、組合性與推理能力方面的潛力,尤其在圖像、視頻、3D 等多模態(tài)生成任務(wù)中,提供了一個充滿前景的新范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
婆婆又讓小叔子一家來過年,我默不作聲,過年那天她笑不出來了

婆婆又讓小叔子一家來過年,我默不作聲,過年那天她笑不出來了

溫情郵局
2025-05-10 15:31:04
女生穿簡約純色基礎(chǔ)款,搭配精致配飾,即有氣質(zhì)又大方

女生穿簡約純色基礎(chǔ)款,搭配精致配飾,即有氣質(zhì)又大方

美女穿搭分享
2025-05-14 11:59:06
微軟大裁員,賠償達(dá)N+8,上海12年老員工感嘆:拿20個月工資走人,每月3000失業(yè)補(bǔ)助,也是種幸福

微軟大裁員,賠償達(dá)N+8,上海12年老員工感嘆:拿20個月工資走人,每月3000失業(yè)補(bǔ)助,也是種幸福

深度知局
2025-05-11 18:00:48
從2600億到負(fù)債325億,4年的時間紅星美凱龍到底經(jīng)歷了什么?

從2600億到負(fù)債325億,4年的時間紅星美凱龍到底經(jīng)歷了什么?

毒sir財經(jīng)
2025-05-11 21:43:10
誰也沒想到反噬來得如此之快!電車吹牛真的會被打臉的!

誰也沒想到反噬來得如此之快!電車吹牛真的會被打臉的!

柏銘銳談
2025-05-12 11:23:20
這次連五常都勸不動!巴鐵直搗新德里,400架無人機(jī)立下大功!

這次連五常都勸不動!巴鐵直搗新德里,400架無人機(jī)立下大功!

荷蘭豆愛健康
2025-05-13 20:33:18
烏方:澤連斯基只接受與普京會談 拒見其他俄代表

烏方:澤連斯基只接受與普京會談 拒見其他俄代表

財聯(lián)社
2025-05-13 15:20:05
她28歲就當(dāng)上了國企董事長

她28歲就當(dāng)上了國企董事長

清暉有墨
2025-05-12 18:00:53
CBA宣布新決定,總決賽再次反轉(zhuǎn),曾凡博申請帶傷出戰(zhàn)

CBA宣布新決定,總決賽再次反轉(zhuǎn),曾凡博申請帶傷出戰(zhàn)

宗介說體育
2025-05-13 14:10:28
東部第一出局!步行者4-1晉級東決,卡萊爾欲復(fù)制11年小牛神跡?

東部第一出局!步行者4-1晉級東決,卡萊爾欲復(fù)制11年小牛神跡?

老王大話體育
2025-05-14 09:59:25
西媒:巴薩計劃今夏清洗9名球員,緩解財政壓力

西媒:巴薩計劃今夏清洗9名球員,緩解財政壓力

星耀國際足壇
2025-05-14 12:59:20
交易結(jié)束!太陽虧死了!僅兩年,杜蘭特狂“降價”,火箭未來可期

交易結(jié)束!太陽虧死了!僅兩年,杜蘭特狂“降價”,火箭未來可期

張家大院趣說天下事
2025-05-14 08:30:19
培養(yǎng)成了“揚(yáng)州瘦馬”?打著為她好的旗號,卻把其扔進(jìn)內(nèi)娛大染缸

培養(yǎng)成了“揚(yáng)州瘦馬”?打著為她好的旗號,卻把其扔進(jìn)內(nèi)娛大染缸

明月聊史
2025-05-13 18:40:11
中國是如何讓特朗普屈服的? 法國媒體認(rèn)為,北京做對了四件事

中國是如何讓特朗普屈服的? 法國媒體認(rèn)為,北京做對了四件事

獵火照狼山
2025-05-13 19:44:18
兒子控訴父母不給生活費(fèi),曝國企法務(wù)高管貪腐,母親發(fā)聲:已斷親

兒子控訴父母不給生活費(fèi),曝國企法務(wù)高管貪腐,母親發(fā)聲:已斷親

小人物看盡人間百態(tài)
2025-05-14 09:53:39
網(wǎng)傳普通人最怕捧殺,因被人稱贊包子好,女子沖動開店半月倒閉

網(wǎng)傳普通人最怕捧殺,因被人稱贊包子好,女子沖動開店半月倒閉

筆尖下的人生
2025-05-13 17:15:59
大S具俊曄罕見合影曝光,生圖比老公更滄桑,臨終前8天聊天太催淚

大S具俊曄罕見合影曝光,生圖比老公更滄桑,臨終前8天聊天太催淚

古希臘掌管月桂的神
2025-05-11 13:25:49
年薪46萬美元!省吃儉用!勇士后衛(wèi)斯潘塞仍開著2012款本田CRV

年薪46萬美元!省吃儉用!勇士后衛(wèi)斯潘塞仍開著2012款本田CRV

直播吧
2025-05-13 08:37:36
李亞鵬家換小房子!海哈金喜曝因經(jīng)濟(jì)不好減開支,好在娘家人給力

李亞鵬家換小房子!海哈金喜曝因經(jīng)濟(jì)不好減開支,好在娘家人給力

娛圈小愚
2025-05-14 08:55:24
連替補(bǔ)中鋒都能打爆騎士!步行者的陣容深度真是被嚴(yán)重低估了?

連替補(bǔ)中鋒都能打爆騎士!步行者的陣容深度真是被嚴(yán)重低估了?

稻谷與小麥
2025-05-14 12:28:39
2025-05-14 13:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10480文章數(shù) 142310關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)數(shù)十萬芯片+亞馬遜50億美元豪賭沙特

頭條要聞

女子偽造過敏癥狀拒付房費(fèi) 在上海白住十多家酒店被拘

頭條要聞

女子偽造過敏癥狀拒付房費(fèi) 在上海白住十多家酒店被拘

體育要聞

NBA最被低估球員,帶隊爆殺東部第一

娛樂要聞

姜妍自曝上藝校時因為得了獎遭霸凌

財經(jīng)要聞

對美關(guān)稅:125%→10% 24%稅率暫停90天

汽車要聞

2026款豐田bZ北美市場亮相 下半年上市 bZ4X成歷史

態(tài)度原創(chuàng)

時尚
親子
數(shù)碼
公開課
軍事航空

開扒Jennie的私服!“人間香奈兒”帶火這么多百元千元級單品

親子要聞

嬰兒對著這新玩具直皺眉他好像不太喜歡

數(shù)碼要聞

小米歐洲發(fā)布 2026 款 4K QLED 電視 F Pro,運(yùn)行 Fire TV 系統(tǒng)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國與沙特簽署1420億美元軍售協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 甘肃省| 娱乐| 惠安县| 衢州市| 高碑店市| 望都县| 盘山县| 视频| 忻州市| 手游| 曲沃县| 新田县| 淮北市| 榕江县| 茌平县| 阳原县| 达尔| 犍为县| 临城县| 哈巴河县| 县级市| 临汾市| 澎湖县| 姚安县| 临安市| 漳平市| 报价| 南召县| 通州区| 阳朔县| 分宜县| 航空| 密山市| 拉萨市| 邵阳县| 齐齐哈尔市| 澄城县| 亳州市| 龙川县| 易门县| 满洲里市|