99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

流匹配模型引入GRPO,GenEval幾近滿分,組合生圖能力遠超GPT-4o

0
分享至

流匹配模型因其堅實的理論基礎和在生成高質量圖像方面的優異性能,已成為圖像生成(Stable Diffusion, Flux)和視頻生成(可靈,WanX,Hunyuan)領域最先進模型的訓練方法。然而,這些最先進的模型在處理包含多個物體、屬性與關系的復雜場景,以及文本渲染任務時仍存在較大困難。與此同時,在線強化學習因其高效探索與反饋機制,在語言模型領域取得顯著進展,但在圖像生成中的應用仍處于初步階段。

為此,港中文 MMLab、快手可靈、清華大學等團隊聯合提出 Flow-GRPO,首個將在線強化學習引入 Flow Matching 模型的工作。在 Flow-GRPO 加持下,SD3.5 Medium 在 GenEval 基準測試中的準確率從 63% 提升到 95%,組合式生圖能力超越 GPT4o,這說明流匹配模型還有很大提升空間,Flow-GRPO 的成功實踐,為未來利用 RL 進一步解鎖和增強各類流匹配生成模型(包括但不限于圖像、視頻、3D 等)在可控性、組合性、推理能力方面的潛力,開辟了充滿希望的新范式


論文標題: Flow-GRPO: Training Flow Matching Models via Online RL 論文鏈接: https://www.arxiv.org/pdf/2505.05470 代碼地址: https://github.com/yifan123/flow_grpo 模型地址: https://huggingface.co/jieliu/SD3.5M-FlowGRPO-GenEval

作者團隊也會盡快提供 Gradio 在線 demo 和包含大量生成 case,強化學習訓練過程中圖片變化的網頁,幫助讀者更好地體會 RL 對于流匹配模型的極大提升。

一、核心思路與框架概覽

Flow-GRPO 的核心在于兩項關鍵策略,旨在克服在線 RL 與流匹配模型內在特性之間的矛盾,并提升訓練效率:

  1. ODE-SDE 等價轉換: 流匹配模型本質上依賴確定性的常微分方程(ODE)進行生成。為了強化學習探索所需的隨機性,作者采用了一種 ODE 到隨機微分方程(SDE)的轉換機制。該機制在理論上保證了轉換后的 SDE 在所有時間步上均能匹配原始 ODE 模型的邊緣分布,從而在不改變模型基礎特性的前提下,為 RL 提供了有效的探索空間。

  2. 去噪步數「減負」提效: 在 RL 訓練采樣時,大膽減少生成步數(例如從 40 步減到 10 步),極大加速數據獲取;而在最終推理生成時,仍然使用完整步數,保證高質量輸出。在極大提升 online RL 訓練效率的同時,保證性能不下降。


圖 1 Flow-GRPO 框架 二、ODE to SDE

GRPO 的核心是依賴隨機采樣過程,以生成多樣化的軌跡批次用于優勢估計和策略探索。但對于流匹配模型,其確定性的采樣過程不滿足 GRPO 要求。為了解決這個局限性,作者將確定性的 Flow-ODE 轉換為一個等效的 SDE,它匹配原始模型的邊際概率密度函數,在論文附錄 A 中作者提供了詳細的證明過程。原始的 flow matching 模型 inference 的時候按照如下公式:


轉變成 SDE 后,最終作者得到的采樣形式如下:

之后就可以通過控制噪聲水平的參數很好地控制 RL 策略的探索性。

三、Denoising Reduction

為了生成高質量的圖像,流模型通常需要大量的去噪步驟,這使得在線強化學習的訓練數據收集成本較高。作者發現,對于在線強化學習訓練,較大的時間步長在樣本生成時是多余的,只需要在推理時保持原有的去噪步驟仍能獲得高質量的樣本。作者在訓練時將時間步長設置為 10,而推理時的時間步長保持為原始的默認設置 40。通過這樣的「訓練時低配,測試時滿配」的設置,達到了在不犧牲最終性能的情況下實現快速訓練。

四、核心實驗效果

Flow-GRPO 在多個 T2I(文本到圖像)生成任務中表現卓越:

  • 復雜組合生成能力大幅提升: 在 GenEval 基準上,將 SD3.5-M 的準確率從 63% 提升至 95%,在物體計數、空間關系理解、屬性綁定上近乎完美,在該評測榜單上效果超越 GPT-4o!


圖 2 Flow-GRPO 訓練過程中的性能持續上升


圖 3 GenEval 各項指標詳細結果


圖 4 在 GenEval 基準上的定性比較

  • 文字渲染精準無誤: 視覺文本渲染準確率從 59% 大幅提升至 92%,可以較為準確地在圖片中渲染文字。


  • 更懂人類偏好: 在人類偏好對齊任務上也取得了顯著進步。


  • 獎勵黑客行為顯著減少: Flow-GRPO 在性能提升的同時,圖像質量和多樣性基本未受影響,有效緩解 reward hacking 問題。


五、總結與展望

作為首個將在線強化學習引入流匹配模型的算法,Flow-GRPO 通過將流模型的確定性采樣機制改為隨機微分方程(SDE)采樣,并引入 Denoising Reduction 技術,實現了在流匹配模型上的高效在線強化學習。實驗結果顯示,即便是當前最先進的 flow matching 模型,在引入強化學習后依然有顯著的性能提升空間。Flow-GRPO 在組合式生成、文字渲染和人類偏好等任務上,相比基線模型均取得了大幅改進。

Flow-GRPO 的意義不僅體現在指標上的領先,更在于其揭示了一條利用在線強化學習持續提升流匹配生成模型性能的可行路徑。其成功實踐為未來進一步釋放流匹配模型在可控性、組合性與推理能力方面的潛力,尤其在圖像、視頻、3D 等多模態生成任務中,提供了一個充滿前景的新范式。

作者:劉杰 來源: 公眾號【機器之心】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

180視角
2025-06-25 08:59:42
吳艷妮穿三角褲緊身衣秀身材,網友這也太好看了?

吳艷妮穿三角褲緊身衣秀身材,網友這也太好看了?

娛樂領航家
2025-06-24 16:52:18
722分!浙江高考學霸是他

722分!浙江高考學霸是他

大永強
2025-06-25 17:46:03
河南女生高考288分全家沸騰!媽媽金句:健康快樂才是人生高分

河南女生高考288分全家沸騰!媽媽金句:健康快樂才是人生高分

教育人看世界
2025-06-25 17:25:54
四川宜賓地震,重慶、云南、貴州多地有震感

四川宜賓地震,重慶、云南、貴州多地有震感

瀟湘晨報
2025-06-25 16:00:11
如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

紅星新聞
2025-06-25 13:06:12
國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

一家說
2025-06-25 14:46:29
陳剛在柳州主持召開廣西壯族自治區黨委常委會擴大會議:舉全區之力支持柳州化解債務

陳剛在柳州主持召開廣西壯族自治區黨委常委會擴大會議:舉全區之力支持柳州化解債務

揚子晚報
2025-06-25 20:49:29
以色列國防部長: 應情報機構摩薩德要求,將伊朗央行列為恐怖組織,另外兩家伊朗銀行和三名官員也被列入名單

以色列國防部長: 應情報機構摩薩德要求,將伊朗央行列為恐怖組織,另外兩家伊朗銀行和三名官員也被列入名單

和訊網
2025-06-25 16:57:14
小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

社會醬
2025-06-25 17:13:35
哈梅內伊已交權!

哈梅內伊已交權!

深度報
2025-06-24 22:59:53
中方最擔心的事發生了,特朗普親手毀了中東,伊朗作出一危險決定

中方最擔心的事發生了,特朗普親手毀了中東,伊朗作出一危險決定

掌青說歷史
2025-06-25 16:25:58
吉林一高速驚現“奪命”鋼絲繩 00后小伙:生日差點變忌日

吉林一高速驚現“奪命”鋼絲繩 00后小伙:生日差點變忌日

大象新聞
2025-06-25 18:57:24
國臺辦:2025年7月1日至2027年12月31日,免收臺灣“首來族”申辦臺胞證證件費

國臺辦:2025年7月1日至2027年12月31日,免收臺灣“首來族”申辦臺胞證證件費

環球網資訊
2025-06-25 10:32:07
伊朗宣布戰后重建,特朗普稱東方大國可以繼續購買伊朗石油了

伊朗宣布戰后重建,特朗普稱東方大國可以繼續購買伊朗石油了

曉風說
2025-06-25 10:34:09
游船突遇狂風被掀翻,美國外賣巨頭高管及父母喪生,妻子因在岸邊照顧女兒幸免于難

游船突遇狂風被掀翻,美國外賣巨頭高管及父母喪生,妻子因在岸邊照顧女兒幸免于難

紅星新聞
2025-06-25 18:18:13
18歲王鈺棟25米貼地斬,轟賽季第10球 遺憾傷退:被隊醫背離球場

18歲王鈺棟25米貼地斬,轟賽季第10球 遺憾傷退:被隊醫背離球場

風過鄉
2025-06-25 20:52:19
俄軍襲擊造成近200人死傷,莫斯科指責塞爾維亞向烏提供遠程導彈

俄軍襲擊造成近200人死傷,莫斯科指責塞爾維亞向烏提供遠程導彈

史政先鋒
2025-06-25 17:46:23
廣東江門一飯店白米飯免費,老人每天打一碗米飯配醬油吃,店主:只要營業,就一直提供

廣東江門一飯店白米飯免費,老人每天打一碗米飯配醬油吃,店主:只要營業,就一直提供

大風新聞
2025-06-25 18:36:07
伊朗裝備了從中國引進的先進防空系統,為何這次沒能擊落一架戰機

伊朗裝備了從中國引進的先進防空系統,為何這次沒能擊落一架戰機

小院之觀
2025-06-25 05:30:05
2025-06-25 21:27:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

家居
時尚
親子
健康
數碼

家居要聞

木質簡約 空間極致利用

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

親子要聞

終于見面啦!!!!原創dy:@辣炒年糕

呼吸科專家破解呼吸道九大謠言!

數碼要聞

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 读书| 张家口市| 富源县| 股票| 望奎县| 东城区| 郎溪县| 西峡县| 文登市| 天水市| 鲁山县| 平安县| 丰都县| 河曲县| 霍城县| 德清县| 阳江市| 蓬安县| 巨野县| 卫辉市| 邳州市| 隆尧县| 历史| 博野县| 乡宁县| 大同县| 清水河县| 榆中县| 永善县| 会泽县| 明水县| 施秉县| 凯里市| 牡丹江市| 介休市| 庄浪县| 都江堰市| 筠连县| 永安市| 鹿泉市| 蓬溪县|