99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

SFT+RL雙管齊下:ReasonGen-R1如何破解文生圖「指令不遵」難題?

0
分享至



近年來,鏈式推理和強化學習已經被廣泛應用于大語言模型,讓大語言模型的推理能力得到了顯著提升。然而,在圖像生成模型中,這種成功經驗尚未得到充分探索。圖像生成模型往往直接依據給定文本生成圖像,缺乏類似人類創作過程中的推理,導致生成的圖像在語義遵循上仍有一定局限。

近期,上海科技大學、微軟亞洲研究院和復旦大學提出了 ReasonGen-R1 框架,一個兩階段訓練框架,將鏈式推理監督微調(Supervised Fine-tuning)與強化學習(Reinforcement Learning)相結合,以提升自回歸圖像生成模型的推理和創作能力。ReasonGen-R1 使得自回歸圖像生成模型可以端到端地在輸出圖片之前先進行文本「思考」,大幅提升了基座模型的語義遵循能力,并在多個語義指標上取得突破。

目前,ReasonGen-R1 已全面開源(包括訓練、評測代碼,訓練數據以及模型)。



  • 論文標題:ReasonGen-R1: CoT for Autoregressive Image Generation model through SFT and RL
  • Arxiv 地址:https://arxiv.org/abs/2505.24875
  • 代碼地址:https://github.com/Franklin-Zhang0/ReasonGen-R1
  • 項目主頁:https://reasongen-r1.github.io

方法概覽

ReasonGen-R1 的訓練包括兩個核心階段:監督微調階段(SFT)以及強化學習階段(RL)。

監督微調階段首先構建了一個大規模圖片生成推理數據集,共包含 20 萬條圖像-文本對。該數據集基于 LAION 美學子集,利用 GPT-4.1 根據圖片自動生成兩類描述:一是多樣化的簡潔圖片描述(包括常規敘述、基于標簽和以物體為中心的敘述),二是豐富的推理式 CoT(chain-of-thought)敘述。多風格的簡潔圖片描述設計有效避免了模型在 SFT 階段對單一 prompt 模式的過擬合。

隨后,ReasonGen-R1 按照「Prompt → CoT →



圖1. ReasonGen-R1 模型架構概覽。ReasonGen-R1通過監督微調(SFT)以及強化學習(RL)使得模型可以先進行鏈式推理,再生成最終圖片。

強化學習階段通過 Group Relative Policy Optimization(GRPO)進一步優化模型輸出。為了有效評價生成輸出圖像的質量和輸入文本-輸出圖像的一致性,ReasonGen-R1 采用了預訓練視覺語言模型 Qwen-2.5-VL-7B 作為獎勵模型,讓其對于每個輸出圖片,根據圖片以及輸入文本是否一致,給出 0、1 獎勵。



圖2. ReasonGen-R1強化學習框架概覽。

此外,為確保訓練穩定性,ReasonGen-R1 提出了一種改進的自適應熵損失函數,該損失函數能夠將輸出 token 的熵動態調節到目標熵附近,有效防止了在文本圖像混合強化訓練過程中訓練不穩定導致模式崩塌的問題。

圖3. 自適應熵損失中用于更新熵損失參數的loss function

ReasonGen-R1 實驗結果

團隊基于 Janus-Pro-7B 模型對 ReasonGen-R1 進行了全方面測試,選取了三個圖像生成語義遵循指標:GenEval、DPG-Bench 以及 T2I-Benchmark。

如圖 4 所示,ReasonGen-R1 在所有指標上都較基座模型有了顯著的提升。這些結果表明,將文本推理通過 SFT-RL 的框架應用于圖片生成,能夠顯著提升自回歸圖像生成模型的性能。



圖4. 左圖:基座模型Janus-Pro-7B和ReasonGen-R1生成圖像可視化比較;右圖:三個指令遵循指標上的表現比較。ReasonGen-R1在所有指標上均超過了基座模型,體現了指令遵循能力的巨大提升。

為深入探討 ReasonGen-R1 各個模塊的貢獻,研究還進行了以下消融實驗:

SFT 階段的作用:為了測試 SFT 階段對于模型最終性能的影響,ReasonGen-R1 對比了直接強化學習的結果。如表 1 所示,僅使用強化學習(RL)而未進行監督微調(SFT)時,模型表現顯著下降,證明了 SFT 階段對模型后續強化學習階段的重要性。

獎勵模型規模影響:實驗還對比了不同大小的獎勵模型。如表 1 所示,較小規模的獎勵模型(Qwen-2.5-VL-3B)無法提供足夠精準的反饋信號,嚴重影響強化學習階段的表現。因此,選擇高精度、大規模的獎勵模型至關重要。



表1. ReasonGen-R1在GenEval指標上對于架構設計的消融實驗

自適應熵損失函數的穩定作用:如圖 6 所示,在沒有熵損失的情況下,模型在經過 100 步的訓練后會出現熵爆炸,同時 Reward 開始緩慢下降。另一方面,施加固定熵懲罰(–0.002)會使熵持續下降,并在第 80 步時過低,進而引發圖片生成模式崩塌和獎勵急劇下滑。這些現象凸顯了在交錯文本與圖像的 RL 訓練中,對于熵損失正則化設置的敏感性。相比之下,采用 ReasonGen-R1 提出的自適應熵損失能夠將熵保持在最佳范圍內,確保訓練過程的穩定性以及獎勵的穩定增長。



圖6. 對于各個熵正則化策略在強化學習中的效果比較

ReasonGen-R1 CoT 分析



圖7. 1000次CoT輸出中的單詞頻率。只有出現頻率高于20%的單詞被展示。出現頻率最高的三個’a, an, the’被移除以關注保護更多信息的詞語

圖 7 展示了 ReasonGen-R1 推理鏈的模式。首先,它通過「感知」(sense)、「場景」(scene)和「自然」(natural)等高頻詞(在超過 140% 的 CoT 中出現)來奠定總體框架,強調整體語境和真實場景。接著,它細化視覺風格:諸如「柔和」(soft)、「高光」(highlights)、「氛圍」(mood)和「流暢」(sleek)等詞匯(均在超過 100% 的 CoT 中出現)用以描述光照質量、情感基調和質感。

更關鍵的是,「突出」(highlighting)和「強調」(emphasizing)這兩個詞各自在至少 70% 的 CoT 中出現,表明模型有意識地聚焦于主要主體。這揭示出 ReasonGen-R1 不僅僅是在描述物體,而是在主動規劃構圖焦點。

除了核心詞匯外,ReasonGen-R1 還運用了大量修飾詞——「背景」(background)用于建立環境氛圍;「特征」(features)用于突出顯著視覺元素;「寧靜」(calm)用于渲染平和氛圍;「瞬間」(moments)用于傳達時間抓拍感;「捕捉」(captured)用于強調攝影真實感;等等——以在每條推理序列中注入細膩的、情境化的細節。

總體而言,ReasonGen-R1 的推理鏈通過場景框架、風格細節、主體聚焦和細節修飾等要素,有效地引導了圖像生成過程。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北洋最豪橫官二代一一盧小嘉

北洋最豪橫官二代一一盧小嘉

曉史
2025-06-17 13:31:58
陳彼得妻子首度發聲!哽咽回應死因,兩人最近合影曝光,十分恩愛

陳彼得妻子首度發聲!哽咽回應死因,兩人最近合影曝光,十分恩愛

深析古今
2025-06-17 21:57:21
這個月數據,真特么難看?

這個月數據,真特么難看?

混知房產
2025-06-17 09:12:35
Shams解釋其奇怪眼神:當時香波特聊馬刺&KD傳聞 我想那可能嗎?

Shams解釋其奇怪眼神:當時香波特聊馬刺&KD傳聞 我想那可能嗎?

直播吧
2025-06-18 01:00:30
網易云VIP突然宣布免費,還不領就來不及了

網易云VIP突然宣布免費,還不領就來不及了

鋒潮評測
2025-06-17 16:03:05
抱摔!Haynes:鑒于兩人都是新秀 BIG3不會對霍華德&師弟追加禁賽

抱摔!Haynes:鑒于兩人都是新秀 BIG3不會對霍華德&師弟追加禁賽

直播吧
2025-06-18 01:32:11
澤連斯基:基輔等地遭俄大規模空襲,已致近百人死傷

澤連斯基:基輔等地遭俄大規模空襲,已致近百人死傷

界面新聞
2025-06-17 14:59:50
ESPN最新模擬選秀:楊瀚森第35順位被76人選中 有望搭檔恩比德?

ESPN最新模擬選秀:楊瀚森第35順位被76人選中 有望搭檔恩比德?

醉臥浮生
2025-06-17 21:46:02
以色列和伊朗相隔1000多公里,并無領土爭端,為何以色列要揍伊朗

以色列和伊朗相隔1000多公里,并無領土爭端,為何以色列要揍伊朗

行走的知識庫
2025-06-14 07:48:23
這下,很多人又要返貧了

這下,很多人又要返貧了

路財主
2025-06-17 22:45:39
重拳出擊!中方發出最后通牒,重裝部隊壓境直抵班公湖,不戰而勝

重拳出擊!中方發出最后通牒,重裝部隊壓境直抵班公湖,不戰而勝

Ck的蜜糖
2025-06-13 01:28:57
張子宇出戰亞洲杯引熱議!媒體人:難道要一個18歲的孩子保冠軍?

張子宇出戰亞洲杯引熱議!媒體人:難道要一個18歲的孩子保冠軍?

狼叔評論
2025-06-17 13:09:09
中國駐伊朗大使館:提醒在伊中國公民盡快通過陸路邊境口岸轉道回國或離境

中國駐伊朗大使館:提醒在伊中國公民盡快通過陸路邊境口岸轉道回國或離境

環球網資訊
2025-06-17 17:55:29
美國商務部:在美國的制裁下,中國休想制造出數量龐大的AI芯片

美國商務部:在美國的制裁下,中國休想制造出數量龐大的AI芯片

史行途
2025-06-16 08:32:22
一IT男被裁!自曝10年攢400萬現金加股票,2套房,1輛30萬的車…

一IT男被裁!自曝10年攢400萬現金加股票,2套房,1輛30萬的車…

火山詩話
2025-06-17 17:29:13
7月開始,我國將明令禁止收取這5種物業費,業主們還需早知道!

7月開始,我國將明令禁止收取這5種物業費,業主們還需早知道!

山丘樓評
2025-06-15 22:18:09
超級龍舟水特大暴雨襲廣東,700毫米逼近記錄!分析:最強雨帶北抬

超級龍舟水特大暴雨襲廣東,700毫米逼近記錄!分析:最強雨帶北抬

中國氣象愛好者
2025-06-17 22:01:13
??從1億巨星到免簽替補!博格巴醒悟,2026世界杯,搶姆總隊長

??從1億巨星到免簽替補!博格巴醒悟,2026世界杯,搶姆總隊長

阿泰希特
2025-06-17 14:16:41
內塔尼亞胡:不排除干掉哈梅內伊

內塔尼亞胡:不排除干掉哈梅內伊

觀察者網
2025-06-17 10:11:08
溢價超30倍,有人一周賺37萬!外掛軟件讓普通人“無貨可買”

溢價超30倍,有人一周賺37萬!外掛軟件讓普通人“無貨可買”

極目新聞
2025-06-16 22:29:44
2025-06-18 01:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10663文章數 142339關注度
往期回顧 全部

科技要聞

51歲劉強東談幾年前"退休":當時太理想主義

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

體育要聞

杰威40+6雷霆3-2步行者 SGA31+10

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

教育
藝術
親子
旅游
游戲

教育要聞

貴州元寶村小學支教流水賬(Day1)

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

女兒把所有的積蓄給我買了一個榴蓮

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

MSI入圍賽賽程公布:BLG首戰對陣GAM

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兴国县| 丹寨县| 江华| 许昌市| 元谋县| 眉山市| 昌平区| 和顺县| 西华县| 屯留县| 工布江达县| 大化| 高密市| 客服| 金平| 台湾省| 调兵山市| 竹北市| 资中县| 石林| 临泽县| 奉化市| 郎溪县| 中宁县| 康平县| 射阳县| 临清市| 吐鲁番市| 永城市| 剑河县| 历史| 德惠市| 龙井市| 祁门县| 利辛县| 丹阳市| 额尔古纳市| 凤台县| 东光县| 绥阳县| 龙山县|