網易首頁 > 網易號 > 正文申請入駐

港大等開源GoT-R1：強化學習解鎖視覺生成推理新范式

2025-06-25 17:49:23　來源: 機器之心Pro

天津舉報

分享至

當前，多模態大模型在根據復雜文本提示生成高保真、語義一致的圖像方面取得了顯著進展，但在處理包含精確空間關系、多對象屬性及復雜組合的指令時，仍面臨挑戰。

針對此，來自香港大學 MMLab、香港中文大學 MMLab 和商湯科技的研究團隊，繼其先前發布的 Generation Chain-of-Thought (GoT) 框架之后，現推出重要進展 ——GoT-R1。

該新框架通過引入強化學習，顯著增強了多模態大模型在視覺生成任務中的語義 - 空間推理能力，使其能夠超越預定義模板，自主探索和學習更優的推理策略。GoT 和 GoT-R1 已全面開源。

GoT arxiv:https://arxiv.org/pdf/2503.10639
GoT github:https://github.com/rongyaofang/GoT
GoT-R1 arxiv:https://arxiv.org/pdf/2505.17022
GoT-R1 github:https://github.com/gogoduan/GoT-R1

GoT 框架首先通過引入顯式的語言推理過程，在生成圖像前對語義內容和空間布局進行規劃，從而提升了生成圖像的準確性和可控性。然而，GoT 的推理能力主要源于基于人工定義模板的監督微調數據，這在一定程度上限制了模型自主發現更優推理策略的潛力，有時可能導致生成的推理鏈條未能完全忠實于用戶復雜的文本提示。

GoT-R1 的提出，旨在克服上述局限。它將強化學習（RL）創新性地應用于視覺生成的語義 - 空間推理過程，賦予模型自主學習和優化推理路徑的能力。

強化學習訓練前后GoT預定義推理鏈與GoT-R1自由探索推理過程對比

GoT：奠定 “先思考后生成” 的基礎

理解 GoT-R1 之前，有必要回顧其基礎框架 GoT 。傳統的文本到圖像模型，如Stable Diffusion，FLUX 等，通常采用直接特征映射的方式，從文本嵌入到視覺特征，缺乏對場景內對象間復雜關系和空間布局的顯式推理過程。這使得它們在面對包含多個實體、精確空間指令和細致屬性描述的復雜文本時，生成效果往往未達預期。

GoT 框架旨在應對這一挑戰，其核心思想是將 “直接生成” 模式轉變為 “先推理規劃，后引導生成” 的兩階段過程。具體而言，GoT 首先將用戶輸入的文本提示（Prompt）解析并擴展為一個詳盡的 “生成思維鏈”（Generation Chain-of-Thought）。此思維鏈不僅包含對場景中各個構成元素的語義描述（例如，“一個現代風格的客廳，帶有 shabby chic 風格的觸感”）和具體物體（例如，“一個華麗的枝形吊燈”，“一個帶框的鏡子”），還附帶了這些物體在圖像中的精確空間坐標信息（例如，吊燈位于 (372,0), (613,254)，鏡子位于 (157,251), (285,519)）。隨后，這條融合了語義規劃與空間布局的思維鏈將作為精細化指令，指導后續的圖像擴散模型進行圖像生成，確保最終輸出與預先規劃高度吻合。

GoT 框架的實現，依賴于構建的大規模推理鏈圖文對數據集（超過 900 萬樣本，包括 840 萬圖像生成樣本和 92 萬圖像編輯樣本）以及先進的多模態大模型（如 Qwen2.5-VL ）進行推理鏈的生成。此外，其獨創的語義 - 空間指導模塊（Semantic-Spatial Guidance Module, SSGM）進一步增強了擴散模型遵循推理鏈進行精確生成的能力。

GoT模型：基于MLLM+Diffusion的圖片生成與編輯

GoT-R1：通過強化學習精進推理

盡管 GoT 在提升復雜場景生成方面取得了顯著成效，但其主要依賴監督學習范式，模型推理能力的提升受限于標注數據的模板和質量。GoT-R1 則引入了強化學習，旨在突破這一瓶頸，賦予模型更強的自主學習和泛化能力。

GoT-R1 面臨的關鍵挑戰之一是為視覺生成任務設計一個全面且有效的獎勵（Reward）機制。該機制需要能夠準確評估生成結果的多個維度：不僅包括最終圖像與文本提示的語義一致性、空間布局的準確性、對象屬性的正確綁定以及圖像的整體美學質量，更重要的是，還需要對中間生成的 “思維鏈” 本身的質量進行監督，避免出現推理過程存在謬誤或與最終圖像不一致的情況。

針對此，GoT-R1 構建了一個基于 MLLM 的雙階段、多維度獎勵框架，具體包含：

1. 推理過程評估獎勵 (RPR)：

語義對齊獎勵 (Rsem)：利用 MLLM 評估所生成的 GoT 推理鏈在語義層面是否完整、是否忠實于原始輸入文本，以及是否存在內在邏輯矛盾或表述不清晰等問題。
空間對齊獎勵 (Rspa)：此為 GoT-R1 的核心創新點。鑒于多數 LLM 或 MLLM 對于直接處理文本形式的坐標數據并判斷其空間關系的能力有限，GoT-R1 提出將 GoT 推理鏈中規劃的對象坐標信息，在虛擬的空白畫布上渲染為包含具體邊界框的可視化圖像。隨后，將此圖像輸入 MLLM 進行判斷，評估其所展現的空間布局是否與原始文本提示中的空間關系描述（例如 “A 在 B 的左側”）相符。這種 “文本坐標 -> 可視化布局 -> MLLM 評估” 的轉換，顯著提升了空間關系獎勵信號的準確性和魯棒性。

2. 推理至圖像對齊獎勵 (RRI)：

旨在確保最終生成的圖像能夠忠實地執行 GoT 推理鏈中的規劃。具體實現方式是，利用 MLLM 在生成的圖像中定位出推理鏈中規劃的每一個對象，并獲取其在圖像中的實際邊界框。然后，通過計算規劃邊界框與圖像中實際邊界框之間的交并比（Intersection over Union, IoU），來量化圖像對推理鏈的遵循程度。

3. 文本提示至圖像對齊獎勵 (RPI)：

作為最終結果的評估，由 MLLM 從對象、屬性、布局等多個維度，綜合評價生成的圖像與原始輸入文本提示的整體一致性與符合度。

這些精心設計的多維度獎勵信號，與高效的組相對策略優化（Group Relative Policy Optimization, GRPO）強化學習算法相結合，使得 GoT-R1 模型（例如，基于 Janus-Pro 模型）在訓練過程中能夠主動探索并學習到更優質、更符合復雜指令的推理策略，而不僅僅是重復訓練數據中的固定模式。

GoT-R1模型：AR MLLM的強化學習訓練示意

驚艷效果：復雜場景生成新SOTA

GoT-R1 的效果如何？研究團隊在極具挑戰性的 T2I-CompBench 上進行了全面評估。

GoT-R1在T2I-Compbench下的量化評估

研究團隊將其與當前主流的三類模型進行了對比，包括：1) 擴散模型（如 Stable Diffusion 系列、DALLE-3、FLUX.1 等）；2) 布局引導的兩階段模型（如 Ranni、LayoutGPT）；以及3) 其他先進的自回歸模型（如 Emu3、Janus-Pro 等）。

評估結果顯示，GoT-R1-7B 模型在該基準測試上確立了新的 SOTA 性能。其強大之處體現在多個方面：首先，它在 T2I-CompBench 的六個評估類別中的五個（色彩、形狀、紋理、非空間屬性、復雜組合）取得了最高分。尤其是在由混合自然語言組合提示構成的 “Complex” 基準測試中，GoT-R1 展現出顯著優勢，證明了其在處理復雜、多層次指令上的卓越能力。

更重要的是，該成果清晰地展示了強化學習帶來的提升。與僅使用 GoT 數據集進行監督微調的基線模型（Janus-Pro-7B-GoT）相比，經過強化學習優化的 GoT-R1-7B 模型在評估指標上實現了高達 15% 的提升。例如，在紋理（Texture）和形狀（Shape）等類別的保真度上，GoT-R1-7B 相較于 GoT 微調模型取得了大幅度的進步。這些顯著的性能增益，有力地證明了 GoT-R1 通過強化學習引導模型自主優化推理路徑的策略，對于解決復雜的組合式圖像生成任務是切實有效的。

為了驗證強化學習是否真正提升了模型內在的推理能力，而非僅僅優化了最終的圖像輸出，研究團隊還對模型核心的 “思考過程”—— 即 “生成思維鏈”（Generation Chain-of-Thought）的質量本身進行了深入分析。為此，團隊采用 GPT-4o 作為第三方評估者，對 GoT-R1-7B 自主探索生成的推理鏈與僅經 GoT 監督微調的基線模型（Janus-Pro-7B-GoT）生成的推理鏈進行了一對一的比較。

評估結果具有壓倒性的說服力。GPT-4o 在所有評估類別中均明確地偏好由 GoT-R1 生成的推理鏈。例如，在對空間關系理解要求極高的 “Spatial” 類別提示中，GoT-R1 獲得了 84 票，而基線模型僅獲得 16 票。這一結果強有力地證明，GoT-R1 框架通過強化學習，不僅提升了最終圖像的生成質量，更從根本上優化了模型自身的推理能力，使其能夠生成更準確、更忠實于用戶意圖、邏輯更清晰的 “思維鏈”，而這正是其在復雜組合任務中取得成功的關鍵所在。

GPT-4o對強化學習前后推理鏈的一對一比較結果

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.