當前,多模態大模型在根據復雜文本提示生成高保真、語義一致的圖像方面取得了顯著進展,但在處理包含精確空間關系、多對象屬性及復雜組合的指令時,仍面臨挑戰。
針對此,來自香港大學 MMLab、香港中文大學 MMLab 和商湯科技的研究團隊,繼其先前發布的 Generation Chain-of-Thought (GoT) 框架之后,現推出重要進展 ——GoT-R1。
該新框架通過引入強化學習,顯著增強了多模態大模型在視覺生成任務中的語義 - 空間推理能力,使其能夠超越預定義模板,自主探索和學習更優的推理策略。GoT 和 GoT-R1 已全面開源。
- GoT arxiv:https://arxiv.org/pdf/2503.10639
- GoT github:https://github.com/rongyaofang/GoT
- GoT-R1 arxiv:https://arxiv.org/pdf/2505.17022
- GoT-R1 github:https://github.com/gogoduan/GoT-R1
GoT 框架首先通過引入顯式的語言推理過程,在生成圖像前對語義內容和空間布局進行規劃,從而提升了生成圖像的準確性和可控性 。然而,GoT 的推理能力主要源于基于人工定義模板的監督微調數據,這在一定程度上限制了模型自主發現更優推理策略的潛力,有時可能導致生成的推理鏈條未能完全忠實于用戶復雜的文本提示 。
GoT-R1 的提出,旨在克服上述局限。它將強化學習(RL)創新性地應用于視覺生成的語義 - 空間推理過程,賦予模型自主學習和優化推理路徑的能力。
強化學習訓練前后GoT預定義推理鏈與GoT-R1自由探索推理過程對比
GoT:奠定 “先思考后生成” 的基礎
理解 GoT-R1 之前,有必要回顧其基礎框架 GoT 。傳統的文本到圖像模型,如Stable Diffusion,FLUX 等,通常采用直接特征映射的方式,從文本嵌入到視覺特征,缺乏對場景內對象間復雜關系和空間布局的顯式推理過程 。這使得它們在面對包含多個實體、精確空間指令和細致屬性描述的復雜文本時,生成效果往往未達預期。
GoT 框架旨在應對這一挑戰,其核心思想是將 “直接生成” 模式轉變為 “先推理規劃,后引導生成” 的兩階段過程 。具體而言,GoT 首先將用戶輸入的文本提示(Prompt)解析并擴展為一個詳盡的 “生成思維鏈”(Generation Chain-of-Thought)。此思維鏈不僅包含對場景中各個構成元素的語義描述(例如,“一個現代風格的客廳,帶有 shabby chic 風格的觸感”)和具體物體(例如,“一個華麗的枝形吊燈”,“一個帶框的鏡子”),還附帶了這些物體在圖像中的精確空間坐標信息(例如,吊燈位于 (372,0), (613,254),鏡子位于 (157,251), (285,519)) 。隨后,這條融合了語義規劃與空間布局的思維鏈將作為精細化指令,指導后續的圖像擴散模型進行圖像生成,確保最終輸出與預先規劃高度吻合 。
GoT 框架的實現,依賴于構建的大規模推理鏈圖文對數據集(超過 900 萬樣本,包括 840 萬圖像生成樣本和 92 萬圖像編輯樣本 )以及先進的多模態大模型(如 Qwen2.5-VL )進行推理鏈的生成。此外,其獨創的語義 - 空間指導模塊(Semantic-Spatial Guidance Module, SSGM)進一步增強了擴散模型遵循推理鏈進行精確生成的能力 。
GoT模型:基于MLLM+Diffusion的圖片生成與編輯
GoT-R1:通過強化學習精進推理
盡管 GoT 在提升復雜場景生成方面取得了顯著成效,但其主要依賴監督學習范式,模型推理能力的提升受限于標注數據的模板和質量 。GoT-R1 則引入了強化學習,旨在突破這一瓶頸,賦予模型更強的自主學習和泛化能力。
GoT-R1 面臨的關鍵挑戰之一是為視覺生成任務設計一個全面且有效的獎勵(Reward)機制。該機制需要能夠準確評估生成結果的多個維度:不僅包括最終圖像與文本提示的語義一致性、空間布局的準確性、對象屬性的正確綁定以及圖像的整體美學質量 ,更重要的是,還需要對中間生成的 “思維鏈” 本身的質量進行監督,避免出現推理過程存在謬誤或與最終圖像不一致的情況 。
針對此,GoT-R1 構建了一個基于 MLLM 的雙階段、多維度獎勵框架,具體包含:
1. 推理過程評估獎勵 (RPR):
- 語義對齊獎勵 (Rsem):利用 MLLM 評估所生成的 GoT 推理鏈在語義層面是否完整、是否忠實于原始輸入文本,以及是否存在內在邏輯矛盾或表述不清晰等問題 。
- 空間對齊獎勵 (Rspa):此為 GoT-R1 的核心創新點。鑒于多數 LLM 或 MLLM 對于直接處理文本形式的坐標數據并判斷其空間關系的能力有限 ,GoT-R1 提出將 GoT 推理鏈中規劃的對象坐標信息,在虛擬的空白畫布上渲染為包含具體邊界框的可視化圖像。隨后,將此圖像輸入 MLLM 進行判斷,評估其所展現的空間布局是否與原始文本提示中的空間關系描述(例如 “A 在 B 的左側”)相符 。這種 “文本坐標 -> 可視化布局 -> MLLM 評估” 的轉換,顯著提升了空間關系獎勵信號的準確性和魯棒性 。
2. 推理至圖像對齊獎勵 (RRI):
旨在確保最終生成的圖像能夠忠實地執行 GoT 推理鏈中的規劃。具體實現方式是,利用 MLLM 在生成的圖像中定位出推理鏈中規劃的每一個對象,并獲取其在圖像中的實際邊界框。然后,通過計算規劃邊界框與圖像中實際邊界框之間的交并比(Intersection over Union, IoU),來量化圖像對推理鏈的遵循程度 。
3. 文本提示至圖像對齊獎勵 (RPI):
作為最終結果的評估,由 MLLM 從對象、屬性、布局等多個維度,綜合評價生成的圖像與原始輸入文本提示的整體一致性與符合度 。
這些精心設計的多維度獎勵信號,與高效的組相對策略優化(Group Relative Policy Optimization, GRPO)強化學習算法相結合 ,使得 GoT-R1 模型(例如,基于 Janus-Pro 模型 )在訓練過程中能夠主動探索并學習到更優質、更符合復雜指令的推理策略,而不僅僅是重復訓練數據中的固定模式。
GoT-R1模型:AR MLLM的強化學習訓練示意
驚艷效果:復雜場景生成新SOTA
GoT-R1 的效果如何?研究團隊在極具挑戰性的 T2I-CompBench 上進行了全面評估。
GoT-R1在T2I-Compbench下的量化評估
研究團隊將其與當前主流的三類模型進行了對比,包括:1) 擴散模型(如 Stable Diffusion 系列、DALLE-3、FLUX.1 等);2) 布局引導的兩階段模型(如 Ranni、LayoutGPT);以及3) 其他先進的自回歸模型(如 Emu3、Janus-Pro 等)。
評估結果顯示,GoT-R1-7B 模型在該基準測試上確立了新的 SOTA 性能 。其強大之處體現在多個方面:首先,它在 T2I-CompBench 的六個評估類別中的五個(色彩、形狀、紋理、非空間屬性、復雜組合)取得了最高分 。尤其是在由混合自然語言組合提示構成的 “Complex” 基準測試中,GoT-R1 展現出顯著優勢,證明了其在處理復雜、多層次指令上的卓越能力 。
更重要的是,該成果清晰地展示了強化學習帶來的提升。與僅使用 GoT 數據集進行監督微調的基線模型(Janus-Pro-7B-GoT)相比,經過強化學習優化的 GoT-R1-7B 模型在評估指標上實現了高達 15% 的提升。例如,在紋理(Texture)和形狀(Shape)等類別的保真度上,GoT-R1-7B 相較于 GoT 微調模型取得了大幅度的進步 。這些顯著的性能增益,有力地證明了 GoT-R1 通過強化學習引導模型自主優化推理路徑的策略,對于解決復雜的組合式圖像生成任務是切實有效的。
為了驗證強化學習是否真正提升了模型內在的推理能力,而非僅僅優化了最終的圖像輸出,研究團隊還對模型核心的 “思考過程”—— 即 “生成思維鏈”(Generation Chain-of-Thought)的質量本身進行了深入分析 。為此,團隊采用 GPT-4o 作為第三方評估者 ,對 GoT-R1-7B 自主探索生成的推理鏈與僅經 GoT 監督微調的基線模型(Janus-Pro-7B-GoT)生成的推理鏈進行了一對一的比較。
評估結果具有壓倒性的說服力。GPT-4o 在所有評估類別中均明確地偏好由 GoT-R1 生成的推理鏈。例如,在對空間關系理解要求極高的 “Spatial” 類別提示中,GoT-R1 獲得了 84 票,而基線模型僅獲得 16 票 。這一結果強有力地證明,GoT-R1 框架通過強化學習,不僅提升了最終圖像的生成質量,更從根本上優化了模型自身的推理能力,使其能夠生成更準確、更忠實于用戶意圖、邏輯更清晰的 “思維鏈”,而這正是其在復雜組合任務中取得成功的關鍵所在。
GPT-4o對強化學習前后推理鏈的一對一比較結果
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.