99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

港大等開源GoT-R1:強化學習解鎖視覺生成推理新范式

0
分享至



當前,多模態大模型在根據復雜文本提示生成高保真、語義一致的圖像方面取得了顯著進展,但在處理包含精確空間關系、多對象屬性及復雜組合的指令時,仍面臨挑戰。

針對此,來自香港大學 MMLab、香港中文大學 MMLab 和商湯科技的研究團隊,繼其先前發布的 Generation Chain-of-Thought (GoT) 框架之后,現推出重要進展 ——GoT-R1。



該新框架通過引入強化學習,顯著增強了多模態大模型在視覺生成任務中的語義 - 空間推理能力,使其能夠超越預定義模板,自主探索和學習更優的推理策略。GoT 和 GoT-R1 已全面開源。

  • GoT arxiv:https://arxiv.org/pdf/2503.10639
  • GoT github:https://github.com/rongyaofang/GoT
  • GoT-R1 arxiv:https://arxiv.org/pdf/2505.17022
  • GoT-R1 github:https://github.com/gogoduan/GoT-R1

GoT 框架首先通過引入顯式的語言推理過程,在生成圖像前對語義內容和空間布局進行規劃,從而提升了生成圖像的準確性和可控性 。然而,GoT 的推理能力主要源于基于人工定義模板的監督微調數據,這在一定程度上限制了模型自主發現更優推理策略的潛力,有時可能導致生成的推理鏈條未能完全忠實于用戶復雜的文本提示 。

GoT-R1 的提出,旨在克服上述局限。它將強化學習(RL)創新性地應用于視覺生成的語義 - 空間推理過程,賦予模型自主學習和優化推理路徑的能力。



強化學習訓練前后GoT預定義推理鏈與GoT-R1自由探索推理過程對比

GoT:奠定 “先思考后生成” 的基礎

理解 GoT-R1 之前,有必要回顧其基礎框架 GoT 。傳統的文本到圖像模型,如Stable Diffusion,FLUX 等,通常采用直接特征映射的方式,從文本嵌入到視覺特征,缺乏對場景內對象間復雜關系和空間布局的顯式推理過程 。這使得它們在面對包含多個實體、精確空間指令和細致屬性描述的復雜文本時,生成效果往往未達預期。

GoT 框架旨在應對這一挑戰,其核心思想是將 “直接生成” 模式轉變為 “先推理規劃,后引導生成” 的兩階段過程 。具體而言,GoT 首先將用戶輸入的文本提示(Prompt)解析并擴展為一個詳盡的 “生成思維鏈”(Generation Chain-of-Thought)。此思維鏈不僅包含對場景中各個構成元素的語義描述(例如,“一個現代風格的客廳,帶有 shabby chic 風格的觸感”)和具體物體(例如,“一個華麗的枝形吊燈”,“一個帶框的鏡子”),還附帶了這些物體在圖像中的精確空間坐標信息(例如,吊燈位于 (372,0), (613,254),鏡子位于 (157,251), (285,519)) 。隨后,這條融合了語義規劃與空間布局的思維鏈將作為精細化指令,指導后續的圖像擴散模型進行圖像生成,確保最終輸出與預先規劃高度吻合 。

GoT 框架的實現,依賴于構建的大規模推理鏈圖文對數據集(超過 900 萬樣本,包括 840 萬圖像生成樣本和 92 萬圖像編輯樣本 )以及先進的多模態大模型(如 Qwen2.5-VL )進行推理鏈的生成。此外,其獨創的語義 - 空間指導模塊(Semantic-Spatial Guidance Module, SSGM)進一步增強了擴散模型遵循推理鏈進行精確生成的能力 。



GoT模型:基于MLLM+Diffusion的圖片生成與編輯

GoT-R1:通過強化學習精進推理

盡管 GoT 在提升復雜場景生成方面取得了顯著成效,但其主要依賴監督學習范式,模型推理能力的提升受限于標注數據的模板和質量 。GoT-R1 則引入了強化學習,旨在突破這一瓶頸,賦予模型更強的自主學習和泛化能力。

GoT-R1 面臨的關鍵挑戰之一是為視覺生成任務設計一個全面且有效的獎勵(Reward)機制。該機制需要能夠準確評估生成結果的多個維度:不僅包括最終圖像與文本提示的語義一致性、空間布局的準確性、對象屬性的正確綁定以及圖像的整體美學質量 ,更重要的是,還需要對中間生成的 “思維鏈” 本身的質量進行監督,避免出現推理過程存在謬誤或與最終圖像不一致的情況 。

針對此,GoT-R1 構建了一個基于 MLLM 的雙階段、多維度獎勵框架,具體包含:

1. 推理過程評估獎勵 (RPR):

  • 語義對齊獎勵 (Rsem):利用 MLLM 評估所生成的 GoT 推理鏈在語義層面是否完整、是否忠實于原始輸入文本,以及是否存在內在邏輯矛盾或表述不清晰等問題 。
  • 空間對齊獎勵 (Rspa):此為 GoT-R1 的核心創新點。鑒于多數 LLM 或 MLLM 對于直接處理文本形式的坐標數據并判斷其空間關系的能力有限 ,GoT-R1 提出將 GoT 推理鏈中規劃的對象坐標信息,在虛擬的空白畫布上渲染為包含具體邊界框的可視化圖像。隨后,將此圖像輸入 MLLM 進行判斷,評估其所展現的空間布局是否與原始文本提示中的空間關系描述(例如 “A 在 B 的左側”)相符 。這種 “文本坐標 -> 可視化布局 -> MLLM 評估” 的轉換,顯著提升了空間關系獎勵信號的準確性和魯棒性 。

2. 推理至圖像對齊獎勵 (RRI):

旨在確保最終生成的圖像能夠忠實地執行 GoT 推理鏈中的規劃。具體實現方式是,利用 MLLM 在生成的圖像中定位出推理鏈中規劃的每一個對象,并獲取其在圖像中的實際邊界框。然后,通過計算規劃邊界框與圖像中實際邊界框之間的交并比(Intersection over Union, IoU),來量化圖像對推理鏈的遵循程度 。

3. 文本提示至圖像對齊獎勵 (RPI):

作為最終結果的評估,由 MLLM 從對象、屬性、布局等多個維度,綜合評價生成的圖像與原始輸入文本提示的整體一致性與符合度 。

這些精心設計的多維度獎勵信號,與高效的組相對策略優化(Group Relative Policy Optimization, GRPO)強化學習算法相結合 ,使得 GoT-R1 模型(例如,基于 Janus-Pro 模型 )在訓練過程中能夠主動探索并學習到更優質、更符合復雜指令的推理策略,而不僅僅是重復訓練數據中的固定模式。



GoT-R1模型:AR MLLM的強化學習訓練示意

驚艷效果:復雜場景生成新SOTA

GoT-R1 的效果如何?研究團隊在極具挑戰性的 T2I-CompBench 上進行了全面評估。



GoT-R1在T2I-Compbench下的量化評估

研究團隊將其與當前主流的三類模型進行了對比,包括:1) 擴散模型(如 Stable Diffusion 系列、DALLE-3、FLUX.1 等);2) 布局引導的兩階段模型(如 Ranni、LayoutGPT);以及3) 其他先進的自回歸模型(如 Emu3、Janus-Pro 等)。

評估結果顯示,GoT-R1-7B 模型在該基準測試上確立了新的 SOTA 性能 。其強大之處體現在多個方面:首先,它在 T2I-CompBench 的六個評估類別中的五個(色彩、形狀、紋理、非空間屬性、復雜組合)取得了最高分 。尤其是在由混合自然語言組合提示構成的 “Complex” 基準測試中,GoT-R1 展現出顯著優勢,證明了其在處理復雜、多層次指令上的卓越能力 。

更重要的是,該成果清晰地展示了強化學習帶來的提升。與僅使用 GoT 數據集進行監督微調的基線模型(Janus-Pro-7B-GoT)相比,經過強化學習優化的 GoT-R1-7B 模型在評估指標上實現了高達 15% 的提升。例如,在紋理(Texture)和形狀(Shape)等類別的保真度上,GoT-R1-7B 相較于 GoT 微調模型取得了大幅度的進步 。這些顯著的性能增益,有力地證明了 GoT-R1 通過強化學習引導模型自主優化推理路徑的策略,對于解決復雜的組合式圖像生成任務是切實有效的。

為了驗證強化學習是否真正提升了模型內在的推理能力,而非僅僅優化了最終的圖像輸出,研究團隊還對模型核心的 “思考過程”—— 即 “生成思維鏈”(Generation Chain-of-Thought)的質量本身進行了深入分析 。為此,團隊采用 GPT-4o 作為第三方評估者 ,對 GoT-R1-7B 自主探索生成的推理鏈與僅經 GoT 監督微調的基線模型(Janus-Pro-7B-GoT)生成的推理鏈進行了一對一的比較。

評估結果具有壓倒性的說服力。GPT-4o 在所有評估類別中均明確地偏好由 GoT-R1 生成的推理鏈。例如,在對空間關系理解要求極高的 “Spatial” 類別提示中,GoT-R1 獲得了 84 票,而基線模型僅獲得 16 票 。這一結果強有力地證明,GoT-R1 框架通過強化學習,不僅提升了最終圖像的生成質量,更從根本上優化了模型自身的推理能力,使其能夠生成更準確、更忠實于用戶意圖、邏輯更清晰的 “思維鏈”,而這正是其在復雜組合任務中取得成功的關鍵所在。



GPT-4o對強化學習前后推理鏈的一對一比較結果

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“父親縱火燒死母親”案,罪犯陳某衛已被執行死刑

“父親縱火燒死母親”案,罪犯陳某衛已被執行死刑

揚子晚報
2025-06-25 21:31:35
55歲周鴻祎曬照談清華讀博感受:清華的工科博士畢業率只有5%,爭取不做那95%

55歲周鴻祎曬照談清華讀博感受:清華的工科博士畢業率只有5%,爭取不做那95%

魯中晨報
2025-06-25 10:52:24
央視主持周濤近照流出,面相兇狠眼神犀利,網友:親和感哪去了?

央視主持周濤近照流出,面相兇狠眼神犀利,網友:親和感哪去了?

溫讀史
2025-06-25 15:50:16
為什么大型商超買不到國產香蕉了?

為什么大型商超買不到國產香蕉了?

有意思報告
2025-06-25 21:10:51
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
歐文和加福德皆在獨行俠獲新合同!PJ-華盛頓轉發送祝福

歐文和加福德皆在獨行俠獲新合同!PJ-華盛頓轉發送祝福

直播吧
2025-06-25 12:21:06
印度外長狂言“不合作就付代價”!“印度威脅論”遭群嘲…

印度外長狂言“不合作就付代價”!“印度威脅論”遭群嘲…

湊近看世界
2025-06-24 16:39:55
成都蓉城夢幻開局!韋世豪8分鐘傳射,單刀破門+兩連擊后助攻

成都蓉城夢幻開局!韋世豪8分鐘傳射,單刀破門+兩連擊后助攻

奧拜爾
2025-06-25 20:24:09
三方交易后綠軍接近簽回霍福德或科內特,老鷹確定不會簽回卡佩拉

三方交易后綠軍接近簽回霍福德或科內特,老鷹確定不會簽回卡佩拉

懂球帝
2025-06-25 11:52:07
40歲許瑋甯孕肚首曝光!臺媒稱她懷孕超7個月,輕撫巨肚母愛滿滿

40歲許瑋甯孕肚首曝光!臺媒稱她懷孕超7個月,輕撫巨肚母愛滿滿

小咪侃娛圈
2025-06-25 08:56:56
中美俄衛星定位精度差距太大!美0.1米,俄1.5米,中國北斗是多少

中美俄衛星定位精度差距太大!美0.1米,俄1.5米,中國北斗是多少

明月文史
2025-06-17 09:37:10
特朗普會見澤連斯基!事關烏克蘭,北約發表聯合宣言!特朗普:會考慮向烏提供愛國者導彈系統

特朗普會見澤連斯基!事關烏克蘭,北約發表聯合宣言!特朗普:會考慮向烏提供愛國者導彈系統

每日經濟新聞
2025-06-26 01:10:09
特朗普威脅稱若西班牙拒絕達到北約防務開支目標 將對其采取強硬貿易協議

特朗普威脅稱若西班牙拒絕達到北約防務開支目標 將對其采取強硬貿易協議

新浪財經
2025-06-26 00:02:08
43歲王寶強也沒想到,15歲兒子和14歲女兒,已經開始為他爭光了

43歲王寶強也沒想到,15歲兒子和14歲女兒,已經開始為他爭光了

橘子大娛社
2025-06-23 20:25:03
1000億,女首富又要IPO了

1000億,女首富又要IPO了

投資家
2025-06-25 21:37:08
人未出發,馮德萊恩三份戰書已到北京,中方反手將軍,中歐不談了

人未出發,馮德萊恩三份戰書已到北京,中方反手將軍,中歐不談了

大白話瞰世界
2025-06-24 14:08:02
浙江隊官方:王鈺棟賽后將前往醫院檢查左膝傷勢

浙江隊官方:王鈺棟賽后將前往醫院檢查左膝傷勢

直播吧
2025-06-25 22:05:15
吉林省剛剛預警!最高溫將達40℃以上

吉林省剛剛預警!最高溫將達40℃以上

魯中晨報
2025-06-25 06:52:08
專業分析報告:納坦茲核設施離心機被及其精準命中

專業分析報告:納坦茲核設施離心機被及其精準命中

仗劍看世界
2025-06-25 19:46:37
海南失聯女孩遺體已找到,不是親生,養父母還生了弟弟,細思極恐

海南失聯女孩遺體已找到,不是親生,養父母還生了弟弟,細思極恐

史行途
2025-06-25 17:59:37
2025-06-26 02:43:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10717文章數 142346關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

廣東一飯店米飯免費老人每天打米飯配醬油吃 店主發聲

頭條要聞

廣東一飯店米飯免費老人每天打米飯配醬油吃 店主發聲

體育要聞

驚艷世俱杯的39歲少帥,一個另類的巴西人

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

對話王媛:在世界的游樂場,一起龐巴迪

態度原創

親子
健康
游戲
教育
時尚

親子要聞

孩子燙傷后,并不是馬上去醫院!

呼吸科專家破解呼吸道九大謠言!

任天堂真的很嚴格!Switch2玩家因起名太騷被"ban機"

教育要聞

干貨!化學考前精華整理

古希臘掌管腿細的神!今夏最火的4雙鞋子,拯救短粗腿!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 彭阳县| 正定县| 通化县| 玉龙| 尉犁县| 苍山县| 吴桥县| 合山市| 旺苍县| 达日县| 专栏| 冀州市| 榆中县| 区。| 神木县| 台南市| 昂仁县| 黑水县| 扶风县| 乐山市| 武鸣县| 弥渡县| 喀什市| 甘泉县| 阜南县| 保康县| 宁国市| 文化| 徐州市| 潮州市| 合阳县| 丹棱县| 桂东县| 延津县| 荥经县| 乌什县| 门源| 囊谦县| 衡山县| 外汇| 柞水县|