99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

文生圖進入R1時代:港中文發布T2I-R1,讓AI繪畫“先推理再下筆”

0
分享至

港中文MMLab團隊 投稿
量子位 | 公眾號 QbitAI

“先推理、再作答”,語言大模型的Thinking模式,現在已經被拓展到了圖片領域。

近日,港中文MMLab團隊發布了第一個基于強化學習的推理增強文生圖模型:T2I-R1。



△文生圖進入R1時刻:港中文MMLab發布T2I-R1

大家都知道,OpenAI o1和DeepSeek-R1這類的大語言模型(LLMs),已經在解數學題和寫代碼這些需要“動腦筋”的事情上面展現出了較高的水平。

這些模型通過強化學習(RL),先使用全面的思維鏈(CoT)逐步分析問題,推理后再提供答案。

這種方法大大提高了答案的準確性,很適合用于處理一些復雜問題。

同理,如果能把強化學習應用在圖片理解的多模態大模型中(LMMs),像是圖片理解或者文生圖這樣的任務就能解決得更加出色。

想法是好的,但在實際操作中總會碰到一些問題:

比如,該如何將語義和生成結合起來,讓語義理解服務于圖像生成?

又比如,如何對圖像生成的結果進行質量評估,讓模型在生成中學習?

目前CoT推理策略如何應用于自回歸的圖片生成領域仍然處于探索階段,港中文MMLab之前的工作Image Generation with CoT(鏈接見文末)對這一領域就有過首次初步的嘗試:通過關注多種推理技術,找到了有效適應圖像生成的推理方法,并提出了專門用于自回歸圖像生成的評估獎勵模型。

而T2I-R1在此基礎上首次提出了雙層級的CoT推理框架BiCoT-GRPO強化學習方法

無需額外模型,即可實現文本到圖像生成的推理應用。

圖片生成的雙層推理解法

與圖片理解不同,圖片生成任務需要跨模態的文本與圖片的對齊以及細粒度的視覺細節的生成。

傳統的推理方法很難同時兼顧兩種能力,而現有的自回歸生成模型(如VAR)缺乏顯式的語義級推理能力。

為此,港中文團隊提出了適用于圖片生成的兩個不同層次的CoT推理



Semantic-level CoT

  • Semantic-level CoT 是對于要生成的圖像的文本推理,在圖像生成之前進行。
  • 負責設計圖像的全局結構,例如每個對象的外觀和位置。
  • 優化Semantic-level CoT可以在圖片Token的生成之前顯式地對于Prompt進行規劃和推理,使生成更容易。

Token-level CoT

  • Token-level CoT是圖片Token的逐塊的生成過程。這個過程可以被視為一種CoT形式,因為它同樣是在離散空間中基于所有先前的Token輸出后續的Token,與文本CoT類似。
  • Token-level CoT更專注于底層的細節,比如像素的生成和維持相鄰Patch之間的視覺連貫性。
  • 優化Token-level CoT可以提高生成圖片的質量以及Prompt與生成圖片之間的對齊。



統一的雙層級CoT框架

然而,盡管認識到這兩個層次的CoT,一個關鍵問題仍然存在:我們怎么協調與融合它們?

當前主流的自回歸圖片生成模型,如VAR,完全基于生成目標進行訓練,缺乏Semantic-level CoT推理所需的顯式文本理解。

雖然引入一個專門用于提示解釋的獨立模型(例如LLM)在技術上是可行的,但這種方法會顯著增加計算成本、復雜性和部署的困難。

最近也出現了一種將視覺理解和生成合并到單一模型中的趨勢:在LMMs的基礎上,這些結合了視覺理解和生成的統一LMMs(ULMs)不僅可以理解視覺輸入,還可以根據文本提示生成圖像。

可是,它們的兩種能力仍然是分開的,通常在兩個獨立階段進行預訓練。還沒有明確的證據表明,理解能力可以使生成受益。

鑒于這些潛力和問題,團隊從一個ULM(Janus-Pro)開始,增強它以將Semantic-level CoT以及Token-level CoT統一到一個框架中用于文本生成圖像:



BiCoT-GRPO實現協同優化

在雙層級CoT框架的理論基礎上,團隊提出了BiCoT-GRPO,一種使用強化學習的方法來聯合優化ULM的兩個層次的CoT:

首先,指示ULM基于Image Prompt來想象和規劃圖像,獲得Semantic-level CoT。

然后,將Image Prompt和Semantic-level CoT重新輸入ULM來生成圖片以獲得Token-level CoT。

這樣便能對一個Image Prompt生成多組Semantic-level CoT和Token-level CoT,又對得到的圖像計算組內的相對獎勵,從而更新GRPO,在一個訓練迭代內同時優化兩個層次的CoT。

BiCoT-GRPO方法首次在單一RL步驟中協同優化語義規劃與像素生成,相比起分階段訓練效率更高、計算成本更低。

T2I-R1:破解生成評估難題

與圖片的理解任務不同,理解任務有明確定義的獎勵規則,而圖像生成中不存在這樣的標準化的規則。

為此,港中文團隊提出使用多個不同的視覺專家模型的集成來作為獎勵模型。這種獎勵設計有兩個關鍵的目的:

  1. 它從多個維度評估生成的圖像以確保可靠的質量評估。
  2. 它作為一種正則化方法來防止ULM過擬合到某個單一的獎勵模型。



根據上述方法,該團隊獲得了T2I-R1——這是第一個基于強化學習的推理增強的文生圖模型。



根據T2I-R1生成的圖片,團隊發現模型能夠通過推理Image Prompt背后的真實意圖來生成更符合人類期望的結果,并在處理不尋常場景時展現出增強的魯棒性

同時,下面的可視化結果表明,Semantic-level CoT明顯有助于猜測出用戶的真實想法。

比如右上角的例子,加入了Semantic-level CoT的模型猜到了prompt指的是故宮;而Token-level CoT則負責得到更美觀的圖像。



定量的實驗結果也表明了該方法的有效性:

T2I-R1在T2I-CompBench和WISE在Benchmark上分別比baseline模型提高了13%和19%的性能,在多個子任務上甚至超越了之前最先進的模型FLUX.1。





綜上所述,T2I-R1的出現證明了CoT在圖像生成中的有效性,實現了高效可拓展的生成架構,為多模態生成任務提供了新的推理增強范式。

在未來,T2I-R1的框架或能進一步拓展至視頻生成、3D內容合成等復雜序列生成任務,推動生成式AI向”能思考、會創作”的通用智能體演進。

前序工作(Image Generation with CoT):
https://github.com/ZiyuGuo99/Image-Generation-CoT

論文:
https://arxiv.org/pdf/2505.00703

代碼:
https://github.com/CaraJ7/T2I-R1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王毅:今年秋天,中國將隆重紀念中國人民抗日戰爭勝利80周年

王毅:今年秋天,中國將隆重紀念中國人民抗日戰爭勝利80周年

封面新聞
2025-05-13 16:11:02
中國首金!青島啤酒0.0%無醇白啤勇奪2025啤酒世界杯金獎

中國首金!青島啤酒0.0%無醇白啤勇奪2025啤酒世界杯金獎

啤酒日報
2025-05-14 08:06:45
王騰喜提愛車:碳纖維雙風道版小米SU7 Ultra!網友直呼巨帥 4.2萬選配沒白花

王騰喜提愛車:碳纖維雙風道版小米SU7 Ultra!網友直呼巨帥 4.2萬選配沒白花

快科技
2025-05-14 19:54:07
向人民子弟兵致敬!天安門前哨兵在北京冰雹天氣中紋絲不動站崗執勤!

向人民子弟兵致敬!天安門前哨兵在北京冰雹天氣中紋絲不動站崗執勤!

閃電新聞
2025-05-14 14:46:12
老詹:我季后賽1次50分,塔圖姆:2次,艾弗森:3次,他:都讓讓

老詹:我季后賽1次50分,塔圖姆:2次,艾弗森:3次,他:都讓讓

大西體育
2025-05-14 23:59:28
中疾控提醒4月以來新冠感染呈上升趨勢,香港呼吁接種疫苗

中疾控提醒4月以來新冠感染呈上升趨勢,香港呼吁接種疫苗

南方都市報
2025-05-14 20:43:57
上海一區宣布:浦西第一高樓在這里!480米新地標+空中連廊+歷史建筑…北外灘大動作→

上海一區宣布:浦西第一高樓在這里!480米新地標+空中連廊+歷史建筑…北外灘大動作→

上觀新聞
2025-05-14 21:54:10
弗拉格投籃試訓表現:運球投籃30中21 三分25中15 罰球10中8

弗拉格投籃試訓表現:運球投籃30中21 三分25中15 罰球10中8

直播吧
2025-05-14 19:56:45
突發,美國宣布,在世界任何地方使用華為 芯片違反了美國的出口管制!網友:白宮嚴選,值得信賴

突發,美國宣布,在世界任何地方使用華為 芯片違反了美國的出口管制!網友:白宮嚴選,值得信賴

大白聊IT
2025-05-14 14:58:25
一個福建小伙提出一個解決臺灣問題的想法,可行性很高

一個福建小伙提出一個解決臺灣問題的想法,可行性很高

紅色鑒史官
2025-05-14 20:10:03
陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

山河月明史
2025-05-14 21:22:27
巴媒:巴西足協最終選擇安切洛蒂,熱蘇斯對此十分失望

巴媒:巴西足協最終選擇安切洛蒂,熱蘇斯對此十分失望

懂球帝
2025-05-14 21:09:09
劉國梁的新身份

劉國梁的新身份

新京報政事兒
2025-05-14 21:29:34
“陳志鵬正常了,蘇有朋又妖了”,網友喊話吳奇隆不要步后塵

“陳志鵬正常了,蘇有朋又妖了”,網友喊話吳奇隆不要步后塵

草莓解說體育
2025-05-14 05:13:12
舔狗經濟崩盤之后,所謂的小仙女的精致生活,也沒人買單了

舔狗經濟崩盤之后,所謂的小仙女的精致生活,也沒人買單了

加油丁小文
2025-05-14 05:59:14
賴清德稱臺灣與日本“像家人”,國臺辦:背叛民族,令人不齒

賴清德稱臺灣與日本“像家人”,國臺辦:背叛民族,令人不齒

政知新媒體
2025-05-14 11:34:21
中期選舉計票率已超97%!菲總統馬科斯陣營選情未達預期

中期選舉計票率已超97%!菲總統馬科斯陣營選情未達預期

魯中晨報
2025-05-14 17:32:04
這次救市,上面意思很明確,若樓市救不起來,那就組合拳?

這次救市,上面意思很明確,若樓市救不起來,那就組合拳?

說故事的阿襲
2025-05-14 00:52:53
人民日報除名!干爹和知情人再曝更多內幕,霍建華都被“拖下水”

人民日報除名!干爹和知情人再曝更多內幕,霍建華都被“拖下水”

卷史
2025-05-14 12:30:41
曼城重建計劃曝光!或夏窗豪擲3.5億,連簽5強援,中場大洗牌

曼城重建計劃曝光!或夏窗豪擲3.5億,連簽5強援,中場大洗牌

奧拜爾
2025-05-14 21:18:18
2025-05-15 00:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10478文章數 176142關注度
往期回顧 全部

科技要聞

騰訊開始靠AI賺錢 馬化騰:貢獻是實質性的

頭條要聞

印度外交部聲稱明確反對中國對藏南地區命名 中方駁斥

頭條要聞

印度外交部聲稱明確反對中國對藏南地區命名 中方駁斥

體育要聞

NBA最被低估球員,帶隊爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時間線被扒!

財經要聞

中美互降關稅:企業搶發貨 貨代頻爆單

汽車要聞

配獵鷹駕駛輔助系統/軸距超3米 風云A9L預計6月交付

態度原創

健康
本地
手機
游戲
公開課

唇皰疹和口腔潰瘍是"同伙"嗎?

本地新聞

比演唱會還貴,這個新型理財產品收割了多少錢包

手機要聞

明日發布!OPPO Reno14系列詳細參數匯總:全系1.5K直屏+3.5倍潛望

TES直落兩局,碾壓WE!網友:TES繼續領跑積分榜!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新昌县| 巴彦淖尔市| 弥勒县| 内黄县| 正安县| 大名县| 青田县| 桃江县| 奇台县| 宜兴市| 丹阳市| 莲花县| 山东省| 滨州市| 海南省| 大庆市| 文成县| 桦川县| 民丰县| 红原县| 武胜县| 临高县| 宜兴市| 若羌县| 柯坪县| 中牟县| 林口县| 荥经县| 铜鼓县| 五常市| 讷河市| 海原县| 阿巴嘎旗| 武清区| 富顺县| 苍山县| 万荣县| 柯坪县| 含山县| 聂拉木县| 恩施市|