99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復旦聯(lián)合南洋理工提出基于視覺Grounding的多輪強化學習框架MGPO

0
分享至



本文的主要作者來自復旦大學和南洋理工大學 S-Lab,研究方向聚焦于視覺推理與強化學習優(yōu)化。

先進的多模態(tài)大模型(Large Multi-Modal Models, LMMs)通常基于大語言模型(Large Language Models, LLMs)結(jié)合原生分辨率視覺 Transformer(NaViT)構(gòu)建。然而,這類模型在處理高分辨率圖像時面臨瓶頸:高分辨率圖像會轉(zhuǎn)化為海量視覺 Token,其中大部分與任務無關(guān),既增加了計算負擔,也干擾了模型對關(guān)鍵信息的捕捉。

為解決這一問題,復旦大學、南洋理工大學的研究者提出一種基于視覺 Grounding 的多輪強化學習方法 MGPO,使 LMM 能在多輪交互中根據(jù)問題,自動預測關(guān)鍵區(qū)域坐標,裁剪子圖像并整合歷史上下文,最終實現(xiàn)高分辨率圖像的精準推理。相比監(jiān)督微調(diào)(SFT)需要昂貴的 Grounding 標注作為監(jiān)督,MGPO 證明了在強化學習(RL)范式中,即使沒有 Grounding 標注,模型也能從 「最終答案是否正確」的反饋中,涌現(xiàn)出魯棒的視覺 Grounding 能力。

MGPO 的核心創(chuàng)新點包括: 1)自上而下的可解釋視覺推理:賦予了 LMMs 針對高分辨率場景的 「自上而下、問題驅(qū)動」 視覺搜索機制,提供可解釋的視覺 Grounding 輸出; 2)突破最大像素限制:即使因視覺 Token 數(shù)受限導致高分辨率圖像縮放后模糊,模型仍能準確識別相關(guān)區(qū)域坐標,從原始高分辨率圖像中裁剪出清晰子圖像用于后續(xù)分析; 3)無需額外 Grounding 標注:可直接在標準 VQA 數(shù)據(jù)集上進行 RL 訓練,僅基于答案監(jiān)督就能讓模型涌現(xiàn)出魯棒的視覺 Grounding 能力。



  • 標題:High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2507.05920
  • 代碼地址:https://github.com/EvolvingLMMs-Lab/MGPO



圖 1:基于 MGPO 訓練的模型性能展示,在處理高分辨率圖像時,模型會根據(jù)問題輸出關(guān)鍵區(qū)域坐標,然后自動觸發(fā)圖像裁剪函數(shù),返回清晰的子圖幫助模型回答問題。

介紹

當前,以 Qwen2.5-VL 為代表的多模態(tài)大模型(LMMs)通常基于強大的語言模型(如 Qwen2.5)結(jié)合外部原生分辨率視覺 Transformer(NaViT)構(gòu)建。然而,這類模型在處理高分辨圖像任務時面臨挑戰(zhàn):高分辨率圖像會轉(zhuǎn)換成海量視覺 Token,其中大部分與任務無關(guān),既增加了計算負擔,也干擾了模型對關(guān)鍵信息的捕捉。

相比之下,在處理高分辨率真實場景時,人類視覺系統(tǒng)會采用任務驅(qū)動的視覺搜索策略,首先定位,再仔細審視關(guān)鍵興趣區(qū)域。受這一生物機制啟發(fā),我們嘗試通過視覺 Grounding 為 LMMs 賦予類似的視覺搜索能力,使其聚焦于圖像中的關(guān)鍵區(qū)域。

但傳統(tǒng)視覺 Grounding 模型需依賴大量 Grounding 標注進行訓練,而此類標注成本較高。有沒有可能不需要額外 Grounding 標注,僅通過最終答案的正確性對模型進行獎勵,就讓模型自動學會 「找重點」?

我們的答案是:可以。本文提出基于視覺 Grounding 的多輪強化學習算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多輪交互中自動預測關(guān)鍵區(qū)域坐標、裁剪子圖像并整合歷史上下文,最終實現(xiàn)高分辨率圖像的精準推理。我們的實驗證明,即使沒有任何 Grounding 標注,模型也能從 「最終答案是否正確」 的獎勵反饋中,涌現(xiàn)出魯棒的視覺定位能力

方法概覽

MGPO 的核心思想是模擬人類的多步視覺推理過程:給定高分辨率圖像和問題,模型先預測關(guān)鍵區(qū)域的坐標,裁剪出子圖像;再結(jié)合原始圖像和子圖像的上下文,進行下一步推理。

下圖比較了 MGPO 與 SFT、GRPO 的區(qū)別,MGPO 可以僅靠正確答案的監(jiān)督信息,涌現(xiàn)魯棒的視覺 Grounding 能力。



解決 「冷啟動」:固定兩回合對話模板

在實際訓練中,我們發(fā)現(xiàn) LLMs 在 Rollout 過程中,難以自主在中間過程調(diào)用 Grounding 能力,使得 RL 訓練過程緩慢。為了解決模型的冷啟動問題,我們設計了一個固定兩輪對話模板(如下圖所示),在第一輪對話中明確要求模型只輸出與問題相關(guān)的區(qū)域坐標,在第二輪對話中再要求模型回答問題。



處理高分辨率:坐標歸一化與子圖像裁剪

受限于模型能夠處理的視覺 Token 數(shù)量,高分辨率圖往往會被縮放成模糊圖像,導致細節(jié)丟失。如下圖所示,當處理縮放圖像時,MGPO 會先定位到與問題相關(guān)的區(qū)域,再從原始圖像中裁剪出清晰的子圖,確保模型能夠正確回答相關(guān)問題。



實驗結(jié)果

1.不同范式對比

基于相同訓練數(shù)據(jù)下,我們對比了 SFT、GRPO、MGPO 在兩個高分辨率圖像 Benchmark 的表現(xiàn):MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。實驗結(jié)果顯示,GRPO 相較于 SFT 并未帶來顯著性能提升,這與之前多模態(tài)數(shù)學任務的研究結(jié)論相反。我們推測,對于高分辨率視覺中心任務,核心挑戰(zhàn)在于讓模型感知細粒度圖像細節(jié),而非進行復雜的長鏈推理。

相比之下,MGPO 取得了顯著提升,相比 GRPO 在 MME-Realworld、V* Bench 分別提升 5.4%、5.2%。我們還將結(jié)果與 OpenAI 的 o1、GPT-4o 在 V* Bench 上進行了對比,盡管我們的模型僅基于 7B 模型、用 2.1 萬樣本訓練,經(jīng)過 MGPO 訓練的模型仍超過了這兩個商業(yè)大模型。



2.RL 訓練過程中視覺 Grounding 能力的涌現(xiàn)

我們統(tǒng)計了 GRPO 與 MGPO 兩種 RL 框架訓練過程中,模型生成的有效 Grounding 坐標比例。結(jié)果顯示,MGPO 的有效比例隨訓練迭代呈現(xiàn)顯著上升趨勢,證明了 MGPO 僅需利用標準 VQA 數(shù)據(jù)(無需額外 Grounding 標注),就能在 RL 訓練過程中自主涌現(xiàn)出穩(wěn)定、精準的視覺 Grounding 能力。



總結(jié)

MGPO 通過多輪強化學習算法激活視覺 Grounding 能力,有效提升了多模態(tài)大模型處理高分辨率圖像時的 「視覺 Token 冗余」 和 「關(guān)鍵信息丟失」 等問題。同時,實驗證明了,相比 SFT 需要昂貴的 Grounding 標注,RL 算法可以僅通過最終答案的獎勵反饋,使得模型自主涌現(xiàn)出魯棒的 Grounding 能力,避免了對昂貴 Grounding 標注的依賴。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
條件不符就別尬演!《掃毒風暴》鄭浩南告訴你,啥叫狠人天花板

條件不符就別尬演!《掃毒風暴》鄭浩南告訴你,啥叫狠人天花板

嫹筆牂牂
2025-07-24 07:27:38
綠洲珠寶行血案,浙江6任廳長追兇22年,抓到嫌犯后大家都愣住了

綠洲珠寶行血案,浙江6任廳長追兇22年,抓到嫌犯后大家都愣住了

崖邊行
2025-06-27 21:11:22
船記:11年保羅來之前快船賽季勝率從未超60%,保羅來之后每個賽季都超60%

船記:11年保羅來之前快船賽季勝率從未超60%,保羅來之后每個賽季都超60%

雷速體育
2025-07-25 11:54:55
7月25日,江蘇2025退休金調(diào)整,兩降兩持平,掛鉤0.2%,2千漲多少

7月25日,江蘇2025退休金調(diào)整,兩降兩持平,掛鉤0.2%,2千漲多少

虎哥閑聊
2025-07-25 11:35:12
比亞迪失控繞圈?警方:車沒失控,人失控了,聯(lián)系不到客人而急躁

比亞迪失控繞圈?警方:車沒失控,人失控了,聯(lián)系不到客人而急躁

超角度
2025-07-24 21:09:47
特朗普訪華行程確認,中美或?qū)⒆儞Q交鋒城市

特朗普訪華行程確認,中美或?qū)⒆儞Q交鋒城市

科技有趣事
2025-07-24 10:34:55
彭德懷被關(guān)押6年后,周總理病榻上只對他說了三個字

彭德懷被關(guān)押6年后,周總理病榻上只對他說了三個字

星宇共鳴
2025-07-24 17:53:28
周星馳新電影《女足》殺瘋了!這次主角換她們上場!

周星馳新電影《女足》殺瘋了!這次主角換她們上場!

陳意小可愛
2025-07-23 11:15:54
中國芯片專家在米蘭被捕后續(xù),中方出手了,僅用一招讓美吃啞巴虧

中國芯片專家在米蘭被捕后續(xù),中方出手了,僅用一招讓美吃啞巴虧

二大爺觀世界
2025-07-24 16:40:04
DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術(shù)全都開源免費【附大模型行業(yè)市場分析】

DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術(shù)全都開源免費【附大模型行業(yè)市場分析】

前瞻網(wǎng)
2025-07-25 09:17:51
確診超3600例!基孔肯雅熱患者:感染后關(guān)節(jié)疼痛、發(fā)熱、出現(xiàn)大片皮疹

確診超3600例!基孔肯雅熱患者:感染后關(guān)節(jié)疼痛、發(fā)熱、出現(xiàn)大片皮疹

封面新聞
2025-07-25 02:24:11
烈日暴曬之后的特斯拉為什么幾乎無異味?

烈日暴曬之后的特斯拉為什么幾乎無異味?

特斯拉
2025-06-09 16:22:13
泰柬開打,誰是背后推手?

泰柬開打,誰是背后推手?

楊風
2025-07-24 22:10:02
6筆簽約正式達成!克拉克斯頓加盟湖人、威金斯去馬刺的交易傳聞

6筆簽約正式達成!克拉克斯頓加盟湖人、威金斯去馬刺的交易傳聞

老骾體育解說
2025-07-25 09:57:40
攻不了守不住,在西藏上空被印度空軍足足欺負了40年的中國空軍

攻不了守不住,在西藏上空被印度空軍足足欺負了40年的中國空軍

小雪的運動之心
2025-07-17 05:19:42
姐夫被提拔為鎮(zhèn)書記后,和姐姐離婚,我調(diào)任縣委書記后姐夫被免職

姐夫被提拔為鎮(zhèn)書記后,和姐姐離婚,我調(diào)任縣委書記后姐夫被免職

喬生桂
2025-07-21 13:40:50
失聯(lián)高中生胡一嘯已在緬甸脫險

失聯(lián)高中生胡一嘯已在緬甸脫險

界面新聞
2025-07-25 10:50:48
全網(wǎng)震怒!陳可辛踩紅線邀“港獨”藝人,香港票房僅48萬血本無歸

全網(wǎng)震怒!陳可辛踩紅線邀“港獨”藝人,香港票房僅48萬血本無歸

草莓解說體育
2025-07-24 08:18:29
林子祥和葉蒨文好恩愛!定居廣州生活愜意,葉蒨文和繼子關(guān)系很好

林子祥和葉蒨文好恩愛!定居廣州生活愜意,葉蒨文和繼子關(guān)系很好

歸史
2025-07-25 08:57:35
Siegel:庫明加接受資質(zhì)報價像是個威脅 這樣做的結(jié)果通常不好

Siegel:庫明加接受資質(zhì)報價像是個威脅 這樣做的結(jié)果通常不好

直播吧
2025-07-25 09:18:13
2025-07-25 12:47:03
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10938文章數(shù) 142393關(guān)注度
往期回顧 全部

科技要聞

特斯拉周四股價大跌8%,馬斯克罕見示弱

頭條要聞

柬埔寨譴責泰軍使用集束炸彈 泰方暫無回應

頭條要聞

柬埔寨譴責泰軍使用集束炸彈 泰方暫無回應

體育要聞

誰敢相信她45歲了?大女主從不受限

娛樂要聞

董璇婚后為女兒與丈夫張維伊分居?

財經(jīng)要聞

特斯拉,下神壇

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態(tài)度原創(chuàng)

家居
健康
教育
數(shù)碼
軍事航空

家居要聞

環(huán)繞設計 空間動線合理

呼吸科專家破解呼吸道九大謠言!

教育要聞

你怎么看?評論區(qū)留言

數(shù)碼要聞

榮耀筆記本X14/X16 Plus 2025正式開售 國補3199元起

軍事要聞

泰國軍方稱已出動F-16戰(zhàn)機 摧毀柬方兩處軍事設施

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 弥渡县| 象州县| 铁力市| 通化县| 黎城县| 皋兰县| 沙坪坝区| 沂南县| 莱芜市| 彭阳县| 岳阳市| 铜川市| 喀喇| 朝阳市| 汕尾市| 古浪县| 丹东市| 高安市| 衡南县| 云浮市| 建始县| 新丰县| 翁源县| 新郑市| 仙桃市| 鸡东县| 海城市| 三穗县| 揭东县| 明水县| 兴城市| 台江县| 钟山县| 柳林县| 涞水县| 天峻县| 左贡县| 象州县| 包头市| 张家界市| 石首市|