99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

復旦聯合南洋理工提出基于視覺Grounding的多輪強化學習框架MGPO

0
分享至



本文的主要作者來自復旦大學和南洋理工大學 S-Lab,研究方向聚焦于視覺推理與強化學習優化。

先進的多模態大模型(Large Multi-Modal Models, LMMs)通常基于大語言模型(Large Language Models, LLMs)結合原生分辨率視覺 Transformer(NaViT)構建。然而,這類模型在處理高分辨率圖像時面臨瓶頸:高分辨率圖像會轉化為海量視覺 Token,其中大部分與任務無關,既增加了計算負擔,也干擾了模型對關鍵信息的捕捉。

為解決這一問題,復旦大學、南洋理工大學的研究者提出一種基于視覺 Grounding 的多輪強化學習方法 MGPO,使 LMM 能在多輪交互中根據問題,自動預測關鍵區域坐標,裁剪子圖像并整合歷史上下文,最終實現高分辨率圖像的精準推理。相比監督微調(SFT)需要昂貴的 Grounding 標注作為監督,MGPO 證明了在強化學習(RL)范式中,即使沒有 Grounding 標注,模型也能從 「最終答案是否正確」的反饋中,涌現出魯棒的視覺 Grounding 能力。

MGPO 的核心創新點包括: 1)自上而下的可解釋視覺推理:賦予了 LMMs 針對高分辨率場景的 「自上而下、問題驅動」 視覺搜索機制,提供可解釋的視覺 Grounding 輸出; 2)突破最大像素限制:即使因視覺 Token 數受限導致高分辨率圖像縮放后模糊,模型仍能準確識別相關區域坐標,從原始高分辨率圖像中裁剪出清晰子圖像用于后續分析; 3)無需額外 Grounding 標注:可直接在標準 VQA 數據集上進行 RL 訓練,僅基于答案監督就能讓模型涌現出魯棒的視覺 Grounding 能力。



  • 標題:High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2507.05920
  • 代碼地址:https://github.com/EvolvingLMMs-Lab/MGPO



圖 1:基于 MGPO 訓練的模型性能展示,在處理高分辨率圖像時,模型會根據問題輸出關鍵區域坐標,然后自動觸發圖像裁剪函數,返回清晰的子圖幫助模型回答問題。

介紹

當前,以 Qwen2.5-VL 為代表的多模態大模型(LMMs)通常基于強大的語言模型(如 Qwen2.5)結合外部原生分辨率視覺 Transformer(NaViT)構建。然而,這類模型在處理高分辨圖像任務時面臨挑戰:高分辨率圖像會轉換成海量視覺 Token,其中大部分與任務無關,既增加了計算負擔,也干擾了模型對關鍵信息的捕捉。

相比之下,在處理高分辨率真實場景時,人類視覺系統會采用任務驅動的視覺搜索策略,首先定位,再仔細審視關鍵興趣區域。受這一生物機制啟發,我們嘗試通過視覺 Grounding 為 LMMs 賦予類似的視覺搜索能力,使其聚焦于圖像中的關鍵區域。

但傳統視覺 Grounding 模型需依賴大量 Grounding 標注進行訓練,而此類標注成本較高。有沒有可能不需要額外 Grounding 標注,僅通過最終答案的正確性對模型進行獎勵,就讓模型自動學會 「找重點」?

我們的答案是:可以。本文提出基于視覺 Grounding 的多輪強化學習算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多輪交互中自動預測關鍵區域坐標、裁剪子圖像并整合歷史上下文,最終實現高分辨率圖像的精準推理。我們的實驗證明,即使沒有任何 Grounding 標注,模型也能從 「最終答案是否正確」 的獎勵反饋中,涌現出魯棒的視覺定位能力

方法概覽

MGPO 的核心思想是模擬人類的多步視覺推理過程:給定高分辨率圖像和問題,模型先預測關鍵區域的坐標,裁剪出子圖像;再結合原始圖像和子圖像的上下文,進行下一步推理。

下圖比較了 MGPO 與 SFT、GRPO 的區別,MGPO 可以僅靠正確答案的監督信息,涌現魯棒的視覺 Grounding 能力。



解決 「冷啟動」:固定兩回合對話模板

在實際訓練中,我們發現 LLMs 在 Rollout 過程中,難以自主在中間過程調用 Grounding 能力,使得 RL 訓練過程緩慢。為了解決模型的冷啟動問題,我們設計了一個固定兩輪對話模板(如下圖所示),在第一輪對話中明確要求模型只輸出與問題相關的區域坐標,在第二輪對話中再要求模型回答問題。



處理高分辨率:坐標歸一化與子圖像裁剪

受限于模型能夠處理的視覺 Token 數量,高分辨率圖往往會被縮放成模糊圖像,導致細節丟失。如下圖所示,當處理縮放圖像時,MGPO 會先定位到與問題相關的區域,再從原始圖像中裁剪出清晰的子圖,確保模型能夠正確回答相關問題。



實驗結果

1.不同范式對比

基于相同訓練數據下,我們對比了 SFT、GRPO、MGPO 在兩個高分辨率圖像 Benchmark 的表現:MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。實驗結果顯示,GRPO 相較于 SFT 并未帶來顯著性能提升,這與之前多模態數學任務的研究結論相反。我們推測,對于高分辨率視覺中心任務,核心挑戰在于讓模型感知細粒度圖像細節,而非進行復雜的長鏈推理。

相比之下,MGPO 取得了顯著提升,相比 GRPO 在 MME-Realworld、V* Bench 分別提升 5.4%、5.2%。我們還將結果與 OpenAI 的 o1、GPT-4o 在 V* Bench 上進行了對比,盡管我們的模型僅基于 7B 模型、用 2.1 萬樣本訓練,經過 MGPO 訓練的模型仍超過了這兩個商業大模型。



2.RL 訓練過程中視覺 Grounding 能力的涌現

我們統計了 GRPO 與 MGPO 兩種 RL 框架訓練過程中,模型生成的有效 Grounding 坐標比例。結果顯示,MGPO 的有效比例隨訓練迭代呈現顯著上升趨勢,證明了 MGPO 僅需利用標準 VQA 數據(無需額外 Grounding 標注),就能在 RL 訓練過程中自主涌現出穩定、精準的視覺 Grounding 能力。



總結

MGPO 通過多輪強化學習算法激活視覺 Grounding 能力,有效提升了多模態大模型處理高分辨率圖像時的 「視覺 Token 冗余」 和 「關鍵信息丟失」 等問題。同時,實驗證明了,相比 SFT 需要昂貴的 Grounding 標注,RL 算法可以僅通過最終答案的獎勵反饋,使得模型自主涌現出魯棒的 Grounding 能力,避免了對昂貴 Grounding 標注的依賴。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國足球復蘇!多位球星登陸中超,中甲新援身價千萬!寒冬已結束

中國足球復蘇!多位球星登陸中超,中甲新援身價千萬!寒冬已結束

國足風云
2025-07-22 17:26:46
伊朗:沒有停止鈾濃縮項目!特朗普:如有必要,美國還會再次摧毀伊朗核設施!英法德三國警告

伊朗:沒有停止鈾濃縮項目!特朗普:如有必要,美國還會再次摧毀伊朗核設施!英法德三國警告

每日經濟新聞
2025-07-22 09:59:10
中國出現“新型窮人”:明明擁有千萬資產,卻連1萬元都拿不出來

中國出現“新型窮人”:明明擁有千萬資產,卻連1萬元都拿不出來

巢客HOME
2025-06-24 08:35:03
記者:引進恩瓦內里失敗后,多特的前場引援工作從頭開始

記者:引進恩瓦內里失敗后,多特的前場引援工作從頭開始

懂球帝
2025-07-23 01:53:08
突然,南通這些學校關停!

突然,南通這些學校關停!

南通樓市新觀察
2025-07-22 18:27:41
追平20集《朝雪錄》,替楊紫感到可惜。

追平20集《朝雪錄》,替楊紫感到可惜。

二姐的書影時光
2025-07-21 18:11:45
記者:皇馬前鋒阿爾瓦羅-羅德里格斯今天將與埃爾切簽約

記者:皇馬前鋒阿爾瓦羅-羅德里格斯今天將與埃爾切簽約

懂球帝
2025-07-22 19:08:15
突發!都美竹的節目被下架!

突發!都美竹的節目被下架!

嘻笑堂
2025-07-23 00:01:54
20多國領導人確定出席!中方正式宣布,特朗普也接到了邀請

20多國領導人確定出席!中方正式宣布,特朗普也接到了邀請

一個有靈魂的作者
2025-07-22 13:46:12
不要觀望了,趕緊賣房!

不要觀望了,趕緊賣房!

七叔東山再起
2025-07-22 21:16:11
記者:威少仍未獲得新合同,這位36歲的球員可能已臨近職業生涯的終點

記者:威少仍未獲得新合同,這位36歲的球員可能已臨近職業生涯的終點

雷速體育
2025-07-22 08:30:27
港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

木子愛娛樂大號
2025-07-05 09:37:33
17年綠軍4換1得到歐文,后來這些球員發展如何?歐文輾轉多隊

17年綠軍4換1得到歐文,后來這些球員發展如何?歐文輾轉多隊

大衛的籃球故事
2025-07-21 22:50:39
74歲張紀中抱女兒挑戰過山車,女兒太像爹,年齡不過關挑戰失敗

74歲張紀中抱女兒挑戰過山車,女兒太像爹,年齡不過關挑戰失敗

草莓解說體育
2025-07-23 01:24:50
公交困局:當50萬的公交車,被600塊的電雞逼到懸崖邊

公交困局:當50萬的公交車,被600塊的電雞逼到懸崖邊

娛樂洞察點點
2025-07-22 14:50:39
隊記:比爾自愿將3號球衣給保羅穿 自己還沒決定穿幾號

隊記:比爾自愿將3號球衣給保羅穿 自己還沒決定穿幾號

直播吧
2025-07-23 01:22:08
午后突發,直線漲停,利好來了!

午后突發,直線漲停,利好來了!

數據寶
2025-07-22 20:21:13
女子10年從未出過門,點外賣網購維持生活,鄰居:從未見過她出門

女子10年從未出過門,點外賣網購維持生活,鄰居:從未見過她出門

罪案洞察者
2025-06-24 09:34:20
市場監管總局暫停對杜邦中國集團有限公司的反壟斷調查程序

市場監管總局暫停對杜邦中國集團有限公司的反壟斷調查程序

YOUNG財經
2025-07-22 21:12:01
天津孫大爺遺產風波 姐弟倆為爭300萬遺產發現均非親生

天津孫大爺遺產風波 姐弟倆為爭300萬遺產發現均非親生

大象新聞
2025-07-22 07:16:03
2025-07-23 02:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10916文章數 142391關注度
往期回顧 全部

科技要聞

李開復推企業級Agent,誓要打造"超級員工"

頭條要聞

廣東確診已超2000例 傳染源是什么 如何控制

頭條要聞

廣東確診已超2000例 傳染源是什么 如何控制

體育要聞

哈利:受傷時想自己走下場但發現走不了 科比竟然還能去罰球

娛樂要聞

葉珂復播 自曝產女后與黃曉明徹底分手

財經要聞

宗馥莉掌控離岸公司 遺產爭奪或早有布局

汽車要聞

看著像保時捷?賓利首款純電動車諜照曝光

態度原創

藝術
房產
健康
教育
手機

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

新增2500個學位!海口又一超級學校來了!

呼吸科專家破解呼吸道九大謠言!

教育要聞

留學中介最喜歡吹捧的幾所英國大學!

手機要聞

一加15與一加Ace 6系列:或雙機齊發,且配置規格也懸念不大了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阿瓦提县| 高淳县| 息烽县| 酉阳| 黄冈市| 武强县| 白朗县| 江阴市| 江西省| 永寿县| 司法| 安图县| 西充县| 兰州市| 金门县| 临桂县| 巴青县| 靖州| 滦南县| 灌南县| 万安县| 正镶白旗| 郓城县| 兰考县| 沅陵县| 铜梁县| 重庆市| 吉安县| 无为县| 寻乌县| 汤阴县| 渑池县| 青浦区| 沈阳市| 夏河县| 三原县| 登封市| 广灵县| 布尔津县| 合阳县| 湖北省|