本文的主要作者來自復(fù)旦大學(xué)和南洋理工大學(xué) S-Lab,研究方向聚焦于視覺推理與強(qiáng)化學(xué)習(xí)優(yōu)化。
先進(jìn)的多模態(tài)大模型(Large Multi-Modal Models, LMMs)通常基于大語言模型(Large Language Models, LLMs)結(jié)合原生分辨率視覺 Transformer(NaViT)構(gòu)建。然而,這類模型在處理高分辨率圖像時面臨瓶頸:高分辨率圖像會轉(zhuǎn)化為海量視覺 Token,其中大部分與任務(wù)無關(guān),既增加了計算負(fù)擔(dān),也干擾了模型對關(guān)鍵信息的捕捉。
為解決這一問題,復(fù)旦大學(xué)、南洋理工大學(xué)的研究者提出一種基于視覺 Grounding 的多輪強(qiáng)化學(xué)習(xí)方法 MGPO,使 LMM 能在多輪交互中根據(jù)問題,自動預(yù)測關(guān)鍵區(qū)域坐標(biāo),裁剪子圖像并整合歷史上下文,最終實現(xiàn)高分辨率圖像的精準(zhǔn)推理。相比監(jiān)督微調(diào)(SFT)需要昂貴的 Grounding 標(biāo)注作為監(jiān)督,MGPO 證明了在強(qiáng)化學(xué)習(xí)(RL)范式中,即使沒有 Grounding 標(biāo)注,模型也能從 「最終答案是否正確」的反饋中,涌現(xiàn)出魯棒的視覺 Grounding 能力。
MGPO 的核心創(chuàng)新點包括: 1)自上而下的可解釋視覺推理:賦予了 LMMs 針對高分辨率場景的 「自上而下、問題驅(qū)動」 視覺搜索機(jī)制,提供可解釋的視覺 Grounding 輸出; 2)突破最大像素限制:即使因視覺 Token 數(shù)受限導(dǎo)致高分辨率圖像縮放后模糊,模型仍能準(zhǔn)確識別相關(guān)區(qū)域坐標(biāo),從原始高分辨率圖像中裁剪出清晰子圖像用于后續(xù)分析; 3)無需額外 Grounding 標(biāo)注:可直接在標(biāo)準(zhǔn) VQA 數(shù)據(jù)集上進(jìn)行 RL 訓(xùn)練,僅基于答案監(jiān)督就能讓模型涌現(xiàn)出魯棒的視覺 Grounding 能力。
- 標(biāo)題:High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2507.05920
- 代碼地址:https://github.com/EvolvingLMMs-Lab/MGPO
圖 1:基于 MGPO 訓(xùn)練的模型性能展示,在處理高分辨率圖像時,模型會根據(jù)問題輸出關(guān)鍵區(qū)域坐標(biāo),然后自動觸發(fā)圖像裁剪函數(shù),返回清晰的子圖幫助模型回答問題。
介紹
當(dāng)前,以 Qwen2.5-VL 為代表的多模態(tài)大模型(LMMs)通常基于強(qiáng)大的語言模型(如 Qwen2.5)結(jié)合外部原生分辨率視覺 Transformer(NaViT)構(gòu)建。然而,這類模型在處理高分辨圖像任務(wù)時面臨挑戰(zhàn):高分辨率圖像會轉(zhuǎn)換成海量視覺 Token,其中大部分與任務(wù)無關(guān),既增加了計算負(fù)擔(dān),也干擾了模型對關(guān)鍵信息的捕捉。
相比之下,在處理高分辨率真實場景時,人類視覺系統(tǒng)會采用任務(wù)驅(qū)動的視覺搜索策略,首先定位,再仔細(xì)審視關(guān)鍵興趣區(qū)域。受這一生物機(jī)制啟發(fā),我們嘗試通過視覺 Grounding 為 LMMs 賦予類似的視覺搜索能力,使其聚焦于圖像中的關(guān)鍵區(qū)域。
但傳統(tǒng)視覺 Grounding 模型需依賴大量 Grounding 標(biāo)注進(jìn)行訓(xùn)練,而此類標(biāo)注成本較高。有沒有可能不需要額外 Grounding 標(biāo)注,僅通過最終答案的正確性對模型進(jìn)行獎勵,就讓模型自動學(xué)會 「找重點」?
我們的答案是:可以。本文提出基于視覺 Grounding 的多輪強(qiáng)化學(xué)習(xí)算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多輪交互中自動預(yù)測關(guān)鍵區(qū)域坐標(biāo)、裁剪子圖像并整合歷史上下文,最終實現(xiàn)高分辨率圖像的精準(zhǔn)推理。我們的實驗證明,即使沒有任何 Grounding 標(biāo)注,模型也能從 「最終答案是否正確」 的獎勵反饋中,涌現(xiàn)出魯棒的視覺定位能力
方法概覽
MGPO 的核心思想是模擬人類的多步視覺推理過程:給定高分辨率圖像和問題,模型先預(yù)測關(guān)鍵區(qū)域的坐標(biāo),裁剪出子圖像;再結(jié)合原始圖像和子圖像的上下文,進(jìn)行下一步推理。
下圖比較了 MGPO 與 SFT、GRPO 的區(qū)別,MGPO 可以僅靠正確答案的監(jiān)督信息,涌現(xiàn)魯棒的視覺 Grounding 能力。
解決 「冷啟動」:固定兩回合對話模板
在實際訓(xùn)練中,我們發(fā)現(xiàn) LLMs 在 Rollout 過程中,難以自主在中間過程調(diào)用 Grounding 能力,使得 RL 訓(xùn)練過程緩慢。為了解決模型的冷啟動問題,我們設(shè)計了一個固定兩輪對話模板(如下圖所示),在第一輪對話中明確要求模型只輸出與問題相關(guān)的區(qū)域坐標(biāo),在第二輪對話中再要求模型回答問題。
處理高分辨率:坐標(biāo)歸一化與子圖像裁剪
受限于模型能夠處理的視覺 Token 數(shù)量,高分辨率圖往往會被縮放成模糊圖像,導(dǎo)致細(xì)節(jié)丟失。如下圖所示,當(dāng)處理縮放圖像時,MGPO 會先定位到與問題相關(guān)的區(qū)域,再從原始圖像中裁剪出清晰的子圖,確保模型能夠正確回答相關(guān)問題。
實驗結(jié)果
1.不同范式對比
基于相同訓(xùn)練數(shù)據(jù)下,我們對比了 SFT、GRPO、MGPO 在兩個高分辨率圖像 Benchmark 的表現(xiàn):MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。實驗結(jié)果顯示,GRPO 相較于 SFT 并未帶來顯著性能提升,這與之前多模態(tài)數(shù)學(xué)任務(wù)的研究結(jié)論相反。我們推測,對于高分辨率視覺中心任務(wù),核心挑戰(zhàn)在于讓模型感知細(xì)粒度圖像細(xì)節(jié),而非進(jìn)行復(fù)雜的長鏈推理。
相比之下,MGPO 取得了顯著提升,相比 GRPO 在 MME-Realworld、V* Bench 分別提升 5.4%、5.2%。我們還將結(jié)果與 OpenAI 的 o1、GPT-4o 在 V* Bench 上進(jìn)行了對比,盡管我們的模型僅基于 7B 模型、用 2.1 萬樣本訓(xùn)練,經(jīng)過 MGPO 訓(xùn)練的模型仍超過了這兩個商業(yè)大模型。
2.RL 訓(xùn)練過程中視覺 Grounding 能力的涌現(xiàn)
我們統(tǒng)計了 GRPO 與 MGPO 兩種 RL 框架訓(xùn)練過程中,模型生成的有效 Grounding 坐標(biāo)比例。結(jié)果顯示,MGPO 的有效比例隨訓(xùn)練迭代呈現(xiàn)顯著上升趨勢,證明了 MGPO 僅需利用標(biāo)準(zhǔn) VQA 數(shù)據(jù)(無需額外 Grounding 標(biāo)注),就能在 RL 訓(xùn)練過程中自主涌現(xiàn)出穩(wěn)定、精準(zhǔn)的視覺 Grounding 能力。
總結(jié)
MGPO 通過多輪強(qiáng)化學(xué)習(xí)算法激活視覺 Grounding 能力,有效提升了多模態(tài)大模型處理高分辨率圖像時的 「視覺 Token 冗余」 和 「關(guān)鍵信息丟失」 等問題。同時,實驗證明了,相比 SFT 需要昂貴的 Grounding 標(biāo)注,RL 算法可以僅通過最終答案的獎勵反饋,使得模型自主涌現(xiàn)出魯棒的 Grounding 能力,避免了對昂貴 Grounding 標(biāo)注的依賴。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.