99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦聯(lián)合南洋理工提出基于視覺Grounding的多輪強(qiáng)化學(xué)習(xí)框架MGPO

0
分享至



本文的主要作者來自復(fù)旦大學(xué)和南洋理工大學(xué) S-Lab,研究方向聚焦于視覺推理與強(qiáng)化學(xué)習(xí)優(yōu)化。

先進(jìn)的多模態(tài)大模型(Large Multi-Modal Models, LMMs)通常基于大語言模型(Large Language Models, LLMs)結(jié)合原生分辨率視覺 Transformer(NaViT)構(gòu)建。然而,這類模型在處理高分辨率圖像時面臨瓶頸:高分辨率圖像會轉(zhuǎn)化為海量視覺 Token,其中大部分與任務(wù)無關(guān),既增加了計算負(fù)擔(dān),也干擾了模型對關(guān)鍵信息的捕捉。

為解決這一問題,復(fù)旦大學(xué)、南洋理工大學(xué)的研究者提出一種基于視覺 Grounding 的多輪強(qiáng)化學(xué)習(xí)方法 MGPO,使 LMM 能在多輪交互中根據(jù)問題,自動預(yù)測關(guān)鍵區(qū)域坐標(biāo),裁剪子圖像并整合歷史上下文,最終實現(xiàn)高分辨率圖像的精準(zhǔn)推理。相比監(jiān)督微調(diào)(SFT)需要昂貴的 Grounding 標(biāo)注作為監(jiān)督,MGPO 證明了在強(qiáng)化學(xué)習(xí)(RL)范式中,即使沒有 Grounding 標(biāo)注,模型也能從 「最終答案是否正確」的反饋中,涌現(xiàn)出魯棒的視覺 Grounding 能力。

MGPO 的核心創(chuàng)新點包括: 1)自上而下的可解釋視覺推理:賦予了 LMMs 針對高分辨率場景的 「自上而下、問題驅(qū)動」 視覺搜索機(jī)制,提供可解釋的視覺 Grounding 輸出; 2)突破最大像素限制:即使因視覺 Token 數(shù)受限導(dǎo)致高分辨率圖像縮放后模糊,模型仍能準(zhǔn)確識別相關(guān)區(qū)域坐標(biāo),從原始高分辨率圖像中裁剪出清晰子圖像用于后續(xù)分析; 3)無需額外 Grounding 標(biāo)注:可直接在標(biāo)準(zhǔn) VQA 數(shù)據(jù)集上進(jìn)行 RL 訓(xùn)練,僅基于答案監(jiān)督就能讓模型涌現(xiàn)出魯棒的視覺 Grounding 能力。



  • 標(biāo)題:High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2507.05920
  • 代碼地址:https://github.com/EvolvingLMMs-Lab/MGPO



圖 1:基于 MGPO 訓(xùn)練的模型性能展示,在處理高分辨率圖像時,模型會根據(jù)問題輸出關(guān)鍵區(qū)域坐標(biāo),然后自動觸發(fā)圖像裁剪函數(shù),返回清晰的子圖幫助模型回答問題。

介紹

當(dāng)前,以 Qwen2.5-VL 為代表的多模態(tài)大模型(LMMs)通常基于強(qiáng)大的語言模型(如 Qwen2.5)結(jié)合外部原生分辨率視覺 Transformer(NaViT)構(gòu)建。然而,這類模型在處理高分辨圖像任務(wù)時面臨挑戰(zhàn):高分辨率圖像會轉(zhuǎn)換成海量視覺 Token,其中大部分與任務(wù)無關(guān),既增加了計算負(fù)擔(dān),也干擾了模型對關(guān)鍵信息的捕捉。

相比之下,在處理高分辨率真實場景時,人類視覺系統(tǒng)會采用任務(wù)驅(qū)動的視覺搜索策略,首先定位,再仔細(xì)審視關(guān)鍵興趣區(qū)域。受這一生物機(jī)制啟發(fā),我們嘗試通過視覺 Grounding 為 LMMs 賦予類似的視覺搜索能力,使其聚焦于圖像中的關(guān)鍵區(qū)域。

但傳統(tǒng)視覺 Grounding 模型需依賴大量 Grounding 標(biāo)注進(jìn)行訓(xùn)練,而此類標(biāo)注成本較高。有沒有可能不需要額外 Grounding 標(biāo)注,僅通過最終答案的正確性對模型進(jìn)行獎勵,就讓模型自動學(xué)會 「找重點」?

我們的答案是:可以。本文提出基于視覺 Grounding 的多輪強(qiáng)化學(xué)習(xí)算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多輪交互中自動預(yù)測關(guān)鍵區(qū)域坐標(biāo)、裁剪子圖像并整合歷史上下文,最終實現(xiàn)高分辨率圖像的精準(zhǔn)推理。我們的實驗證明,即使沒有任何 Grounding 標(biāo)注,模型也能從 「最終答案是否正確」 的獎勵反饋中,涌現(xiàn)出魯棒的視覺定位能力

方法概覽

MGPO 的核心思想是模擬人類的多步視覺推理過程:給定高分辨率圖像和問題,模型先預(yù)測關(guān)鍵區(qū)域的坐標(biāo),裁剪出子圖像;再結(jié)合原始圖像和子圖像的上下文,進(jìn)行下一步推理。

下圖比較了 MGPO 與 SFT、GRPO 的區(qū)別,MGPO 可以僅靠正確答案的監(jiān)督信息,涌現(xiàn)魯棒的視覺 Grounding 能力。



解決 「冷啟動」:固定兩回合對話模板

在實際訓(xùn)練中,我們發(fā)現(xiàn) LLMs 在 Rollout 過程中,難以自主在中間過程調(diào)用 Grounding 能力,使得 RL 訓(xùn)練過程緩慢。為了解決模型的冷啟動問題,我們設(shè)計了一個固定兩輪對話模板(如下圖所示),在第一輪對話中明確要求模型只輸出與問題相關(guān)的區(qū)域坐標(biāo),在第二輪對話中再要求模型回答問題。



處理高分辨率:坐標(biāo)歸一化與子圖像裁剪

受限于模型能夠處理的視覺 Token 數(shù)量,高分辨率圖往往會被縮放成模糊圖像,導(dǎo)致細(xì)節(jié)丟失。如下圖所示,當(dāng)處理縮放圖像時,MGPO 會先定位到與問題相關(guān)的區(qū)域,再從原始圖像中裁剪出清晰的子圖,確保模型能夠正確回答相關(guān)問題。



實驗結(jié)果

1.不同范式對比

基于相同訓(xùn)練數(shù)據(jù)下,我們對比了 SFT、GRPO、MGPO 在兩個高分辨率圖像 Benchmark 的表現(xiàn):MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。實驗結(jié)果顯示,GRPO 相較于 SFT 并未帶來顯著性能提升,這與之前多模態(tài)數(shù)學(xué)任務(wù)的研究結(jié)論相反。我們推測,對于高分辨率視覺中心任務(wù),核心挑戰(zhàn)在于讓模型感知細(xì)粒度圖像細(xì)節(jié),而非進(jìn)行復(fù)雜的長鏈推理。

相比之下,MGPO 取得了顯著提升,相比 GRPO 在 MME-Realworld、V* Bench 分別提升 5.4%、5.2%。我們還將結(jié)果與 OpenAI 的 o1、GPT-4o 在 V* Bench 上進(jìn)行了對比,盡管我們的模型僅基于 7B 模型、用 2.1 萬樣本訓(xùn)練,經(jīng)過 MGPO 訓(xùn)練的模型仍超過了這兩個商業(yè)大模型。



2.RL 訓(xùn)練過程中視覺 Grounding 能力的涌現(xiàn)

我們統(tǒng)計了 GRPO 與 MGPO 兩種 RL 框架訓(xùn)練過程中,模型生成的有效 Grounding 坐標(biāo)比例。結(jié)果顯示,MGPO 的有效比例隨訓(xùn)練迭代呈現(xiàn)顯著上升趨勢,證明了 MGPO 僅需利用標(biāo)準(zhǔn) VQA 數(shù)據(jù)(無需額外 Grounding 標(biāo)注),就能在 RL 訓(xùn)練過程中自主涌現(xiàn)出穩(wěn)定、精準(zhǔn)的視覺 Grounding 能力。



總結(jié)

MGPO 通過多輪強(qiáng)化學(xué)習(xí)算法激活視覺 Grounding 能力,有效提升了多模態(tài)大模型處理高分辨率圖像時的 「視覺 Token 冗余」 和 「關(guān)鍵信息丟失」 等問題。同時,實驗證明了,相比 SFT 需要昂貴的 Grounding 標(biāo)注,RL 算法可以僅通過最終答案的獎勵反饋,使得模型自主涌現(xiàn)出魯棒的 Grounding 能力,避免了對昂貴 Grounding 標(biāo)注的依賴。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中美芯片戰(zhàn),中國到底處于什么水平?專家:形勢對我們已非常不利

中美芯片戰(zhàn),中國到底處于什么水平?專家:形勢對我們已非常不利

丹妮觀
2025-07-24 12:14:54
泰國總理發(fā)出“戰(zhàn)爭警告”,短短幾十小時內(nèi),局勢超出所有人預(yù)料

泰國總理發(fā)出“戰(zhàn)爭警告”,短短幾十小時內(nèi),局勢超出所有人預(yù)料

混沌錄
2025-07-26 01:35:10
江蘇本科補(bǔ)錄巨變:蘇大還有3個缺額,南醫(yī)大626,江大534

江蘇本科補(bǔ)錄巨變:蘇大還有3個缺額,南醫(yī)大626,江大534

戶外釣魚哥阿勇
2025-07-26 01:27:39
被嚴(yán)肅處理!國安部:某科研人員違規(guī)使用AI軟件,擅自將核心數(shù)據(jù)上傳,致涉密信息泄露

被嚴(yán)肅處理!國安部:某科研人員違規(guī)使用AI軟件,擅自將核心數(shù)據(jù)上傳,致涉密信息泄露

醫(yī)諾維
2025-07-25 17:10:21
生完孩子后,我出軌的欲望非常強(qiáng)烈!(女性勿入)

生完孩子后,我出軌的欲望非常強(qiáng)烈!(女性勿入)

性學(xué)研究僧
2025-06-17 22:37:40
窮兇極惡!連開7槍射殺中國男子的“寶龍”被捕,竟是多國在逃犯

窮兇極惡!連開7槍射殺中國男子的“寶龍”被捕,竟是多國在逃犯

三公子娛樂丫
2025-07-25 14:35:48
預(yù)售破7000萬,觀眾暴怒下單,陳佩斯的“絕地反擊”,遲到了45年

預(yù)售破7000萬,觀眾暴怒下單,陳佩斯的“絕地反擊”,遲到了45年

洲洲影視娛評
2025-07-24 15:06:41
浙江誕生的空調(diào)“老四”:一年賣出1870萬臺,營收接近300億元

浙江誕生的空調(diào)“老四”:一年賣出1870萬臺,營收接近300億元

火星人雜談
2025-07-24 16:58:34
八路軍撤退時發(fā)現(xiàn)士兵路邊撒尿,楊成武立刻反應(yīng)過來:前方有埋伏

八路軍撤退時發(fā)現(xiàn)士兵路邊撒尿,楊成武立刻反應(yīng)過來:前方有埋伏

第四思維
2025-07-02 18:25:18
不知不覺間,李嘉誠的風(fēng)評在慢慢好轉(zhuǎn)

不知不覺間,李嘉誠的風(fēng)評在慢慢好轉(zhuǎn)

清暉有墨
2025-07-23 11:17:10
跨國戀?國乒冠軍選手與日乒20歲名將戀情疑似曝光,甜蜜公開約會

跨國戀?國乒冠軍選手與日乒20歲名將戀情疑似曝光,甜蜜公開約會

塵語者
2025-07-24 12:49:35
勵志!中超棄將逆襲,身價暴漲50倍!登陸五大聯(lián)賽,打臉中國足球

勵志!中超棄將逆襲,身價暴漲50倍!登陸五大聯(lián)賽,打臉中國足球

國足風(fēng)云
2025-07-25 16:29:30
泰國與柬埔寨為什么打起來了?誰厲害?

泰國與柬埔寨為什么打起來了?誰厲害?

點評校尉
2025-07-24 23:26:12
探花界哪個角色是你心中No.1?女大學(xué)生?護(hù)士?幼師?還是空姐?

探花界哪個角色是你心中No.1?女大學(xué)生?護(hù)士?幼師?還是空姐?

說真話的小陳
2025-07-19 09:21:13
朱莉&皮特的女兒公開出柜,兒子飆車酗酒,親媽心力交瘁

朱莉&皮特的女兒公開出柜,兒子飆車酗酒,親媽心力交瘁

每日一見
2025-07-25 10:06:21
里子面子都輸了!同是唱別人寫的歌,王菲給張碧晨好好上了一課

里子面子都輸了!同是唱別人寫的歌,王菲給張碧晨好好上了一課

悠閑歷史
2025-07-25 15:33:41
在健身房,被惡心到了。

在健身房,被惡心到了。

健身迷
2025-07-02 00:21:44
馬云預(yù)言說對了?如果不出意外,2025年樓市將發(fā)生大變化

馬云預(yù)言說對了?如果不出意外,2025年樓市將發(fā)生大變化

平說財經(jīng)
2025-07-25 23:36:00
邊境沖突不斷,局勢持續(xù)升級,泰國和柬埔寨究竟怎么了?

邊境沖突不斷,局勢持續(xù)升級,泰國和柬埔寨究竟怎么了?

上觀新聞
2025-07-25 15:36:59
我主刀30年被降級,領(lǐng)導(dǎo)點名要我手術(shù),我說:我辭職了,院長懵了

我主刀30年被降級,領(lǐng)導(dǎo)點名要我手術(shù),我說:我辭職了,院長懵了

紅豆講堂
2025-06-30 17:20:10
2025-07-26 03:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10945文章數(shù) 142393關(guān)注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團(tuán)滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權(quán)

財經(jīng)要聞

劉煜輝:當(dāng)下重要不是找確定性而是轉(zhuǎn)折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態(tài)度原創(chuàng)

旅游
時尚
游戲
藝術(shù)
本地

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

今年夏天一定要有這件衣服,好看又復(fù)古!

《無主之地4》已開發(fā)完畢進(jìn)廠壓盤

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天|風(fēng)拂鹽湖,躲進(jìn)格爾木的盛夏清涼

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 习水县| 镶黄旗| 星座| 仪陇县| 神农架林区| 浦城县| 阳泉市| 栾川县| 乐昌市| 枝江市| 许昌市| 揭东县| 红河县| 巴楚县| 漠河县| 鲜城| 日喀则市| 汕尾市| 通辽市| 搜索| 舒兰市| 菏泽市| 青川县| 榆林市| 山东| 敦煌市| 延长县| 庆阳市| 河源市| 尤溪县| 万年县| 鄱阳县| 浙江省| 凌海市| 杭锦旗| 宾川县| 民乐县| 兰州市| 衡阳县| 德化县| 张北县|