網易首頁 > 網易號 > 正文申請入駐

20個樣本，搞定多模態思維鏈！UCSC重磅開源：邊畫框，邊思考

2025-06-18 16:55:24　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】GRIT能讓多模態大語言模型（MLLM）通過生成自然語言和圖像框坐標結合的推理鏈進行「圖像思維」，僅需20個訓練樣本即可實現優越性能！

現有開源多模態推理模型（Multimodal Reasoning Model）生成的推理鏈幾乎都是純自然語言，缺少對圖像信息的顯式引用與整合。

讓多模態大語言模型（MLLM）既能條理清晰的思考，又能真正將推理過程「落到畫面」上，在實現上仍然存在兩個難點：

1. 全是自然語言的思考內容看似很長，其內容有可能脫離圖像信息，不一定能真正「看圖說話」；

2. 教會模型新的看圖思考方式動輒要成千上萬條有標注的數據，門檻極高。

針對此問題，加州大學圣克魯斯分校的研究人員提出了GRIT (Grounded Reasoning with Images & Texts)模型，具有高關聯和輕量級的特性。

論文地址：https://arxiv.org/abs/2505.15879

代碼鏈接：https://github.com/eric-ai-lab/GRIT

在線Demo：https://grounded-reasoning.github.io/

· 高關聯

模型可以在思考鏈里隨時插入框坐標，實現真正的「圖像思維」（Thinking with Images）。

GRIT采用的Grounded Reasoning范式，一次模型推理，[x1,y1,x2,y2]框直接織進思考鏈，實現「思路和證據同步」，所想即所見。

· 輕量級

其訓練方法GRPO-GR具備三重獎勵（答案、格式、框），實現零人工標注，僅用20張圖像與問答的訓練數據就能教會模型畫框+推理。

GRIT二板斧

Grounded Reasoning

Grounded Reasoning范式建立在多模態大語言模型已具備的兩項原生能力——視覺定位 (grounding) 與語言推理 (reasoning)——之上，目標是把二者深度融合：

讓模型在「想」（生成推理鏈）的同時「指」（輸出精準框坐標），從而讓「慢思考」不再停留在純自然語言，而是真正做到「所見即所想，所想即所指」。

給模型一張圖和問題，會一次性返回兩段式結果(c, a)：

推理鏈c—以開頭，模型邊寫自然語言，邊在需要時插入[x1,y1,x2,y2]形式的框坐標，之后引導的重思考將進一步整合框坐標對應的圖像信息；
最終答案a—在標簽后給出答案。

在c的生成過程中，模型每一步都可以自由決定是繼續寫文字還是生成一個框坐標。

輸出框坐標后，模型不會再回讀對應像素，而是繼續token輸出，要求模型理解并利用框坐標信息，融入后續推理，就像模型給自己出了一道Referring Expression Generation（REC）任務一樣。

Grounded Reasoning范式通過只傳遞數字坐標，避免了裁剪圖像或多輪回輸信息的計算開銷，流程輕量。

在此范式之下模型的輸出里的框坐標可以直接畫出，成為其推理的「看圖」依據，讀者既能讀到它的思考，也能順著坐標直接驗證圖中證據。

GRPO-GR訓練

為了讓模型在極小的數據量下就學會畫框來輔助推理，GRIT 采用了專門的強化學習方法GRPO-GR

它在GRPO的基礎上，引入三個獎勵信號來直接驅動策略 π_θ 生成符合grounded reasoning范式的序列。

格式獎勵 (r_format)信號檢查模型輸出的整體結構是否合規：

是否正確使用、等特殊標記；
插入的邊界框[x1,y1,x2,y2]語法是否有效、坐標是否在合法區間內。通過懲罰任何格式錯誤，模型很快學會在文字與坐標之間靈活、規范地切換。

計數獎勵 (r_count)：對于要求回答某物體數量的問題，計數獎勵的信號鼓勵模型的輸出要數量上符合答案，最好一個框對應一個相關物體。

r_count對比推理鏈里框的個數與真實答案中的數量：二者一致即得分，否則扣分；可以讓模型在標記目標時兼顧完整性，避免多框、漏框或隨意畫框。

答案正確性獎勵 (r_ans)：最終答案是否答對，由GPT-4o進行語義評估并結合BLEU相似度給分。這樣的「老師」對自然語言表述具有強魯棒性，避免模型鉆格式空子，也進一步降低了人工評判成本。

得益于這三重獎勵的協同作用，GRPO-GR完全不依賴顯式的推理鏈標注或框標簽——只需提供題目、圖像和最終答案。

在實踐中，即便訓練集只有20條數據，模型依舊能夠穩定學到「邊框邊想」的行為，并在多項基準測試上取得亮眼表現。

實驗結果：20 條樣本即可「看得準、想得對」

準確性評測

Qwen-2.5-VL-3B和InternVL-3-2B作為基座模型，只用來自VSR+TallyQA的共20張圖-問題-答案和GRIT方法訓練。

在6個測試集中，用GRIT方法，模型推理結果的準確性（ACC）相對于沒有經過訓練的基線明顯提高。而基線模型表現出割裂的定位與推理能力，他們無法兼顧在定位目標物體來畫框上比較準確的同時在回答問題上更加正確。

即使GRPO-GR訓練中沒有包含任何對畫框的位置的訓練信號，測試結果現實框的準確性（GroundingIOU， i.e.GIoU）也在用GRIT方法后得到了提升。

推理與畫框相互關聯

研究人員提出了VL Reasoning Cross-Modal Correlation來衡量推理鏈中的文字與框區域的對齊程度。

結果顯示，用GRIT方法的模型輸出的內容更好的融合了推理與畫框：框住什么，就談什么。

另外，在用GRIT方法的模型中，把推理鏈里的框坐標全部抹掉，再讓模型繼續生成。

結果顯示，后續生成的推理內容對圖像的注意力會大幅下降，說明畫出的框能進一步促進推理。

數據規模效應

研究人員進一步將訓練數據擴大，20到500，再增長到7000。

結果表明，隨著數據規模的增加，模型準確率雖可以進一步提高，但跨領域泛化依舊是難點。
即使同類訓練數據增加，在與訓練域差異較大的測試集上模型提升依然有限，提示未來需要更豐富、更異質的訓練數據，而不只是「更多同類題」。

即便是極小樣本設置，GRIT也能讓開源MLLM同時獲得「畫得準、講得清」的能力，并且畫框和推理在模型輸出中相輔相成；進一步放大數據規模，則帶來漸進式收益，并揭示了跨域推理的新挑戰。

參考資料：

https://arxiv.org/abs/2505.15879

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Gemini 2.5系列模型更新，最新輕量版Flash-Lite實時編寫操作系統

機器之心Pro 2025-06-18 10:20:43
0 跟貼 0
我用騰訊元寶給Labubu開發了一個商城，耗時30秒

智東西 2025-06-18 17:20:37
2 跟貼 2

單GPU搞定高清長視頻生成，效率×10！引入Mamba機制突破DiT瓶頸

量子位 2025-06-18 16:51:19
0 跟貼 0

揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
2 跟貼 2
老話說大旱之后必有災，今年這些信號你注意到了嗎？

蝸牛愛叨叨 2025-06-17 11:40:43
0 跟貼 0

10×加速！DCM提升推理效率！HunyuanVideo13B推理時間縮短至120秒

機器之心Pro 2025-06-18 17:30:03
0 跟貼 0

200億AI獨角獸反擊，MiniMax首款推理模型對標DeepSeeK，算力成本僅53萬美元

華爾街見聞官方 2025-06-17 19:57:10
1 跟貼 1
全金屬飛機渦扇發動機模型全金屬飛機渦扇發動機模型

制造科技 2025-06-17 12:56:21
0 跟貼 0

敘利亞大馬士革，一切恢復原樣，沒有太大的變化

小奶羊 2025-06-17 12:47:00
12120 跟貼 12120
從 0 到 1 打造 Labubu ，MiniMax Agent 讓我看到了智能體未來的樣子

愛范兒 2025-06-17 22:30:35
0 跟貼 0
信息過載時代，如何真正「懂」LLM？從MIT分享的50個面試題開始

機器之心Pro 2025-06-18 14:34:03
0 跟貼 0
首個全面梳理語音大模型發展脈絡的權威綜述，入選ACL 2025主會

機器之心Pro 2025-06-17 16:57:09
0 跟貼 0
國際原子能機構：沒有證據顯示伊朗計劃制造核武器

央視新聞客戶端 2025-06-18 16:08:53
14563 跟貼 14563
特魯姆普全程暴力擊球，視覺與聽覺的雙重享受

阿胂是吃瓜群眾 2025-06-17 01:24:58
1 跟貼 1
科學家竟然在小行星樣本中發現了細菌，這下問題可大了！

一起神回復 2025-06-18 21:26:33
0 跟貼 0
外網熱議：中國裸辭大哥太猛！親手打造航母模型

神秘莫測的世界 2025-06-17 05:42:14
1 跟貼 1
年紀輕輕也會得“老年癡呆”？這10個信號你要早知道！

健康八條 2025-06-18 22:10:12
1 跟貼 1
得到央視點贊的6部高分劇，你若全看過就太值了

瑤瑤侃電影 2025-06-18 08:03:32
1 跟貼 1
伊朗公布以多個軍事機構3D圖像

花魄m 2025-06-17 03:06:33
0 跟貼 0
形式化證明邁向多模態，MLLM正確率僅4%！港科大等推出全新基準

新智元 2025-06-17 16:19:48
0 跟貼 0
伊朗軍方發布擊落F-35視頻地空導彈一飛沖天

臺海青年 2025-06-18 00:54:05
8128 跟貼 8128
王曼昱和孫穎莎分開參賽：鍛煉年輕選手與檢驗外戰實力的新策略

子水體娛 2025-06-16 17:35:51
1 跟貼 1
通向世界模型關鍵一步：EX-4D來了，實現單目視頻到自由視角生成

機器之心Pro 2025-06-18 13:08:08
3 跟貼 3
Ⅰ級/特別嚴重！遠安縣剛剛將暴雨預警信號升級為紅色！多人手機直接報警！

赤腳論壇 2025-06-18 19:59:59
0 跟貼 0
@崇明居民，住戶調查周期內樣本輪換記賬知識競賽邀您來參與，贏取專屬好禮

上海崇明 2025-06-18 16:15:32
0 跟貼 0
Sam Altman最新訪談：AI將發現新科學，未來AI伴侶無處不在，人形機器人街頭漫步

華爾街見聞官方 2025-06-18 12:15:49
35 跟貼 35
重磅！史無前例的教育改革終于來了，信息量巨大

天行艦 2025-06-18 09:59:05
44 跟貼 44
NBA球星文班亞馬在少林寺閉關10天被授予"少林一段"

杭州日報 2025-06-18 09:28:05
1028 跟貼 1028
俄烏戰爭，風向突變

難得君 2025-06-18 15:13:44
18 跟貼 18
伊朗“反美立國”戰略的窮途末路

黑噪音 2025-06-18 08:02:41
104 跟貼 104
特魯姆普高燃混剪，每一桿都是視覺盛宴

阿胂是吃瓜群眾 2025-06-16 01:22:51
1 跟貼 1
越南在中美貿易博弈中的策略與智慧：尋找產業鏈平衡點

烽火三月佳人三千 2025-06-18 03:54:55
0 跟貼 0
教育孩子要有策略，媽媽的此招一出，孩子這不乖乖聽話了！

日常逗趣集 2025-06-17 11:42:36
2 跟貼 2
現代乒乓球選手的場外壓力與樊振東的抗壓策略

子水體娛 2025-06-18 18:46:03
1 跟貼 1
過時IT系統拖垮企業的8個危險信號

至頂頭條 2025-06-18 22:25:59
0 跟貼 0
奧數對高考幫助到底有多大呢

民間胡扯老哥 2025-06-18 05:40:05
2469 跟貼 2469
美國“尼米茲”號航母正駛往中東地區

環球網 2025-06-18 19:49:54
3365 跟貼 3365
統一框架下的具身多模態推理:自變量機器人讓AI放下海德格爾錘子

機器之心Pro 2025-06-18 14:47:31
0 跟貼 0
中央批準：李成林任北京市委常委

北京日報客戶端 2025-06-18 18:49:26
21 跟貼 21
謝賽寧團隊基準讓LLM集體自閉,DeepSeek R1、Gemini 2.5 Pro都0分

機器之心Pro 2025-06-18 17:39:51
3 跟貼 3

新智元

AI產業主平臺領航智能+時代

12906文章數 66072關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

游戲

藝術

家居

手機 / 數碼

房產 / 家居

20個樣本，搞定多模態思維鏈！UCSC重磅開源：邊畫框，邊思考

別叫我互聯網公司，京東的野心藏不住了

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

前老板舉報李雪琴欠190萬轉移公司財產

被爆添加毒原料后相宜本草高管先后出走

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

從桔梗裙到流光裙，慵懶又顯瘦，微胖女生閉眼入！

黎錦匠人鄭春榮：經緯千年 我在海島織黎錦

GTA3原計劃推出"死亡競賽"在線模式:因時間問題取消

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

溫暖明亮 三代同堂之家

男子4S店買法拉利3年提不了車店方:想退款先幫忙賣車

男子4S店買法拉利3年提不了車店方:想退款先幫忙賣車

36歲鄧卓翔率隊9輪拿17分從墊底升第9

燈光技術升級還有插混版本全新奧迪Q3預計明年國產

黎錦匠人鄭春榮：經緯千年我在海島織黎錦

溫暖明亮三代同堂之家