網易首頁 > 網易號 > 正文申請入駐

20個樣本，搞定多模態思維鏈！UCSC重磅開源：邊畫框，邊思考

2025-06-18 16:55:24　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】GRIT能讓多模態大語言模型（MLLM）通過生成自然語言和圖像框坐標結合的推理鏈進行「圖像思維」，僅需20個訓練樣本即可實現優越性能！

現有開源多模態推理模型（Multimodal Reasoning Model）生成的推理鏈幾乎都是純自然語言，缺少對圖像信息的顯式引用與整合。

讓多模態大語言模型（MLLM）既能條理清晰的思考，又能真正將推理過程「落到畫面」上，在實現上仍然存在兩個難點：

1. 全是自然語言的思考內容看似很長，其內容有可能脫離圖像信息，不一定能真正「看圖說話」；

2. 教會模型新的看圖思考方式動輒要成千上萬條有標注的數據，門檻極高。

針對此問題，加州大學圣克魯斯分校的研究人員提出了GRIT (Grounded Reasoning with Images & Texts)模型，具有高關聯和輕量級的特性。

論文地址：https://arxiv.org/abs/2505.15879

代碼鏈接：https://github.com/eric-ai-lab/GRIT

在線Demo：https://grounded-reasoning.github.io/

· 高關聯

模型可以在思考鏈里隨時插入框坐標，實現真正的「圖像思維」（Thinking with Images）。

GRIT采用的Grounded Reasoning范式，一次模型推理，[x1,y1,x2,y2]框直接織進思考鏈，實現「思路和證據同步」，所想即所見。

· 輕量級

其訓練方法GRPO-GR具備三重獎勵（答案、格式、框），實現零人工標注，僅用20張圖像與問答的訓練數據就能教會模型畫框+推理。

GRIT二板斧

Grounded Reasoning

Grounded Reasoning范式建立在多模態大語言模型已具備的兩項原生能力——視覺定位 (grounding) 與語言推理 (reasoning)——之上，目標是把二者深度融合：

讓模型在「想」（生成推理鏈）的同時「指」（輸出精準框坐標），從而讓「慢思考」不再停留在純自然語言，而是真正做到「所見即所想，所想即所指」。

給模型一張圖和問題，會一次性返回兩段式結果(c, a)：

推理鏈c—以開頭，模型邊寫自然語言，邊在需要時插入[x1,y1,x2,y2]形式的框坐標，之后引導的重思考將進一步整合框坐標對應的圖像信息；
最終答案a—在標簽后給出答案。

在c的生成過程中，模型每一步都可以自由決定是繼續寫文字還是生成一個框坐標。

輸出框坐標后，模型不會再回讀對應像素，而是繼續token輸出，要求模型理解并利用框坐標信息，融入后續推理，就像模型給自己出了一道Referring Expression Generation（REC）任務一樣。

Grounded Reasoning范式通過只傳遞數字坐標，避免了裁剪圖像或多輪回輸信息的計算開銷，流程輕量。

在此范式之下模型的輸出里的框坐標可以直接畫出，成為其推理的「看圖」依據，讀者既能讀到它的思考，也能順著坐標直接驗證圖中證據。

GRPO-GR訓練

為了讓模型在極小的數據量下就學會畫框來輔助推理，GRIT 采用了專門的強化學習方法GRPO-GR

它在GRPO的基礎上，引入三個獎勵信號來直接驅動策略 π_θ 生成符合grounded reasoning范式的序列。

格式獎勵 (r_format)信號檢查模型輸出的整體結構是否合規：

是否正確使用、等特殊標記；
插入的邊界框[x1,y1,x2,y2]語法是否有效、坐標是否在合法區間內。通過懲罰任何格式錯誤，模型很快學會在文字與坐標之間靈活、規范地切換。

計數獎勵 (r_count)：對于要求回答某物體數量的問題，計數獎勵的信號鼓勵模型的輸出要數量上符合答案，最好一個框對應一個相關物體。

r_count對比推理鏈里框的個數與真實答案中的數量：二者一致即得分，否則扣分；可以讓模型在標記目標時兼顧完整性，避免多框、漏框或隨意畫框。

答案正確性獎勵 (r_ans)：最終答案是否答對，由GPT-4o進行語義評估并結合BLEU相似度給分。這樣的「老師」對自然語言表述具有強魯棒性，避免模型鉆格式空子，也進一步降低了人工評判成本。

得益于這三重獎勵的協同作用，GRPO-GR完全不依賴顯式的推理鏈標注或框標簽——只需提供題目、圖像和最終答案。

在實踐中，即便訓練集只有20條數據，模型依舊能夠穩定學到「邊框邊想」的行為，并在多項基準測試上取得亮眼表現。

實驗結果：20 條樣本即可「看得準、想得對」

準確性評測

Qwen-2.5-VL-3B和InternVL-3-2B作為基座模型，只用來自VSR+TallyQA的共20張圖-問題-答案和GRIT方法訓練。

在6個測試集中，用GRIT方法，模型推理結果的準確性（ACC）相對于沒有經過訓練的基線明顯提高。而基線模型表現出割裂的定位與推理能力，他們無法兼顧在定位目標物體來畫框上比較準確的同時在回答問題上更加正確。

即使GRPO-GR訓練中沒有包含任何對畫框的位置的訓練信號，測試結果現實框的準確性（GroundingIOU， i.e.GIoU）也在用GRIT方法后得到了提升。

推理與畫框相互關聯

研究人員提出了VL Reasoning Cross-Modal Correlation來衡量推理鏈中的文字與框區域的對齊程度。

結果顯示，用GRIT方法的模型輸出的內容更好的融合了推理與畫框：框住什么，就談什么。

另外，在用GRIT方法的模型中，把推理鏈里的框坐標全部抹掉，再讓模型繼續生成。

結果顯示，后續生成的推理內容對圖像的注意力會大幅下降，說明畫出的框能進一步促進推理。

數據規模效應

研究人員進一步將訓練數據擴大，20到500，再增長到7000。

結果表明，隨著數據規模的增加，模型準確率雖可以進一步提高，但跨領域泛化依舊是難點。
即使同類訓練數據增加，在與訓練域差異較大的測試集上模型提升依然有限，提示未來需要更豐富、更異質的訓練數據，而不只是「更多同類題」。

即便是極小樣本設置，GRIT也能讓開源MLLM同時獲得「畫得準、講得清」的能力，并且畫框和推理在模型輸出中相輔相成；進一步放大數據規模，則帶來漸進式收益，并揭示了跨域推理的新挑戰。

參考資料：

https://arxiv.org/abs/2505.15879

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

每一幕皆可控！字節發布多主體視頻生成神器，人人皆主角

量子位 2025-06-13 17:12:08
0 跟貼 0
10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
7 跟貼 7

監督學習也能反思？清華英偉達提出隱式負向策略爆炸提升數學能力

量子位 2025-06-22 14:07:30
1 跟貼 1

史詩級預言！Karpathy演講刷屏：軟件3.0，人人皆「代碼之神」

新智元 2025-06-20 18:21:08
28 跟貼 28
室內移動抓取多模態智能體亮相，真實環境零樣本動作準確率達 90%

機器之心Pro 2025-06-21 10:55:56
1 跟貼 1

揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
2 跟貼 2

國產SOTA新模型精準get“畫(3+6)條命的動物” | 開源

量子位 2025-06-20 16:05:39
0 跟貼 0
CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0

中科大與華為提出首個生成式多階段統一框架，性能全面超越 SOTA

機器之心Pro 2025-06-20 19:36:00
34 跟貼 34
在野外放一個假的鹿模型，公鹿好不容易鼓起勇氣，卻換來一生內向

榻榻米搞笑 2025-06-21 09:20:23
5 跟貼 5
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
225 跟貼 225
伊朗媒體發布假戰果圖像實在太多，央視火災照片都用上了

王小東 2025-06-21 15:26:01
3472 跟貼 3472
英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

新智元 2025-06-22 12:16:12
84 跟貼 84
元廷轉變剿匪策略，朱元璋抓住機會迅速發展壯大

天浩電影V 2025-06-20 09:56:16
1 跟貼 1
OpenAI底層AGI技術被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2
伊朗議會贊成關閉霍爾木茲海峽

央視新聞客戶端 2025-06-22 21:21:24
19806 跟貼 19806
Large Avatar Model：單圖打造寫實3D交互數字人，跨平臺驅動渲染

機器之心Pro 2025-06-20 19:31:34
0 跟貼 0
蘋果被硅谷AI圈圍毆了！

智東西 2025-06-21 17:06:28
2 跟貼 2
美發射的鉆地彈目前僅美國擁有被指威力僅次于核武器

上游新聞 2025-06-22 12:57:48
12623 跟貼 12623
江西南昌：地鐵延長線即將通車移動5G信號全覆蓋

金臺資訊 2025-06-22 20:22:07
1 跟貼 1
科學家將R1技術遷移到多模態領域，只需10條數據就能提升模型性能

DeepTech深科技 2025-03-05 18:08:03
6 跟貼 6
普京評價中美關稅戰：中國策略有效，大鵝從中獲益

奧利奧變薄了的 2025-06-21 05:42:05
0 跟貼 0
伊朗喊話決不投降，導彈地圖標記美軍基地，特朗普敢不敢開戰

精彩不容錯過 2025-06-21 01:03:01
0 跟貼 0
專訪倪妮：我的“標簽”是暫時的演技與美貌無關｜封面訪談①

封面新聞 2025-06-19 13:22:21
0 跟貼 0
濟南市氣象臺繼續發布高溫橙色預警信號

天下泉城 2025-06-22 18:41:13
0 跟貼 0
#我要我懷疑有人攔截了我的信號，不然為什么還沒有人評論？

飯思思 2025-06-22 12:00:00
0 跟貼 0
因應“舒適推理”閱讀風潮日本暢銷書作家乙一作品將上市

環球網資訊 2025-06-22 21:02:04
0 跟貼 0
科學家發現了一段神秘且持久的信號！

未來宇宙w 2025-06-22 16:58:10
0 跟貼 0
第15波導彈！以工業區燃起大火，伊朗實戰幫中國驗證應對強敵策略

瑩瑩觀點 2025-06-20 17:37:40
1 跟貼 1
愚昧的三大病癥

聽哲學 2025-06-22 14:44:29
10 跟貼 10
一番推理后竟發現，只有這個人是假的，這反轉夠絕了

熱血做搞笑 2025-06-23 00:00:00
0 跟貼 0
英國博主從曼谷來到中國，反差太大了，巨大的視覺沖擊！

黒溯KuroHush 2025-06-23 00:48:20
0 跟貼 0
山西長治：有人闖進飯店，直接將酒搬走，宣稱長治飯店絕對禁止酒

偵姐有料 2025-06-22 07:10:21
8021 跟貼 8021
時間竟然有三維？新理論顛覆我們的宇宙觀

三體引力波 2025-06-22 18:37:00
0 跟貼 0
孫穎莎喝水，先把上面的標簽撕掉，馬琳在一旁等著！

妙妙視頻 2025-06-20 15:07:55
1 跟貼 1
從冷板凳到核心！楊舒予逆襲蛻變，用實力撕掉“花瓶”標簽

996籃球 2025-06-22 12:11:30
1 跟貼 1
5年白領下崗，AGI靠RL一飛沖天？網友：這是讓狗學會打麻將！

新智元 2025-06-22 12:20:53
2 跟貼 2
常州五連敗被“剃光頭”，一景區推出“光頭免票”：沒頭發就行，性別無限制

極目新聞 2025-06-22 18:26:28
561 跟貼 561
許冠杰《浪子心聲》火爆外網！網友評論：簡直是視覺聽覺雙重享受

超喜歡我的狗子 2025-06-21 13:05:05
0 跟貼 0
孩子們簇擁上來擁抱他的那一刻，瞬間淚目！網友：那張紙本不是空白，是老師用橡皮，擦掉了我“膽小鬼”的標簽

每日看點匯 2025-06-21 14:54:46
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

12929文章數 66077關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戲

教育

藝術

房產

手機 / 數碼

房產 / 家居

20個樣本，搞定多模態思維鏈！UCSC重磅開源：邊畫框，邊思考

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

中國女排0-3意大利 香港站3勝1負收官

離婚四年！趙麗穎被曝新戀情惹爭議

蘋果后院起火

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

《鬼武者》新作專為次世代而生!制作人解釋缺席上世代

2026qs排名完整名單公布后，申請難度會暴漲的幾所英國大學！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

坑慘2000多人！恒大財富海南高管被曝非吸12.6億元！

伊朗投入5萬億美元的核項目遭摧毀哈梅內伊面臨抉擇

伊朗投入5萬億美元的核項目遭摧毀哈梅內伊面臨抉擇

中國女排0-3意大利香港站3勝1負收官