99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

20個樣本,搞定多模態思維鏈!UCSC重磅開源:邊畫框,邊思考

0
分享至


新智元報道

編輯:LRST

【新智元導讀】GRIT能讓多模態大語言模型(MLLM)通過生成自然語言和圖像框坐標結合的推理鏈進行「圖像思維」,僅需20個訓練樣本即可實現優越性能!

現有開源多模態推理模型(Multimodal Reasoning Model)生成的推理鏈幾乎都是純自然語言,缺少對圖像信息的顯式引用與整合。


讓多模態大語言模型(MLLM)既能條理清晰的思考,又能真正將推理過程「落到畫面」上,在實現上仍然存在兩個難點:

1. 全是自然語言的思考內容看似很長,其內容有可能脫離圖像信息,不一定能真正「看圖說話」;

2. 教會模型新的看圖思考方式動輒要成千上萬條有標注的數據,門檻極高。

針對此問題,加州大學圣克魯斯分校的研究人員提出了GRIT (Grounded Reasoning with Images & Texts)模型,具有高關聯和輕量級的特性。


論文地址:https://arxiv.org/abs/2505.15879

代碼鏈接:https://github.com/eric-ai-lab/GRIT

在線Demo:https://grounded-reasoning.github.io/

· 高關聯

模型可以在思考鏈里隨時插入框坐標,實現真正的 「圖像思維」(Thinking with Images)。

GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接織進思考鏈,實現「思路和證據同步」,所想即所見。

· 輕量級

其訓練方法GRPO-GR具備三重獎勵(答案、格式、框),實現零人工標注,僅用20張圖像與問答的訓練數據就能教會模型畫框+推理。

GRIT二板斧

Grounded Reasoning


Grounded Reasoning范式建立在多模態大語言模型已具備的兩項原生能力——視覺定位 (grounding) 與語言推理 (reasoning)——之上,目標是把二者深度融合

讓模型在「想」(生成推理鏈)的同時「指」(輸出精準框坐標),從而讓「慢思考」不再停留在純自然語言,而是真正做到「所見即所想,所想即所指」。

給模型一張圖和問題 ,會一次性返回兩段式結果(c, a)

  • 推理鏈c—以 開頭,模型邊寫自然語言,邊在需要時插入[x1,y1,x2,y2]形式的框坐標,之后 引導的重思考將進一步整合框坐標對應的圖像信息;

  • 最終答案a—在 標簽后給出答案。

c的生成過程中,模型每一步都可以自由決定是繼續寫文字還是生成一個框坐標。

輸出框坐標后,模型不會再回讀對應像素,而是繼續token輸出,要求模型理解并利用框坐標信息,融入后續推理,就像模型給自己出了一道Referring Expression Generation(REC)任務一樣。

Grounded Reasoning范式通過只傳遞數字坐標,避免了裁剪圖像或多輪回輸信息的計算開銷,流程輕量。

在此范式之下模型的輸出里的框坐標可以直接畫出,成為其推理的「看圖」依據,讀者既能讀到它的思考,也能順著坐標直接驗證圖中證據。

GRPO-GR訓練

為了讓模型在極小的數據量下就學會畫框來輔助推理,GRIT 采用了專門的強化學習方法GRPO-GR

它在GRPO的基礎上,引入三個獎勵信號來直接驅動策略 π_θ 生成符合grounded reasoning范式的序列。

格式獎勵 (r_format)信號檢查模型輸出的整體結構是否合規:

  • 是否正確使用 等特殊標記;

  • 插入的邊界框[x1,y1,x2,y2]語法是否有效、坐標是否在合法區間內。 通過懲罰任何格式錯誤,模型很快學會在文字與坐標之間靈活、規范地切換。

計數獎勵 (r_count):對于要求回答某物體數量的問題,計數獎勵的信號鼓勵模型的輸出要數量上符合答案,最好一個框對應一個相關物體

r_count對比推理鏈里框的個數真實答案中的數量:二者一致即得分,否則扣分;可以讓模型在標記目標時兼顧完整性,避免多框、漏框或隨意畫框。

答案正確性獎勵 (r_ans):最終答案是否答對,由GPT-4o進行語義評估并結合BLEU相似度給分。 這樣的「老師」對自然語言表述具有強魯棒性,避免模型鉆格式空子,也進一步降低了人工評判成本。


得益于這三重獎勵的協同作用,GRPO-GR完全不依賴顯式的推理鏈標注或框標簽——只需提供題目、圖像和最終答案

在實踐中,即便訓練集只有20條數據,模型依舊能夠穩定學到「邊框邊想」的行為,并在多項基準測試上取得亮眼表現。

實驗結果:20 條樣本即可「看得準、想得對」

準確性評測

Qwen-2.5-VL-3B和InternVL-3-2B作為基座模型,只用來自VSR+TallyQA的共20張圖-問題-答案和GRIT方法訓練。

在6個測試集中,用GRIT方法,模型推理結果的準確性(ACC)相對于沒有經過訓練的基線明顯提高。而基線模型表現出割裂定位推理能力,他們無法兼顧在定位目標物體來畫框上比較準確的同時在回答問題上更加正確。


即使GRPO-GR訓練中沒有包含任何對畫框的位置的訓練信號,測試結果現實框的準確性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。

推理與畫框相互關聯


研究人員提出了VL Reasoning Cross-Modal Correlation來衡量推理鏈中的文字與框區域的對齊程度。


結果顯示,用GRIT方法的模型輸出的內容更好的融合了推理與畫框:框住什么,就談什么。

另外,在用GRIT方法的模型中,把推理鏈里的框坐標全部抹掉,再讓模型繼續生成。

結果顯示,后續生成的推理內容對圖像的注意力會大幅下降,說明畫出的框能進一步促進推理。

數據規模效應


研究人員進一步將訓練數據擴大,20到500,再增長到7000。


結果表明,隨著數據規模的增加,模型準確率雖可以進一步提高,但跨領域泛化依舊是難點。
即使同類訓練數據增加,在與訓練域差異較大的測試集上模型提升依然有限,提示未來需要更豐富、更異質的訓練數據,而不只是「更多同類題」。

即便是極小樣本設置,GRIT也能讓開源MLLM同時獲得「畫得準、講得清」的能力,并且畫框和推理在模型輸出中相輔相成;進一步放大數據規模,則帶來漸進式收益,并揭示了跨域推理的新挑戰。

參考資料:

https://arxiv.org/abs/2505.15879


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王毅回京不到2小時,深夜接到中東急電,中方對伊朗已是仁至義盡

王毅回京不到2小時,深夜接到中東急電,中方對伊朗已是仁至義盡

墨印齋
2025-06-22 05:08:39
陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現狀:低調生活,50歲胖到認不出,17歲兒子1米8長得像媽

果娛
2025-05-14 12:19:32
《慶余年》男演員轉型拍短劇,演長劇18年無人理,一朝霸總天下知

《慶余年》男演員轉型拍短劇,演長劇18年無人理,一朝霸總天下知

易同學愛談娛樂
2025-06-22 16:10:05
今天這么多預測楊紫榮獲白玉蘭視后,真的是年輕一輩勢不可擋

今天這么多預測楊紫榮獲白玉蘭視后,真的是年輕一輩勢不可擋

動物奇奇怪怪
2025-06-23 00:04:25
哈梅內伊一聲令下,伊朗導彈轟炸美國海軍,將封鎖霍爾木茲海峽?

哈梅內伊一聲令下,伊朗導彈轟炸美國海軍,將封鎖霍爾木茲海峽?

近史博覽
2025-06-22 13:02:49
李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

果娛
2025-06-22 14:36:49
18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應前后判若兩人:換給他,我就死定了!

18歲男孩因尿毒癥急需換腎,親媽配型成功,但反應前后判若兩人:換給他,我就死定了!

坦然風云
2025-06-21 12:47:47
“五物不送人,后代一直富”,這五種東西千萬不要送人!有道理嗎

“五物不送人,后代一直富”,這五種東西千萬不要送人!有道理嗎

聞心品閣
2025-06-17 07:22:54
成交價翻倍!深圳兩套豪宅法拍,公司老板賣房還債?

成交價翻倍!深圳兩套豪宅法拍,公司老板賣房還債?

南方都市報
2025-06-22 12:49:13
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
燒烤店贊助蘇超常州比賽,老板娘回應:長期關注常州體育,通過審核很意外

燒烤店贊助蘇超常州比賽,老板娘回應:長期關注常州體育,通過審核很意外

現代快報
2025-06-22 15:12:13
父親扛完大包回家,發現兒子點2頓外賣崩潰:我一小時才賺16塊

父親扛完大包回家,發現兒子點2頓外賣崩潰:我一小時才賺16塊

熙熙說教
2025-06-21 19:33:34
違規吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔責

違規吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔責

王五說說看
2025-06-22 16:07:36
湖北小縣城:體制內女教師的貧富差距

湖北小縣城:體制內女教師的貧富差距

英軍眼
2025-06-22 11:59:00
警惕!北京多地出現大蛇!

警惕!北京多地出現大蛇!

美麗大北京
2025-06-22 19:04:44
美國終于明白,當年自己“誤炸”中國大使館,中國為什么不反擊?

美國終于明白,當年自己“誤炸”中國大使館,中國為什么不反擊?

鐘裹雜談歷史
2023-11-22 09:07:16
吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

知鑒明史
2025-06-19 16:42:38
即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業!

即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業!

直播吧
2025-06-23 02:28:30
吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

boss外傳
2025-05-04 17:20:03
不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

不出意外,7月起,將迎來新一波降價潮,4類商品價格或會“跳水”

小談食刻美食
2025-06-20 17:01:49
2025-06-23 02:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

旅游
游戲
教育
藝術
房產

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《鬼武者》新作專為次世代而生!制作人解釋缺席上世代

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 茂名市| 余姚市| 资中县| 洛阳市| 大庆市| 安图县| 安乡县| 施秉县| 海兴县| 湖北省| 鄂伦春自治旗| 双城市| 湖口县| 珠海市| 隆安县| 宣汉县| 宁南县| 赞皇县| 武安市| 桃园市| 佳木斯市| 安福县| 靖西县| 屏南县| 普兰店市| 闸北区| 阿尔山市| 铁岭县| 长治市| 平谷区| 镇安县| 麻江县| 响水县| 沧源| 玛多县| 武定县| 庆云县| 扎鲁特旗| 高平市| 灵川县| 巨鹿县|