網易首頁 > 網易號 > 正文申請入駐

多模態模型學會“按需搜索”，少搜30%還更準！字節&NTU新研究

2025-07-09 13:31:58　來源: 量子位

北京舉報

分享至

MMSearch-R1團隊投稿
量子位 | 公眾號 QbitAI

多模態模型學會“按需搜索”！

字節&NTU最新研究，優化多模態模型搜索策略

通過搭建網絡搜索工具、構建多模態搜索數據集以及涉及簡單有效的獎勵機制，首次嘗試基于端到端強化學習的多模態模型自主搜索訓練

經過訓練的模型能夠自主判斷搜索時機、搜索內容并處理搜索結果，在真實互聯網環境中執行多輪按需搜索。

實驗結果表明，在知識密集型視覺問答任務（Visual Question Answering, VQA）中，MMSearch-R1系統展現出顯著優勢：

其性能不僅超越同規模模型在傳統檢索增強生成（RAG）工作流下的性能，更在減少約30%搜索次數的前提下，達到了更大規模規模模型做傳統RAG的性能水平。

下文將詳細解析該研究的研究方法以及實驗發現。

具體怎么做到的？

近年來，隨著視覺-語言訓練數據集在規模和質量上的雙重提升，多模態大模型（Large Multimodal Models, LMMs）在跨模態理解任務中展現出卓越的性能，其文本與視覺知識的對齊能力顯著增強。

然而，現實世界的信息具有高度動態性和復雜性，單純依靠擴大訓練數據規模的知識獲取方式存在固有局限：難以覆蓋長尾分布的知識、無法獲取模型訓練截止日期后的新信息，以及難以觸及私域信息資源。

這些局限性導致模型在實際應用中容易產生幻覺現象，嚴重制約了其在廣泛現實場景下部署的可靠性。

在此背景下，網絡搜索作為人類獲取新知識的核心途徑，被視為擴展模型能力邊界的重要工具，正受到學術界的高度重視。

如何使多模態模型具備自主、精準的外部信息獲取能力，從而實現準確的問題解答，成為當前研究的關鍵挑戰。

因此，ByteDance與南洋理工大學（NTU）S-Lab聯合開展的MMSearch-R1項目針對這一挑戰進行了探索。

下面詳細來看該研究的研究方法。

集成多輪搜索的強化學習訓練

1、多模態搜索工具

MMSearch-R1集成圖像搜索和文本搜索兩種工具，以滿足模型應對視覺問答任務的需求，其中圖像搜索工具基于Google Lens，支持搜索與用戶圖像視覺外觀匹配的網頁標題以及主要縮略圖，用于幫助模型準確識別重要的視覺元素。

文本搜索工具由Google Search，JINA Reader以及用于網頁內容總結的語言模型構成的鏈路組成，支持搜索與模型生成的搜索內容最相關的網頁及其內容摘要，用于幫助模型精確定位所需文本知識與信息。

2、多輪搜索強化學習訓練

MMSearch-R1采用GRPO作為強化學習算法進行模型訓練，基于veRL框架實現集成多輪對話與搜索的Rollout過程，在每輪對話中，模型首先進行思考，并執行可選的動作，如調用多模態搜索工具與真實互聯網進行交互，或給出最終的答案。

3、帶有搜索懲罰的獎勵函數

MMSearch-R1的獎勵函數由準確性得分和格式得分兩部分以加權求和的形式構成，其權重分別為0.9和0.1，分別衡量模型是否準確回答了用戶問題（模型所給答案與真實答案作字符串精確匹配）以及遵循了既定回復格式。

為了激勵模型優先利用自身知識完成作答，還會對調用搜索工具才獲得正確答案的回復進行懲罰（搜索懲罰因子為0.1），最終獎勵函數為:

構建搜索需求均衡的多模態圖像問答數據集

為了有效訓練模型實現智能化的按需搜索能力，研究精心構建了FactualVQA（FVQA）數據集，包含訓練集和測試集。該數據集的構建采用了一套精心設計的半自動化流程，重點聚焦于需要豐富視覺與文本知識支持的問答場景。

1、數據采集

團隊首先基于MetaCLIP的元數據分布進行多層次采樣，確保覆蓋從高頻到長尾的多樣化視覺概念（Visual Concept），并從互聯網中搜索與視覺概念最相關的圖片，基于GPT-4o生成事實性問答對。

為增強數據集的文本知識維度，團隊還從InfoSeek訓練集中篩選了具有代表性的問答樣本進行補充。為確保數據質量貼近真實應用場景，FVQA還補充了800個由標注人員標注問答對樣本。

2、數據均衡

完成初步數據采集后，通過一個粗訓練的模型對現有樣本進行分類，檢查每條數據的搜索必要性，最終訓練數據集包含約3400個需要搜索的樣本和1600個無需搜索的樣本。

實驗效果如何？

MMSearch-R1-7B基于Qwen2.5-VL-7B模型進行訓練。

在FVQA-test、InfoSeek等知識密集型VQA任務中，MMSearch-R1-7B的平均準確率比同等規模模型的傳統RAG基線高出約3%搜索比率降低了32.9%，同時能夠媲美32B模型RAG基線的效果。

經過強化學習訓練，模型提升了優化搜索內容以及處理搜索結果的能力（下圖左，經過強化學習的模型執行RAG Workflow性能要好于原始模型），同時增強了挖掘利用自身固有知識的能力（下圖右，模型提升了不搜索即可回答正確的比率）。

強化學習展現出比監督微調更大的潛力，在所有任務上以較少的訓練樣本取得更大的性能增益（下圖左）。

同時證明數據搜索比例均衡以及獎勵函數中的搜索懲罰機制有助于在訓練過程中塑造模型的按需搜索行為（下圖右）。

最后總結來說，MMSearch-R1是一個基于強化學習的創新框架，賦予多模態大模型在真實互聯網環境中執行智能按需搜索的能力。該框架使模型能夠自主識別知識邊界，進而選擇圖像或文本搜索方式獲取所需信息，并對搜索結果進行有效推理。

團隊表示，該研究為開發具備現實世界交互能力的多模態大模型提供了重要洞見，為構建自適應、交互式的多模態智能體奠定了基礎。期待隨著模型通過更多工具與現實世界的持續交互，多模態智能將在推理和適應能力上實現新的飛躍。

論文地址：https://arxiv.org/abs/2506.20670
項目地址：https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

誰在偷看你的小紅書？

鈦媒體APP 2025-04-10 10:26:42
6 跟貼 6
全網想看的爆款內容，她寫累了

新周刊 2025-06-28 13:04:56
2 跟貼 2

一些關于媒介關系經營的心得

虎嗅APP 2025-05-18 04:53:14
0 跟貼 0

一體化、可視化模式下的數據中心管理革新

通信世界 2025-04-22 15:03:02
0 跟貼 0
Mamba提出者再次挑戰Transformer，或成為通用基礎模型核心架構

DeepTech深科技 2025-07-12 19:27:33
1 跟貼 1

大模型競爭的下半場，為何場景為王？

鈦媒體APP 2025-07-11 11:58:05
1 跟貼 1

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
32 跟貼 32
報道解放軍英雄，首先是無堅不摧！ #解放軍 #硬核深度計劃 #內容啟發搜索

叫我金主編 2025-07-10 22:53:38
0 跟貼 0

俄軍考慮放棄唯一航母！中國今天仍離不開航母！ #內容啟發搜索 #硬核深度計劃 #軍武正當燃

叫我金主編 2025-07-11 19:47:06
1 跟貼 1
僅用8小時，用Vim編輯器手搓BadApple火了！

量子位 2025-01-16 21:25:43
1 跟貼 1
國外媽媽就是細心，給寶寶小腳丫做模型，既有紀念意義也可愛！

老沾看生活 2025-07-10 14:45:25
1 跟貼 1
會「進化」的合成數據！無需上傳隱私，也能生成高質量垂域數據

機器之心Pro 2025-07-11 18:44:13
1 跟貼 1
Meituan-M17團隊構建新一代AI編程評測新標準——OIBench

機器之心Pro 2025-07-11 13:20:43
0 跟貼 0
瞞不住了？伊朗一枚導彈擊穿美軍通信圓頂，衛星圖像曝光真相

布衣桔子 2025-07-12 11:27:20
0 跟貼 0
【干貨！】3個月IT碼農轉行大模型算法工程師：三階段學習路線快速破冰攻克關鍵技術實戰深化

盧菁老師 2025-07-08 17:39:25
0 跟貼 0
1622高中數學：求抽象函數的解析式。利用換元法輕松求解

我服子佩 2025-07-11 19:22:50
1 跟貼 1
上海一超市6顆荔枝298元，工作人員：一款有故事的荔枝，限量供應

齊魯壹點 2025-07-08 14:39:19
12407 跟貼 12407
比亞迪與奇瑞5年內不當申報3.8億新能源補貼，共涉及車輛1.2萬輛

風向觀察 2025-07-12 10:31:09
9335 跟貼 9335
高一數學求最值高招：對勾函數+均值定理求最值難題，高中必刷題

六維坐標系 2025-07-09 19:47:58
4 跟貼 4
囚犯僅用一根香煙越獄警察地毯式搜索

海洋說劇 2025-07-12 14:20:21
1 跟貼 1
終于知道空調費的正確算法了

小羨娛 2025-07-11 19:37:50
0 跟貼 0
法國啟動對社交平臺X的調查，涉嫌操控算法干預內政

意大利華人網0039 2025-07-13 00:09:26
0 跟貼 0
馬斯克最強模型Grok4登場，50%超高分刷爆人類最后考試

量子位 2025-07-11 00:12:19
0 跟貼 0
一次函數最難的部分，函數與方程不等式的關系大總結！

大鵬老師講數學 2025-07-11 05:01:00
0 跟貼 0
圖文實操：GraphPad 的統計分析與圖表導出指南

生物學霸 2025-03-23 18:08:41
0 跟貼 0
搜索范式革命：納米AI與谷歌的「超級搜索智能體」共識

36氪 2025-06-12 21:46:18
0 跟貼 0
紫牛調查|南京名校“陪讀房”秒光！又一批家長加入“學漂族”

揚子晚報 2025-07-12 09:13:26
424 跟貼 424
廣告侵入AI搜索：回答成廣告，收費2萬可收錄，SEO變GEO

鈦媒體APP 2025-07-11 09:51:13
26 跟貼 26
字節藏了一手“牌”

虎嗅APP 2025-07-13 00:25:24
0 跟貼 0
全球用戶超6000萬，拍我AI（PixVerse）上線多關鍵幀生成功能

量子位 2025-07-11 17:32:58
0 跟貼 0
全球首個科研LLM競技場上線！23款頂尖模型火拼：o3奪冠，DeepSeek第四

新智元 2025-07-11 12:14:58
4 跟貼 4
爆冷！王楚欽、梁靖崑男雙無緣決賽

環球網 2025-07-12 07:19:34
4483 跟貼 4483
中俄關系復雜性解析：貿易摩擦下的能源合作與科技互通

氧氣過少 2025-07-11 05:58:37
0 跟貼 0
烏軍消滅多名朝鮮士兵并提取其DNA樣本，取走證明身份的物料

幸運的藍鳥 2025-07-12 12:02:15
0 跟貼 0
當地稱張家界司機無法評為見義勇為：雖值得學習和表彰，但這屬于司機本職工作范疇

湖北經視 2025-07-12 12:43:23
4619 跟貼 4619
10分4板5助3帽1搶斷！夏聯首秀楊瀚森把數據單填滿

澎湃新聞 2025-07-12 13:14:36
424 跟貼 424
攻克「惡意投毒」攻擊！華南理工聯合霍普金斯和UCSD，連登TPAMI、TIFS頂刊

新智元 2025-07-12 12:41:32
0 跟貼 0
土地財政的本質是土地金融

風向觀察 2025-07-12 09:20:11
1506 跟貼 1506
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
女子在白石山走鐵索不戴頭盔腳下就是深不見底的懸崖

火煉樹 2025-07-12 16:38:48
1692 跟貼 1692

量子位

追蹤人工智能動態

10847文章數 176189關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

健康

本地

教育

房產

手機 / 數碼

房產 / 家居

多模態模型學會“按需搜索”，少搜30%還更準！字節&NTU新研究

具體怎么做到的？

實驗效果如何？

Kimi深夜整活，開源了首個萬億參數模型

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

鹿晗賬號解禁后首曬自拍，漲粉超400萬

中國超半數城市人口下滑，什么信號？

小米YU7深度試駕：優點很多缺點也很多

態度原創

OPPO K13 Turbo真機曝光：RGB 燈效+主動散熱風扇

呼吸科專家破解呼吸道九大謠言！

換個城市過夏天 | 楓葉之都的22℃清涼秘境

AI覆蓋所有教室，校長來自本部！七中育才金融城校區來了，對口錦江這2個學區

8大新盤曝光！2025下半場，廣州主城開卷廝殺！

尹錫悅被收押后身邊人士稱其或申請前往外部醫院治療

尹錫悅被收押后身邊人士稱其或申請前往外部醫院治療

夏聯-開拓者大勝勇士楊瀚森首秀10+4+5+3帽