網易首頁 > 網易號 > 正文申請入駐

多模態模型學會“按需搜索”，少搜30%還更準！字節&NTU新研究

2025-07-09 13:31:58　來源: 量子位

北京舉報

分享至

MMSearch-R1團隊投稿
量子位 | 公眾號 QbitAI

多模態模型學會“按需搜索”！

字節&NTU最新研究，優化多模態模型搜索策略

通過搭建網絡搜索工具、構建多模態搜索數據集以及涉及簡單有效的獎勵機制，首次嘗試基于端到端強化學習的多模態模型自主搜索訓練

經過訓練的模型能夠自主判斷搜索時機、搜索內容并處理搜索結果，在真實互聯網環境中執行多輪按需搜索。

實驗結果表明，在知識密集型視覺問答任務（Visual Question Answering, VQA）中，MMSearch-R1系統展現出顯著優勢：

其性能不僅超越同規模模型在傳統檢索增強生成（RAG）工作流下的性能，更在減少約30%搜索次數的前提下，達到了更大規模規模模型做傳統RAG的性能水平。

下文將詳細解析該研究的研究方法以及實驗發現。

具體怎么做到的？

近年來，隨著視覺-語言訓練數據集在規模和質量上的雙重提升，多模態大模型（Large Multimodal Models, LMMs）在跨模態理解任務中展現出卓越的性能，其文本與視覺知識的對齊能力顯著增強。

然而，現實世界的信息具有高度動態性和復雜性，單純依靠擴大訓練數據規模的知識獲取方式存在固有局限：難以覆蓋長尾分布的知識、無法獲取模型訓練截止日期后的新信息，以及難以觸及私域信息資源。

這些局限性導致模型在實際應用中容易產生幻覺現象，嚴重制約了其在廣泛現實場景下部署的可靠性。

在此背景下，網絡搜索作為人類獲取新知識的核心途徑，被視為擴展模型能力邊界的重要工具，正受到學術界的高度重視。

如何使多模態模型具備自主、精準的外部信息獲取能力，從而實現準確的問題解答，成為當前研究的關鍵挑戰。

因此，ByteDance與南洋理工大學（NTU）S-Lab聯合開展的MMSearch-R1項目針對這一挑戰進行了探索。

下面詳細來看該研究的研究方法。

集成多輪搜索的強化學習訓練

1、多模態搜索工具

MMSearch-R1集成圖像搜索和文本搜索兩種工具，以滿足模型應對視覺問答任務的需求，其中圖像搜索工具基于Google Lens，支持搜索與用戶圖像視覺外觀匹配的網頁標題以及主要縮略圖，用于幫助模型準確識別重要的視覺元素。

文本搜索工具由Google Search，JINA Reader以及用于網頁內容總結的語言模型構成的鏈路組成，支持搜索與模型生成的搜索內容最相關的網頁及其內容摘要，用于幫助模型精確定位所需文本知識與信息。

2、多輪搜索強化學習訓練

MMSearch-R1采用GRPO作為強化學習算法進行模型訓練，基于veRL框架實現集成多輪對話與搜索的Rollout過程，在每輪對話中，模型首先進行思考，并執行可選的動作，如調用多模態搜索工具與真實互聯網進行交互，或給出最終的答案。

3、帶有搜索懲罰的獎勵函數

MMSearch-R1的獎勵函數由準確性得分和格式得分兩部分以加權求和的形式構成，其權重分別為0.9和0.1，分別衡量模型是否準確回答了用戶問題（模型所給答案與真實答案作字符串精確匹配）以及遵循了既定回復格式。

為了激勵模型優先利用自身知識完成作答，還會對調用搜索工具才獲得正確答案的回復進行懲罰（搜索懲罰因子為0.1），最終獎勵函數為:

構建搜索需求均衡的多模態圖像問答數據集

為了有效訓練模型實現智能化的按需搜索能力，研究精心構建了FactualVQA（FVQA）數據集，包含訓練集和測試集。該數據集的構建采用了一套精心設計的半自動化流程，重點聚焦于需要豐富視覺與文本知識支持的問答場景。

1、數據采集

團隊首先基于MetaCLIP的元數據分布進行多層次采樣，確保覆蓋從高頻到長尾的多樣化視覺概念（Visual Concept），并從互聯網中搜索與視覺概念最相關的圖片，基于GPT-4o生成事實性問答對。

為增強數據集的文本知識維度，團隊還從InfoSeek訓練集中篩選了具有代表性的問答樣本進行補充。為確保數據質量貼近真實應用場景，FVQA還補充了800個由標注人員標注問答對樣本。

2、數據均衡

完成初步數據采集后，通過一個粗訓練的模型對現有樣本進行分類，檢查每條數據的搜索必要性，最終訓練數據集包含約3400個需要搜索的樣本和1600個無需搜索的樣本。

實驗效果如何？

MMSearch-R1-7B基于Qwen2.5-VL-7B模型進行訓練。

在FVQA-test、InfoSeek等知識密集型VQA任務中，MMSearch-R1-7B的平均準確率比同等規模模型的傳統RAG基線高出約3%搜索比率降低了32.9%，同時能夠媲美32B模型RAG基線的效果。

經過強化學習訓練，模型提升了優化搜索內容以及處理搜索結果的能力（下圖左，經過強化學習的模型執行RAG Workflow性能要好于原始模型），同時增強了挖掘利用自身固有知識的能力（下圖右，模型提升了不搜索即可回答正確的比率）。

強化學習展現出比監督微調更大的潛力，在所有任務上以較少的訓練樣本取得更大的性能增益（下圖左）。

同時證明數據搜索比例均衡以及獎勵函數中的搜索懲罰機制有助于在訓練過程中塑造模型的按需搜索行為（下圖右）。

最后總結來說，MMSearch-R1是一個基于強化學習的創新框架，賦予多模態大模型在真實互聯網環境中執行智能按需搜索的能力。該框架使模型能夠自主識別知識邊界，進而選擇圖像或文本搜索方式獲取所需信息，并對搜索結果進行有效推理。

團隊表示，該研究為開發具備現實世界交互能力的多模態大模型提供了重要洞見，為構建自適應、交互式的多模態智能體奠定了基礎。期待隨著模型通過更多工具與現實世界的持續交互，多模態智能將在推理和適應能力上實現新的飛躍。

論文地址：https://arxiv.org/abs/2506.20670
項目地址：https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

誰在偷看你的小紅書？

鈦媒體APP 2025-04-10 10:26:42
6 跟貼 6
全網想看的爆款內容，她寫累了

新周刊 2025-06-28 13:04:56
0 跟貼 0

一些關于媒介關系經營的心得

虎嗅APP 2025-05-18 04:53:14
0 跟貼 0

一體化、可視化模式下的數據中心管理革新

通信世界 2025-04-22 15:03:02
0 跟貼 0
任務級獎勵提升AppAgent思考力，淘天提出Mobile-R1，3B模型超32B

量子位 2025-07-20 14:45:31
0 跟貼 0

「DeepSeek二代」來襲！數學暴擊o3，英偉達開源LLM登頂

新智元 2025-07-20 18:21:04
0 跟貼 0

提速63%！中科院生成式渲染器突破效率瓶頸，一致性提升20%

量子位 2025-07-20 14:53:21
0 跟貼 0
從正在進行的護身軍刀，看美國對華的戰爭準備！ #國際局勢 #硬核深度計劃 #內容啟發搜索

叫我金主編 2025-07-18 16:56:13
0 跟貼 0

馬斯克AI女友直播"一秒變身"，Karpathy看完立刻投錢

新智元 2025-07-19 09:18:34
106 跟貼 106
AI打假AI，拿下SOTA丨廈大&騰訊優圖

量子位 2025-07-20 15:00:58
0 跟貼 0
這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0
中介"做局"銀行放水男子沒有償還能力竟成功貸款48萬

央視新聞客戶端 2025-07-20 07:35:42
11566 跟貼 11566
谷歌DeepMind證實：反對意見讓GPT-4o輕易放棄正確答案

量子位 2025-07-20 15:10:32
1 跟貼 1
OpenAI會殺死Manus們嗎？

虎嗅APP 2025-07-20 17:47:23
3 跟貼 3
上下文工程的關鍵及發展趨勢

白駒談人機 2025-07-20 00:04:05
0 跟貼 0
美國“最堅固哨所”最神圣莊嚴的換崗時刻！

原創學習 2025-07-19 21:24:03
4294 跟貼 4294
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
5 跟貼 5
1739高中數學：求抽象函數值。先求周期，學霸利用函數性質來求解

我服子佩 2025-07-19 19:21:30
1 跟貼 1
Manus“撤退”，智能體“退潮”了？

鈦媒體APP 2025-07-20 09:34:18
2 跟貼 2
農民用大型工字鋼建別墅，框架不做任何防銹處理，全部是焊接而成

農場李哥 2025-07-19 10:12:58
0 跟貼 0
女學生在畫室里發現，畫畫用的模型竟被人換成了的真的人骨

柒柒看劇 2025-07-19 15:25:09
1 跟貼 1
詹姆斯·韋伯望遠鏡剛剛揭開了比鄰星B最清晰的圖像

素玉姑娘 2025-07-20 02:38:47
0 跟貼 0
過分了！大媽路過燒餅攤拿倆就走店主大喊制止她也充耳不聞

凌晨看看 2025-07-20 09:38:45
2428 跟貼 2428
楊植麟摸著DeepSeek過河

36氪 2025-07-19 12:31:08
0 跟貼 0
搜索范式革命：納米AI與谷歌的「超級搜索智能體」共識

36氪 2025-06-12 21:46:18
0 跟貼 0
高智商男人被困地牢，如何利用數理化知識絕境逃脫

紛享電影 2025-07-17 21:31:13
6 跟貼 6
One image is all you need多模態指令數據合成，只管給圖給Oasis

機器之心Pro 2025-07-18 18:03:34
0 跟貼 0
中美澳15位科學家定義AI新時代學科，揭示大模型存在根本性不對稱

DeepTech深科技 2025-07-19 20:56:22
6 跟貼 6
暴走團占據機動車道行走鍛煉，小車無奈停在原地等待！

眾橫四海 2025-07-20 08:29:06
3665 跟貼 3665
醬油師傅教學現場，全部流程可以搜索，真是高手在民間！

土豪搞笑協會鴨 2025-07-16 14:03:27
1 跟貼 1
【阿姆斯特丹博士論文】語言模型與人類理解與行為的對齊

人工智能學家 2025-07-20 17:06:03
0 跟貼 0
被動接招線上外賣大戰的美團，這次通過“快樂猴”主動奇襲線下零售

鈦媒體APP 2025-07-20 17:52:12
4 跟貼 4
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

新智元 2025-04-21 12:45:35
0 跟貼 0
徐志勝回應一家人共用一張臉，爆料父親被說長得好像徐志勝

湘村大余 2025-07-20 17:01:28
0 跟貼 0
美國國會通過《天才法案》將為穩定幣制定監管框架

新華社 2025-07-18 16:58:11
0 跟貼 0
高中數學求函數值基礎題目，這道題你有思路嗎？

三樂大掌柜 2025-07-17 07:47:29
1 跟貼 1
三伏天千萬別做這5件事，很多人以為在養生，其實在“養病”！

環球網資訊 2025-07-20 14:48:50
105 跟貼 105
Manus創始人首次復盤經驗教訓

虎嗅APP 2025-07-20 00:38:11
185 跟貼 185
北京一小區里并排兩輛車，號牌竟完全一樣……“豐臺群眾”立功了！

環球網資訊 2025-07-20 13:53:05
272 跟貼 272

量子位

追蹤人工智能動態

10893文章數 176192關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

數碼

教育

時尚

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

多模態模型學會“按需搜索”，少搜30%還更準！字節&NTU新研究

具體怎么做到的？

實驗效果如何？

Manus"跑路新加坡"后，創始人首次復盤

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

中國女籃輸日本，天賦完敗給努力和戰術

肖戰改名官宣！徹底不裝了，要自由

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

簡構智居 現代功能美學

電池供電運行《賽博朋克2077》：蘋果M4 Max能效比才略高于RTX 5090

差班，你用這樣的心態去帶，結果往往會更好！

夏天穿衣別死氣沉沉！來點彩色、多穿牛仔褲，減齡又不老套

美記者：若特朗普決定 澤連斯基或被流放

輔助駕駛五維測評蔚來世界模型:大智小糙

簡構智居現代功能美學

美記者：若特朗普決定澤連斯基或被流放