99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態模型學會“按需搜索”,少搜30%還更準!字節&NTU新研究

0
分享至

MMSearch-R1團隊投稿
量子位 | 公眾號 QbitAI

多模態模型學會“按需搜索”!

字節&NTU最新研究,優化多模態模型搜索策略

通過搭建網絡搜索工具、構建多模態搜索數據集以及涉及簡單有效的獎勵機制,首次嘗試基于端到端強化學習的多模態模型自主搜索訓練

經過訓練的模型能夠自主判斷搜索時機、搜索內容并處理搜索結果,在真實互聯網環境中執行多輪按需搜索。



實驗結果表明,在知識密集型視覺問答任務(Visual Question Answering, VQA)中,MMSearch-R1系統展現出顯著優勢:

其性能不僅超越同規模模型在傳統檢索增強生成(RAG)工作流下的性能,更在減少約30%搜索次數的前提下,達到了更大規模規模模型做傳統RAG的性能水平。

下文將詳細解析該研究的研究方法以及實驗發現。



具體怎么做到的?

近年來,隨著視覺-語言訓練數據集在規模和質量上的雙重提升,多模態大模型(Large Multimodal Models, LMMs)在跨模態理解任務中展現出卓越的性能,其文本與視覺知識的對齊能力顯著增強。

然而,現實世界的信息具有高度動態性和復雜性,單純依靠擴大訓練數據規模的知識獲取方式存在固有局限:難以覆蓋長尾分布的知識、無法獲取模型訓練截止日期后的新信息,以及難以觸及私域信息資源。

這些局限性導致模型在實際應用中容易產生幻覺現象,嚴重制約了其在廣泛現實場景下部署的可靠性。

在此背景下,網絡搜索作為人類獲取新知識的核心途徑,被視為擴展模型能力邊界的重要工具,正受到學術界的高度重視。

如何使多模態模型具備自主、精準的外部信息獲取能力,從而實現準確的問題解答,成為當前研究的關鍵挑戰。

因此,ByteDance與南洋理工大學(NTU)S-Lab聯合開展的MMSearch-R1項目針對這一挑戰進行了探索。

下面詳細來看該研究的研究方法。

集成多輪搜索的強化學習訓練



1、多模態搜索工具

MMSearch-R1集成圖像搜索和文本搜索兩種工具,以滿足模型應對視覺問答任務的需求,其中圖像搜索工具基于Google Lens,支持搜索與用戶圖像視覺外觀匹配的網頁標題以及主要縮略圖,用于幫助模型準確識別重要的視覺元素。

文本搜索工具由Google Search,JINA Reader以及用于網頁內容總結的語言模型構成的鏈路組成,支持搜索與模型生成的搜索內容最相關的網頁及其內容摘要,用于幫助模型精確定位所需文本知識與信息。

2、多輪搜索強化學習訓練

MMSearch-R1采用GRPO作為強化學習算法進行模型訓練,基于veRL框架實現集成多輪對話與搜索的Rollout過程,在每輪對話中,模型首先進行思考,并執行可選的動作,如調用多模態搜索工具與真實互聯網進行交互,或給出最終的答案。

3、帶有搜索懲罰的獎勵函數

MMSearch-R1的獎勵函數由準確性得分和格式得分兩部分以加權求和的形式構成,其權重分別為0.9和0.1,分別衡量模型是否準確回答了用戶問題(模型所給答案與真實答案作字符串精確匹配)以及遵循了既定回復格式。

為了激勵模型優先利用自身知識完成作答,還會對調用搜索工具才獲得正確答案的回復進行懲罰(搜索懲罰因子為0.1),最終獎勵函數為:



構建搜索需求均衡的多模態圖像問答數據集

為了有效訓練模型實現智能化的按需搜索能力,研究精心構建了FactualVQA(FVQA)數據集,包含訓練集和測試集。該數據集的構建采用了一套精心設計的半自動化流程,重點聚焦于需要豐富視覺與文本知識支持的問答場景。



1、數據采集

團隊首先基于MetaCLIP的元數據分布進行多層次采樣,確保覆蓋從高頻到長尾的多樣化視覺概念(Visual Concept),并從互聯網中搜索與視覺概念最相關的圖片,基于GPT-4o生成事實性問答對。

為增強數據集的文本知識維度,團隊還從InfoSeek訓練集中篩選了具有代表性的問答樣本進行補充。為確保數據質量貼近真實應用場景,FVQA還補充了800個由標注人員標注問答對樣本。

2、數據均衡

完成初步數據采集后,通過一個粗訓練的模型對現有樣本進行分類,檢查每條數據的搜索必要性,最終訓練數據集包含約3400個需要搜索的樣本和1600個無需搜索的樣本。

實驗效果如何?

MMSearch-R1-7B基于Qwen2.5-VL-7B模型進行訓練。

在FVQA-test、InfoSeek等知識密集型VQA任務中,MMSearch-R1-7B的平均準確率比同等規模模型的傳統RAG基線高出約3%搜索比率降低了32.9%,同時能夠媲美32B模型RAG基線的效果。



經過強化學習訓練,模型提升了優化搜索內容以及處理搜索結果的能力(下圖左,經過強化學習的模型執行RAG Workflow性能要好于原始模型),同時增強了挖掘利用自身固有知識的能力(下圖右,模型提升了不搜索即可回答正確的比率)。



強化學習展現出比監督微調更大的潛力,在所有任務上以較少的訓練樣本取得更大的性能增益(下圖左)。

同時證明數據搜索比例均衡以及獎勵函數中的搜索懲罰機制有助于在訓練過程中塑造模型的按需搜索行為(下圖右)。



最后總結來說,MMSearch-R1是一個基于強化學習的創新框架,賦予多模態大模型在真實互聯網環境中執行智能按需搜索的能力。該框架使模型能夠自主識別知識邊界,進而選擇圖像或文本搜索方式獲取所需信息,并對搜索結果進行有效推理。

團隊表示,該研究為開發具備現實世界交互能力的多模態大模型提供了重要洞見,為構建自適應、交互式的多模態智能體奠定了基礎。期待隨著模型通過更多工具與現實世界的持續交互,多模態智能將在推理和適應能力上實現新的飛躍。

論文地址:https://arxiv.org/abs/2506.20670
項目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
清華高北大1分,復交浙錄取線落后中科大,廈大僅排名第30位

清華高北大1分,復交浙錄取線落后中科大,廈大僅排名第30位

史海流年號
2025-07-17 22:25:38
宗繼昌律師發聲:宗慶后曾承認3個孩子是宗氏血脈,不會虧待他們

宗繼昌律師發聲:宗慶后曾承認3個孩子是宗氏血脈,不會虧待他們

涵豆說娛
2025-07-14 17:58:19
朱拉尼逃跑,高層遭斬首,電視臺被叛軍占領,國家剛到手就丟了?

朱拉尼逃跑,高層遭斬首,電視臺被叛軍占領,國家剛到手就丟了?

井普椿的獨白
2025-07-20 11:36:19
天價耳環大反轉!央視通報:貪污、別墅只是幌子,兩項違法才是真

天價耳環大反轉!央視通報:貪污、別墅只是幌子,兩項違法才是真

冷紫葉
2025-07-17 22:59:01
雅魯藏布江水壩背后,是中國與印度幾十年來的隱秘“水”戰

雅魯藏布江水壩背后,是中國與印度幾十年來的隱秘“水”戰

阿胡
2025-07-20 11:24:19
大勝韓國,宮魯鳴后悔半決賽棄用王思雨,除了數據一特質無可替代

大勝韓國,宮魯鳴后悔半決賽棄用王思雨,除了數據一特質無可替代

小潌拍客在北漂
2025-07-20 18:55:40
梁靖崑兒子曬與王楚欽合照,網友:梁靖崑才多大,兒子都這么大了

梁靖崑兒子曬與王楚欽合照,網友:梁靖崑才多大,兒子都這么大了

鳳幻洋
2025-07-20 16:26:04
官方通報自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現沼澤或化糞池味

官方通報自來水異味原因 多篇論文顯示藻類確可造成水體嗅味,并出現沼澤或化糞池味

紅星新聞
2025-07-19 17:47:14
洪欣帶女兒到杭州旅游,11歲張晞彤留一頭黃色卷發,顏值非常一般

洪欣帶女兒到杭州旅游,11歲張晞彤留一頭黃色卷發,顏值非常一般

探源歷史
2025-07-20 13:28:34
廣東深圳:5000萬銀行假流水成掠奪6億資產幫兇

廣東深圳:5000萬銀行假流水成掠奪6億資產幫兇

先驅鳥
2025-07-20 08:28:13
頒獎2核心抱頭痛哭!2人遭狠批,輸日本非實力原因,鄭薇怎么評價

頒獎2核心抱頭痛哭!2人遭狠批,輸日本非實力原因,鄭薇怎么評價

老吳說體育
2025-07-20 19:29:00
朱孝天再次發文,大S花錢大手大腳,小S能力有限,評價一針見血

朱孝天再次發文,大S花錢大手大腳,小S能力有限,評價一針見血

老鵜愛說事
2025-07-19 16:16:04
大反轉!遼寧老年暴走團擋道120被全網罵慘,律師:他們沒錯!

大反轉!遼寧老年暴走團擋道120被全網罵慘,律師:他們沒錯!

坦然風云
2025-07-20 10:30:03
宗馥莉長輩全部戰隊杜建英,正中她下懷,引蛇出洞,然后一網打盡

宗馥莉長輩全部戰隊杜建英,正中她下懷,引蛇出洞,然后一網打盡

公子麥少
2025-07-20 11:46:07
網友號召抵制《羊蹄山》:女權丑化一切 再好玩也不買

網友號召抵制《羊蹄山》:女權丑化一切 再好玩也不買

3DM游戲
2025-07-19 08:03:43
曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

裝修秀
2025-05-18 11:45:03
警惕莫迪來華小心思!繼中方一個官宣,印度希望中國明年投桃報李

警惕莫迪來華小心思!繼中方一個官宣,印度希望中國明年投桃報李

議紀史
2025-07-19 20:15:03
陳佩斯要哭了!本來看到幾萬的預售老爺子已經泄氣了!結果逆襲了

陳佩斯要哭了!本來看到幾萬的預售老爺子已經泄氣了!結果逆襲了

小娛樂悠悠
2025-07-20 10:00:06
中國女籃輕取韓國奪得季軍,女籃的一二三號位全部需要顛覆

中國女籃輕取韓國奪得季軍,女籃的一二三號位全部需要顛覆

李廣專業體育評論
2025-07-20 18:11:04
疑宗慶后司機爆料:他不喝酒,為人較節儉,一輛A6十六七年都不換

疑宗慶后司機爆料:他不喝酒,為人較節儉,一輛A6十六七年都不換

談史論天地
2025-07-20 15:22:22
2025-07-20 21:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

家居
數碼
教育
時尚
軍事航空

家居要聞

簡構智居 現代功能美學

數碼要聞

電池供電運行《賽博朋克2077》:蘋果M4 Max能效比才略高于RTX 5090

教育要聞

差班,你用這樣的心態去帶,結果往往會更好!

夏天穿衣別死氣沉沉!來點彩色、多穿牛仔褲,減齡又不老套

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昌黎县| 长沙市| 南木林县| 儋州市| 乾安县| 清镇市| 灵武市| 阜康市| 军事| 长治县| 荥经县| 盈江县| 湟源县| 鄂温| 定兴县| 德惠市| 逊克县| 龙泉市| 邳州市| 枣阳市| 巩义市| 长沙市| 乾安县| 精河县| 金寨县| 舒城县| 图片| 威信县| 那坡县| 云霄县| 牡丹江市| 河北区| 廊坊市| 城固县| 东方市| 辽宁省| 天气| 焦作市| 五大连池市| 新和县| 麻江县|