99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)模型學(xué)會“按需搜索”,少搜30%還更準(zhǔn)!字節(jié)&NTU新研究

0
分享至

MMSearch-R1團(tuán)隊投稿
量子位 | 公眾號 QbitAI

多模態(tài)模型學(xué)會“按需搜索”!

字節(jié)&NTU最新研究,優(yōu)化多模態(tài)模型搜索策略

通過搭建網(wǎng)絡(luò)搜索工具、構(gòu)建多模態(tài)搜索數(shù)據(jù)集以及涉及簡單有效的獎勵機(jī)制,首次嘗試基于端到端強化學(xué)習(xí)的多模態(tài)模型自主搜索訓(xùn)練

經(jīng)過訓(xùn)練的模型能夠自主判斷搜索時機(jī)、搜索內(nèi)容并處理搜索結(jié)果,在真實互聯(lián)網(wǎng)環(huán)境中執(zhí)行多輪按需搜索。



實驗結(jié)果表明,在知識密集型視覺問答任務(wù)(Visual Question Answering, VQA)中,MMSearch-R1系統(tǒng)展現(xiàn)出顯著優(yōu)勢:

其性能不僅超越同規(guī)模模型在傳統(tǒng)檢索增強生成(RAG)工作流下的性能,更在減少約30%搜索次數(shù)的前提下,達(dá)到了更大規(guī)模規(guī)模模型做傳統(tǒng)RAG的性能水平。

下文將詳細(xì)解析該研究的研究方法以及實驗發(fā)現(xiàn)。



具體怎么做到的?

近年來,隨著視覺-語言訓(xùn)練數(shù)據(jù)集在規(guī)模和質(zhì)量上的雙重提升,多模態(tài)大模型(Large Multimodal Models, LMMs)在跨模態(tài)理解任務(wù)中展現(xiàn)出卓越的性能,其文本與視覺知識的對齊能力顯著增強。

然而,現(xiàn)實世界的信息具有高度動態(tài)性和復(fù)雜性,單純依靠擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模的知識獲取方式存在固有局限:難以覆蓋長尾分布的知識、無法獲取模型訓(xùn)練截止日期后的新信息,以及難以觸及私域信息資源。

這些局限性導(dǎo)致模型在實際應(yīng)用中容易產(chǎn)生幻覺現(xiàn)象,嚴(yán)重制約了其在廣泛現(xiàn)實場景下部署的可靠性。

在此背景下,網(wǎng)絡(luò)搜索作為人類獲取新知識的核心途徑,被視為擴(kuò)展模型能力邊界的重要工具,正受到學(xué)術(shù)界的高度重視。

如何使多模態(tài)模型具備自主、精準(zhǔn)的外部信息獲取能力,從而實現(xiàn)準(zhǔn)確的問題解答,成為當(dāng)前研究的關(guān)鍵挑戰(zhàn)。

因此,ByteDance與南洋理工大學(xué)(NTU)S-Lab聯(lián)合開展的MMSearch-R1項目針對這一挑戰(zhàn)進(jìn)行了探索。

下面詳細(xì)來看該研究的研究方法。

集成多輪搜索的強化學(xué)習(xí)訓(xùn)練



1、多模態(tài)搜索工具

MMSearch-R1集成圖像搜索和文本搜索兩種工具,以滿足模型應(yīng)對視覺問答任務(wù)的需求,其中圖像搜索工具基于Google Lens,支持搜索與用戶圖像視覺外觀匹配的網(wǎng)頁標(biāo)題以及主要縮略圖,用于幫助模型準(zhǔn)確識別重要的視覺元素。

文本搜索工具由Google Search,JINA Reader以及用于網(wǎng)頁內(nèi)容總結(jié)的語言模型構(gòu)成的鏈路組成,支持搜索與模型生成的搜索內(nèi)容最相關(guān)的網(wǎng)頁及其內(nèi)容摘要,用于幫助模型精確定位所需文本知識與信息。

2、多輪搜索強化學(xué)習(xí)訓(xùn)練

MMSearch-R1采用GRPO作為強化學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,基于veRL框架實現(xiàn)集成多輪對話與搜索的Rollout過程,在每輪對話中,模型首先進(jìn)行思考,并執(zhí)行可選的動作,如調(diào)用多模態(tài)搜索工具與真實互聯(lián)網(wǎng)進(jìn)行交互,或給出最終的答案。

3、帶有搜索懲罰的獎勵函數(shù)

MMSearch-R1的獎勵函數(shù)由準(zhǔn)確性得分和格式得分兩部分以加權(quán)求和的形式構(gòu)成,其權(quán)重分別為0.9和0.1,分別衡量模型是否準(zhǔn)確回答了用戶問題(模型所給答案與真實答案作字符串精確匹配)以及遵循了既定回復(fù)格式。

為了激勵模型優(yōu)先利用自身知識完成作答,還會對調(diào)用搜索工具才獲得正確答案的回復(fù)進(jìn)行懲罰(搜索懲罰因子為0.1),最終獎勵函數(shù)為:



構(gòu)建搜索需求均衡的多模態(tài)圖像問答數(shù)據(jù)集

為了有效訓(xùn)練模型實現(xiàn)智能化的按需搜索能力,研究精心構(gòu)建了FactualVQA(FVQA)數(shù)據(jù)集,包含訓(xùn)練集和測試集。該數(shù)據(jù)集的構(gòu)建采用了一套精心設(shè)計的半自動化流程,重點聚焦于需要豐富視覺與文本知識支持的問答場景。



1、數(shù)據(jù)采集

團(tuán)隊首先基于MetaCLIP的元數(shù)據(jù)分布進(jìn)行多層次采樣,確保覆蓋從高頻到長尾的多樣化視覺概念(Visual Concept),并從互聯(lián)網(wǎng)中搜索與視覺概念最相關(guān)的圖片,基于GPT-4o生成事實性問答對。

為增強數(shù)據(jù)集的文本知識維度,團(tuán)隊還從InfoSeek訓(xùn)練集中篩選了具有代表性的問答樣本進(jìn)行補充。為確保數(shù)據(jù)質(zhì)量貼近真實應(yīng)用場景,F(xiàn)VQA還補充了800個由標(biāo)注人員標(biāo)注問答對樣本。

2、數(shù)據(jù)均衡

完成初步數(shù)據(jù)采集后,通過一個粗訓(xùn)練的模型對現(xiàn)有樣本進(jìn)行分類,檢查每條數(shù)據(jù)的搜索必要性,最終訓(xùn)練數(shù)據(jù)集包含約3400個需要搜索的樣本和1600個無需搜索的樣本。

實驗效果如何?

MMSearch-R1-7B基于Qwen2.5-VL-7B模型進(jìn)行訓(xùn)練。

在FVQA-test、InfoSeek等知識密集型VQA任務(wù)中,MMSearch-R1-7B的平均準(zhǔn)確率比同等規(guī)模模型的傳統(tǒng)RAG基線高出約3%搜索比率降低了32.9%,同時能夠媲美32B模型RAG基線的效果。



經(jīng)過強化學(xué)習(xí)訓(xùn)練,模型提升了優(yōu)化搜索內(nèi)容以及處理搜索結(jié)果的能力(下圖左,經(jīng)過強化學(xué)習(xí)的模型執(zhí)行RAG Workflow性能要好于原始模型),同時增強了挖掘利用自身固有知識的能力(下圖右,模型提升了不搜索即可回答正確的比率)。



強化學(xué)習(xí)展現(xiàn)出比監(jiān)督微調(diào)更大的潛力,在所有任務(wù)上以較少的訓(xùn)練樣本取得更大的性能增益(下圖左)。

同時證明數(shù)據(jù)搜索比例均衡以及獎勵函數(shù)中的搜索懲罰機(jī)制有助于在訓(xùn)練過程中塑造模型的按需搜索行為(下圖右)。



最后總結(jié)來說,MMSearch-R1是一個基于強化學(xué)習(xí)的創(chuàng)新框架,賦予多模態(tài)大模型在真實互聯(lián)網(wǎng)環(huán)境中執(zhí)行智能按需搜索的能力。該框架使模型能夠自主識別知識邊界,進(jìn)而選擇圖像或文本搜索方式獲取所需信息,并對搜索結(jié)果進(jìn)行有效推理。

團(tuán)隊表示,該研究為開發(fā)具備現(xiàn)實世界交互能力的多模態(tài)大模型提供了重要洞見,為構(gòu)建自適應(yīng)、交互式的多模態(tài)智能體奠定了基礎(chǔ)。期待隨著模型通過更多工具與現(xiàn)實世界的持續(xù)交互,多模態(tài)智能將在推理和適應(yīng)能力上實現(xiàn)新的飛躍。

論文地址:https://arxiv.org/abs/2506.20670
項目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
幼兒園鉛中毒后續(xù):其他園區(qū)出現(xiàn)癥狀,孩子流鼻血,監(jiān)控疑似被刪

幼兒園鉛中毒后續(xù):其他園區(qū)出現(xiàn)癥狀,孩子流鼻血,監(jiān)控疑似被刪

探源歷史
2025-07-11 18:06:54
4斷3帽!隊記:謝潑德新賽季角色提升的重要因素就是防守

4斷3帽!隊記:謝潑德新賽季角色提升的重要因素就是防守

直播吧
2025-07-12 12:06:16
嚴(yán)永勝,被查

嚴(yán)永勝,被查

新京報政事兒
2025-07-11 17:32:16
發(fā)現(xiàn)一個悲哀的現(xiàn)象:特別長壽的老人,幾乎都是子女用生命在托舉

發(fā)現(xiàn)一個悲哀的現(xiàn)象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
杜蘭特屈居第3!美媒曬NBA歷史得分手TOP20:麥迪12歐文6科比第二

杜蘭特屈居第3!美媒曬NBA歷史得分手TOP20:麥迪12歐文6科比第二

鍋子籃球
2025-07-11 16:42:46
李連杰自稱進(jìn)入倒計時,重提當(dāng)年港娛黑幕,要求利智日后低調(diào)行事

李連杰自稱進(jìn)入倒計時,重提當(dāng)年港娛黑幕,要求利智日后低調(diào)行事

任紀(jì)煙
2025-05-27 07:07:14
你敢打烏克蘭,我就炸莫斯科,特朗普公開攤牌,普京表示不吃這套

你敢打烏克蘭,我就炸莫斯科,特朗普公開攤牌,普京表示不吃這套

知鑒明史
2025-07-11 11:27:02
他信出山,痛批洪森,轉(zhuǎn)頭泰國外長就找到王毅,正式說了句:感謝

他信出山,痛批洪森,轉(zhuǎn)頭泰國外長就找到王毅,正式說了句:感謝

回京歷史夢
2025-07-12 06:55:03
我國為何要放任兩山輪戰(zhàn)打10年之久?“拖垮”越南,“熬干”蘇聯(lián)

我國為何要放任兩山輪戰(zhàn)打10年之久?“拖垮”越南,“熬干”蘇聯(lián)

智慧天氣通
2025-07-11 15:18:38
貴出天際的“雪糕刺客”,都倒在了2025年的夏天

貴出天際的“雪糕刺客”,都倒在了2025年的夏天

紅網(wǎng)論壇
2025-07-09 18:44:14
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
12號秀7中2+7失誤演砸!美記稱比帕威還差 河村勇輝6中1同拉胯

12號秀7中2+7失誤演砸!美記稱比帕威還差 河村勇輝6中1同拉胯

顏小白的籃球夢
2025-07-12 10:41:16
無解!交易正式達(dá)成,NBA最強五巨頭豪陣誕生,西部大結(jié)局了

無解!交易正式達(dá)成,NBA最強五巨頭豪陣誕生,西部大結(jié)局了

安徽紅蜻蜓雜志社
2025-07-11 22:29:04
郭正亮給了臺灣“最好”出路?一國兩制改1個字,或可統(tǒng)后不駐軍

郭正亮給了臺灣“最好”出路?一國兩制改1個字,或可統(tǒng)后不駐軍

顧史
2025-07-08 21:02:11
按世界衛(wèi)生組織標(biāo)準(zhǔn),我國有的城市80%以上孩子要調(diào)查鉛暴露源

按世界衛(wèi)生組織標(biāo)準(zhǔn),我國有的城市80%以上孩子要調(diào)查鉛暴露源

深度報
2025-07-11 21:11:53
2025年養(yǎng)老金調(diào)整通知正式出爐!工齡30年養(yǎng)老金3000元,漲多少?

2025年養(yǎng)老金調(diào)整通知正式出爐!工齡30年養(yǎng)老金3000元,漲多少?

博覽歷史
2025-07-11 11:21:48
山東臨沂一小飯店老板隨手拍視頻竟成“違法廣告”,45萬元“天價處罰”引爭議

山東臨沂一小飯店老板隨手拍視頻竟成“違法廣告”,45萬元“天價處罰”引爭議

大風(fēng)新聞
2025-07-11 13:24:27
周扣就能拯救付費短劇嗎?投訴倒是起飛了

周扣就能拯救付費短劇嗎?投訴倒是起飛了

新腕兒
2025-07-11 09:55:15
被隱藏的中國紅十字會內(nèi)幕:為什么國際紅會組織不認(rèn)可?

被隱藏的中國紅十字會內(nèi)幕:為什么國際紅會組織不認(rèn)可?

詩意世界
2025-07-10 16:23:20
爭議,陳熠3-1淘汰孫穎莎,郭焱直播間吐槽:懂點事,差不多得了

爭議,陳熠3-1淘汰孫穎莎,郭焱直播間吐槽:懂點事,差不多得了

二哥聊球
2025-07-11 19:59:56
2025-07-12 13:03:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10847文章數(shù) 176187關(guān)注度
往期回顧 全部

科技要聞

黃仁勛警示AI風(fēng)險:沒新想法,就集體失業(yè)

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經(jīng)要聞

中國超半數(shù)城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優(yōu)點很多缺點也很多

態(tài)度原創(chuàng)

本地
時尚
藝術(shù)
家居
公開課

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

盛夏最清爽的三組配色,很好看!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

生活憧憬 自由浪漫之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 通江县| 江西省| 米脂县| 称多县| 蓝山县| 陇南市| 临湘市| 巴彦县| 南京市| 平阴县| 桓台县| 交城县| 玉环县| 武义县| 宜城市| 莆田市| 光泽县| 建阳市| 五家渠市| 延川县| 白银市| 仲巴县| 西和县| 德保县| 新建县| 绥德县| 庐江县| 大厂| 南漳县| 宣武区| 区。| 县级市| 威海市| 沽源县| 达州市| 全南县| 延安市| 江阴市| 西安市| 修水县| 思南县|