99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

單向VLM變雙向!人大斯坦福等提出MoCa框架:雙向多模態(tài)編碼器

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】MoCa框架把單向視覺語言模型轉(zhuǎn)化為雙向多模態(tài)嵌入模型,通過持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào),提升模型性能和泛化能力,在多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,尤其小規(guī)模模型性能突出。

預(yù)訓(xùn)練的視覺語言模型(VLM)因其強(qiáng)大的圖文聯(lián)合建模能力,在多種任務(wù)上展現(xiàn)出巨大潛力,也成為了許多目前廣泛使用的多模態(tài)嵌入模型的基礎(chǔ)。

然而,這些使用因果注意力機(jī)制的多模態(tài)嵌入模型在多模態(tài)嵌入任務(wù)中存在三個(gè)關(guān)鍵限制:

  • 表示能力弱:因果注意力機(jī)制單向預(yù)測(cè)的特性,限制了模型充分捕獲雙向跨模態(tài)的深層語義。

  • 泛化性差:傳統(tǒng)模型多依賴于簡(jiǎn)單的圖文對(duì)訓(xùn)練數(shù)據(jù),缺乏更廣泛、更豐富的數(shù)據(jù)源,難以在新任務(wù)或新領(lǐng)域快速泛化。

  • 擴(kuò)展性低:現(xiàn)有模型的對(duì)比學(xué)習(xí)方法嚴(yán)重依賴于高質(zhì)量的標(biāo)注數(shù)據(jù),導(dǎo)致成本高昂,難以有效地利用大規(guī)模無標(biāo)注數(shù)據(jù)。

如何高效地將預(yù)訓(xùn)練因果VLM轉(zhuǎn)變?yōu)閺?qiáng)大的雙向多模態(tài)編碼器,已成為多模態(tài)理解領(lǐng)域的重要挑戰(zhàn)。

為了克服這些挑戰(zhàn),亟需開發(fā)出一種新型框架,能夠高效利用大規(guī)模非標(biāo)注數(shù)據(jù),提升多模態(tài)嵌入模型的雙向理解和泛化能力。

中國(guó)人民大學(xué)、微軟亞洲研究院、斯坦福大學(xué)、普林斯頓大學(xué)等機(jī)構(gòu)的研究者提出了MoCa框架,采用雙階段方法,將基于單向注意力預(yù)訓(xùn)練的視覺語言模型(VLM)轉(zhuǎn)化為有效的雙向多模態(tài)編碼模型。


論文鏈接:https://arxiv.org/abs/2506.23115

項(xiàng)目主頁:https://haon-chen.github.io/MoCa/

MoCa通過針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào),有效解決了傳統(tǒng)模型表示能力弱、泛化性差、擴(kuò)展性低的問題,取得了顯著的性能提升。

MoCa:從單向到雙向

MoCa框架包括兩個(gè)核心階段:

  1. 針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練(Modality-aware Continual Pre-training)

    利用隨機(jī)遮蔽的文本與圖像塊進(jìn)行聯(lián)合重建(MLM+MAE),增強(qiáng)模型的雙向跨模態(tài)理解能力;有效捕獲了更豐富的跨模態(tài)語義信息。

  2. 異構(gòu)對(duì)比微調(diào)(Heterogeneous Contrastive Fine-tuning)

    利用多樣化的訓(xùn)練數(shù)據(jù)(如長(zhǎng)文檔、專業(yè)領(lǐng)域圖文、純文本等)和任務(wù)批次采樣策略,進(jìn)一步提高模型的魯棒性和泛化性能。

通過上述方法,MoCa有效提升了多模態(tài)嵌入模型的雙向表示能力和泛化性能,并顯著降低了對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴。

實(shí)驗(yàn)結(jié)果表明,MoCa在多個(gè)標(biāo)準(zhǔn)多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色,尤其是在小規(guī)模模型條件下即可超越更大模型的性能,為多模態(tài)嵌入模型的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。


MoCa框架包含兩個(gè)關(guān)鍵的技術(shù)組件

  1. 針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練(Modality-aware Continual Pre-training)

    跨模態(tài)雙向注意力有效捕獲圖文之間的深層語義交互,改善因果模型單向推理的不足。

    聯(lián)合mask重建(MLM+MAE)隨機(jī)遮蔽文本詞匯與圖像塊,讓模型雙向預(yù)測(cè)并恢復(fù)缺失信息;充分挖掘無標(biāo)注數(shù)據(jù)的潛力,增強(qiáng)模型的跨模態(tài)表示能力。

  2. 異構(gòu)對(duì)比微調(diào) (Heterogeneous Contrastive Fine-tuning)

    任務(wù)批次采樣策略動(dòng)態(tài)采樣不同任務(wù)批次,確保模型能夠高效地適應(yīng)多任務(wù)、多領(lǐng)域的應(yīng)用需求。

    多樣化數(shù)據(jù)源采用長(zhǎng)文檔、多領(lǐng)域圖文、純文本等豐富數(shù)據(jù)類型,提升模型的泛化能力。

通過這兩個(gè)組件的緊密協(xié)作,MoCa實(shí)現(xiàn)了預(yù)訓(xùn)練到微調(diào)的高效流程,充分利用無監(jiān)督數(shù)據(jù),在性能和泛化性上取得突破。

與傳統(tǒng)多模態(tài)嵌入框架的對(duì)比

MoCa框架相比傳統(tǒng)的多模態(tài)嵌入模型有著明顯優(yōu)勢(shì)。

· 傳統(tǒng)框架(如mmE5、VLM2Vec)

單純依賴高質(zhì)量標(biāo)注圖文對(duì),擴(kuò)展性低;

以單向因果注意力為主,跨模態(tài)表示能力受限;

對(duì)新領(lǐng)域、新任務(wù)泛化性差。

· MoCa框架

充分利用大規(guī)模無標(biāo)注數(shù)據(jù),通過持續(xù)預(yù)訓(xùn)練顯著降低成本;

雙向模態(tài)交互機(jī)制,能更深層次地捕捉圖文語義;

豐富的數(shù)據(jù)類型和任務(wù)采樣策略,大幅提升泛化性能和擴(kuò)展性。

因此,MoCa的提出為多模態(tài)嵌入領(lǐng)域提供了一條更加高效、更具泛化性的研究路徑。

實(shí)驗(yàn)效果:以小博大,效果顯著提升

研究人員在主流多模態(tài)嵌入基準(zhǔn)MMEB和ViDoRe-v2上進(jìn)行了全面評(píng)估。

在MMEB基準(zhǔn)上


3B的MoCa模型即可達(dá)到現(xiàn)有7B規(guī)模baseline模型的性能水平。

7B的MoCa模型實(shí)現(xiàn)當(dāng)前最佳性能(SOTA),顯著超越現(xiàn)有模型。

在ViDoRe-v2任務(wù)中


MoCa在跨語言、跨領(lǐng)域的復(fù)雜任務(wù)中表現(xiàn)突出,整體性能超過現(xiàn)有先進(jìn)方法。

特別在多語言和專業(yè)領(lǐng)域數(shù)據(jù)泛化能力上表現(xiàn)出明顯優(yōu)勢(shì)。

實(shí)驗(yàn)結(jié)果充分驗(yàn)證了MoCa框架在低資源條件下實(shí)現(xiàn)高性能的能力,以及卓越的泛化性能。

消融實(shí)驗(yàn)


實(shí)驗(yàn)驗(yàn)證了MoCa各核心組件的有效性,結(jié)果顯示,去除針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練或異構(gòu)對(duì)比微調(diào)中的任一環(huán)節(jié),模型性能均明顯下降,進(jìn)一步證明了MoCa框架每個(gè)組件的必要性和重要性。

持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模效應(yīng)


為了探究持續(xù)預(yù)訓(xùn)練數(shù)據(jù)規(guī)模對(duì)模型性能的影響,研究人員進(jìn)行了針對(duì)性實(shí)驗(yàn)。

實(shí)驗(yàn)表明,隨著用于持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模增加,模型的多模態(tài)理解性能持續(xù)提升,但存在一定的性能飽和效應(yīng)。

結(jié)果顯示,在實(shí)際應(yīng)用中應(yīng)合理權(quán)衡數(shù)據(jù)規(guī)模與計(jì)算成本,以實(shí)現(xiàn)最優(yōu)性能。

未來展望

MoCa框架的成功驗(yàn)證了針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào)策略的巨大潛力。這一方法不僅提升了小規(guī)模模型的表現(xiàn),也為更廣泛的數(shù)據(jù)利用和泛化能力奠定了基礎(chǔ)。

未來,研究人員計(jì)劃進(jìn)一步探索以下幾個(gè)方面:

  • 擴(kuò)展到多模態(tài)多語言領(lǐng)域,探索更廣泛的跨語言泛化能力。

  • 集成更多模態(tài)信息,如視頻和音頻,推動(dòng)模型在更復(fù)雜場(chǎng)景下的應(yīng)用。

  • 優(yōu)化持續(xù)預(yù)訓(xùn)練策略,探索更高效的訓(xùn)練技術(shù),進(jìn)一步降低計(jì)算成本。

通過持續(xù)的努力,MoCa框架一定能夠在多模態(tài)嵌入領(lǐng)域發(fā)揮更廣泛、更深遠(yuǎn)的影響。

參考資料:

https://arxiv.org/abs/2506.23115


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
壽命長(zhǎng)短與吸煙、喝酒有多大關(guān)系?煙酒不沾能多活幾年?真相來了

壽命長(zhǎng)短與吸煙、喝酒有多大關(guān)系?煙酒不沾能多活幾年?真相來了

華庭講美食
2025-07-11 00:45:30
外媒眼中的“22世紀(jì)的技術(shù)”—等離子體發(fā)動(dòng)機(jī),或?qū)⒔K結(jié)燃油時(shí)代

外媒眼中的“22世紀(jì)的技術(shù)”—等離子體發(fā)動(dòng)機(jī),或?qū)⒔K結(jié)燃油時(shí)代

楊風(fēng)
2025-07-09 22:55:09
血虧20億,中美觀眾都不買單了,全球最貴電影撲街出局

血虧20億,中美觀眾都不買單了,全球最貴電影撲街出局

阿訊說天下
2025-07-10 11:00:09
女子刮中百萬大獎(jiǎng)遭攤主奪票?淮北市福彩發(fā)行中心回應(yīng)

女子刮中百萬大獎(jiǎng)遭攤主奪票?淮北市福彩發(fā)行中心回應(yīng)

界面新聞
2025-07-07 15:04:14
剛剛!中美經(jīng)貿(mào),最新消息!

剛剛!中美經(jīng)貿(mào),最新消息!

證券時(shí)報(bào)
2025-07-10 17:39:28
沒有遺言留下!去世當(dāng)天還在剪彩、帶貨,楊少華真的被兒子過度“消費(fèi)”嗎?

沒有遺言留下!去世當(dāng)天還在剪彩、帶貨,楊少華真的被兒子過度“消費(fèi)”嗎?

新民周刊
2025-07-10 14:05:19
新地標(biāo)!抖音深圳總部正式啟用

新地標(biāo)!抖音深圳總部正式啟用

GA環(huán)球建筑
2025-07-10 21:09:05
下肢5個(gè)異常,糖尿病足的“最后警報(bào)”,很多人后悔沒早點(diǎn)知道

下肢5個(gè)異常,糖尿病足的“最后警報(bào)”,很多人后悔沒早點(diǎn)知道

牛鍋巴小釩
2025-07-11 01:11:47
章子怡大侄女迎19歲生日,哥嫂全家出鏡慶祝,4歲小侄女好像姑姑

章子怡大侄女迎19歲生日,哥嫂全家出鏡慶祝,4歲小侄女好像姑姑

八怪娛
2025-07-10 16:12:55
兩年內(nèi)我會(huì)讓臺(tái)灣與大陸統(tǒng)一,絕不向美國(guó)軍購(gòu)

兩年內(nèi)我會(huì)讓臺(tái)灣與大陸統(tǒng)一,絕不向美國(guó)軍購(gòu)

boss外傳
2025-07-10 10:10:04
廣東提前批多校排位飆升,廣警漲4.7萬,歷史暴漲95分!

廣東提前批多校排位飆升,廣警漲4.7萬,歷史暴漲95分!

侃故事的阿慶
2025-07-11 00:09:24
巴黎是效力過最好的球隊(duì)?登貝萊:我曾效力過有梅西的巴薩

巴黎是效力過最好的球隊(duì)?登貝萊:我曾效力過有梅西的巴薩

懂球帝
2025-07-10 16:14:22
上海高速突發(fā)事故!面包車和轎車追尾,面包車駕駛員當(dāng)場(chǎng)身亡

上海高速突發(fā)事故!面包車和轎車追尾,面包車駕駛員當(dāng)場(chǎng)身亡

上觀新聞
2025-07-10 11:20:56
福建艦航母甲板全部清空,這是要刷號(hào)的節(jié)奏?

福建艦航母甲板全部清空,這是要刷號(hào)的節(jié)奏?

Ck的蜜糖
2025-07-11 01:35:28
楊少華吊唁現(xiàn)場(chǎng)突發(fā)意外,前央視導(dǎo)演靈前失控,找楊議解決恩怨

楊少華吊唁現(xiàn)場(chǎng)突發(fā)意外,前央視導(dǎo)演靈前失控,找楊議解決恩怨

界史
2025-07-10 10:01:33
會(huì)挨罵,但還是想辟個(gè)甘肅血鉛事件的謠言

會(huì)挨罵,但還是想辟個(gè)甘肅血鉛事件的謠言

灰產(chǎn)圈
2025-07-11 00:08:27
14億造了只“大鱷龜”?廣州新地標(biāo)造型炸眼,網(wǎng)友腦洞大開!

14億造了只“大鱷龜”?廣州新地標(biāo)造型炸眼,網(wǎng)友腦洞大開!

GA環(huán)球建筑
2025-07-11 01:30:34
7999元比亞迪電瓶車用120W電機(jī),續(xù)航500km,被認(rèn)定電動(dòng)摩托車?

7999元比亞迪電瓶車用120W電機(jī),續(xù)航500km,被認(rèn)定電動(dòng)摩托車?

寵物圈子坊
2025-07-10 10:58:07
臺(tái)灣國(guó)民黨鄭麗文:兩岸若開戰(zhàn),大陸會(huì)被拖垮一半,起碼要慢30年

臺(tái)灣國(guó)民黨鄭麗文:兩岸若開戰(zhàn),大陸會(huì)被拖垮一半,起碼要慢30年

文史旺旺旺
2025-07-10 20:57:08
“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

冷紫葉
2025-07-08 21:20:03
2025-07-11 04:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13035文章數(shù) 66085關(guān)注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費(fèi)2千,會(huì)不會(huì)三觀不正?

頭條要聞

退休人員基本養(yǎng)老金為何上調(diào)2% 人社部發(fā)文回應(yīng)

頭條要聞

退休人員基本養(yǎng)老金為何上調(diào)2% 人社部發(fā)文回應(yīng)

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結(jié)束

娛樂要聞

宋佳,真的好叛逆!

財(cái)經(jīng)要聞

潮玩規(guī)模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
本地
健康
房產(chǎn)
時(shí)尚

魔獸懷舊服:團(tuán)長(zhǎng)發(fā)問為什么不吃合劑,玩家神回復(fù),收益是關(guān)鍵

本地新聞

換個(gè)城市過夏天 | 楓葉之都的22℃清涼秘境

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

重磅!招商+平安出手,拿下海南440畝灣區(qū)大盤!

我完美的發(fā)型被回南天做局了……

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 深泽县| 子长县| 宣城市| 罗源县| 垦利县| 宁德市| 芒康县| 永善县| 栾城县| 且末县| 新源县| 镇江市| 永福县| 汪清县| 内黄县| 玉环县| 绵阳市| 马尔康县| 岑巩县| 关岭| 顺义区| 定陶县| 错那县| 满洲里市| 永修县| 太和县| 伊宁县| 鞍山市| 原平市| 陵水| 云南省| 鱼台县| 盈江县| 德庆县| 霍山县| 洱源县| 邓州市| 大兴区| 晋中市| 乾安县| 洛南县|