99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

單向VLM變雙向!人大斯坦福等提出MoCa框架:雙向多模態編碼器

0
分享至


新智元報道

編輯:LRST

【新智元導讀】MoCa框架把單向視覺語言模型轉化為雙向多模態嵌入模型,通過持續預訓練和異構對比微調,提升模型性能和泛化能力,在多模態基準測試中表現優異,尤其小規模模型性能突出。

預訓練的視覺語言模型(VLM)因其強大的圖文聯合建模能力,在多種任務上展現出巨大潛力,也成為了許多目前廣泛使用的多模態嵌入模型的基礎。

然而,這些使用因果注意力機制的多模態嵌入模型在多模態嵌入任務中存在三個關鍵限制:

  • 表示能力弱:因果注意力機制單向預測的特性,限制了模型充分捕獲雙向跨模態的深層語義。

  • 泛化性差:傳統模型多依賴于簡單的圖文對訓練數據,缺乏更廣泛、更豐富的數據源,難以在新任務或新領域快速泛化。

  • 擴展性低:現有模型的對比學習方法嚴重依賴于高質量的標注數據,導致成本高昂,難以有效地利用大規模無標注數據。

如何高效地將預訓練因果VLM轉變為強大的雙向多模態編碼器,已成為多模態理解領域的重要挑戰。

為了克服這些挑戰,亟需開發出一種新型框架,能夠高效利用大規模非標注數據,提升多模態嵌入模型的雙向理解和泛化能力。

中國人民大學、微軟亞洲研究院、斯坦福大學、普林斯頓大學等機構的研究者提出了MoCa框架,采用雙階段方法,將基于單向注意力預訓練的視覺語言模型(VLM)轉化為有效的雙向多模態編碼模型。


論文鏈接:https://arxiv.org/abs/2506.23115

項目主頁:https://haon-chen.github.io/MoCa/

MoCa通過針對不同模態的持續預訓練和異構對比微調,有效解決了傳統模型表示能力弱、泛化性差、擴展性低的問題,取得了顯著的性能提升。

MoCa:從單向到雙向

MoCa框架包括兩個核心階段:

  1. 針對不同模態的持續預訓練(Modality-aware Continual Pre-training)

    利用隨機遮蔽的文本與圖像塊進行聯合重建(MLM+MAE),增強模型的雙向跨模態理解能力;有效捕獲了更豐富的跨模態語義信息。

  2. 異構對比微調(Heterogeneous Contrastive Fine-tuning)

    利用多樣化的訓練數據(如長文檔、專業領域圖文、純文本等)和任務批次采樣策略,進一步提高模型的魯棒性和泛化性能。

通過上述方法,MoCa有效提升了多模態嵌入模型的雙向表示能力和泛化性能,并顯著降低了對高質量標注數據的依賴。

實驗結果表明,MoCa在多個標準多模態基準測試中表現出色,尤其是在小規模模型條件下即可超越更大模型的性能,為多模態嵌入模型的進一步發展奠定了堅實基礎。


MoCa框架包含兩個關鍵的技術組件

  1. 針對不同模態的持續預訓練(Modality-aware Continual Pre-training)

    跨模態雙向注意力有效捕獲圖文之間的深層語義交互,改善因果模型單向推理的不足。

    聯合mask重建(MLM+MAE)隨機遮蔽文本詞匯與圖像塊,讓模型雙向預測并恢復缺失信息;充分挖掘無標注數據的潛力,增強模型的跨模態表示能力。

  2. 異構對比微調 (Heterogeneous Contrastive Fine-tuning)

    任務批次采樣策略動態采樣不同任務批次,確保模型能夠高效地適應多任務、多領域的應用需求。

    多樣化數據源采用長文檔、多領域圖文、純文本等豐富數據類型,提升模型的泛化能力。

通過這兩個組件的緊密協作,MoCa實現了預訓練到微調的高效流程,充分利用無監督數據,在性能和泛化性上取得突破。

與傳統多模態嵌入框架的對比

MoCa框架相比傳統的多模態嵌入模型有著明顯優勢。

· 傳統框架(如mmE5、VLM2Vec)

單純依賴高質量標注圖文對,擴展性低;

以單向因果注意力為主,跨模態表示能力受限;

對新領域、新任務泛化性差。

· MoCa框架

充分利用大規模無標注數據,通過持續預訓練顯著降低成本;

雙向模態交互機制,能更深層次地捕捉圖文語義;

豐富的數據類型和任務采樣策略,大幅提升泛化性能和擴展性。

因此,MoCa的提出為多模態嵌入領域提供了一條更加高效、更具泛化性的研究路徑。

實驗效果:以小博大,效果顯著提升

研究人員在主流多模態嵌入基準MMEB和ViDoRe-v2上進行了全面評估。

在MMEB基準上


3B的MoCa模型即可達到現有7B規模baseline模型的性能水平。

7B的MoCa模型實現當前最佳性能(SOTA),顯著超越現有模型。

在ViDoRe-v2任務中


MoCa在跨語言、跨領域的復雜任務中表現突出,整體性能超過現有先進方法。

特別在多語言和專業領域數據泛化能力上表現出明顯優勢。

實驗結果充分驗證了MoCa框架在低資源條件下實現高性能的能力,以及卓越的泛化性能。

消融實驗


實驗驗證了MoCa各核心組件的有效性,結果顯示,去除針對不同模態的持續預訓練或異構對比微調中的任一環節,模型性能均明顯下降,進一步證明了MoCa框架每個組件的必要性和重要性。

持續預訓練的數據規模效應


為了探究持續預訓練數據規模對模型性能的影響,研究人員進行了針對性實驗。

實驗表明,隨著用于持續預訓練的數據規模增加,模型的多模態理解性能持續提升,但存在一定的性能飽和效應。

結果顯示,在實際應用中應合理權衡數據規模與計算成本,以實現最優性能。

未來展望

MoCa框架的成功驗證了針對不同模態的持續預訓練和異構對比微調策略的巨大潛力。這一方法不僅提升了小規模模型的表現,也為更廣泛的數據利用和泛化能力奠定了基礎。

未來,研究人員計劃進一步探索以下幾個方面:

  • 擴展到多模態多語言領域,探索更廣泛的跨語言泛化能力。

  • 集成更多模態信息,如視頻和音頻,推動模型在更復雜場景下的應用。

  • 優化持續預訓練策略,探索更高效的訓練技術,進一步降低計算成本。

通過持續的努力,MoCa框架一定能夠在多模態嵌入領域發揮更廣泛、更深遠的影響。

參考資料:

https://arxiv.org/abs/2506.23115


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
對于一只口罩都嚴禁給大陸的臺灣,大陸早就該動手嚴厲制裁

對于一只口罩都嚴禁給大陸的臺灣,大陸早就該動手嚴厲制裁

雪中風車
2025-07-12 12:12:18
楊少華死因公布:肺衰竭,冤枉4個兒子了,當天在室外僅待1分鐘

楊少華死因公布:肺衰竭,冤枉4個兒子了,當天在室外僅待1分鐘

振華觀史
2025-07-11 22:22:22
假牙泡水白發稀疏!72歲趙雅芝啃泡面吸氧養全家,兒子開豪車炫富

假牙泡水白發稀疏!72歲趙雅芝啃泡面吸氧養全家,兒子開豪車炫富

一盅情懷
2025-07-11 14:53:57
外媒:iPhone 17預計9月8日當周發布 共四款新機

外媒:iPhone 17預計9月8日當周發布 共四款新機

手機中國
2025-07-11 13:26:14
陜西白水“男子灌面湯嗆死妻子案”因“案情復雜”再次延期審理,女方家屬稱未簽諒解書

陜西白水“男子灌面湯嗆死妻子案”因“案情復雜”再次延期審理,女方家屬稱未簽諒解書

極目新聞
2025-07-12 00:21:00
中國女籃亞洲杯12人名單:陳明伶王佳琦被裁 中鋒僅韓旭張子宇

中國女籃亞洲杯12人名單:陳明伶王佳琦被裁 中鋒僅韓旭張子宇

顏小白的籃球夢
2025-07-12 09:58:35
“牡丹花下死”!這次74歲的王石,終究沒逃過“老夫少妻”的殘酷

“牡丹花下死”!這次74歲的王石,終究沒逃過“老夫少妻”的殘酷

葡萄說娛
2025-07-12 09:50:15
聯合國向韓國下最后通牒!還有5天時間,拿不出證據就是文化挪用

聯合國向韓國下最后通牒!還有5天時間,拿不出證據就是文化挪用

聯友說娛
2025-07-12 09:47:31
我國天然鈾生產新突破!“國鈾一號”成功生產下線“第一桶鈾”

我國天然鈾生產新突破!“國鈾一號”成功生產下線“第一桶鈾”

新京報
2025-07-12 12:27:23
朱茵全家游玩兵馬俑,女兒神似父親,朱茵氣質好,黃貫中衰老明顯

朱茵全家游玩兵馬俑,女兒神似父親,朱茵氣質好,黃貫中衰老明顯

小徐講八卦
2025-07-04 08:00:02
牛奶再次成為被關注對象!哈佛研究:每周超過3杯,肝癌風險增加

牛奶再次成為被關注對象!哈佛研究:每周超過3杯,肝癌風險增加

資說
2025-07-12 09:48:06
項立剛:臺灣在做最后準備,統一不遠了!配圖賴清德翹蘭花指軍演

項立剛:臺灣在做最后準備,統一不遠了!配圖賴清德翹蘭花指軍演

說說史事
2025-07-12 08:54:02
太緊張了!最后一球趙勇嚇得都不敢直起腰來,賽后采訪語無倫次

太緊張了!最后一球趙勇嚇得都不敢直起腰來,賽后采訪語無倫次

南海浪花
2025-07-12 12:29:58
35%關稅,美對加拿大“一記重擊”

35%關稅,美對加拿大“一記重擊”

環球時報國際
2025-07-12 09:13:02
楊少華吊唁現場突發意外,前央視導演靈前失控,找楊議解決恩怨

楊少華吊唁現場突發意外,前央視導演靈前失控,找楊議解決恩怨

頭號劇委會
2025-07-10 20:38:09
普京都驚嘆:泰國流亡女總理變成中國公司董事長,其傳奇讓人稱贊

普京都驚嘆:泰國流亡女總理變成中國公司董事長,其傳奇讓人稱贊

boss外傳
2025-07-04 21:10:03
高考575分被掃地出門后續:老母親哭訴,兒子黑料太多,六親不認

高考575分被掃地出門后續:老母親哭訴,兒子黑料太多,六親不認

涵豆說娛
2025-07-09 17:43:13
修了8年不修了!俄羅斯唯一現役航母或遭報廢拆解,改造期間曾發生多起事故

修了8年不修了!俄羅斯唯一現役航母或遭報廢拆解,改造期間曾發生多起事故

紅星新聞
2025-07-11 16:03:06
突傳消息!他因病逝世,年僅58歲

突傳消息!他因病逝世,年僅58歲

南方都市報
2025-07-07 12:56:40
吳曉波:最大問題就是還在走房地產老路,曾稱只有樓市才能救內需

吳曉波:最大問題就是還在走房地產老路,曾稱只有樓市才能救內需

光宇吐樓市
2025-07-09 20:30:41
2025-07-12 13:40:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13044文章數 66094關注度
往期回顧 全部

科技要聞

黃仁勛警示AI風險:沒新想法,就集體失業

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

數碼
親子
家居
藝術
健康

數碼要聞

LG 推出“32UN880K”31.5 英寸顯示器:4K 60Hz + 雙揚,3399 元

親子要聞

這衣服漂亮不?

家居要聞

生活憧憬 自由浪漫之境

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 浦东新区| 姜堰市| 青阳县| 吉林市| 宁明县| 福泉市| 凤阳县| 石门县| 留坝县| 双牌县| 沁源县| 慈利县| 运城市| 新竹市| 石河子市| 曲阜市| 吐鲁番市| 饶河县| 筠连县| 元江| 临江市| 桦川县| 泸西县| 黄龙县| 读书| 元阳县| 崇州市| 兴和县| 花莲市| 抚宁县| 靖江市| 久治县| 永昌县| 扶风县| 双辽市| 改则县| 闵行区| 宜昌市| 芜湖县| 望奎县| 南投市|