99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

單向VLM變雙向!人大斯坦福等提出MoCa框架:雙向多模態編碼器

0
分享至


新智元報道

編輯:LRST

【新智元導讀】MoCa框架把單向視覺語言模型轉化為雙向多模態嵌入模型,通過持續預訓練和異構對比微調,提升模型性能和泛化能力,在多模態基準測試中表現優異,尤其小規模模型性能突出。

預訓練的視覺語言模型(VLM)因其強大的圖文聯合建模能力,在多種任務上展現出巨大潛力,也成為了許多目前廣泛使用的多模態嵌入模型的基礎。

然而,這些使用因果注意力機制的多模態嵌入模型在多模態嵌入任務中存在三個關鍵限制:

  • 表示能力弱:因果注意力機制單向預測的特性,限制了模型充分捕獲雙向跨模態的深層語義。

  • 泛化性差:傳統模型多依賴于簡單的圖文對訓練數據,缺乏更廣泛、更豐富的數據源,難以在新任務或新領域快速泛化。

  • 擴展性低:現有模型的對比學習方法嚴重依賴于高質量的標注數據,導致成本高昂,難以有效地利用大規模無標注數據。

如何高效地將預訓練因果VLM轉變為強大的雙向多模態編碼器,已成為多模態理解領域的重要挑戰。

為了克服這些挑戰,亟需開發出一種新型框架,能夠高效利用大規模非標注數據,提升多模態嵌入模型的雙向理解和泛化能力。

中國人民大學、微軟亞洲研究院、斯坦福大學、普林斯頓大學等機構的研究者提出了MoCa框架,采用雙階段方法,將基于單向注意力預訓練的視覺語言模型(VLM)轉化為有效的雙向多模態編碼模型。


論文鏈接:https://arxiv.org/abs/2506.23115

項目主頁:https://haon-chen.github.io/MoCa/

MoCa通過針對不同模態的持續預訓練和異構對比微調,有效解決了傳統模型表示能力弱、泛化性差、擴展性低的問題,取得了顯著的性能提升。

MoCa:從單向到雙向

MoCa框架包括兩個核心階段:

  1. 針對不同模態的持續預訓練(Modality-aware Continual Pre-training)

    利用隨機遮蔽的文本與圖像塊進行聯合重建(MLM+MAE),增強模型的雙向跨模態理解能力;有效捕獲了更豐富的跨模態語義信息。

  2. 異構對比微調(Heterogeneous Contrastive Fine-tuning)

    利用多樣化的訓練數據(如長文檔、專業領域圖文、純文本等)和任務批次采樣策略,進一步提高模型的魯棒性和泛化性能。

通過上述方法,MoCa有效提升了多模態嵌入模型的雙向表示能力和泛化性能,并顯著降低了對高質量標注數據的依賴。

實驗結果表明,MoCa在多個標準多模態基準測試中表現出色,尤其是在小規模模型條件下即可超越更大模型的性能,為多模態嵌入模型的進一步發展奠定了堅實基礎。


MoCa框架包含兩個關鍵的技術組件

  1. 針對不同模態的持續預訓練(Modality-aware Continual Pre-training)

    跨模態雙向注意力有效捕獲圖文之間的深層語義交互,改善因果模型單向推理的不足。

    聯合mask重建(MLM+MAE)隨機遮蔽文本詞匯與圖像塊,讓模型雙向預測并恢復缺失信息;充分挖掘無標注數據的潛力,增強模型的跨模態表示能力。

  2. 異構對比微調 (Heterogeneous Contrastive Fine-tuning)

    任務批次采樣策略動態采樣不同任務批次,確保模型能夠高效地適應多任務、多領域的應用需求。

    多樣化數據源采用長文檔、多領域圖文、純文本等豐富數據類型,提升模型的泛化能力。

通過這兩個組件的緊密協作,MoCa實現了預訓練到微調的高效流程,充分利用無監督數據,在性能和泛化性上取得突破。

與傳統多模態嵌入框架的對比

MoCa框架相比傳統的多模態嵌入模型有著明顯優勢。

· 傳統框架(如mmE5、VLM2Vec)

單純依賴高質量標注圖文對,擴展性低;

以單向因果注意力為主,跨模態表示能力受限;

對新領域、新任務泛化性差。

· MoCa框架

充分利用大規模無標注數據,通過持續預訓練顯著降低成本;

雙向模態交互機制,能更深層次地捕捉圖文語義;

豐富的數據類型和任務采樣策略,大幅提升泛化性能和擴展性。

因此,MoCa的提出為多模態嵌入領域提供了一條更加高效、更具泛化性的研究路徑。

實驗效果:以小博大,效果顯著提升

研究人員在主流多模態嵌入基準MMEB和ViDoRe-v2上進行了全面評估。

在MMEB基準上


3B的MoCa模型即可達到現有7B規模baseline模型的性能水平。

7B的MoCa模型實現當前最佳性能(SOTA),顯著超越現有模型。

在ViDoRe-v2任務中


MoCa在跨語言、跨領域的復雜任務中表現突出,整體性能超過現有先進方法。

特別在多語言和專業領域數據泛化能力上表現出明顯優勢。

實驗結果充分驗證了MoCa框架在低資源條件下實現高性能的能力,以及卓越的泛化性能。

消融實驗


實驗驗證了MoCa各核心組件的有效性,結果顯示,去除針對不同模態的持續預訓練或異構對比微調中的任一環節,模型性能均明顯下降,進一步證明了MoCa框架每個組件的必要性和重要性。

持續預訓練的數據規模效應


為了探究持續預訓練數據規模對模型性能的影響,研究人員進行了針對性實驗。

實驗表明,隨著用于持續預訓練的數據規模增加,模型的多模態理解性能持續提升,但存在一定的性能飽和效應。

結果顯示,在實際應用中應合理權衡數據規模與計算成本,以實現最優性能。

未來展望

MoCa框架的成功驗證了針對不同模態的持續預訓練和異構對比微調策略的巨大潛力。這一方法不僅提升了小規模模型的表現,也為更廣泛的數據利用和泛化能力奠定了基礎。

未來,研究人員計劃進一步探索以下幾個方面:

  • 擴展到多模態多語言領域,探索更廣泛的跨語言泛化能力。

  • 集成更多模態信息,如視頻和音頻,推動模型在更復雜場景下的應用。

  • 優化持續預訓練策略,探索更高效的訓練技術,進一步降低計算成本。

通過持續的努力,MoCa框架一定能夠在多模態嵌入領域發揮更廣泛、更深遠的影響。

參考資料:

https://arxiv.org/abs/2506.23115


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“我不是北大親生的”,學生曬出2張錄取對比圖,控訴北大偏心

“我不是北大親生的”,學生曬出2張錄取對比圖,控訴北大偏心

妍妍教育日記
2025-07-09 21:34:37
男孩術后腦死亡醫院今年剛被處罰

男孩術后腦死亡醫院今年剛被處罰

大象新聞
2025-07-11 12:20:06
兩邊都賣,兩邊都不討好——兩伊戰爭中的中國軍售與它的后遺癥

兩邊都賣,兩邊都不討好——兩伊戰爭中的中國軍售與它的后遺癥

小院之觀
2025-07-09 05:30:12
王毅當面要求支持中國統一,默茨只字不提,為何要求各國支持武統

王毅當面要求支持中國統一,默茨只字不提,為何要求各國支持武統

叮當當科技
2025-07-11 13:08:17
阿爾卡拉斯:溫網可以提前給他頒獎了嗎?

阿爾卡拉斯:溫網可以提前給他頒獎了嗎?

網球之家
2025-07-11 13:03:58
中毒幼兒園新進展,央視連發5問,惡心一幕出現,胡錫進怒斥媒體

中毒幼兒園新進展,央視連發5問,惡心一幕出現,胡錫進怒斥媒體

吭哧有力
2025-07-09 17:19:04
掩護蔡鍔將軍逃跑的小鳳仙,嫁給鍋爐工后,72歲時說:我是小鳳仙

掩護蔡鍔將軍逃跑的小鳳仙,嫁給鍋爐工后,72歲時說:我是小鳳仙

結綠
2025-07-07 11:08:15
楊少華吊唁現場突發意外,前央視導演靈前失控,找楊議解決恩怨

楊少華吊唁現場突發意外,前央視導演靈前失控,找楊議解決恩怨

老吳教育課堂
2025-07-11 05:35:47
楊少華“移靈”陣容太強大!21輛勞斯萊斯跟隨,楊議發言感謝三家

楊少華“移靈”陣容太強大!21輛勞斯萊斯跟隨,楊議發言感謝三家

裕豐娛間說
2025-07-11 13:40:17
妻子出軌8年我裝沒發現,一天她腦溢血住院,我一句話讓她破防了

妻子出軌8年我裝沒發現,一天她腦溢血住院,我一句話讓她破防了

凱裕說故事
2025-07-07 13:45:59
高峰:拋棄那英和剛出生的兒子,20年過去了,他如今過得怎樣了?

高峰:拋棄那英和剛出生的兒子,20年過去了,他如今過得怎樣了?

動物奇奇怪怪
2025-07-10 09:54:56
傳統柜子已逐漸退出中國家庭!看看年輕人的新式做法,高級又實用!

傳統柜子已逐漸退出中國家庭!看看年輕人的新式做法,高級又實用!

裝小宅
2025-07-10 12:13:59
川西墜河第9天:大明玉親妹妹遺體被發現,家屬透露現場更多細節

川西墜河第9天:大明玉親妹妹遺體被發現,家屬透露現場更多細節

水泥土的搞笑
2025-07-11 00:14:14
歷朝歷代都不敢動的基石,就連和珅都不敢碰,天水幼兒園卻做到了

歷朝歷代都不敢動的基石,就連和珅都不敢碰,天水幼兒園卻做到了

削桐作琴
2025-07-10 17:15:34
94歲楊少華辭世!5兒1妻50年風雨,發妻已逝巨額遺產分配成焦點

94歲楊少華辭世!5兒1妻50年風雨,發妻已逝巨額遺產分配成焦點

振華觀史
2025-07-09 21:14:01
Science重磅發現:人類成年后乃至老年時,大腦海馬體中仍在持續產生新的神經元,有助于記憶和學習

Science重磅發現:人類成年后乃至老年時,大腦海馬體中仍在持續產生新的神經元,有助于記憶和學習

生物世界
2025-07-09 12:20:35
泰國女排鬧笑話!比賽上演五打六,馮坤老公執教受質疑,恐被降級

泰國女排鬧笑話!比賽上演五打六,馮坤老公執教受質疑,恐被降級

跑者排球視角
2025-07-11 12:52:34
賭上了國運!大美麗法案:為了美國的未來, 馬斯克看來是要被犧牲了

賭上了國運!大美麗法案:為了美國的未來, 馬斯克看來是要被犧牲了

星辰大海路上的種花家
2025-07-10 11:49:26
李鴻忠在黑龍江開展執法檢查

李鴻忠在黑龍江開展執法檢查

新京報政事兒
2025-07-11 07:10:54
中美俄外長會晤,魯比奧已無法入境,包機轉飛第三國,還剩24小時

中美俄外長會晤,魯比奧已無法入境,包機轉飛第三國,還剩24小時

墨蘭史書
2025-07-10 18:57:20
2025-07-11 14:39:01
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13039文章數 66093關注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

男生因室友電動車燃爆全身90%燒傷 治療花了290萬元

頭條要聞

男生因室友電動車燃爆全身90%燒傷 治療花了290萬元

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

楊少華靈堂細節 楊家兒子榨干老父親?

財經要聞

"它經濟"崛起 國產品牌快速追趕國際巨頭

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態度原創

旅游
親子
藝術
教育
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

說一些掏心窩的大實話

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

六年級思考題:無一人答對!添加符號444=17

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临桂县| 六安市| 六盘水市| 岳阳市| 准格尔旗| 广昌县| 贺州市| 娱乐| 呼和浩特市| 成都市| 金坛市| 湖南省| 金堂县| 洱源县| 元阳县| 加查县| 琼结县| 新安县| 锦州市| 睢宁县| 太白县| 定西市| 襄垣县| 香港 | 木兰县| 筠连县| 普兰县| 七台河市| 盘山县| 那坡县| 盐山县| 达尔| 西昌市| 郓城县| 调兵山市| 麻栗坡县| 永州市| 武汉市| 延庆县| 万州区| 高安市|