網易首頁 > 網易號 > 正文申請入駐

單向VLM變雙向！人大斯坦福等提出MoCa框架：雙向多模態編碼器

2025-07-10 15:12:09　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】MoCa框架把單向視覺語言模型轉化為雙向多模態嵌入模型，通過持續預訓練和異構對比微調，提升模型性能和泛化能力，在多模態基準測試中表現優異，尤其小規模模型性能突出。

預訓練的視覺語言模型（VLM）因其強大的圖文聯合建模能力，在多種任務上展現出巨大潛力，也成為了許多目前廣泛使用的多模態嵌入模型的基礎。

然而，這些使用因果注意力機制的多模態嵌入模型在多模態嵌入任務中存在三個關鍵限制：

表示能力弱：因果注意力機制單向預測的特性，限制了模型充分捕獲雙向跨模態的深層語義。
泛化性差：傳統模型多依賴于簡單的圖文對訓練數據，缺乏更廣泛、更豐富的數據源，難以在新任務或新領域快速泛化。
擴展性低：現有模型的對比學習方法嚴重依賴于高質量的標注數據，導致成本高昂，難以有效地利用大規模無標注數據。

如何高效地將預訓練因果VLM轉變為強大的雙向多模態編碼器，已成為多模態理解領域的重要挑戰。

為了克服這些挑戰，亟需開發出一種新型框架，能夠高效利用大規模非標注數據，提升多模態嵌入模型的雙向理解和泛化能力。

中國人民大學、微軟亞洲研究院、斯坦福大學、普林斯頓大學等機構的研究者提出了MoCa框架，采用雙階段方法，將基于單向注意力預訓練的視覺語言模型（VLM）轉化為有效的雙向多模態編碼模型。

論文鏈接：https://arxiv.org/abs/2506.23115

項目主頁：https://haon-chen.github.io/MoCa/

MoCa通過針對不同模態的持續預訓練和異構對比微調，有效解決了傳統模型表示能力弱、泛化性差、擴展性低的問題，取得了顯著的性能提升。

MoCa：從單向到雙向

MoCa框架包括兩個核心階段：

針對不同模態的持續預訓練（Modality-aware Continual Pre-training）
利用隨機遮蔽的文本與圖像塊進行聯合重建（MLM+MAE），增強模型的雙向跨模態理解能力；有效捕獲了更豐富的跨模態語義信息。
異構對比微調（Heterogeneous Contrastive Fine-tuning）
利用多樣化的訓練數據（如長文檔、專業領域圖文、純文本等）和任務批次采樣策略，進一步提高模型的魯棒性和泛化性能。

通過上述方法，MoCa有效提升了多模態嵌入模型的雙向表示能力和泛化性能，并顯著降低了對高質量標注數據的依賴。

實驗結果表明，MoCa在多個標準多模態基準測試中表現出色，尤其是在小規模模型條件下即可超越更大模型的性能，為多模態嵌入模型的進一步發展奠定了堅實基礎。

MoCa框架包含兩個關鍵的技術組件：

針對不同模態的持續預訓練（Modality-aware Continual Pre-training）
跨模態雙向注意力：有效捕獲圖文之間的深層語義交互，改善因果模型單向推理的不足。
聯合mask重建（MLM+MAE）：隨機遮蔽文本詞匯與圖像塊，讓模型雙向預測并恢復缺失信息；充分挖掘無標注數據的潛力，增強模型的跨模態表示能力。
異構對比微調 (Heterogeneous Contrastive Fine-tuning)
任務批次采樣策略：動態采樣不同任務批次，確保模型能夠高效地適應多任務、多領域的應用需求。
多樣化數據源：采用長文檔、多領域圖文、純文本等豐富數據類型，提升模型的泛化能力。

通過這兩個組件的緊密協作，MoCa實現了預訓練到微調的高效流程，充分利用無監督數據，在性能和泛化性上取得突破。

與傳統多模態嵌入框架的對比

MoCa框架相比傳統的多模態嵌入模型有著明顯優勢。

· 傳統框架（如mmE5、VLM2Vec）

單純依賴高質量標注圖文對，擴展性低；

以單向因果注意力為主，跨模態表示能力受限；

對新領域、新任務泛化性差。

· MoCa框架

充分利用大規模無標注數據，通過持續預訓練顯著降低成本；

雙向模態交互機制，能更深層次地捕捉圖文語義；

豐富的數據類型和任務采樣策略，大幅提升泛化性能和擴展性。

因此，MoCa的提出為多模態嵌入領域提供了一條更加高效、更具泛化性的研究路徑。

實驗效果：以小博大，效果顯著提升

研究人員在主流多模態嵌入基準MMEB和ViDoRe-v2上進行了全面評估。

在MMEB基準上

3B的MoCa模型即可達到現有7B規模baseline模型的性能水平。

7B的MoCa模型實現當前最佳性能（SOTA），顯著超越現有模型。

在ViDoRe-v2任務中

MoCa在跨語言、跨領域的復雜任務中表現突出，整體性能超過現有先進方法。

特別在多語言和專業領域數據泛化能力上表現出明顯優勢。

實驗結果充分驗證了MoCa框架在低資源條件下實現高性能的能力，以及卓越的泛化性能。

消融實驗

實驗驗證了MoCa各核心組件的有效性，結果顯示，去除針對不同模態的持續預訓練或異構對比微調中的任一環節，模型性能均明顯下降，進一步證明了MoCa框架每個組件的必要性和重要性。

持續預訓練的數據規模效應

為了探究持續預訓練數據規模對模型性能的影響，研究人員進行了針對性實驗。

實驗表明，隨著用于持續預訓練的數據規模增加，模型的多模態理解性能持續提升，但存在一定的性能飽和效應。

結果顯示，在實際應用中應合理權衡數據規模與計算成本，以實現最優性能。

未來展望

MoCa框架的成功驗證了針對不同模態的持續預訓練和異構對比微調策略的巨大潛力。這一方法不僅提升了小規模模型的表現，也為更廣泛的數據利用和泛化能力奠定了基礎。

未來，研究人員計劃進一步探索以下幾個方面：

擴展到多模態多語言領域，探索更廣泛的跨語言泛化能力。
集成更多模態信息，如視頻和音頻，推動模型在更復雜場景下的應用。
優化持續預訓練策略，探索更高效的訓練技術，進一步降低計算成本。

通過持續的努力，MoCa框架一定能夠在多模態嵌入領域發揮更廣泛、更深遠的影響。

參考資料：

https://arxiv.org/abs/2506.23115

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.