新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】MoCa框架把單向視覺語言模型轉(zhuǎn)化為雙向多模態(tài)嵌入模型,通過持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào),提升模型性能和泛化能力,在多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,尤其小規(guī)模模型性能突出。
預(yù)訓(xùn)練的視覺語言模型(VLM)因其強(qiáng)大的圖文聯(lián)合建模能力,在多種任務(wù)上展現(xiàn)出巨大潛力,也成為了許多目前廣泛使用的多模態(tài)嵌入模型的基礎(chǔ)。
然而,這些使用因果注意力機(jī)制的多模態(tài)嵌入模型在多模態(tài)嵌入任務(wù)中存在三個(gè)關(guān)鍵限制:
表示能力弱:因果注意力機(jī)制單向預(yù)測(cè)的特性,限制了模型充分捕獲雙向跨模態(tài)的深層語義。
泛化性差:傳統(tǒng)模型多依賴于簡(jiǎn)單的圖文對(duì)訓(xùn)練數(shù)據(jù),缺乏更廣泛、更豐富的數(shù)據(jù)源,難以在新任務(wù)或新領(lǐng)域快速泛化。
擴(kuò)展性低:現(xiàn)有模型的對(duì)比學(xué)習(xí)方法嚴(yán)重依賴于高質(zhì)量的標(biāo)注數(shù)據(jù),導(dǎo)致成本高昂,難以有效地利用大規(guī)模無標(biāo)注數(shù)據(jù)。
如何高效地將預(yù)訓(xùn)練因果VLM轉(zhuǎn)變?yōu)閺?qiáng)大的雙向多模態(tài)編碼器,已成為多模態(tài)理解領(lǐng)域的重要挑戰(zhàn)。
為了克服這些挑戰(zhàn),亟需開發(fā)出一種新型框架,能夠高效利用大規(guī)模非標(biāo)注數(shù)據(jù),提升多模態(tài)嵌入模型的雙向理解和泛化能力。
中國(guó)人民大學(xué)、微軟亞洲研究院、斯坦福大學(xué)、普林斯頓大學(xué)等機(jī)構(gòu)的研究者提出了MoCa框架,采用雙階段方法,將基于單向注意力預(yù)訓(xùn)練的視覺語言模型(VLM)轉(zhuǎn)化為有效的雙向多模態(tài)編碼模型。
論文鏈接:https://arxiv.org/abs/2506.23115
項(xiàng)目主頁:https://haon-chen.github.io/MoCa/
MoCa通過針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào),有效解決了傳統(tǒng)模型表示能力弱、泛化性差、擴(kuò)展性低的問題,取得了顯著的性能提升。
MoCa:從單向到雙向
MoCa框架包括兩個(gè)核心階段:
針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練(Modality-aware Continual Pre-training)
利用隨機(jī)遮蔽的文本與圖像塊進(jìn)行聯(lián)合重建(MLM+MAE),增強(qiáng)模型的雙向跨模態(tài)理解能力;有效捕獲了更豐富的跨模態(tài)語義信息。
異構(gòu)對(duì)比微調(diào)(Heterogeneous Contrastive Fine-tuning)
利用多樣化的訓(xùn)練數(shù)據(jù)(如長(zhǎng)文檔、專業(yè)領(lǐng)域圖文、純文本等)和任務(wù)批次采樣策略,進(jìn)一步提高模型的魯棒性和泛化性能。
通過上述方法,MoCa有效提升了多模態(tài)嵌入模型的雙向表示能力和泛化性能,并顯著降低了對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的依賴。
實(shí)驗(yàn)結(jié)果表明,MoCa在多個(gè)標(biāo)準(zhǔn)多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色,尤其是在小規(guī)模模型條件下即可超越更大模型的性能,為多模態(tài)嵌入模型的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
MoCa框架包含兩個(gè)關(guān)鍵的技術(shù)組件:
針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練(Modality-aware Continual Pre-training)
跨模態(tài)雙向注意力:有效捕獲圖文之間的深層語義交互,改善因果模型單向推理的不足。
聯(lián)合mask重建(MLM+MAE):隨機(jī)遮蔽文本詞匯與圖像塊,讓模型雙向預(yù)測(cè)并恢復(fù)缺失信息;充分挖掘無標(biāo)注數(shù)據(jù)的潛力,增強(qiáng)模型的跨模態(tài)表示能力。
異構(gòu)對(duì)比微調(diào) (Heterogeneous Contrastive Fine-tuning)
任務(wù)批次采樣策略:動(dòng)態(tài)采樣不同任務(wù)批次,確保模型能夠高效地適應(yīng)多任務(wù)、多領(lǐng)域的應(yīng)用需求。
多樣化數(shù)據(jù)源:采用長(zhǎng)文檔、多領(lǐng)域圖文、純文本等豐富數(shù)據(jù)類型,提升模型的泛化能力。
通過這兩個(gè)組件的緊密協(xié)作,MoCa實(shí)現(xiàn)了預(yù)訓(xùn)練到微調(diào)的高效流程,充分利用無監(jiān)督數(shù)據(jù),在性能和泛化性上取得突破。
與傳統(tǒng)多模態(tài)嵌入框架的對(duì)比
MoCa框架相比傳統(tǒng)的多模態(tài)嵌入模型有著明顯優(yōu)勢(shì)。
· 傳統(tǒng)框架(如mmE5、VLM2Vec)
單純依賴高質(zhì)量標(biāo)注圖文對(duì),擴(kuò)展性低;
以單向因果注意力為主,跨模態(tài)表示能力受限;
對(duì)新領(lǐng)域、新任務(wù)泛化性差。
· MoCa框架
充分利用大規(guī)模無標(biāo)注數(shù)據(jù),通過持續(xù)預(yù)訓(xùn)練顯著降低成本;
雙向模態(tài)交互機(jī)制,能更深層次地捕捉圖文語義;
豐富的數(shù)據(jù)類型和任務(wù)采樣策略,大幅提升泛化性能和擴(kuò)展性。
因此,MoCa的提出為多模態(tài)嵌入領(lǐng)域提供了一條更加高效、更具泛化性的研究路徑。
實(shí)驗(yàn)效果:以小博大,效果顯著提升
研究人員在主流多模態(tài)嵌入基準(zhǔn)MMEB和ViDoRe-v2上進(jìn)行了全面評(píng)估。
在MMEB基準(zhǔn)上
3B的MoCa模型即可達(dá)到現(xiàn)有7B規(guī)模baseline模型的性能水平。
7B的MoCa模型實(shí)現(xiàn)當(dāng)前最佳性能(SOTA),顯著超越現(xiàn)有模型。
在ViDoRe-v2任務(wù)中
MoCa在跨語言、跨領(lǐng)域的復(fù)雜任務(wù)中表現(xiàn)突出,整體性能超過現(xiàn)有先進(jìn)方法。
特別在多語言和專業(yè)領(lǐng)域數(shù)據(jù)泛化能力上表現(xiàn)出明顯優(yōu)勢(shì)。
實(shí)驗(yàn)結(jié)果充分驗(yàn)證了MoCa框架在低資源條件下實(shí)現(xiàn)高性能的能力,以及卓越的泛化性能。
消融實(shí)驗(yàn)
實(shí)驗(yàn)驗(yàn)證了MoCa各核心組件的有效性,結(jié)果顯示,去除針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練或異構(gòu)對(duì)比微調(diào)中的任一環(huán)節(jié),模型性能均明顯下降,進(jìn)一步證明了MoCa框架每個(gè)組件的必要性和重要性。
持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模效應(yīng)
為了探究持續(xù)預(yù)訓(xùn)練數(shù)據(jù)規(guī)模對(duì)模型性能的影響,研究人員進(jìn)行了針對(duì)性實(shí)驗(yàn)。
實(shí)驗(yàn)表明,隨著用于持續(xù)預(yù)訓(xùn)練的數(shù)據(jù)規(guī)模增加,模型的多模態(tài)理解性能持續(xù)提升,但存在一定的性能飽和效應(yīng)。
結(jié)果顯示,在實(shí)際應(yīng)用中應(yīng)合理權(quán)衡數(shù)據(jù)規(guī)模與計(jì)算成本,以實(shí)現(xiàn)最優(yōu)性能。
未來展望
MoCa框架的成功驗(yàn)證了針對(duì)不同模態(tài)的持續(xù)預(yù)訓(xùn)練和異構(gòu)對(duì)比微調(diào)策略的巨大潛力。這一方法不僅提升了小規(guī)模模型的表現(xiàn),也為更廣泛的數(shù)據(jù)利用和泛化能力奠定了基礎(chǔ)。
未來,研究人員計(jì)劃進(jìn)一步探索以下幾個(gè)方面:
擴(kuò)展到多模態(tài)多語言領(lǐng)域,探索更廣泛的跨語言泛化能力。
集成更多模態(tài)信息,如視頻和音頻,推動(dòng)模型在更復(fù)雜場(chǎng)景下的應(yīng)用。
優(yōu)化持續(xù)預(yù)訓(xùn)練策略,探索更高效的訓(xùn)練技術(shù),進(jìn)一步降低計(jì)算成本。
通過持續(xù)的努力,MoCa框架一定能夠在多模態(tài)嵌入領(lǐng)域發(fā)揮更廣泛、更深遠(yuǎn)的影響。
參考資料:
https://arxiv.org/abs/2506.23115
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.