網易首頁 > 網易號 > 正文申請入駐

破CLIP三限！多模態框架UniME實現通用表征新突破

2025-05-15 18:15:33　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

告別CLIP痛點，更懂語義關聯的跨模態理解新SOTA來了！格靈深瞳、阿里ModelScope團隊，以及通義實驗室機器智能團隊聯合發布通用多模態嵌入新框架UniME，一經推出就刷新MMEB訓練榜紀錄。

UniME作為一個創新性的兩階段框架，所展現的卓越的組合理解力，幫助MLLMs具備學習適用于各種下游任務的判別性表征的能力，并在多個任務中達到了新的SOTA。目前已上線始智AI-wisemodel開源社區，歡迎體驗。

模型地址

https://wisemodel.cn/organization/deepglint

01.

UniME破局多模態

對比語言-圖像預訓練（CLIP）框架已成為多模態表示學習中廣泛使用方法，特別是應用在圖像-文本檢索和聚類等任務中。然而，其有效性受到三個關鍵限制的約束：（1）文本token長度，（2）獨立的圖像與文本編碼器，（3）由于詞袋行為導致的組合性不足。

盡管最近的多模態大型語言模型（MLLMs）在通用視覺-語言理解方面取得了顯著進展，但它們在學習可遷移的多模態表征方面的潛力仍未得到充分探索。在本工作中，研究團隊提出了UniME，一個新穎的兩階段訓練框架，利用MLLMs學習可以應用到多樣化下游任務的判別性表征向量。

在第一階段，首先進行文本判別知識蒸餾，借助強大的基于LLM的教師模型來增強MLLM中LLM語言組件的嵌入能力。

在第二階段，引入困難負樣本增強指令微調來以進一步增強判別性表示學習。具體來說，首先減輕錯誤負例的污染，然后在每個批次中為每個實例采樣多個困難負樣本從而來引導模型關注更具有挑戰性的樣本。這種方法不僅提高了模型的判別力，還增強了下游任務中的指令跟隨能力。

在MMEB基準測試和多個檢索任務（包括短長標題檢索和組合檢索）上進行了大量實驗，結果表明UniME在所有任務中均實現了穩定的性能提升并展現了卓越的判別能力和組合理解能力。

02.

UniME訓練框架拆解

第一階段：文本判別知識蒸餾

▍訓練

受E5V等之前研究的啟發，研究團隊第一階段選擇使用純文本數據來增強了MLLM中LLM語言組件的嵌入能力。

由于LLM采用自回歸解碼器架構，因果掩碼機制會從本質上限制了它們的判別能力。為了解決這一限制，團隊引入了如圖所示的文本判別知識蒸餾。

文本判別知識蒸餾階段的框架

從最先進的基于LLM的嵌入模型NV-Embed V2（該模型在對比訓練中移除了因果注意力掩碼并使用多個多樣化的數據集進行訓練）中轉移知識。

具體來說，團隊首先將LLM組件從MLLM架構中分離出來，并使用嵌入提示處理僅文本輸入：“ Summary the above sentences in one word: \n”。

然后，從最終令牌的隱藏狀態獲得規范化的學生文本嵌入和離線提取的教師文本嵌入，其中是批量大小，是嵌入的維度。

隨后，通過最小化教師模型和學生模型嵌入之間的Kullback-Leibler（KL）散度來實施判別性分布對齊:

其中是用來軟化分布表示的溫度超參數。通過在一個批次內不同樣本之間的關系蒸餾，該方法在相同數據和訓練條件下相較于直接使用對比學習在下游任務中展示出顯著的性能提升。

▍推理

在訓練階段，此方法僅使用純文本輸入，并單獨優化多模態語言模型架構中的語言模型組件，同時保持其他參數不變。

在推理時，恢復原始的視覺編碼器和投影層，以啟用多模態處理。對于單模態輸入（文本或圖像），使用特定于模態的標準化提示。對于圖文交錯的輸入，獨立處理每種模態及其相應的提示，并通過元素級求和聚合嵌入從而得到最終的多模態表示。

困難負樣本增強指令微調階段的框架

第二階段：困難負樣本增強指令微調

在完成文本判別知識蒸餾截斷的訓練后，UniME已經具備了初步的判別能力但表現出較弱的視覺敏感性，這種不敏感導致圖文對齊出現偏差，并限制了判別性能。

此外，第一階段使用的通用指令提示限制了UniME在復雜檢索任務中的效果。為了解決這些限制，研究人員引入了一個額外的困難負例增強指令調整階段，該階段目的在于：1. 進一步增強模型判別能力。2. 改善模型跨模態對齊。3. 加強下游任務中的指令跟隨能力。

▍錯誤負樣本污染

訓練批次中錯誤負樣本的存在妨礙了在標準InfoNCE損失下有效區分困難負樣本。

為了緩解這一問題，團隊引入了一個基于Query和正樣本相似度閾值的過濾機制，定義為：，其中是用來控制閾值邊界的超參數。在訓練期間，排除所有與Query相似度超過的負樣本來過濾錯誤負樣本同時保留具有挑戰性的困難負樣本。

▍困難負樣本采樣

困難負樣本在標簽上與正樣本不同但在向量空間中非常接近，這類具有挑戰性的樣本能夠在對比學習過程中顯著增強模型的判別能力。

相比之下，簡單負樣本產生的梯度微不足道，對學習過程的貢獻極小。因此團隊提出一種困難負樣本采樣策略，旨在優化訓練效率和判別性能。

由于文本判別知識蒸餾階段之后UniME已經具備了初步的判別能力，在此能力基礎上，研究人員在每個訓練批次中抽樣個對應的困難負樣本，如下所示：

其中和分別表示經過篩選的錯誤負樣本候選和正樣本候選，是查詢嵌入，表示所有候選嵌入，函數計算成對相似度得分，選擇得分最高的前個候選作為困難負例。

▍訓練目標

在獲取了查詢的嵌入（）、正樣本候選（）和困難負樣本候選（）后，我們使用噪聲對比估計（InfoNCE）損失對批次內采樣的困難負樣本進行如下處理：

其中表示所有困難負例的集合，是一個溫度超參數。

訓練食譜

▍第一階段：文本判別知識蒸餾

團隊采用QLoRA對大型語言模型組件進行參數高效的微調。

這一階段僅使用純文本輸入并僅訓練極少的參數（通常不超過總數的5%），完整訓練Phi3.5-V和LLaVA-1.6分別需要大約1小時和2小時。

▍第二階段：困難負樣本增強指令微調

為了克服較大批量MLLM訓練時的GPU內存限制，研究人員采用了兩種策略：1、參照VLM2Vec，使用了GradCache梯度緩存技術將對比損失計算和編碼器更新的反向傳播分離；2、采用QLoRA對MLLM內所有參數進行參數高效的微調。研究人員將這兩種策略進行組合有效地促進了訓練效率同時顯著降低訓練時的內存開銷。

03.

實戰性能全驗證

訓練數據

研究人員在第一階段的文本判別知識蒸餾中使用了Natural Language Inference(NLI)數據集，該數據集包含約273k個句子對。對于困難負例增強指令調優階段，使用了MMEB基準提供的訓練數據集，涵蓋了四個核心多模態任務：分類、視覺問答、多模態檢索和視覺定位。

這一全面的訓練語料庫，結合了單模態和多模態輸入數據，共計662k經過精心策劃的訓練對，確保了模型在多樣化的多模態任務中的穩健適應。

下游評測

團隊評估了MMEB中的分布內（20個測試集）和分布外（16個測試集）基準，以評估UniME在多樣化檢索任務中的多模態嵌入能力。

為了進一步檢驗UniME的單模態嵌入性能，研究人員在多個跨模態檢索任務上進行了實驗，包括短標題圖文檢索（Flickr30K和COCO2014），長標題圖文檢索（ShareGPT4V和Urban1K），以及組合式檢索（SugarCrepe）。

實驗結果

▍多模態檢索

在表1中，展示了UniME與現有基線模型的性能對比，其中IND代表分布內數據集，OOD代表分布外數據集，報告的分數是相應數據集上平均精確度，最佳結果用粗體標出，?表示僅文本判別蒸餾的UniME，?表示文本判別蒸餾和困難負樣本增強指令調優的UniME。

表1：MMEB基準測試結果

在相同的訓練數據和配置設置下，UniME相比E5-V在不同的基礎模型上始終展示出顯著的性能提升。使用Phi3.5-V模型時，UniME的平均性能提高了4.2%；采用LLaVA-1.6作為基礎模型時，UniME的平均性能進一步提高了4.1%。

這些顯著的性能提升主要歸功于團隊提出的文本判別知識蒸餾方法可以更有效地增強MLLM中LLM語言組件的判別能力。

E5-V與UniME 的判別比較

如圖所示，團隊隨機從COCO中選擇50個樣本，并可視化跨模態余弦相似度矩陣。與E5-V相比，UniME矩陣的對角線清晰度顯著增強，表明UniME學習到了更具判別性的表征。

在困難負樣本增強指令微調之后，UniME的嵌入判別能力進一步提高。與VLM2Vec相比，UniME在Phi3.5-V和LLaVA-1.6基礎模型上分別實現了1.3%和10.3%的性能提升。

▍短-長標題跨模態檢索

如表2所示，團隊在零樣本跨模態檢索任務上評估了UniME。首先，在短標題數據集Flickr30K和MSCOCO上進行實驗。在文本判別知識蒸餾階段之后，UniME的檢索性能與E5-V相當。隨后的困難負例增強指令調優進一步提升了UniME的表現，相較于VLM2Vec提高了5.2%-11.3%。

表2：零樣本文本-圖像檢索的結果

對于在ShareGPT4V和Urban1K數據集上的長標題檢索任務，UniME在所有指標上均表現出優越性能。在文本判別蒸餾階段后，基于Phi3.5-V模型UniME展示了1.3%-3.8%的性能提升。隨后通過困難負例增強指令調優的進一步增強，UniME相較于VLM2Vec提高了2.0%-8.3%。

值得注意的是，與EVA-CLIP(8B)相比，UniME在Urban1K數據集上的長標題檢索中，性能提升了14.8%和18.1%。這一顯著的增強主要源于EVA-CLIP(8B)受77文本輸入令牌長度的限制，從而嚴重阻礙了其傳達長標題完整語義信息的能力。

▍跨模態組合檢索

團隊在組合理解基準SugarCrepe上評估了UniME模型區分困難負樣本的能力。如表2所示，UniME在所有評估指標上均展示出最佳結果。在文本判別知識蒸餾后，基于Phi3.5-V的UniME在關系替換、對象交換和屬性添加任務中分別比E5-V表現出2.0%、1.0%和15.9%的性能提升。

在第二階段困難負例增強指令微調后，UniME的組合理解能力得到進一步增強，與VLM2Vec相比分別實現了3.9%、4.2%和9.1%的性能提升。此外，與EVA-CLIP(8B)相比，UniME在這些任務上也顯示出了4.2%、0.6%和6.6%的提升，凸顯了其在區分困難負例方面的強大能力。

04.

消融實驗

▍困難負樣本分析

在下圖中，展示了三種類型負樣本的訓練損失和裁剪前梯度范數：簡單負樣本（批次中最不相似的樣本），隨機負樣本（批次中隨機采樣的負樣本），以及困難負樣本（在移除正例和假負例后批次中最相似的負樣本）。

由于就簡單負樣本容易區分，模型通過學習這類數據很難增強其判別能力，因此訓練損失迅速收斂到接近零。

使用隨機負樣本，訓練損失比簡單負樣本收斂更慢，但最終接近零。相比之下，困難負樣本帶來更大的挑戰，使得訓練損失始終保持在較高水平。相應地，簡單負樣本的梯度范數最小，而困難負樣本的梯度范數明顯更高，相差數個數量級。

▍訓練階段的消融

團隊基于Phi3.5-V來對不同訓練階段進行了消融研究。如表3所示，Phi3.5-V的初始嵌入判別能力很弱。在經過文本判別知識蒸餾后，模型在MMEB基準、短長標題跨模態檢索和組合檢索任務上分別獲得了15％、19.5％、24.9％和19.9％的性能提升。如果僅進行第二階段負樣本增強指令微調，同一任務的性能提升分別為38.5％、17.3％、21.3％和14.0％。

表3：不同訓練階段的消融研究

值得注意的是，第二階段在MMEB基準的性能提升明顯超過第一階段，主要是由于模型在遵循下游任務復雜指令方面的能力得到了改善。通過整合兩個訓練階段，UniME模型在所有評估的下游任務中實現了最佳性能。

▍輸出分布的可視化

為了進一步探索UniME嵌入捕獲的語義表達，使用此提示“ Summary above image in one word: \n”，并在下圖中展示了不同訓練階段之前和之后，top-k下一個預測詞匯的預測概率。

基于Phi3.5-V，在不同訓練階段前后下一個預測詞匯top-k的可視化

團隊觀察到，在訓練之前，預測的詞匯更抽象，如“Pastoral”和“Peaceful”。經過文本判別知識蒸餾后，詞匯轉向了更具體的語義，包括了“cow”、“waterfront”和“house”，盡管概率分布仍主要集中在“Farm”。

在第二階段困難負樣本增強指令微調后，概率分布在與圖像語義一致的多個詞匯上變得更加均勻，從而使嵌入能夠更準確地表達圖像的語義內容，并增強其判別能力。

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.