網易首頁 > 網易號 > 正文申請入駐

打破跨模態干擾，快手東北大學聯合提出統一多模態框架

2025-06-09 17:45:08　來源: 量子位

北京舉報

分享至

UNITE團隊投稿
量子位 | 公眾號 QbitAI

多模態檢索是信息理解與獲取的關鍵技術，但其中的跨模態干擾問題一直是一大難題。

可行的解決辦法是構建一種統一的多模態表示方式，為此，來自快手與東北大學的研究人員推出了多模態統一嵌入框架——UNITE。

UNITE的核心目標，就是構建一個能同時處理文本、圖像、視頻及其融合模態輸入的統一嵌入器。

它從數據策劃與訓練機制兩個關鍵視角出發，用對比學習的機制重新定義了統一多模態表示學習的范式。

在細粒度檢索、指令檢索等多個評測中，UNITE框架都斬獲了最佳成績。

模態感知對比學習，緩解跨模態干擾

在多模態檢索任務中，不同模態（文本、圖像、視頻）天然存在分布差異。

如果在訓練時將所有模態混合進行對比學習，會導致表示空間產生語義扭曲或干擾噪聲，影響模型對各模態語義的準確建模。

為了解決這一挑戰，UNITE團隊提出了Modal-Aware Masked Contrastive Learning（MAMCL）這一對比學習機制，能顯著緩解跨模態“相互干擾”。

在傳統InfoNCE損失下，模型會嘗試最大化正樣本對之間的相似度，并最小化其與負樣本之間的相似度：

但這種方式不能區分模態組合，例如，一個query的正樣本為文本模態，但其負樣本可能是圖像、視頻或者其他模態組合。這可能導致模型用圖像來學文本相似度，產生模態沖突。

MAMCL的核心思想是模態掩碼約束，也就是只在與當前query目標模態一致的負樣本中進行對比，從而避免模態間的錯誤競爭。

給定一個批次中個query，每個query（）對應一個正樣本和個負樣本，構造相似度矩陣：

其中是第個候選樣本，是溫度系數。

接下來引入模態掩碼矩陣，用于標記候選樣本與正樣本模態是否一致：

其中表示提取候選樣本的模態標簽（例如 text, image, video, text+video）。

然后，構造模態感知掩碼相似度矩陣:

這一步確保在計算損失時，僅考慮模態一致的樣本。

最終，MAMCL損失定義為（p是當前query對應的正樣本索引）：

為了平衡泛化能力與判別能力，UNITE采用了“檢索適應 + 指令微調”的兩階段訓練方案：

檢索適應階段，使用text-text、text-image、text-video等多模態數據訓練模型的基本檢索能力，同時引入高粒度視頻-文本數據，顯著提升模型的細粒度區分能力；
指令微調階段，基于MMEB、CoVR等復雜多模態指令任務訓練，增強模型的指令遵循能力和擴展性。

多個評測中斬獲最佳成績

在細粒度檢索、指令檢索等多個評測中，UNITE框架都斬獲了最佳成績。

圖像-文本檢索任務中，在ShareGPT4V、Urban1K和DOCCI上，UNITE顯著超越E5-V和VLM2Vec等模型；

視頻-文本檢索方面，UNITE的2B模型在CaReBench三個子任務（General/Spatial/Temporal）中的General和Spatial里超越了前SOTA，7B模型以顯著領先水平刷新當前最好表現。

UNITE 7B在CaReBench上分別達到86.0，86.9，86.5，84.8，52.4，55.4。

指令檢索任務里，作者的UNITE系列模型也在多個數據集上表現出色。

具體來說，在涵蓋分類、VQA、檢索、定位四類任務共36個數據集的MMEB Benchmark中，UNITE 7B達到了最優性能70.3，超越了更大規模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。

在合成視頻檢索任務CoVR上，UNITE 2B和UNITE 7B達到了69.1和72.5，均明顯領先于現有SOTA模型(60.1)。

為驗證其通用性，團隊還在多個標準跨模態檢索任務上進行了評估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任務上，展現了良好的通用表征能力。

綜合來看，UNITE支持文本、圖像、視頻及融合模態內容，并展現了綜合最優性能。

其可視化結果如下：

另外在實驗過程當中，作者還有三個關鍵發現。

一是視頻-文本數據具備“統一模態”的核心能力。

具體來說，視頻-文本對數據在所有配置中表現最為突出，不僅在視頻檢索任務中遙遙領先（如MSR-VTT、MSVD），甚至在圖文檢索任務中也超越了基于圖像-文本對訓練的模型。

二是指令類任務更依賴文本主導的數據支撐——

盡管視頻-文本對數據在一般檢索任務中表現出色，但在復雜檢索指令跟隨類任務（如MMEB、CoVR）中，其優勢反而不明顯。

這類任務需要模型理解長文本、復雜邏輯或多階段指令，研究認為，Text–Text數據提升了語言理解與邏輯構建能力，而Text–Image數據提供精準的視覺語義映射，利于模態對齊。

最后，細粒度Text-Video樣本的添加策略影響巨大，直接在第一階段“檢索適應”中融合細粒度視頻-文本樣本，能帶來整體性能最優解，相比傳統“先對齊后微調”的做法更加有效且高效。

更多方法和實驗細節，請參照論文。

論文鏈接：https://arxiv.org/pdf/2505.19650
代碼鏈接：https://github.com/friedrichor/UNITE
項目鏈接：https://friedrichor.github.io/projects/UNITE
模型/數據鏈接：https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.