99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

打破跨模態干擾,快手東北大學聯合提出統一多模態框架

0
分享至

UNITE團隊 投稿
量子位 | 公眾號 QbitAI

多模態檢索是信息理解與獲取的關鍵技術,但其中的跨模態干擾問題一直是一大難題。

可行的解決辦法是構建一種統一的多模態表示方式,為此,來自快手與東北大學的研究人員推出了多模態統一嵌入框架——UNITE



UNITE的核心目標,就是構建一個能同時處理文本、圖像、視頻及其融合模態輸入的統一嵌入器。

它從數據策劃與訓練機制兩個關鍵視角出發,用對比學習的機制重新定義了統一多模態表示學習的范式。

在細粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。



模態感知對比學習,緩解跨模態干擾

在多模態檢索任務中,不同模態(文本、圖像、視頻)天然存在分布差異。

如果在訓練時將所有模態混合進行對比學習,會導致表示空間產生語義扭曲或干擾噪聲,影響模型對各模態語義的準確建模。

為了解決這一挑戰,UNITE團隊提出了Modal-Aware Masked Contrastive Learning(MAMCL)這一對比學習機制,能顯著緩解跨模態“相互干擾”。



在傳統InfoNCE損失下,模型會嘗試最大化正樣本對之間的相似度,并最小化其與負樣本之間的相似度:



但這種方式不能區分模態組合,例如,一個query的正樣本為文本模態,但其負樣本可能是圖像、視頻或者其他模態組合。這可能導致模型用圖像來學文本相似度,產生模態沖突。

MAMCL的核心思想是模態掩碼約束,也就是只在與當前query目標模態一致的負樣本中進行對比,從而避免模態間的錯誤競爭。

給定一個批次中個query,每個query()對應一個正樣本和個負樣本,構造相似度矩陣:



其中是第個候選樣本,是溫度系數。

接下來引入模態掩碼矩陣,用于標記候選樣本與正樣本模態是否一致:



其中表示提取候選樣本的模態標簽(例如 text, image, video, text+video)。

然后,構造模態感知掩碼相似度矩陣:



這一步確保在計算損失時,僅考慮模態一致的樣本

最終,MAMCL損失定義為(p是當前query對應的正樣本索引):



為了平衡泛化能力與判別能力,UNITE采用了“檢索適應 + 指令微調”的兩階段訓練方案:

  • 檢索適應階段,使用text-text、text-image、text-video等多模態數據訓練模型的基本檢索能力,同時引入高粒度視頻-文本數據,顯著提升模型的細粒度區分能力;
  • 指令微調階段,基于MMEB、CoVR等復雜多模態指令任務訓練,增強模型的指令遵循能力和擴展性。

多個評測中斬獲最佳成績

在細粒度檢索、指令檢索等多個評測中,UNITE框架都斬獲了最佳成績。

圖像-文本檢索任務中,在ShareGPT4V、Urban1K和DOCCI上,UNITE顯著超越E5-V和VLM2Vec等模型;



視頻-文本檢索方面,UNITE的2B模型在CaReBench三個子任務(General/Spatial/Temporal)中的General和Spatial里超越了前SOTA,7B模型以顯著領先水平刷新當前最好表現。

UNITE 7B在CaReBench上分別達到86.0,86.9,86.5,84.8,52.4,55.4。



指令檢索任務里,作者的UNITE系列模型也在多個數據集上表現出色。



具體來說,在涵蓋分類、VQA、檢索、定位四類任務共36個數據集的MMEB Benchmark中,UNITE 7B達到了最優性能70.3,超越了更大規模的模型mmE5 11B (69.8) 和IDMR 26B (69.2)。



在合成視頻檢索任務CoVR上,UNITE 2B和UNITE 7B達到了69.1和72.5,均明顯領先于現有SOTA模型(60.1)。



為驗證其通用性,團隊還在多個標準跨模態檢索任務上進行了評估。在Flickr30K、MSR-VTT、MSVD、DiDeMo任務上,展現了良好的通用表征能力。



綜合來看,UNITE支持文本、圖像、視頻及融合模態內容,并展現了綜合最優性能。

其可視化結果如下:



另外在實驗過程當中,作者還有三個關鍵發現。

一是視頻-文本數據具備“統一模態”的核心能力

具體來說,視頻-文本對數據在所有配置中表現最為突出,不僅在視頻檢索任務中遙遙領先(如MSR-VTT、MSVD),甚至在圖文檢索任務中也超越了基于圖像-文本對訓練的模型。

二是指令類任務更依賴文本主導的數據支撐——

盡管視頻-文本對數據在一般檢索任務中表現出色,但在復雜檢索指令跟隨類任務(如MMEB、CoVR)中,其優勢反而不明顯。

這類任務需要模型理解長文本、復雜邏輯或多階段指令,研究認為,Text–Text數據提升了語言理解與邏輯構建能力,而Text–Image數據提供精準的視覺語義映射,利于模態對齊。

最后,細粒度Text-Video樣本的添加策略影響巨大,直接在第一階段“檢索適應”中融合細粒度視頻-文本樣本,能帶來整體性能最優解,相比傳統“先對齊后微調”的做法更加有效且高效。

更多方法和實驗細節,請參照論文。

論文鏈接:https://arxiv.org/pdf/2505.19650
代碼鏈接:https://github.com/friedrichor/UNITE
項目鏈接:https://friedrichor.github.io/projects/UNITE
模型/數據鏈接:https://huggingface.co/collections/friedrichor/unite-682da30c4540abccd3da3a6b

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美說出心里話,美財長:中國應“自廢武功”,可成為西方可靠伙伴

美說出心里話,美財長:中國應“自廢武功”,可成為西方可靠伙伴

袁周院長
2025-06-10 10:45:49
胖東來創始人于東來:不了解董宇輝,從來沒有說過董宇輝什么!是美是丑是智慧最終讓時間和對社會作用來驗證

胖東來創始人于東來:不了解董宇輝,從來沒有說過董宇輝什么!是美是丑是智慧最終讓時間和對社會作用來驗證

和訊網
2025-06-10 15:06:08
為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

為啥關燈蚊子嗡嗡叫,開了燈卻找不到?教你一招,一覺睡到天亮

三農老歷
2025-06-08 09:26:54
深藍車主拒隱私協議變“游客”被鎖車外,律師:車企涉嫌違法

深藍車主拒隱私協議變“游客”被鎖車外,律師:車企涉嫌違法

大象新聞
2025-06-10 16:36:01
看了日本第一季度1054萬外國游客,再看我國接待量,令人倒吸涼氣

看了日本第一季度1054萬外國游客,再看我國接待量,令人倒吸涼氣

面包夾知識
2025-06-08 21:22:05
2年1.2億 場均18分!球隊老大甘愿做三當家,季后賽退步最快巨星

2年1.2億 場均18分!球隊老大甘愿做三當家,季后賽退步最快巨星

毒舌NBA
2025-06-11 06:51:14
全美50州民眾達成一致,特朗普生日那天,美國將迎來一場政治地震

全美50州民眾達成一致,特朗普生日那天,美國將迎來一場政治地震

立馬看世界
2025-06-10 19:02:48
美音樂制作人:杰倫-格林女友曾偷摸給Diddy“打飛機”?

美音樂制作人:杰倫-格林女友曾偷摸給Diddy“打飛機”?

直播吧
2025-06-10 11:51:09
澳媒記者被洛杉磯警方開槍用橡皮子彈擊中,澳總理發聲:不可接受,已向美提出交涉

澳媒記者被洛杉磯警方開槍用橡皮子彈擊中,澳總理發聲:不可接受,已向美提出交涉

環球網資訊
2025-06-10 13:46:35
剛播4集,熱度飆升1萬8!一口氣看完后我想說:這劇必“爆”!

剛播4集,熱度飆升1萬8!一口氣看完后我想說:這劇必“爆”!

一娛三分地
2025-06-10 18:51:43
白左用權力、種族和階級三個維度解析世界,結果把人類帶進地獄

白左用權力、種族和階級三個維度解析世界,結果把人類帶進地獄

壹家言
2025-04-17 17:13:17
一下子暴瘦!東契奇瘦下來是真帥,有模特老婆陪伴減肥效果就是快

一下子暴瘦!東契奇瘦下來是真帥,有模特老婆陪伴減肥效果就是快

郭揦包工頭
2025-06-08 12:20:27
巴基斯坦前外長爆了一個猛料,讓殲10CP的含金量進一步提升

巴基斯坦前外長爆了一個猛料,讓殲10CP的含金量進一步提升

張斌說
2025-06-10 16:41:08
46歲章子怡,一臉雀斑連眉毛都漂了,打臉多少偶像包袱明星

46歲章子怡,一臉雀斑連眉毛都漂了,打臉多少偶像包袱明星

陳述影視
2025-06-07 20:44:35
鄭欽文團隊再次發生重大變化,網友笑稱鐵打的佩雷里巴流水的陪練

鄭欽文團隊再次發生重大變化,網友笑稱鐵打的佩雷里巴流水的陪練

史行途
2025-06-10 15:39:41
馬斯克剛跟特朗普鬧翻,星鏈衛星就突然大規模墜落,誰在搞鬼?

馬斯克剛跟特朗普鬧翻,星鏈衛星就突然大規模墜落,誰在搞鬼?

奉壹數碼
2025-06-09 22:23:43
關系戶?僅打CBA一年被郭導拉進國家隊,球迷:陳國豪比他強多了

關系戶?僅打CBA一年被郭導拉進國家隊,球迷:陳國豪比他強多了

南海浪花
2025-06-11 07:24:39
曼聯官宣9人離隊三老告別!姆貝莫轉會無進展,熱刺截胡可能性低

曼聯官宣9人離隊三老告別!姆貝莫轉會無進展,熱刺截胡可能性低

羅米的曼聯博客
2025-06-10 08:09:50
國家發展改革委副秘書長肖渭明:全面推行由常駐地提供基本公共服務制度

國家發展改革委副秘書長肖渭明:全面推行由常駐地提供基本公共服務制度

澎湃新聞
2025-06-10 11:44:03
女外賣員說哭全網:媽媽嫁了5次,每次害我做驢,我恨每一個爸爸

女外賣員說哭全網:媽媽嫁了5次,每次害我做驢,我恨每一個爸爸

陳天宇
2025-06-10 11:42:15
2025-06-11 08:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10633文章數 176167關注度
往期回顧 全部

科技要聞

比亞迪凌晨宣布!助力中小企業健康發展

頭條要聞

媒體:洛杉磯騷亂后 紐森被指或已無緣2028年總統大選

頭條要聞

媒體:洛杉磯騷亂后 紐森被指或已無緣2028年總統大選

體育要聞

18歲199天!王鈺棟脫衣慶祝國足處子球

娛樂要聞

唐嫣卷入熱巴換角風波 只能給熱巴加戲

財經要聞

連續4個月提"漲工資",背后有何深意?

汽車要聞

激光雷達+9氣囊 一汽豐田bZ5售12.98萬起

態度原創

數碼
家居
藝術
手機
公開課

數碼要聞

一文看懂WWDC 2025:全系命名方式改變 液態玻璃效果開啟新十年設計變革

家居要聞

高級質感 灰調木紋布藝

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

iOS 26新功能曝光:Image Playground集成ChatGPT風格

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 屏山县| 达日县| 奇台县| 伊川县| 密山市| 林周县| 道孚县| 鄂州市| 汝南县| 邛崃市| 阳原县| 通海县| 广安市| 南丹县| 乃东县| 额尔古纳市| 林州市| 新闻| 娄底市| 合川市| 庆城县| 武乡县| 彰武县| 鄂伦春自治旗| 丁青县| 夏津县| 志丹县| 青海省| 新乡县| 新竹市| 惠水县| 五常市| 鄂州市| 乌拉特前旗| 博客| 沅江市| 崇文区| 玉环县| 长海县| 云龙县| 灌阳县|