99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICME 2025 | A-MESS:基于錨點多模態(tài)嵌入與語義同步的多模態(tài)意圖識別框架

0
分享至

在浙大研究院&清華大學聯(lián)合推出的A-MESS框架中,錨點式多模態(tài)嵌入與語義對齊策略相互配合,有效推動了多模態(tài)意圖識別任務(wù)的性能提升。實驗結(jié)果顯示,該模型不僅在主流數(shù)據(jù)集上取得了領(lǐng)先表現(xiàn),還能在如越界識別和噪聲干擾等復(fù)雜環(huán)境下展現(xiàn)出強泛化性和穩(wěn)健性。未來研究可進一步拓展其在跨語言意圖識別及低資源條件下的應(yīng)用潛力。


論文標題: A-MESS: Anchor-based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition 論文鏈接: https://arxiv.org/pdf/2503.19474
一、動機:突破多模態(tài)意圖識別的雙重瓶頸

在自然語言理解領(lǐng)域,多模態(tài)意圖識別(MIR)任務(wù)用于基于文本、視覺和聽覺信息,在目標驅(qū)動的語境下對意圖進行分類,已被認為是識別復(fù)雜人類行為意圖的關(guān)鍵要素。尤其在AI智能體的應(yīng)用中,例如當用戶需要指揮AI智能體執(zhí)行特定任務(wù)時,只有正確理解用戶指令背后的意圖,AI智能體才能良好完成任務(wù)。相比僅依賴單一數(shù)據(jù)類型的方法,使用多模態(tài)數(shù)據(jù)能提供更豐富的信息基礎(chǔ),從而提高復(fù)雜意圖類別識別的準確性。

在該領(lǐng)域,已有研究從真實場景中收集多模態(tài)數(shù)據(jù),構(gòu)建意圖識別數(shù)據(jù)集,為MIR研究做出重要貢獻。當前的方法在MIR任務(wù)中表現(xiàn)優(yōu)異,但仍有許多未被充分探索的表征策略,例如標簽與多模態(tài)嵌入之間的語義關(guān)聯(lián)、多模態(tài)信息冗余消除策略等,這些也帶來了顯著挑戰(zhàn)。我們將其總結(jié)為MIR任務(wù)的兩大關(guān)鍵挑戰(zhàn):

  • 模態(tài)干擾信息過濾難題:作為以文本為中心的任務(wù),當使用音頻和視覺模態(tài)作為輔助信號時,這些信號的大部分成分可能對表征產(chǎn)生干擾,因此如何過濾破壞性信息并保留表征的關(guān)鍵成分成為首要挑戰(zhàn)。

  • 語義空間失配問題:需要開發(fā)更高效的學習策略,以優(yōu)化整個MIR算法架構(gòu),并增強三種模態(tài)聚合后的聯(lián)合表征能力。

為了緩解模態(tài)干擾信息,我們嘗試從輔助信號(音頻、視覺)和文本信號中識別關(guān)鍵成分,并將其稱為“錨點”(anchors),同時過濾無關(guān)信息。通過融合和交互這些“錨點”,我們能夠有效應(yīng)對這一挑戰(zhàn)。

應(yīng)對語義空間失配問題,我們嘗試將多模態(tài)表征與意圖導(dǎo)向的語義信息同步對齊。我們認為,這能夠?qū)⑦@些表征映射到更合理的語義空間,從而更好地優(yōu)化整個學習過程。

基于上述思路,本文提出了一種新框架:基于錨點的語義同步多模態(tài)嵌入(A-MESS),如圖2所示。本框架利用從音頻和視頻模態(tài)提取的聯(lián)合錨點嵌入表征來增強文本表征,隨后將增強后的文本嵌入進一步整合到多模態(tài)編碼器中,與現(xiàn)有方法的區(qū)別如圖1。編碼后的表征再與大型語言模型(LLM)基于提示標簽生成的多種解釋進行語義同步,采用三元組對比損失進行優(yōu)化。同時,整個過程通過分類損失進行聯(lián)合優(yōu)化。


圖1. MIR方法對比 二、方法:錨點驅(qū)動+語義同步雙引擎2.1 整體架構(gòu)


圖2. A-MESS整體架構(gòu)2.2 A-MESS框架兩大核心:

錨點多模態(tài)嵌入(A-ME):篩選關(guān)鍵跨模態(tài)特征:

錨點多模態(tài)嵌入的模態(tài)融合階段:提出基于錨點的多模態(tài)嵌入模塊(A-ME),通過跨模態(tài)注意力篩選top-k關(guān)鍵特征,經(jīng)雙向交叉注意力增強后融合為統(tǒng)一表示,如圖3所示。

語義同步策略(SS):對齊LLM語義空間

語義優(yōu)化階段提:設(shè)計語義同步策略(SS),利用大語言模型生成意圖標簽的語義解釋,如圖3下半部分,通過SentenceBERT編碼形成三維描述向量,結(jié)合對比學習動態(tài)對齊特征空間,提升語義一致性。

本框架創(chuàng)新性地結(jié)合了關(guān)鍵信息錨定與大語言模型的語義增強,實現(xiàn)了端到端的層次化特征優(yōu)化。

2.3 A-MESS框架通過雙階段協(xié)同機制改進多模態(tài)意圖識別:

在模態(tài)融合方面,提出的A-ME模塊通過分層注意力機制實現(xiàn)了細粒度的跨模態(tài)交互。不同于傳統(tǒng)的特征拼接或簡單注意力機制,本方法創(chuàng)造性地設(shè)計了錨點交叉注意力(An-CAttn)和時序交叉注意力(T-CAttn)的雙層注意力架構(gòu)。前者專注于模態(tài)間關(guān)鍵信息的深度交互,后者負責保持時序特征的完整性。這種設(shè)計既避免了輔助模態(tài)的信息冗余,又保留了文本模態(tài)的主導(dǎo)地位,在意圖識別數(shù)據(jù)集上實現(xiàn)了較高的精度提升。


圖3. A-ME模塊

其次,在語義優(yōu)化層面,SS策略通過動態(tài)三元組對比學習構(gòu)建了可擴展的語義空間。每個意圖標簽通過大語言模型生成三個差異化描述,形成包含概念邊界、情感傾向、行為特征的多維度語義表示。在對比學習過程中,采用自適應(yīng)溫度系數(shù)調(diào)節(jié)正負樣本的相似度權(quán)重,通過負樣本庫的動態(tài)擴展增強模型的泛化能力。


圖4. 三元對比損失函數(shù)


圖5. 分類損失函數(shù)

最后,在整體架構(gòu)設(shè)計上,A-MESS框架通過雙損失聯(lián)合優(yōu)化機制實現(xiàn)了多目標協(xié)同訓練。分類損失保證基礎(chǔ)識別性能,三元組對比損失驅(qū)動語義空間優(yōu)化,二者通過可學習的權(quán)重參數(shù)實現(xiàn)動態(tài)平衡,如圖4和圖5。本方法在視頻模態(tài)處理中引入預(yù)訓練的Swin-Transformer,在音頻處理中采用WavLM模型,通過遷移學習策略有效緩解了多模態(tài)數(shù)據(jù)的領(lǐng)域差異問題。

本框架的創(chuàng)新價值在于:首次將大語言模型的語義生成能力系統(tǒng)性地引入多模態(tài)意圖識別任務(wù);建立了基于關(guān)鍵特征錨定的輕量化融合范式;開發(fā)了面向開放場景的動態(tài)語義對齊機制。這些技術(shù)突破不僅在多模態(tài)學習領(lǐng)域具有理論創(chuàng)新意義,更為智能對話系統(tǒng)、情感計算等實際應(yīng)用提供了新的技術(shù)路徑。

三、主要實驗結(jié)果3.1 數(shù)據(jù)集與實驗設(shè)置

本研究在兩個具有挑戰(zhàn)性的多模態(tài)意圖識別(MIR)數(shù)據(jù)集MIntRecMIntRec2.0上進行了全面評估。

  • MIntRec數(shù)據(jù)集以細粒度的意圖分類為核心,覆蓋文本、視頻和音頻三種模態(tài),包含多個真實場景下的復(fù)雜意圖類別。

  • MIntRec2.0作為更大規(guī)模的數(shù)據(jù)集,進一步擴展了意圖類別數(shù)量,并引入超出范圍(Out-of-Scope, OOS)樣本的檢測任務(wù)。該數(shù)據(jù)集不僅包含豐富的多模態(tài)交互數(shù)據(jù),還增加了對模型處理未知意圖的能力評估。

實驗選取了多種前沿方法作為基線模型,包括基于跨模態(tài)注意力機制的MulT、融合非語言信息的MAG-BERT、基于令牌級對比學習的TCL-MAP,以及挖掘視頻上下文信息的CAGC。評估指標涵蓋分類任務(wù)中常用的準確率(ACC)、F1分數(shù)、精確率(P)和召回率(R),以全面衡量模型性能,如圖6和圖7所示。


圖6. 整體實驗對比3.2 實驗結(jié)果3.2.1 MIntRec數(shù)據(jù)集上的表現(xiàn)

  • 整體性能:A-MESS框架在多個關(guān)鍵指標上顯著優(yōu)于現(xiàn)有方法。在準確率方面,模型展現(xiàn)出對多模態(tài)信息融合的優(yōu)越性,尤其在捕捉文本與輔助模態(tài)(音頻、視頻)的語義關(guān)聯(lián)上表現(xiàn)突出。

  • 對比分析:與依賴單一模態(tài)或傳統(tǒng)融合策略的方法相比,A-MESS通過錨點選擇和語義同步策略,有效減少了冗余信息的干擾。例如,在意圖分類的精確率上,模型通過增強關(guān)鍵模態(tài)特征,顯著提升了復(fù)雜意圖的識別能力。

  • 消融實驗:移除錨點多模態(tài)嵌入(A-ME)模塊或語義同步(SS)策略后,模型性能均出現(xiàn)明顯下降,驗證了這兩個模塊的獨立貢獻。同時,兩者的聯(lián)合使用進一步提升了意圖表示的魯棒性。


圖7. 消融實驗3.2.2 MIntRec2.0數(shù)據(jù)集上的表現(xiàn)

  • 在范圍(In-Scope)分類:A-MESS在處理大規(guī)模多模態(tài)數(shù)據(jù)時仍保持領(lǐng)先優(yōu)勢,尤其在召回率指標上表現(xiàn)突出,表明模型能夠更全面地捕捉意圖相關(guān)的多模態(tài)特征。

  • 超出范圍(OOS)檢測:模型在識別未知意圖時展現(xiàn)了較強的泛化能力。通過語義同步策略,A-MESS將多模態(tài)表示與標簽的語義空間對齊,從而有效區(qū)分已知意圖與未知場景,顯著優(yōu)于僅依賴傳統(tǒng)監(jiān)督學習的基線方法。

3.3 關(guān)鍵分析3.3.1 錨點選擇的影響
  • 錨點數(shù)量優(yōu)化:實驗發(fā)現(xiàn),如圖8所示,從輔助模態(tài)中選擇適當數(shù)量的錨點對模型性能至關(guān)重要。過多錨點引入冗余信息,而過少則可能導(dǎo)致關(guān)鍵特征丟失。通過動態(tài)調(diào)整錨點數(shù)量,模型在多模態(tài)表示中實現(xiàn)了信息過濾與關(guān)鍵特征增強的平衡。


圖8. 錨點選擇分析

  • 跨模態(tài)交互:錨點間的跨模態(tài)注意力機制(An-CAttn)顯著提升了視頻與音頻模態(tài)的交互效率。視頻錨點通過融合音頻模態(tài)的上下文信息,增強了動作與語音的關(guān)聯(lián)性,從而改善了對復(fù)合意圖(如“抱怨”伴隨特定手勢)的識別。

3.3.2 語義同步策略的貢獻
  • 標簽語義增強:利用大語言模型(LLM)生成的多重標簽描述,模型通過對比學習將多模態(tài)表示與語義空間對齊。實驗表明,生成三個不同描述的設(shè)置能夠有效構(gòu)建穩(wěn)定的語義子空間,避免過擬合并加速收斂。

  • 表示空間可視化:通過主成分分析(PCA)發(fā)現(xiàn),語義同步后的多模態(tài)表示顯著接近標簽的語義分布。例如,“同意”類別的樣本在同步后更緊密地聚集于對應(yīng)的語義區(qū)域,驗證了該策略對意圖分類的可解釋性提升。

四、結(jié)論與展望

A-MESS框架通過錨點多模態(tài)嵌入語義同步策略的協(xié)同優(yōu)化,在多模態(tài)意圖識別任務(wù)中實現(xiàn)了顯著突破。實驗表明,模型不僅在標準數(shù)據(jù)集上達到先進水平,還在復(fù)雜場景(如超出范圍檢測、噪聲干擾)中展現(xiàn)了優(yōu)異的泛化能力與魯棒性。未來工作可進一步探索跨語言意圖識別與低資源場景下的應(yīng)用擴展。

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動,蔣凡離接班人又近了一步?

阿里大變動,蔣凡離接班人又近了一步?

新10億商業(yè)參考
2025-06-25 18:51:08
你見過最無知的人是什么樣?網(wǎng)友:尊重他人命運,這種人該被淘汰

你見過最無知的人是什么樣?網(wǎng)友:尊重他人命運,這種人該被淘汰

解讀熱點事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現(xiàn)得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現(xiàn)得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產(chǎn)也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

傾家蕩產(chǎn)也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

39健康網(wǎng)
2025-06-24 20:02:57
這瓶“沒貼標簽”的水,出自山姆和農(nóng)夫山泉的聯(lián)手

這瓶“沒貼標簽”的水,出自山姆和農(nóng)夫山泉的聯(lián)手

中國商報
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達線人數(shù)不到44萬,達線率不足33%

真慘!河南高考新鮮出爐:本科達線人數(shù)不到44萬,達線率不足33%

二月侃事
2025-06-25 16:47:23
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號劇委會
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會以任何形式出席北約峰會

匈牙利總理:澤連斯基不會以任何形式出席北約峰會

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對伊朗西部軍事目標發(fā)動新一輪打擊

新華社消息|以軍稱對伊朗西部軍事目標發(fā)動新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環(huán)球熱點快評
2025-06-24 09:03:00
還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統(tǒng):12天戰(zhàn)爭結(jié)束 重建工作開啟

伊朗總統(tǒng):12天戰(zhàn)爭結(jié)束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標三峽學院85萬元防火墻項目”:調(diào)查已超30個工作日,尚在走處理程序

“300元路由器中標三峽學院85萬元防火墻項目”:調(diào)查已超30個工作日,尚在走處理程序

大風新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2156文章數(shù) 591關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭藴剩核皇俏业牟?/h3>

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭藴剩核皇俏业牟?/h3>

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

親子
手機
家居
時尚
軍事航空

親子要聞

終于見面啦!!!!原創(chuàng)dy:@辣炒年糕

手機要聞

首銷價 299 元,vivo X Fold5 折疊屏手機行業(yè)首發(fā)單內(nèi)屏寶

家居要聞

木質(zhì)簡約 空間極致利用

挑對耳環(huán)=開掛!這15款巨in巨高級,太顯臉小了!

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭結(jié)束 重建工作開啟

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 邢台市| 子长县| 久治县| 阿克苏市| 霍邱县| 永修县| 沙河市| 垫江县| 临朐县| 高密市| 江孜县| 通辽市| 华容县| 抚宁县| 左贡县| 利辛县| 庆云县| 麻栗坡县| 富裕县| 开封市| 沅江市| 宁乡县| 永仁县| 长宁区| 西乡县| 三都| 万全县| 巫山县| 湖南省| 苏尼特左旗| 马尔康县| 祥云县| 即墨市| 南投县| 集安市| 武川县| 扶风县| 旺苍县| 奉节县| 江源县| 泸定县|