ICME 2025 | A-MESS：基于錨點多模態(tài)嵌入與語義同步的多模態(tài)意圖識別框架

2025-05-26 08:28:34　來源: 將門創(chuàng)投

北京舉報

分享至

在浙大研究院&清華大學聯(lián)合推出的A-MESS框架中，錨點式多模態(tài)嵌入與語義對齊策略相互配合，有效推動了多模態(tài)意圖識別任務(wù)的性能提升。實驗結(jié)果顯示，該模型不僅在主流數(shù)據(jù)集上取得了領(lǐng)先表現(xiàn)，還能在如越界識別和噪聲干擾等復(fù)雜環(huán)境下展現(xiàn)出強泛化性和穩(wěn)健性。未來研究可進一步拓展其在跨語言意圖識別及低資源條件下的應(yīng)用潛力。

論文標題： A-MESS: Anchor-based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition 論文鏈接： https://arxiv.org/pdf/2503.19474

一、動機：突破多模態(tài)意圖識別的雙重瓶頸

在自然語言理解領(lǐng)域，多模態(tài)意圖識別（MIR）任務(wù)用于基于文本、視覺和聽覺信息，在目標驅(qū)動的語境下對意圖進行分類，已被認為是識別復(fù)雜人類行為意圖的關(guān)鍵要素。尤其在AI智能體的應(yīng)用中，例如當用戶需要指揮AI智能體執(zhí)行特定任務(wù)時，只有正確理解用戶指令背后的意圖，AI智能體才能良好完成任務(wù)。相比僅依賴單一數(shù)據(jù)類型的方法，使用多模態(tài)數(shù)據(jù)能提供更豐富的信息基礎(chǔ)，從而提高復(fù)雜意圖類別識別的準確性。

在該領(lǐng)域，已有研究從真實場景中收集多模態(tài)數(shù)據(jù)，構(gòu)建意圖識別數(shù)據(jù)集，為MIR研究做出重要貢獻。當前的方法在MIR任務(wù)中表現(xiàn)優(yōu)異，但仍有許多未被充分探索的表征策略，例如標簽與多模態(tài)嵌入之間的語義關(guān)聯(lián)、多模態(tài)信息冗余消除策略等，這些也帶來了顯著挑戰(zhàn)。我們將其總結(jié)為MIR任務(wù)的兩大關(guān)鍵挑戰(zhàn)：

模態(tài)干擾信息過濾難題：作為以文本為中心的任務(wù)，當使用音頻和視覺模態(tài)作為輔助信號時，這些信號的大部分成分可能對表征產(chǎn)生干擾，因此如何過濾破壞性信息并保留表征的關(guān)鍵成分成為首要挑戰(zhàn)。
語義空間失配問題：需要開發(fā)更高效的學習策略，以優(yōu)化整個MIR算法架構(gòu)，并增強三種模態(tài)聚合后的聯(lián)合表征能力。

為了緩解模態(tài)干擾信息，我們嘗試從輔助信號（音頻、視覺）和文本信號中識別關(guān)鍵成分，并將其稱為“錨點”（anchors），同時過濾無關(guān)信息。通過融合和交互這些“錨點”，我們能夠有效應(yīng)對這一挑戰(zhàn)。

應(yīng)對語義空間失配問題，我們嘗試將多模態(tài)表征與意圖導(dǎo)向的語義信息同步對齊。我們認為，這能夠?qū)⑦@些表征映射到更合理的語義空間，從而更好地優(yōu)化整個學習過程。

基于上述思路，本文提出了一種新框架：基于錨點的語義同步多模態(tài)嵌入（A-MESS），如圖2所示。本框架利用從音頻和視頻模態(tài)提取的聯(lián)合錨點嵌入表征來增強文本表征，隨后將增強后的文本嵌入進一步整合到多模態(tài)編碼器中，與現(xiàn)有方法的區(qū)別如圖1。編碼后的表征再與大型語言模型（LLM）基于提示標簽生成的多種解釋進行語義同步，采用三元組對比損失進行優(yōu)化。同時，整個過程通過分類損失進行聯(lián)合優(yōu)化。

圖1. MIR方法對比二、方法：錨點驅(qū)動+語義同步雙引擎2.1 整體架構(gòu)

圖2. A-MESS整體架構(gòu)2.2 A-MESS框架兩大核心：

錨點多模態(tài)嵌入（A-ME）：篩選關(guān)鍵跨模態(tài)特征：

錨點多模態(tài)嵌入的模態(tài)融合階段：提出基于錨點的多模態(tài)嵌入模塊（A-ME），通過跨模態(tài)注意力篩選top-k關(guān)鍵特征，經(jīng)雙向交叉注意力增強后融合為統(tǒng)一表示，如圖3所示。

語義同步策略（SS）：對齊LLM語義空間

語義優(yōu)化階段提：設(shè)計語義同步策略（SS），利用大語言模型生成意圖標簽的語義解釋，如圖3下半部分，通過SentenceBERT編碼形成三維描述向量，結(jié)合對比學習動態(tài)對齊特征空間，提升語義一致性。

本框架創(chuàng)新性地結(jié)合了關(guān)鍵信息錨定與大語言模型的語義增強，實現(xiàn)了端到端的層次化特征優(yōu)化。

2.3 A-MESS框架通過雙階段協(xié)同機制改進多模態(tài)意圖識別：

在模態(tài)融合方面，提出的A-ME模塊通過分層注意力機制實現(xiàn)了細粒度的跨模態(tài)交互。不同于傳統(tǒng)的特征拼接或簡單注意力機制，本方法創(chuàng)造性地設(shè)計了錨點交叉注意力（An-CAttn）和時序交叉注意力（T-CAttn）的雙層注意力架構(gòu)。前者專注于模態(tài)間關(guān)鍵信息的深度交互，后者負責保持時序特征的完整性。這種設(shè)計既避免了輔助模態(tài)的信息冗余，又保留了文本模態(tài)的主導(dǎo)地位，在意圖識別數(shù)據(jù)集上實現(xiàn)了較高的精度提升。

圖3. A-ME模塊

其次，在語義優(yōu)化層面，SS策略通過動態(tài)三元組對比學習構(gòu)建了可擴展的語義空間。每個意圖標簽通過大語言模型生成三個差異化描述，形成包含概念邊界、情感傾向、行為特征的多維度語義表示。在對比學習過程中，采用自適應(yīng)溫度系數(shù)調(diào)節(jié)正負樣本的相似度權(quán)重，通過負樣本庫的動態(tài)擴展增強模型的泛化能力。

圖4. 三元對比損失函數(shù)

圖5. 分類損失函數(shù)

最后，在整體架構(gòu)設(shè)計上，A-MESS框架通過雙損失聯(lián)合優(yōu)化機制實現(xiàn)了多目標協(xié)同訓練。分類損失保證基礎(chǔ)識別性能，三元組對比損失驅(qū)動語義空間優(yōu)化，二者通過可學習的權(quán)重參數(shù)實現(xiàn)動態(tài)平衡，如圖4和圖5。本方法在視頻模態(tài)處理中引入預(yù)訓練的Swin-Transformer，在音頻處理中采用WavLM模型，通過遷移學習策略有效緩解了多模態(tài)數(shù)據(jù)的領(lǐng)域差異問題。

本框架的創(chuàng)新價值在于：首次將大語言模型的語義生成能力系統(tǒng)性地引入多模態(tài)意圖識別任務(wù)；建立了基于關(guān)鍵特征錨定的輕量化融合范式；開發(fā)了面向開放場景的動態(tài)語義對齊機制。這些技術(shù)突破不僅在多模態(tài)學習領(lǐng)域具有理論創(chuàng)新意義，更為智能對話系統(tǒng)、情感計算等實際應(yīng)用提供了新的技術(shù)路徑。

三、主要實驗結(jié)果3.1 數(shù)據(jù)集與實驗設(shè)置

本研究在兩個具有挑戰(zhàn)性的多模態(tài)意圖識別（MIR）數(shù)據(jù)集MIntRec和MIntRec2.0上進行了全面評估。

MIntRec數(shù)據(jù)集以細粒度的意圖分類為核心，覆蓋文本、視頻和音頻三種模態(tài)，包含多個真實場景下的復(fù)雜意圖類別。
MIntRec2.0作為更大規(guī)模的數(shù)據(jù)集，進一步擴展了意圖類別數(shù)量，并引入超出范圍（Out-of-Scope, OOS）樣本的檢測任務(wù)。該數(shù)據(jù)集不僅包含豐富的多模態(tài)交互數(shù)據(jù)，還增加了對模型處理未知意圖的能力評估。

實驗選取了多種前沿方法作為基線模型，包括基于跨模態(tài)注意力機制的MulT、融合非語言信息的MAG-BERT、基于令牌級對比學習的TCL-MAP，以及挖掘視頻上下文信息的CAGC。評估指標涵蓋分類任務(wù)中常用的準確率（ACC）、F1分數(shù)、精確率（P）和召回率（R），以全面衡量模型性能，如圖6和圖7所示。

圖6. 整體實驗對比3.2 實驗結(jié)果3.2.1 MIntRec數(shù)據(jù)集上的表現(xiàn)

整體性能：A-MESS框架在多個關(guān)鍵指標上顯著優(yōu)于現(xiàn)有方法。在準確率方面，模型展現(xiàn)出對多模態(tài)信息融合的優(yōu)越性，尤其在捕捉文本與輔助模態(tài)（音頻、視頻）的語義關(guān)聯(lián)上表現(xiàn)突出。
對比分析：與依賴單一模態(tài)或傳統(tǒng)融合策略的方法相比，A-MESS通過錨點選擇和語義同步策略，有效減少了冗余信息的干擾。例如，在意圖分類的精確率上，模型通過增強關(guān)鍵模態(tài)特征，顯著提升了復(fù)雜意圖的識別能力。
消融實驗：移除錨點多模態(tài)嵌入（A-ME）模塊或語義同步（SS）策略后，模型性能均出現(xiàn)明顯下降，驗證了這兩個模塊的獨立貢獻。同時，兩者的聯(lián)合使用進一步提升了意圖表示的魯棒性。

圖7. 消融實驗3.2.2 MIntRec2.0數(shù)據(jù)集上的表現(xiàn)

在范圍（In-Scope）分類：A-MESS在處理大規(guī)模多模態(tài)數(shù)據(jù)時仍保持領(lǐng)先優(yōu)勢，尤其在召回率指標上表現(xiàn)突出，表明模型能夠更全面地捕捉意圖相關(guān)的多模態(tài)特征。
超出范圍（OOS）檢測：模型在識別未知意圖時展現(xiàn)了較強的泛化能力。通過語義同步策略，A-MESS將多模態(tài)表示與標簽的語義空間對齊，從而有效區(qū)分已知意圖與未知場景，顯著優(yōu)于僅依賴傳統(tǒng)監(jiān)督學習的基線方法。

3.3 關(guān)鍵分析3.3.1 錨點選擇的影響

錨點數(shù)量優(yōu)化：實驗發(fā)現(xiàn)，如圖8所示，從輔助模態(tài)中選擇適當數(shù)量的錨點對模型性能至關(guān)重要。過多錨點引入冗余信息，而過少則可能導(dǎo)致關(guān)鍵特征丟失。通過動態(tài)調(diào)整錨點數(shù)量，模型在多模態(tài)表示中實現(xiàn)了信息過濾與關(guān)鍵特征增強的平衡。

圖8. 錨點選擇分析

跨模態(tài)交互：錨點間的跨模態(tài)注意力機制（An-CAttn）顯著提升了視頻與音頻模態(tài)的交互效率。視頻錨點通過融合音頻模態(tài)的上下文信息，增強了動作與語音的關(guān)聯(lián)性，從而改善了對復(fù)合意圖（如“抱怨”伴隨特定手勢）的識別。

3.3.2 語義同步策略的貢獻

標簽語義增強：利用大語言模型（LLM）生成的多重標簽描述，模型通過對比學習將多模態(tài)表示與語義空間對齊。實驗表明，生成三個不同描述的設(shè)置能夠有效構(gòu)建穩(wěn)定的語義子空間，避免過擬合并加速收斂。
表示空間可視化：通過主成分分析（PCA）發(fā)現(xiàn)，語義同步后的多模態(tài)表示顯著接近標簽的語義分布。例如，“同意”類別的樣本在同步后更緊密地聚集于對應(yīng)的語義區(qū)域，驗證了該策略對意圖分類的可解釋性提升。

四、結(jié)論與展望

A-MESS框架通過錨點多模態(tài)嵌入與語義同步策略的協(xié)同優(yōu)化，在多模態(tài)意圖識別任務(wù)中實現(xiàn)了顯著突破。實驗表明，模型不僅在標準數(shù)據(jù)集上達到先進水平，還在復(fù)雜場景（如超出范圍檢測、噪聲干擾）中展現(xiàn)了優(yōu)異的泛化能力與魯棒性。未來工作可進一步探索跨語言意圖識別與低資源場景下的應(yīng)用擴展。

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)（www.techbeat.net）。社區(qū)上線600+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關(guān)注“將門創(chuàng)投”公眾號，后臺回復(fù)“投稿”二字，獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu)，也是北京市標桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.