在浙大研究院&清華大學聯(lián)合推出的A-MESS框架中,錨點式多模態(tài)嵌入與語義對齊策略相互配合,有效推動了多模態(tài)意圖識別任務(wù)的性能提升。實驗結(jié)果顯示,該模型不僅在主流數(shù)據(jù)集上取得了領(lǐng)先表現(xiàn),還能在如越界識別和噪聲干擾等復(fù)雜環(huán)境下展現(xiàn)出強泛化性和穩(wěn)健性。未來研究可進一步拓展其在跨語言意圖識別及低資源條件下的應(yīng)用潛力。
論文標題: A-MESS: Anchor-based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition 論文鏈接: https://arxiv.org/pdf/2503.19474一、動機:突破多模態(tài)意圖識別的雙重瓶頸
在自然語言理解領(lǐng)域,多模態(tài)意圖識別(MIR)任務(wù)用于基于文本、視覺和聽覺信息,在目標驅(qū)動的語境下對意圖進行分類,已被認為是識別復(fù)雜人類行為意圖的關(guān)鍵要素。尤其在AI智能體的應(yīng)用中,例如當用戶需要指揮AI智能體執(zhí)行特定任務(wù)時,只有正確理解用戶指令背后的意圖,AI智能體才能良好完成任務(wù)。相比僅依賴單一數(shù)據(jù)類型的方法,使用多模態(tài)數(shù)據(jù)能提供更豐富的信息基礎(chǔ),從而提高復(fù)雜意圖類別識別的準確性。
在該領(lǐng)域,已有研究從真實場景中收集多模態(tài)數(shù)據(jù),構(gòu)建意圖識別數(shù)據(jù)集,為MIR研究做出重要貢獻。當前的方法在MIR任務(wù)中表現(xiàn)優(yōu)異,但仍有許多未被充分探索的表征策略,例如標簽與多模態(tài)嵌入之間的語義關(guān)聯(lián)、多模態(tài)信息冗余消除策略等,這些也帶來了顯著挑戰(zhàn)。我們將其總結(jié)為MIR任務(wù)的兩大關(guān)鍵挑戰(zhàn):
模態(tài)干擾信息過濾難題:作為以文本為中心的任務(wù),當使用音頻和視覺模態(tài)作為輔助信號時,這些信號的大部分成分可能對表征產(chǎn)生干擾,因此如何過濾破壞性信息并保留表征的關(guān)鍵成分成為首要挑戰(zhàn)。
語義空間失配問題:需要開發(fā)更高效的學習策略,以優(yōu)化整個MIR算法架構(gòu),并增強三種模態(tài)聚合后的聯(lián)合表征能力。
為了緩解模態(tài)干擾信息,我們嘗試從輔助信號(音頻、視覺)和文本信號中識別關(guān)鍵成分,并將其稱為“錨點”(anchors),同時過濾無關(guān)信息。通過融合和交互這些“錨點”,我們能夠有效應(yīng)對這一挑戰(zhàn)。
應(yīng)對語義空間失配問題,我們嘗試將多模態(tài)表征與意圖導(dǎo)向的語義信息同步對齊。我們認為,這能夠?qū)⑦@些表征映射到更合理的語義空間,從而更好地優(yōu)化整個學習過程。
基于上述思路,本文提出了一種新框架:基于錨點的語義同步多模態(tài)嵌入(A-MESS),如圖2所示。本框架利用從音頻和視頻模態(tài)提取的聯(lián)合錨點嵌入表征來增強文本表征,隨后將增強后的文本嵌入進一步整合到多模態(tài)編碼器中,與現(xiàn)有方法的區(qū)別如圖1。編碼后的表征再與大型語言模型(LLM)基于提示標簽生成的多種解釋進行語義同步,采用三元組對比損失進行優(yōu)化。同時,整個過程通過分類損失進行聯(lián)合優(yōu)化。
圖1. MIR方法對比 二、方法:錨點驅(qū)動+語義同步雙引擎2.1 整體架構(gòu)
圖2. A-MESS整體架構(gòu)2.2 A-MESS框架兩大核心:
錨點多模態(tài)嵌入(A-ME):篩選關(guān)鍵跨模態(tài)特征:
錨點多模態(tài)嵌入的模態(tài)融合階段:提出基于錨點的多模態(tài)嵌入模塊(A-ME),通過跨模態(tài)注意力篩選top-k關(guān)鍵特征,經(jīng)雙向交叉注意力增強后融合為統(tǒng)一表示,如圖3所示。
語義同步策略(SS):對齊LLM語義空間
語義優(yōu)化階段提:設(shè)計語義同步策略(SS),利用大語言模型生成意圖標簽的語義解釋,如圖3下半部分,通過SentenceBERT編碼形成三維描述向量,結(jié)合對比學習動態(tài)對齊特征空間,提升語義一致性。
本框架創(chuàng)新性地結(jié)合了關(guān)鍵信息錨定與大語言模型的語義增強,實現(xiàn)了端到端的層次化特征優(yōu)化。
2.3 A-MESS框架通過雙階段協(xié)同機制改進多模態(tài)意圖識別:
在模態(tài)融合方面,提出的A-ME模塊通過分層注意力機制實現(xiàn)了細粒度的跨模態(tài)交互。不同于傳統(tǒng)的特征拼接或簡單注意力機制,本方法創(chuàng)造性地設(shè)計了錨點交叉注意力(An-CAttn)和時序交叉注意力(T-CAttn)的雙層注意力架構(gòu)。前者專注于模態(tài)間關(guān)鍵信息的深度交互,后者負責保持時序特征的完整性。這種設(shè)計既避免了輔助模態(tài)的信息冗余,又保留了文本模態(tài)的主導(dǎo)地位,在意圖識別數(shù)據(jù)集上實現(xiàn)了較高的精度提升。
圖3. A-ME模塊
其次,在語義優(yōu)化層面,SS策略通過動態(tài)三元組對比學習構(gòu)建了可擴展的語義空間。每個意圖標簽通過大語言模型生成三個差異化描述,形成包含概念邊界、情感傾向、行為特征的多維度語義表示。在對比學習過程中,采用自適應(yīng)溫度系數(shù)調(diào)節(jié)正負樣本的相似度權(quán)重,通過負樣本庫的動態(tài)擴展增強模型的泛化能力。
圖4. 三元對比損失函數(shù)
圖5. 分類損失函數(shù)
最后,在整體架構(gòu)設(shè)計上,A-MESS框架通過雙損失聯(lián)合優(yōu)化機制實現(xiàn)了多目標協(xié)同訓練。分類損失保證基礎(chǔ)識別性能,三元組對比損失驅(qū)動語義空間優(yōu)化,二者通過可學習的權(quán)重參數(shù)實現(xiàn)動態(tài)平衡,如圖4和圖5。本方法在視頻模態(tài)處理中引入預(yù)訓練的Swin-Transformer,在音頻處理中采用WavLM模型,通過遷移學習策略有效緩解了多模態(tài)數(shù)據(jù)的領(lǐng)域差異問題。
本框架的創(chuàng)新價值在于:首次將大語言模型的語義生成能力系統(tǒng)性地引入多模態(tài)意圖識別任務(wù);建立了基于關(guān)鍵特征錨定的輕量化融合范式;開發(fā)了面向開放場景的動態(tài)語義對齊機制。這些技術(shù)突破不僅在多模態(tài)學習領(lǐng)域具有理論創(chuàng)新意義,更為智能對話系統(tǒng)、情感計算等實際應(yīng)用提供了新的技術(shù)路徑。
三、主要實驗結(jié)果3.1 數(shù)據(jù)集與實驗設(shè)置
本研究在兩個具有挑戰(zhàn)性的多模態(tài)意圖識別(MIR)數(shù)據(jù)集MIntRec和MIntRec2.0上進行了全面評估。
MIntRec數(shù)據(jù)集以細粒度的意圖分類為核心,覆蓋文本、視頻和音頻三種模態(tài),包含多個真實場景下的復(fù)雜意圖類別。
MIntRec2.0作為更大規(guī)模的數(shù)據(jù)集,進一步擴展了意圖類別數(shù)量,并引入超出范圍(Out-of-Scope, OOS)樣本的檢測任務(wù)。該數(shù)據(jù)集不僅包含豐富的多模態(tài)交互數(shù)據(jù),還增加了對模型處理未知意圖的能力評估。
實驗選取了多種前沿方法作為基線模型,包括基于跨模態(tài)注意力機制的MulT、融合非語言信息的MAG-BERT、基于令牌級對比學習的TCL-MAP,以及挖掘視頻上下文信息的CAGC。評估指標涵蓋分類任務(wù)中常用的準確率(ACC)、F1分數(shù)、精確率(P)和召回率(R),以全面衡量模型性能,如圖6和圖7所示。
圖6. 整體實驗對比3.2 實驗結(jié)果3.2.1 MIntRec數(shù)據(jù)集上的表現(xiàn)
整體性能:A-MESS框架在多個關(guān)鍵指標上顯著優(yōu)于現(xiàn)有方法。在準確率方面,模型展現(xiàn)出對多模態(tài)信息融合的優(yōu)越性,尤其在捕捉文本與輔助模態(tài)(音頻、視頻)的語義關(guān)聯(lián)上表現(xiàn)突出。
對比分析:與依賴單一模態(tài)或傳統(tǒng)融合策略的方法相比,A-MESS通過錨點選擇和語義同步策略,有效減少了冗余信息的干擾。例如,在意圖分類的精確率上,模型通過增強關(guān)鍵模態(tài)特征,顯著提升了復(fù)雜意圖的識別能力。
消融實驗:移除錨點多模態(tài)嵌入(A-ME)模塊或語義同步(SS)策略后,模型性能均出現(xiàn)明顯下降,驗證了這兩個模塊的獨立貢獻。同時,兩者的聯(lián)合使用進一步提升了意圖表示的魯棒性。
圖7. 消融實驗3.2.2 MIntRec2.0數(shù)據(jù)集上的表現(xiàn)
在范圍(In-Scope)分類:A-MESS在處理大規(guī)模多模態(tài)數(shù)據(jù)時仍保持領(lǐng)先優(yōu)勢,尤其在召回率指標上表現(xiàn)突出,表明模型能夠更全面地捕捉意圖相關(guān)的多模態(tài)特征。
超出范圍(OOS)檢測:模型在識別未知意圖時展現(xiàn)了較強的泛化能力。通過語義同步策略,A-MESS將多模態(tài)表示與標簽的語義空間對齊,從而有效區(qū)分已知意圖與未知場景,顯著優(yōu)于僅依賴傳統(tǒng)監(jiān)督學習的基線方法。
錨點數(shù)量優(yōu)化:實驗發(fā)現(xiàn),如圖8所示,從輔助模態(tài)中選擇適當數(shù)量的錨點對模型性能至關(guān)重要。過多錨點引入冗余信息,而過少則可能導(dǎo)致關(guān)鍵特征丟失。通過動態(tài)調(diào)整錨點數(shù)量,模型在多模態(tài)表示中實現(xiàn)了信息過濾與關(guān)鍵特征增強的平衡。
圖8. 錨點選擇分析
跨模態(tài)交互:錨點間的跨模態(tài)注意力機制(An-CAttn)顯著提升了視頻與音頻模態(tài)的交互效率。視頻錨點通過融合音頻模態(tài)的上下文信息,增強了動作與語音的關(guān)聯(lián)性,從而改善了對復(fù)合意圖(如“抱怨”伴隨特定手勢)的識別。
標簽語義增強:利用大語言模型(LLM)生成的多重標簽描述,模型通過對比學習將多模態(tài)表示與語義空間對齊。實驗表明,生成三個不同描述的設(shè)置能夠有效構(gòu)建穩(wěn)定的語義子空間,避免過擬合并加速收斂。
表示空間可視化:通過主成分分析(PCA)發(fā)現(xiàn),語義同步后的多模態(tài)表示顯著接近標簽的語義分布。例如,“同意”類別的樣本在同步后更緊密地聚集于對應(yīng)的語義區(qū)域,驗證了該策略對意圖分類的可解釋性提升。
A-MESS框架通過錨點多模態(tài)嵌入與語義同步策略的協(xié)同優(yōu)化,在多模態(tài)意圖識別任務(wù)中實現(xiàn)了顯著突破。實驗表明,模型不僅在標準數(shù)據(jù)集上達到先進水平,還在復(fù)雜場景(如超出范圍檢測、噪聲干擾)中展現(xiàn)了優(yōu)異的泛化能力與魯棒性。未來工作可進一步探索跨語言意圖識別與低資源場景下的應(yīng)用擴展。
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學習社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu),也是北京市標桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.