情感是人類交流中不可或缺的一部分,而識別視頻中的情感則成為了人機交互領域的一大挑戰。在短視頻時代,我們每天都在觀看和分享各種情緒化的內容,但機器是如何理解這些復雜的人類情感的?從最初依賴單一面部表情的識別,到如今融合語音、姿態和文本的多模態方法,視頻情感識別技術正經歷著一場革命性的變革。本文深入探討這一領域的最新進展,揭示當前技術的關鍵挑戰,并展望未來發展方向,為我們理解機器如何"讀懂"人類情感打開一扇窗。
情感解析基礎
視頻情感識別是情感計算的重要分支,其應用范圍涵蓋了人機交互、智能醫療等多個領域。隨著短視頻平臺如抖音、快手和推特的興起,越來越多的用戶通過圖像、音頻和視頻等多種形式在社交媒體上分享自己的日常生活。短視頻打破了文本或圖片的單一表達形式,通過結合文字、圖像和音樂,能在短時間內創造出沉浸式的場景體驗,更容易引起觀眾的共鳴。
研究表明,在人類日常交流中,情感信息的傳遞有55%來自面部表情,38%來自語調,而語言本身只占7%。這說明非語言因素在情感傳遞中扮演著主導角色,這也是為什么視頻情感識別成為研究熱點的原因之一。
在情感描述模型方面,主要有兩種方法:分類情感狀態(CES)和維度情感空間(DES)。分類情感狀態將情感標記為離散類別,如Ekman提出的六種基本情感(憤怒、厭惡、恐懼、幸福、悲傷和驚訝),或Mikels的八種情感模型(娛樂、憤怒、敬畏、滿足、厭惡、興奮、恐懼和悲傷)。隨著心理學理論的發展,Plutchik對每種情感又劃分三種強度,使情感類別更加豐富。比如,Joy的三種強度是狂喜→幸福→平靜,Fear的三種強度是恐怖→恐懼→不安。
而維度情感空間不是分配明確的標簽,而是讓觀察者在多個連續尺度上表明自己的感受,如"愉悅"對"不愉悅"、"注意"對"拒絕"、"簡單"對"復雜"等。其中,效價和喚醒度是兩個常用的尺度。效價表示刺激的愉悅程度,一端是積極(或愉悅),另一端是消極(或不愉悅)。喚醒度或激活度是另一個維度,例如,悲傷有低喚醒度,而幸福有高喚醒度。Russell等人提出的情感旋輪模型將各種情感標簽映射在這兩個軸所跨越的二維平面上的各個位置。
對于數據集建設,視頻情感識別任務中常用的數據集可分為單模態和多模態數據集。單模態數據集中的樣本都是視頻模態,如MMI面部表情數據庫和AFEW數據庫。MMI包含了61名成人展示各種基本情感和25名成人對情感視頻的反應,數據庫包括2900多個視頻和75張高分辨率靜止圖像。AFEW數據庫是最廣泛使用的語音-視頻情感識別數據庫,包含從電影中提取的視頻片段,這些片段接近真實條件,更好地代表了人類在真實場景中的情感表達。
相比之下,多模態情感數據庫除了視頻模態外,還包含其他模態的圖像(如深度圖、紅外圖等)、文本和音頻等多種信息。常用的多模態數據庫有IEMOCAP數據庫和eNTERFACE'05數據庫。IEMOCAP由Busso等人共同錄制,由12小時的包含視頻、音頻、語音文本等的視聽數據組成。eNTERFACE'05是Martin等人于2006年共同創建的基于語音和面部表情的多模態情感數據庫,包含來自42名測試對象的1287個視頻。
單模方法探索
現有的視頻情感識別方法大致可分為兩類:單模態情感識別方法和多模態視頻情感識別方法。單模態方法主要基于面部表情和姿態動作進行識別,而多模態方法則融合了多種信息源進行綜合判斷。
基于面部表情的視頻情感識別方法主要通過捕捉視頻中人物的面部表情特征進行情感識別。人類面部表情是表達情感的重要途徑,面部每個器官和肌肉的形態變化都包含支持情感分析的重要信息。
Sarah等人利用Chen等提出的人臉檢測方法,使用VGG13、VGG16和ResNet三個深度學習網絡從視頻中的面部表情信息獲取特征,然后對編碼后的特征進行情感識別。實驗表明,將不同網絡計算的特征連接起來比將同一網絡計算的特征連接起來效果更好,最終在AFEW數據集上取得了59.42%的準確率。
Yin Fan等人提出了一種基于RNN和C3D融合的視頻情感識別系統。C3D同時對視頻的外觀和運動進行建模,而RNN使用從單幀提取的CNN外觀特征對運動進行編碼。實驗證明,結合RNN和C3D可以顯著增強基于視頻的情感識別效果。
Xue等人提出了一種帶平滑預測的粗細級聯網絡(CFC-SP)用于視頻面部表情識別。為了解決標簽模糊性問題,他們首先將一些相似的情感分組為一組粗粒度類別,然后使用級聯網絡進行粗粒度和細粒度分類。他們認為標簽模糊性問題可能有兩個原因:一是表情本身的模糊性,有些表情彼此相似,難以區分;二是不同人對面部表情的解讀不同,導致標簽模糊和不一致。
Hu M等人提出了一種基于局部增強運動歷史圖像和CNN-LSTM級聯網絡的局部和全局網絡集成框架。在局部網絡中,他們使用一種稱為LEMHI的新方法將未識別的視頻幀合并為單個幀。該方法利用識別出的人臉關鍵點作為注意區域,增加了用于差分圖像計算的局部值,有效捕捉了關鍵面部單元的動作。全局網絡則使用更高級的CNN-LSTM模型作為全局特征提取器和分類器。實驗結果表明,整合兩個網絡框架提供了比單獨使用各個網絡更好的性能。
另一方面,基于姿態動作的視頻情感識別是一個新興的研究領域,基于使用視頻中人物的運動特征來預測視頻中嵌入的情感。心理學研究發現,人類感知可以僅通過身體動作識別各種情緒狀態。人們通常用習慣性的身體動作表達情感,包括手、腿和肩膀的動作,如緊張時搖腿,無助時聳肩,開心時跳舞。
Gavrilescu M等人實驗證明,將姿態情感識別納入系統可以提高面部表情情感識別系統的分類準確性。這表明姿態和手勢中包含了無法從面部表情中獲得的情感信息。
Shen等人在一個自收集的包含六種姿態(跳躍、蹲下、投擲、站立、后退和轉身)的數據庫上使用TSN(時間段網絡)和ST-GCN(時空圖卷積網絡)獲取行為和手勢特征。改進的ResNet網絡用于訓練情感識別模型,最終在自收集數據庫上獲得了53.57%的識別準確率。其中,ST-GCN解決了傳統GCN無法對關鍵節點之間的相對位置變化進行建模的問題,在提取骨架姿勢特征方面非常有效。
雖然大多數研究中使用的基本情感難以描述復雜多樣的情緒狀態,測試中可能出現未包含在收集的姿態樣本中的新姿態。Wu J等人通過將每種情感類別視為多種姿態手勢類別的集合,提出了一種新穎的解決方案,以更好地利用手勢信息進行情感識別。他們引入了廣義零樣本學習(GZSL)框架,該框架使用語義信息識別可見和不可見的身體手勢類別,并基于身體手勢與情感之間的關系預測情感。
單模態視頻情感識別方法雖然在某些場景下表現良好,但因為獲取的特征信息往往是片面的,導致識別準確率較低。相比之下,多模態視頻情感識別方法能夠實現不同模態特征信息之間的互補,彌補了單模態信息片面性的不足,獲取更豐富的情感特征信息。這也是為什么研究焦點正逐漸從單模態轉向多模態視頻情感識別的原因。
多模態融合術
人類的情緒表達是多樣化的,僅靠單一的面部表情或姿態動作往往難以準確捕捉完整的情感狀態。這就像我們在日常生活中一樣,有時候嘴上說著"沒關系",但語氣和表情卻透露出不悅。正因如此,多模態視頻情感識別在近年來獲得了越來越多的關注。2015年至2022年的研究文獻分析顯示,基于注意力機制的多模態融合方法逐漸受到研究者青睞,研究重點也從單模態逐步轉向多模態視頻情感識別。
多模態融合的核心挑戰在于:如何有效地把握不同模態之間的對應關系,實現各模態特征信息的充分融合。目前常見的融合策略主要分為四類:特征級融合、決策級融合、基于Transformer的模型級融合和基于注意力機制的融合。
特征級融合,也稱為早期融合,是通過特征連接作為融合方法。具體實現是提取各種模態數據,構建相應的模態特征,然后將它們連接成一個集成各種模態特征的特征集。Samadiani等人提出了一種名為VERMFF的視頻情感識別系統,使用基于質量度量的核SR融合多個特征,并使用SR分類器對七種基本情感進行分類。在AFEW數據集的七分類任務上,最終準確率達到54.39%。Adhikaria等人提出了一種基于特征層融合的視聽多模態情感識別系統,其中從視聽模型學習的特征通過連接到元分類器的密集層進行融合。融合過程是簡單的線性、串聯或逐元素加法,在eNTERACE'0.5數據集七分類任務上達到了71.5%的分類準確率。
Cai等人提出了兩種新的音視頻融合方法。一種是特征級融合方法,通過特征歸一化使用音頻特征和三種不同的視覺特征(基于LBP-top的特征、基于CNN的特征和CNN-BLSTM特征),連接構建聯合特征向量,然后將每個視頻剪輯輸入到線性SVM進行情感識別。另一種是模型級組合方法,明確處理來自不同信號的時間尺度、時間偏移和測量差異,分別使用音頻和視覺信息進行情感識別,然后使用基于貝葉斯網絡的概率框架組合這些單峰識別結果。
決策級融合,也稱為晚期融合,是通過特定的代數方法融合單模態結果。其實現方式是將不同模態的信號輸入對應的算法進行特征提取,然后使用各自對應的分類器進行情感識別,最后使用特定的決策規則融合每種模式的預測結果分數,得到最終的情感識別結果。常見的融合方法包括最大值法、最小值法、乘積法、求和法、平均法、投票法、貝葉斯決策理論和Adaboost算法。
Avots等人基于視聽信息進行情感識別。對于視頻部分,選擇視頻的關鍵幀進行面部情感識別;對于音頻部分,提取MFCC系數。所使用的決策級特征融合方法如下:為每個音頻和視頻預測設置六個分數值,對應于特定類別的預測準確度,最大值為預測標簽,所有概率之和為1。為了得到最終的預測結果,將各自的概率相加并歸一化,最終在RML數據集的六分類任務上獲得了69.30%的準確率。
特征級融合雖然增加了特征豐富度,但沒有考慮特征之間的變異性,有些特征無法融合來建模復雜關系,高維特征集容易出現數據稀疏的問題。相比之下,決策級融合雖然更容易實現,但因為假設參與融合的模態彼此獨立,無法捕獲不同模態之間的相互聯系。因此,早期和晚期融合方法都難以捕獲多模態信息的更深層次相關信息,難以更好地利用各種模態信息之間相關性的特點,難以取得突破。
針對這些問題,提出了更多更好的多模態融合方法,其中最常見和有效的多模態融合方法是基于Transformer的融合方法和基于注意力機制的融合方法。
基于Transformer的注意力機制自適應地確定應該從數據中檢索哪些信息和從哪里檢索信息,以產生健壯有效的融合策略。Transformer適應性地融合與對象查詢的空間和上下文關系相關的有用信息特征。具體來說,多頭注意力在編碼多模態信息后,從共同的語義特征空間生成多模態情感中間表示。此外,它還可以通過自注意機制有效地學習長期時間依賴關系,有效處理早期和晚期融合的一些缺點。
Huang等人將單模態特征輸入多頭注意力模塊,使用自注意機制對連續情緒進行建模。具體來說,音頻和視覺模塊學習情緒的長期時間依賴性并關注低級特征。多模態融合模塊專注于音頻和視覺模態之間的交互,并通過注意力自適應地從音頻到視覺模態調整數據流。實驗表明,單峰模型可以達到有效的性能,Transformer模型可以成功應用于情感建模并得到驗證。
Lian等人提出了一種基于Transformer的模型級多模態組合系統,一方面通過基于Transformer的單模態結構捕獲單模態突出特征之間的時間依賴關系;另一方面,通過采用基于Transformer的跨模態結構學習非對齊多模態特征上的跨模態交互。在AVEC 2017數據庫上進行的實驗表明,基于Transformer的模型級融合在準確建模內模態和跨模態交互方面優于其他融合策略,在IEMOCAP和MELD數據集上的準確率非常高。由于各種模態的互補性,多模態融合增強了情感識別性能。
基于注意力機制的神經網絡類似于人類的視覺注意機制。通過掃描全局圖像,識別需要關注的區域,將后續注意力資源集中在該區域,獲取更深入的與目標相關的數據,同時忽略其他無關數據。利用此機制,可以使用有限的注意力資源從大量信息中快速分離出高價值信息。深度學習可以通過重要權重向量實現注意力,即在預測或推斷元素(如圖片中的像素點或句子中的單詞)時,使用注意力向量確定它與其他元素的關聯強度,然后對加權向量求和以近似最終目標值。
Xia等人首先從音頻、視覺和文本模態獲得單模態決策,然后使用基于注意力的決策融合這些單模態情感決策。即使用公式計算注意力權重,然后為情感顯著的模態分配更高的權重,最后在注意力加權融合后輸出最終的情感預測。在IEMOCAP數據集和CMU-MOSEI數據集的六分類任務上,最終準確率分別達到69.60%和87.40%。
Liu等人提出了一種基于注意力機制的多模態特征融合情感識別模型。首先,音頻和人臉特征被組合以創建融合特征,融合特征用于確定人臉特征的注意力能力,然后對人臉特征進行加權。通過分析融合特征的注意力,該方法可以確定特征之間的關系。因此,無噪聲且具有高度可辨別性的特征比嘈雜的特征獲得更多的權重。在RML數據集上,最終識別準確率達到81.18%。
挑戰與展望
視頻情感識別近年來取得了一定進展,從前面介紹的視頻情感識別方法可以看出,深度學習方法能在視頻情感識別領域取得不錯的效果,創建了很多優秀的視頻情感識別模型。但目前仍面臨著一系列亟待解決的挑戰。
在數據集方面,現有的情感識別數據集都存在不同程度的數據不平衡和數據量過少的問題。目前被普遍接受的視頻場景情感識別數據集規模不是特別大,可用的數據集數量也不是特別多。在深度學習中,用于訓練的數據越多,訓練出來的模型性能越好。此外,情感描述符還不夠清晰。目前大多數研究認為一個視頻在情感維度空間中只有一個情感描述符,而在實際生活或實驗中,很難找到只包含單一情感類別的視頻,一個視頻往往包含多種復雜的情感。另一方面,情感建模方法存在局限性。現有的情感標簽建立在離散或維度上,維度情感標記模型受到繁重的標記要求或混亂的標記空間的限制,從便宜且直觀的離散情感標簽中學習導致情感變異性有限。
在方法論方面,面向視頻場景的深度學習情感識別方法主要面臨以下問題:首先,模型可解釋性研究不足。目前對于視頻情感識別模型,在回答什么驅動模型的預測、為什么模型做出這個決定以及模型預測結果的可信度三個方面,需要進一步明確。其次,情感識別模型的可靠性需要提高。一方面,人們在現實生活中往往會隱藏自己的真實情感,這使得基于視覺和語音信號的情感識別模型不夠可靠;另一方面,人類情感不是瞬時的或突發的,而是一個漸進的過程,因此僅研究一時刻的情感容易造成誤判,導致算法降低識別準確度,構建的模型不夠可靠。最后,模型的域泛化研究需要加強。即如何將現有的視頻情感識別模型適應到具有不同數據分布的其他目標域,是一個具有挑戰性的問題。
隨著深度學習模型的復雜性和數據集規模的增加,情感識別模型的計算效率成為一個不容忽視的問題。模型的網絡結構、訓練參數以及數據集的質量和輸入網絡的信號都會影響模型的性能,其中3D卷積網絡需要增強。此外,多模態研究不足。一方面,當前的多模態連接融合方法無法有效解決模態沖突問題。因此,當兩個或更多模態存在矛盾時,已融合的現有模型會發生沖突,導致結果不準確。另一方面,多模態情感識別數據庫數量少且樣本豐富度不足,存在模態缺失問題,這使得難以支持像深度學習這樣的大規模學習場景。此外,多模態情感識別的難點在于需要保留單一模態的原始特征,同時也要挖掘兩種模態的互補信息。而引入多模態特征會使學習過程更加復雜,帶來多維度和計算時間增加的問題。
在未來發展前景方面,尋找消除沖突并更好地描述多模態融合的方法是當前多模態融合方法研究的焦點。對于數據集,一方面,現有的大多數數據集都是電影和電視劇的片段或在實驗室條件下錄制的,不包括復雜的真實世界條件,而在實際應用中,需要考慮更多的因素。因此,構建一個代表實際或真實世界條件的標注良好的數據集更有利于視頻情感識別。另一方面,與單模態情感數據庫相比,公開可用的多模態情感數據庫較少,并且存在一些缺失和破損的模態。此外,現有的多模態情感數據庫大多基于西方國家的語言錄制,沒有考慮地域民族差異。因此,建立一個數據豐富、包含更多模態信息、語言多樣化且公開可用的數據庫更有利于促進多模態情感識別領域的研究,建立一個全面的基準數據集是未來的重要趨勢。
在方法論方面,多模態特征信息是未來發展的重要方向之一。人類情感表達是多樣化的,除了語音語調和面部表情外,情感表達的模態還包括姿態和動作、生理信號、文本等。因此,情感識別本質上是一個多模態融合問題。然而,目前多模態情感識別的主流研究基于語音和面部這兩個最重要的模態,缺乏對其他模態信號的研究,因此綜合利用更多的模態信息也是未來情感識別的重要方向,增加更多的模態可以更準確地分析人類的情感狀態。
另外,多模態融合方法也是未來重點研究方向。與決策融合相比,特征融合特別是深度特征融合的研究尚不成熟,深度特征融合對實驗設備的要求相對較高,因此需要考慮如何允許同時添加更多模態。在考慮更好的模型級融合以彌補早期和晚期融合的缺點時,雖然獲得了相對較高的準確率,但這種方法需要非常強大的GPU,這給實時應用和實際部署帶來困難。因此,準確率和速度之間的權衡需要進一步研究,因此重要的是在確保準確率不降低的同時產生輕量級模型融合方法,這是未來發展的重要方向。
另外,傳統算法通常假設不同模態的質量或重要性在所有樣本中基本恒定,要么為每個模態分配固定權重,要么平等重視它們。然而,實際上,模態的質量經常因樣本而異,因此設計的模型需要修改以解決這個問題。因此,決策應該基于多模態輸入得到很好的解釋,設計的模型應該為每個樣本的預測提供準確的不確定性,甚至為每個樣本的各個模態提供不確定性。基于此,提出了可信多模態融合方法,這是一種支持合理和可解釋分類的多模態分類算法。它以可學習的方式基于證據理論執行自適應動態集成,對每個樣本的每個模態進行不確定性估計,使模型能夠保證在復雜多變的場景下分類的可靠性和穩定性。因此,將可信多模態融合應用于情感識別任務也是未來值得探索的方向。
參考資料
Xue, J., Wang, J., Wu, X., &; Fu, L. (2023). Emotion Recognition by Video: A review. arXiv:2310.17212v1.
Poria, S., Cambria, E., Bajpai, R., &; Hussain, A. (2017). A review of affective computing: From unimodal analysis to multimodal fusion. Information fusion, 37:98-125.
Zhao, S., Ding, G., Gao, Y., &; Han, J. (2017). Learning visual emotion distributions via multi-modal features fusion. Proceedings of the 25th ACM international conference on Multimedia, 369-377.
Zhang, S., Zhang, S., Huang, T., &; Gao, W. (2018). Multimodal deep convolutional neural network for audio-visual emotion recognition. ACM International Conference on Multimedia Retrieval, 281-284.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.