近期,上海海事大學信息工程學院曹磊副教授團隊首次提出了一種多模態雙向循環一致性(MB2C)方法用于縮小EEG大腦活動中視覺神經表征模態之間的差距,并使具有相似語義不同模態的表征能夠分布在潛在空間的同一區域中。通過MB2C與對比學習的結合訓練,實現了EEG和圖像之間的跨模態對齊,并在ThingsEEG、EEGCVPR40等公開數據集上驗證了方法的有效性,取得了與其他基線方法相比更先進的性能。
1研究背景
從大腦活動數據中解碼人類視覺表征是一項具有挑戰但至關重要的任務,它有助于理解現實世界和人類視覺系統。然而,從大腦活動記錄中解碼視覺表征是非常困難的,尤其是腦電圖(EEG),盡管它具有良好的時間分辨率但空間精度卻較低。現有方法主要通過對比學習將大腦活動數據與相應的刺激響應進行匹配,然而這些方法依賴大量高質量的配對數據并忽略了分布在不同區域潛在空間中的模態數據具有語義上的一致性。為了從基于EEG的大腦活動中學習穩健的視覺神經表征,研究人員提出了多模態雙向循環一致性(MB2C)用于縮小模態之間的差距,并使具有相似語義不同模態的表征能夠分布在潛在空間的同一區域中。通過MB2C與對比學習的結合,共同約束模型的訓練,有效地實現了EEG和圖像之間的跨模態對齊。研究人員在ThingsEEG數據集上做了零樣本分類和圖像重建,還在EEGCVPR40數據集上進行了EEG分類和圖像重建,與其他基線方法相比,取得了最先進的性能。
圖 1:MB2C 框架的概述。MB2C主要包含兩部分:大腦視覺特征的多模態學習和雙向循環一致性損失。給定的配對EEG和圖像輸入使用基于混合的增強進行處理,然后輸入大腦和圖像編碼器以分別獲取EEG和視覺嵌入。兩個嵌入都輸入到雙向分類 WGAN 以生成反轉特征。該過程利用循環一致性損失來映射回原始嵌入,并輔以InfoNCE 損失。
2研究方法
研究團隊提出了多模態雙向循環一致性 (MB2C) 框架,它主要包含兩部分:大腦視覺特征的多模態學習和雙向循環一致性損失。
具體而言,由于視覺刺激與大腦響應信號的配對訓練數據稀缺,首先使用基于混合的增強來處理給定的配對EEG和圖像輸入。然后將原始數據和增強后的數據輸入到大腦和圖像編碼器中以分別獲取EEG和視覺特征,實現大腦視覺特征的多模態學習。
為了縮小模態在表征空間中分布的差距,EEG和視覺特征分別輸入到Bidirectional Classified Wasserstein GAN (BCWGAN) 中,BCWGAN 由兩個 GAN 模塊組成:視覺特征生成網絡V = {Gv, Dv} 和EEG 特征生成網絡 E = {Ge, De}。兩個生成網絡由參與對抗性最小-最大游戲的生成器G和鑒別器D組成,從預定義的分布生成合成特征。具體而言,生成器Gv (Ge)將EEG(圖像)和隨機高斯噪聲作為輸入,生成對應的圖像 (EEG)特征。判別器Dv (De)采用全連接層進行二元分類并引入分類損失引導圖像 (EEG) 特征生成朝指定方向發展。隨后采用重建特征和真實特征之間的均方誤差來計算雙向循環一致性損失,鼓勵從腦電圖特征生成的視覺特征轉換回相應的腦電圖嵌入。類似地,從圖像特征生成的腦電圖特征也應該能夠轉換回其相應的圖像嵌入。此外,添加InfoNCE 損失,兩個損失相輔相成,實現縮小模態間的差距,實現跨模態對齊。
3研究結果分析
在ThingsEEG 數據集上N-way Top-K零樣本分類任務實驗結果
為了驗證上述想法,研究人員按照MB2C框架流程在ThingsEEG 數據集上進行受試者內和受試者間的零樣本分類任務。如表1所示,結果表明MB2C具有出色的神經解碼能力。具體來說,在受試者內實驗中,MB2C 在 50 way分類任務中實現了 50.47% 的 top-1 準確率和 84.20% 的平均 top-5 準確率。即使使用 200 個未見過的類進行測試,該模型仍保持 28.45% 的 top-1 準確率和 60.37% 的 top-5 準確率。在受試者間實驗中,由于受試者之間的個體差異,神經解碼性能低于受試者內預測,但仍顯著優于機會水平。MB2C 相比于現有的SOTA方法展現了明顯的優越性。
EEGCVPR40數據集上的聯合表示學習
為了驗證 MB2C 的魯棒性,研究人員在 EEGCVPR40 原始數據集和 EEGCVPR40 濾波器數據集(5-95Hz)上進行了EEG分類。在 EEGCVPR40 數據集中,每個 EEG-圖像對具有真實的類別標簽。在模型訓練過程中,我們訓練腦電圖編碼器和兩個投影層,然后使用EEG數據微調網絡,實現出色的EEG分類結果。如表 2 所示,我們的方法在 EEGCVPR40 原始數據集和 EEGCVPR40 濾波器數據集 (5-95Hz) 上的分類準確度優于當前最先進的模型。
圖像重建
圖 2:使用 EEG 信號進行圖像重建的解耦訓練流程。在第 1 階段,利用MB2C 在共享潛在空間中對齊 EEG-圖像對。在第 2 階段,我們利用 EEG 信息作為條件輸入來訓練 StyleGAN 或微調 SDXL 用于圖像重建。
圖 3:以 EEG 為條件在 EEGCVPR40 過濾(5-95 Hz)和 ThingsEEG 數據集上進行圖像重建。標記為“地面實況”的行(用紅色框突出顯示)代表地面實況圖像刺激。帶有紅色文本的圖像對應使用 MB2C 模型提取的 EEG 特征進行的重建而其他圖像對應相關論文中提出的結果。
研究人員還評估了 MB2C 在圖像重建任務中的有效性。按照圖2中概述的訓練流程進行定量和定性實驗。在第 1 階段,利用MB2C 在共享潛在空間中對齊 EEG-圖像對。在第 2 階段,由于 EEGCVPR40 數據集較小,訓練StyleGAN從頭開始實現穩定性和高保真度。此外,我們采用更強大的生成模型 SDXL,使用 EEG 信息作為條件輸入,在 EEGCVPR40 過濾(5-95 Hz)和 ThingsEEG 數據集上進行圖像重建。據我們所知,這是 ThingsEEG 數據集上的第一次圖像重建。表 3 列出了圖像重建的定量比較結果。我們利用五個評估指標來表名合成圖像的質量和多樣性。同時,EEG條件圖像重建結果如圖3所示。
消融實驗分析
圖 4:混合系數對模型性能的影響。
研究人員在零樣本分類任務上探討了MB2C各個組件的作用和Mixup混合系數對模型性能的影響。
可視化分析
圖 5:ThingsEEG 數據集上的余弦相似度和 t-SNE 可視化。(a) 測試集中所有受試者的特征對的混淆矩陣。所有概念被重新分類為五類:動物、衣服、食物、家庭、工具和交通。(b) 六個類別的學習視覺特征的 t-SNE 可視化。(c) 六個類別的學習腦電圖特征的 t-SNE 可視化。
為了直觀地展示 MB2C 的有效性,研究人員對進行了相似性測量和可視化分析。圖5(a)的結果表明,超類內的相似度很高,EEG特征能夠有效地反映相應圖像的語義類別。圖 5 (b) 和圖 5 (c) 中描繪了從訓練和測試集中學習到的視覺特征和 EEG 特征的 t-SNE 圖,測試圖像的特征表現出與訓練圖像相似的分布。
圖 6:ThingsEEG 測試集中給定 EEG 信號的地面真實圖像和前 5 個預測結果。
圖 6呈現了樣本前 5 個預測結果,可以觀察到它們在語義上與真實情況相似;例如,“地鼠”、“小豬”、“海貍”、“羔羊”和“羚羊”都屬于動物類別。
4結論
這項研究的主要目標是從基于EEG的大腦活動中學習強大的視覺神經表征。研究人員提出了一種新穎的多模態框架,將 MB2C 與對比學習相結合,以實現跨模態對齊。值得注意的是,MB2C 利用雙 GAN 生成模態相關特征,并將其逆變換回相應的語義潛在空間,從而縮小模態差距并確保具有相似語義的不同模態的表征能換在表示空間的同一區域。結果表明,從EEG信號中解碼可見甚至不可見的視覺類別是有潛力的,并且使用EEG重建圖像也是可行的。最后,雖然本文重點關注EEG和圖像,但我們表明 MB2C 可以推廣到其他配對模態。我們相信我們的研究對于實際腦機接口和多模態學習研究具有重要價值。
5作者署名
該論文由上海海事大學信息工程學院曹磊副教授擔任通訊作者,上海海事大學信息工程學院研究生魏雅蕓和李豪為共同第一作者,上海海事大學為第一作者單位和通訊單位。成果發表CCF A國際頂級會議the 32nd ACM International Conference on Multimedia (ACM MM 24)。
代碼鏈接
https://github.com/leeh2213/MB2C
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業/專業】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯系微信:RoseBCI
點擊投稿:
2.加入社區成為兼職創作者,請聯系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.