網易首頁 > 網易號 > 正文申請入駐

杭電腦機協同智能團隊：用于細粒度腦語義解碼的視覺引導雙空間交互網絡

2024-12-27 09:19:09　來源: 腦機接口社區

北京舉報

分享至

近日，杭州電子科技大學腦機協同智能團隊最新研究成果“Visual guided Dual-spatial Interaction Network for Fine-grained Brain Semantic Decoding”論文發表在國際TOP學術期刊《IEEE Transactions on Instrumentation and Measurement》上。

文章鏈接:https://ieeexplore.ieee.org/document/10716707

大腦語義解碼在計算機視覺和神經科學領域備受關注，但現有粗粒度解碼工作往往忽視了大腦信號的稀疏性問題和深層次隱含語義解析挑戰，導致大腦解碼能力極大受限。為解決這一問題，本文提出了一種視覺引導的雙空間交互網絡（VDIN），通過多路徑視覺信息引導（包括文本和圖像），構建一種細粒度大腦語義解碼框架。具體而言，本文首先設計了局部雙空間交互模塊，借助包含豐富語義信息的文本感知空間，探索大腦與文本之間的顯式和隱式語義相關性。同時，該模塊利用更高分辨率的圖像感知空間，可以有效挖掘大腦與圖像之間的多層次語義相關性。在此基礎上，本文提出的全局雙空間交互模塊通過進一步整合并優化局部語義相關性，從而得到綜合且全面的全局綜合語義表征。這一方法增強了對視覺信息與大腦信號一致性及互補性的建模能力，從而為現有大腦語義解碼工作提供了一種可行和可借鑒的更加細粒度且具有更強表達力的大腦語義解碼新方案。

研究背景

在計算機視覺與神經科學領域，EEG（腦電圖）作為一種非侵入式測量方法，已廣泛應用于腦活動分析，特別是在視覺誘發腦活動的研究中。圖像作為視覺刺激材料能夠引發大腦的相應活動，這些活動通過EEG信號記錄下來，如圖1所示，EEG信號反映了大腦對視覺刺激的響應，進而可以被解碼模型用來提取語義信息。

圖1：視覺誘發大腦語義解碼任務

盡管腦電信號可以有效學習得到本征語義信息，對于人類的認知過程具有不可替代的價值，但是腦電感知空間的空間分辨率過低，只能通過隱式的方式學習得到較為抽象的語義信息，在極大程度上限制了對語義的深層次解析能力。相比于腦電信號，視覺信號的高分辨率感知空間則能夠從多個維度上解析得到豐富的顯式語義信息，但無法有效滿足現實場景中的復雜語義解析需求。因此，現有語義解碼工作的問題在于，如何結合腦電信號的本征語義解析優勢以及視覺信號的多維顯式語義解析優勢，利用視覺信號從多個維度充分引導和激發腦電信號的深層次、本征和綜合的語義解析能力，從而提升對于復雜任務的語義理解能力，同時使得未來基于AI的大腦語義解碼工作在一定程度上能夠擺脫采集設備和復雜框架設計的限制。

為了克服以上問題，本文提出了一種視覺引導的雙空間交互網絡（VDIN）。該方法通過結合文本和圖像的豐富多模態信息，在局部和全局兩個層次上和大腦信號進行綜合的細粒度語義交互。在局部交互層面上，本文聚焦于如何利用語義豐富的文本感知空間來高效探索大腦信號和文本模態之間的顯式和隱式耦合語義相關性，以及利用高分辨率圖像感知空間來探索大腦信號和圖像模態之間的多層次語義相關性。而全局交互模塊則將可以將局部語義信息進一步高效整合為更為綜合豐富的全局語義表征，從而得到一種細粒度的大腦和視覺聯合語義解碼方案。通過這種方法，即使EEG信號的通道較少，模型也能保持較高的魯棒性，突破了傳統方法的局限，為大腦語義解碼工作提供一種新的研究視角和解決方案。

研究方法

視覺引導的雙空間交互網絡（VDIN）通過視覺空間與大腦空間的緊密結合，實現了細粒度的大腦語義解碼。首先，對原始圖像采用文本描述方法得到對應的文本表示，并利用注意力機制提取顯式語義信息。接著，通過卷積神經網絡和位置嵌入構建得到高分辨率圖像表征空間。對于EEG信號，則采用深度可分離卷積提取時序和跨通道特征，獲得大腦空間的隱式語義信息。接著，通過視覺引導的局部語義耦合模塊，將高分辨率圖像表征空間和語義豐富文本表征空間與大腦感知空間進行多模態語義交互。最后，通過全局語義耦合模塊進一步整合局部語義相關性，從而增強大腦和視覺之間的語義一致性和互補性學習，從而突破大腦語義解碼的局限性以及提高大腦語義解碼的性能。

圖2:VDIN模型中的視覺空間與大腦空間雙空間交互操作

在訓練過程中同時進行視覺引導的局部雙空間交互過程和視覺引導的全局雙空間交互過程。整體模型訓練的損失函數由雙空間交互損失和分類損失組成。具體來說，視覺引導的局部交互損失和通過跨模態的語義耦合操作來學習視覺空間（圖像和文本）與大腦空間之間的語義相關性，從而優化大腦空間的表示。視覺引導的全局交互損失進一步整合視覺空間和文本空間中的顯性和多層次語義相關性，來優化大腦空間的語義表示。同時，分類損失基于模型預測和真實標簽之間的差異，使得模型進行更準確的分類。最終，模型的總損失對應于以下公式：

該訓練過程通過最小化整體損失來優化模型的學習，以實現更高效的跨模態語義解碼。

實驗分析

表1: EEGCVPR40數據集上的性能比較

本實驗采用了EEGCVPR40數據集來評估所提出的VDIN模型。該數據集包含六個參與者的EEG記錄（1000 Hz采樣頻率，128個EEG通道）和來自ImageNet的視覺刺激圖像（40類，每類50張圖像）。每個參與者在四個實驗中觀看500張圖像，每張圖像的展示時間為0.5秒，生成的EEG數據包含500個數據點（0.5秒 × 1000 Hz）。實驗結果表明，VDIN在所有頻帶（全頻帶、高伽馬、貝塔-伽馬）下均超過了EfficienNet-Network模型和EEGClip模型的實驗結果。VDIN在全頻帶對比實驗中相較于EfficienNet-Network模型提高了15.97%的性能。此外，為了進一步驗證模型的性能，我們通過5-fold、7-fold和10-fold交叉驗證對模型進行了評估。實驗結果表明，VDIN在10-fold交叉驗證下表現最佳。值得注意的是，在只包含69個或99個大腦信號通道數據的情況下，視覺引導下的大腦語義解碼結果仍顯著優于非視覺引導的大腦語義解碼。這表明視覺引導機制在低空間分辨率大腦信號數據（EEG數據）中的有效性。同時，VDIN在不同EEG頻帶和通道設置下均取得了優異的任務性能，進一步驗證了其在大腦和視覺的一致性和互補性分析方面的優勢。

結論

本文提出了一種新型的視覺引導雙空間交互網絡（VDIN），通過視覺語義空間的多層次和綜合引導，得到一種細粒度大腦語義解碼新方案。與現有方法相比，該方法利用文本空間中的豐富語義解析優勢，完成大腦和文本空間之間的顯式和隱性語義相關性提取；同時，借助了圖像空間的高分辨率優勢，高效完成大腦和圖像空間的多層次語義相關性挖掘。這種雙重引導機制顯著提升了大腦表征空間的深層次和本征語義的精準和高效解析能力。因此，所提出的視覺引導下的雙空間交互方法為AI驅動下的大腦精準語義解碼提供了新的解決方案，使得現有大腦語義解碼依賴于高效的視覺感知策略，而非復雜且冗余的架構設計。

作者：唐佳佳，楊宇濤，趙啟斌，丁彧，張建海，宋揚，孔萬增（通訊作者）

第一作者簡介：唐佳佳，博士，杭州電子科技大學講師，長期從事腦機交互，情感計算，多模態學習等方面的工作。

通訊作者簡介：孔萬增，博士，杭州電子科技大學二級教授，腦機協同智能技術（科技部）國際聯合研究中心副主任，浙江省腦機協同智能重點實驗室主任，校黨委委員、組織部部長，入選2023、2024年度全球前2%頂尖科學家榜單，谷歌學術引用超4500次，省萬人計劃科技創新領軍人才。長期從事人工智能與模式識別、嵌入式可穿戴計算、腦機交互與認知計算等方面的工作。

僅用于學術分享，若侵權請留言，即時刪侵！

歡迎加入腦機接口社區交流群，

探討腦機接口領域話題，實時跟蹤腦機接口前沿。

加微信群：

添加微信:RoseBCI【備注：姓名+行業/專業】。

歡迎來稿

1.歡迎來稿。投稿咨詢，請聯系微信：RoseBCI

點擊投稿：

2.加入社區成為兼職創作者，請聯系微信：RoseBCI

一鍵三連「分享」、「點贊」和「在看」

不錯過每一條腦機前沿進展

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.