利用基于EEG的腦機接口(BCI)技術進行遙感圖像目標檢測的研究備受關注,然而大多數(shù)研究集中在目標圖像的檢測上即判斷某一幀圖像有無目標,對目標在哪里的定位研究相對較少。眼動追蹤是一種有效的目標定位方法?;诖?,杭州電子科技大學腦機協(xié)同智能團隊提出了一種腦眼協(xié)同框架(Brain-Eye Collaborative Framework,BECF),用于實現(xiàn)遙感圖像中的目標檢測與定位。在該框架中,首先使用xDAWN+RG方法對基于EEG的事件相關電位(ERP)特征進行解碼,以完成目標圖像的檢測。隨后,框架采用區(qū)域劃分策略,并引入多模態(tài)網絡,將EEG模態(tài)的空間注意信息與眼動模態(tài)的位置信息整合,形成多模態(tài)特征信息。通過多模態(tài)粗粒度定位區(qū)域與眼動追蹤定位區(qū)域之間的匹配過程,框架能夠實現(xiàn)目標圖像的細粒度定位,顯著提高了檢測效率。該研究成果“Brain-Eye Collaboration Target Detection and Localization in Remote Sensing Image”已在《IEEE Transactions on Cognitive and Developmental Systems》期刊發(fā)表。
作者:韓佳楠,馬龍杰,朱莉,唐佳佳,孔萬增(通訊作者)
https://ieeexplore.ieee.org/abstract/document/10833723
01
研究背景
隨著人工智能和機器視覺技術的快速發(fā)展,基于機器智能的目標檢測技術近年來取得了顯著進步。然而,這些方法普遍存在泛化能力較差的問題,嚴重依賴豐富的目標特征,并且需要針對特定目標進行專門的訓練。相比之下,人類視覺智能具有更強的認知能力。由于感興趣目標和非感興趣目標誘發(fā)的腦電信號在時間振幅上存在顯著差異,可以通過對腦電信號(EEG)的分類來識別圖像中的目標。然而,目前基于EEG的檢測技術通常只能判斷目標是否存在,而難以確定其具體位置。眼動信號在人機交互中發(fā)揮著重要作用,并在視覺搜索與對象選擇等視覺加工過程中表現(xiàn)出色。研究表明,眼動信號與EEG之間存在一定相關性。一些研究已探討了視野不對稱的選擇性注意機制。例如,EEG中的典型標記N2pc在刺激呈現(xiàn)后170-300毫秒內出現(xiàn)在視野對側電極位點,能夠作為特征描述符區(qū)分目標在水平方向上的左右位置。此外,EEG也可以提供豐富的空間信息,支持更精確的定位判斷。因此,結合腦電圖和眼動追蹤信息,有望進一步提高目標位置的識別精度。
已有研究嘗試將EEG與眼動追蹤數(shù)據(jù)結合,用于特定任務。然而,在快速序列視覺呈現(xiàn)(RSVP)范式下,很少有人關注目標檢測與空間定位的聯(lián)合研究?;诖耍疚奶岢隽艘环N腦眼協(xié)同框架(BECF),用于遙感圖像中的目標檢測與定位。具體而言,該框架采用xDAWN+RG方法解碼事件相關電位(ERP)特征,進行目標檢測。在目標定位階段,利用多模態(tài)粗粒度定位區(qū)域與眼動追蹤定位區(qū)域之間的匹配過程實現(xiàn)目標的空間位置推斷。首先將圖像根據(jù)水平和垂直中線分為左上、左下、右上和右下四個區(qū)域,通過多注意力機制,聚焦關鍵通道和頻率,從EEG信號中提取具辨識性的時空特征,引入門控融合方法,校準兩種模態(tài)的權重,實現(xiàn)聯(lián)合表征學習。同時,通過注視區(qū)域生成方法,框架可以生成多個感興趣區(qū)域,并通過匹配過程選擇潛在區(qū)域中注視時間最長的區(qū)域作為最終目標區(qū)域。該框架為 RSVP-BCI 領域提供了新的途徑。
圖1 腦眼協(xié)同框架(BECF)整體架構圖
02
研究概述
BECF 由兩個階段(如圖1所示)組成:目標檢測和目標定位。在目標檢測階段,本文選擇 xDAWN+RG 方法,xDAWN是一種空間濾波方法,用于提高事件相關電位(ERP)信號的信噪比。它通過處理腦電信號來找到一種最佳的方式,過濾掉噪聲并增強目標信號。xDAWN的主要目標是為每個分類任務找到最佳的濾波器,然后用這些濾波器處理原始腦電數(shù)據(jù),從而得到更清晰的信號。黎曼幾何方法(RG)將數(shù)據(jù)從復雜的非線性空間轉換到普通的歐幾里得空間,從而使得傳統(tǒng)的機器學習算法可以更高效地處理這些數(shù)據(jù)。在這一過程中,算法會對信號的協(xié)方差矩陣進行平均化處理,并通過映射提取重要特征信息。最后通過邏輯回歸對目標是否存在進行判斷,這種組合方法能夠有效提升分類的準確性和魯棒性。
在目標定位任務中,本文通過基于多模態(tài)的粗定位區(qū)域(如圖2所示)與基于眼動的潛在區(qū)域之間的匹配過程實現(xiàn)細粒度定位。首先,使用通道注意力模塊對各電極通道的重要性進行動態(tài)調整,該模塊通過擠壓和激勵操作生成激活因子,并以此對腦電數(shù)據(jù)進行權重校準。隨后,選擇性核模塊通過拆分、融合和選擇三個部分,動態(tài)適應性地捕獲時域上的局部與全局信息,從而自適應校準原始EEG信號的時間與空間特征。在此基礎上,本文進一步引入時空卷積塊,提取更深層次的腦電時空特征表示。針對眼動信號,本文采用卷積網絡進行特征提取和壓縮,以降低計算復雜度,該模塊由兩個卷積塊組成,每個卷積塊包含卷積層、批處理歸一化層和ReLU激活層??紤]到EEG和眼動信號同時采集且均為二維時間序列,本文使用與EEG的時空卷積塊相同的結構來提取眼動模態(tài)的時空特征。為充分利用各模態(tài)之間的互補性并最大程度地提取和集成信息以增強整體表示能力,本文提出一種門控融合方法,通過加權因子調節(jié)各模態(tài)的信息流,實現(xiàn)粗粒度區(qū)域的確定?;谘蹌拥母信d趣區(qū)域提取方法通過處理用戶的眼動注視數(shù)據(jù),利用密度聚類算法聚集空間上密集的注視點形成注視區(qū)域,最終通過對兩個潛在區(qū)域的匹配確定目標的最終位置。
圖2 多模態(tài)神經網絡(MNN)
03
實驗分析
為驗證提出BECF框架在遙感圖像目標檢測任務下的性能,本文在一個RSVP-BCI自采數(shù)據(jù)集上進行了測試,該數(shù)據(jù)集包含十個參與者的EEG記錄(1000 Hz采樣頻率,64個EEG通道)和對應的眼動記錄。每個參與者在實驗中觀看3600張圖像,每張圖像的呈現(xiàn)時間為1秒,其中目標和非目標圖像的比例為1:7。實驗結果表明,BECF在目標和目標二分類、不同區(qū)域定位以及聯(lián)合任務中都取得了最好的表現(xiàn),驗證了其在目標檢測和定位任務中的性能。
表1 目標檢測結果與最先進方法的比較
表2 目標定位結果與最先進方法的比較
表3 目標檢測和定位整體結果與最先進方法的比較
04
結論
本文提出了一種腦眼協(xié)同框架(BECF),能夠同時檢測靶刺激目標的是否存在并確定其位置。具體而言,框架首先通過xDAWN+RG算法解碼EEG的事件相關電位(ERP)特征,以實現(xiàn)目標檢測;隨后,通過匹配基于多模態(tài)潛在區(qū)域與基于眼動的潛在區(qū)域,完成目標位置的定位。該框架利用多模態(tài)神經網絡(MNN)確定目標方向,并結合眼動信號進一步縮小感興趣區(qū)域,從而精準定位目標。作為率先實現(xiàn)目標檢測與定位的腦眼協(xié)同方法,該框架對遙感圖像目標搜索具有顯著的積極作用,也為RSVP-BCI領域的研究提供了全新的視角和手段。
作者簡介:
韓佳楠,碩士,杭州電子科技大學研究生,從事腦機交互等方面的工作;
馬龍杰,杭州電子科技大學碩士研究生,從事腦機協(xié)同目標檢測等研究;
朱莉,博士,杭州電子科技大學副教授,從事腦機接口與超掃描等研究;
唐佳佳,博士,杭州電子科技大學講師,從事多模態(tài)融合學習等研究;
通訊作者簡介:孔萬增,博士,杭州電子科技大學二級教授,浙江省腦機協(xié)同智能重點實驗室主任,入選2023、2024年度全球前2%頂尖科學家榜單,谷歌學術引用超4600次,省萬人計劃科技創(chuàng)新領軍人才。長期從事腦機協(xié)同智能領域研究。
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區(qū)交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業(yè)/專業(yè)】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯(lián)系微信:RoseBCI
點擊投稿:
2.加入社區(qū)成為兼職創(chuàng)作者,請聯(lián)系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.