論文:Bridging the Vision-Brain Gap with an Uncertainty-Aware Blur Prior (Accepted by CVPR 2025)
Arxiv:https://arxiv.org/pdf/2503.04207
GitHub:https://github.com/HaitaoWuTJU/Uncertainty-aware-Blur-Prior
為了理解人類視覺刺激與大腦活動之間的機制,近年來,眾多研究利用腦電圖(EEG)、磁腦電圖(MEG)和功能性磁共振成像(fMRI)等多種腦成像技術,測量大腦對視覺刺激的反應,并結合對比學習等深度學習方法,實現(xiàn)腦信號到視覺刺激的跨模態(tài)對齊、檢索與重建。這些研究不僅有助于揭示大腦如何處理視覺信息的復雜過程,還為神經科學、認知科學和人工智能領域提供了寶貴的洞察。通過深入理解大腦與外界視覺刺激的關系,研究人員能夠設計更精確的神經解碼模型,推動腦機接口(BCI)技術的發(fā)展,并為相關疾病的早期診斷與治療提供潛在的應用方案。
盡管人類具備強大的感知與認知能力,但受限于注意力資源、視覺記憶容量等因素,當外部視覺刺激轉化為腦信號時,部分信息不可避免地丟失,特別是那些高頻細節(jié)。我們將這種由系統(tǒng)性加工處理造成的信息差距,稱為System GAP。與此同時,認知和感知的動態(tài)性,以及技術采集噪聲等因素,進一步加劇了信號與原始視覺刺激之間的差距,我們稱之為Random GAP。這些因素共同導致了腦信號和視覺刺激的信息量不一致和模態(tài)差異,從而增加了圖像與腦信號對齊的難度,影響模型泛化性能。
如上圖所示,快速序列視覺呈現(xiàn)范式(Rapid Serial Visual Presentation,RSVP)是一種典型的視覺-腦信號樣本對采集范式。在實驗過程中,呈現(xiàn)在被試者視野中的并非完整、清晰的原始圖像。由于人類視覺系統(tǒng)的焦距特性,被試者通常只能聚焦于視覺場景中的某一局部區(qū)域,形成一個清晰的中心焦點,而其他區(qū)域則呈現(xiàn)出不同程度的模糊。
這一現(xiàn)象引發(fā)了我們的思考:能否利用模擬人類視覺聚焦機制的圖像(即焦點清晰、邊緣模糊的圖像)來替代原始圖像,以實現(xiàn)與腦信號的更精準對齊?
此外,在實驗過程中,盡管被試者主要集中注意力于視覺中心,但由于注意力焦點存在一定的隨機波動,以及不可避免地引發(fā)高階認知聯(lián)想,以及疊加技術采集噪聲。這些因素進一步加劇了腦信號與原始視覺刺激之間的差異,如下圖所示,圖a展示了對于同一視覺刺激80個不同trial下的腦信號,圖b展示了兩個刺激各自80個trial下的腦信號,圖c展示了不同受試者trial的變異性分布,圖d展示了10個受試者的腦信號聚類結果,這些展示了EEG在實驗過程中的動態(tài)性。
那么我們能否通過動態(tài)建模這種隨機性,避免直接的模態(tài)對齊,而是通過感知模態(tài)差距,以實現(xiàn)動態(tài)的腦-視覺對齊?一個直觀的例子是實驗時走神的樣本對,若直接進行語義對齊,將會影響模型的泛化性能。
01
方法
為了解決以上兩個GAPs,即System GAP和Random GAP,我們提出了一種基于不確定性感知的模糊先驗(Uncertainty-aware Blur Prior, UBP)策略。該策略通過感知成對樣本之間的匹配程度,動態(tài)調整圖像刺激的模糊程度,有選擇性地去除圖像中的高頻細節(jié),從而降低圖像的模態(tài)信息量。通過這種方式,緩解了腦信號與視覺刺激之間的信息量不一致問題,提升了模態(tài)對齊的魯棒性。
不確定性感知:由于缺乏明確的監(jiān)督標簽,隨機差距建模面臨較大挑戰(zhàn)。為了解決這一問題,我們采用了計算 置信區(qū)間 的方式。在每一次inter中,我們通過計算每個圖像-腦信號樣本對的語義相似度,并根據(jù)其在整體訓練集中樣本對分布中的位置,從而實現(xiàn)樣本語義匹配程度的感知。
模糊先驗:基于不確定性感知的結果,即估計的圖像-腦信號樣本對的語義相關性,從而施加動態(tài)的高斯模糊,緩解不同模態(tài)的信息差距,以更好的實現(xiàn)視覺-腦信號信息的對齊。
其中,r是模糊半徑,代表了模糊的程度,s代表圖像-腦信號樣本對的余弦相似度。UBP的整體算法流程如下所示,其中 表示經過模糊處理后的圖像,第九行描述了迭代過程中樣本模糊程度 的動態(tài)更新:
02
實驗
我們在 THING-EEG 和 THINGS-MEG 數(shù)據(jù)集上進行了腦信號到圖像的檢索實驗,通過為圖像刺激引入模糊先驗,在 intra-subject 設置下,我們的方法取得了 50.9% 的 Top-1 準確率和 79.7% 的 Top-5 準確率,顯著超越了現(xiàn)有同類方法,證明了UBP方法的有效性。下圖展示了 THING-EEG 200-way 檢索結果:
此外,我們還進行了消融實驗,證明了多種corrupt方法(高斯噪聲,低分辯率,均勻模糊,焦距模糊)對于腦信號-圖像的跨模態(tài)檢索任務的有效性:
03
總結
在本研究中,我們提出了 不確定性感知模糊先驗(UBP) 方法,旨在減緩視覺神經解碼中 System GAP 和 Random GAP 導致的信息損失。實驗結果表明,UBP在多個數(shù)據(jù)集上顯著優(yōu)于現(xiàn)有最先進方法。在 THING-EEG 數(shù)據(jù)集上,UBP實現(xiàn)了 Top-1 準確率提升 13.7% 和 Top-5 準確率提升 9.8%。本方法通過將不確定性感知和生物學先驗引入視覺神經解碼,為腦-機接口領域提供了新的研究視角。同時,UBP還為其他多模態(tài)任務提供了重要啟示,尤其是在面對模態(tài)差距和信息不平衡的任務時。 盡管本研究提出了一種簡單而有效的建模方式,能夠緩解腦信號和視覺刺激信息量不一致,實現(xiàn)更魯棒性的vision-brain對齊,但依然不能完全彌補這些差距。未來,我們期望通過更復雜且合理的建模方法,進一步提升 vision-brain 跨模態(tài)對齊的效果。此外,現(xiàn)有的數(shù)據(jù)采集范式仍有優(yōu)化空間,通過減少視覺刺激與實際感知之間的差距,可以進一步提升解碼精度。例如,Apple Vision等先進視覺顯示設備可能成為相較傳統(tǒng)顯示器更優(yōu)的刺激呈現(xiàn)方式。
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區(qū)交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業(yè)/專業(yè)】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯(lián)系微信:RoseBCI
點擊投稿:
2.加入社區(qū)成為兼職創(chuàng)作者,請聯(lián)系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.