論文:https://openreview.net/forum?id=At9JmGF3xy
代碼:https://github.com/Xiangtaokong/TGBD
視覺腦解碼旨在通過人類大腦活動解碼視覺信息。先前工作通常基于“不同個體的腦活動存在差異”這一觀察,對每個受試者分別建模或微調,甚至對腦解碼能否泛化至全新受試者都鮮有探索。
本研究旨在探索視覺腦解碼在不同受試者上是否有泛化能力。作者首先基于人類連接組計劃(HCP)電影觀看任務構建了大規模圖像-fMRI數據集(177名受試者,55萬對數據)。然后提出了統一學習范式,通過體素標準化和共享網絡架構處理多受試者數據,避免個體化設計。因此,本研究可以支持大規模受試者訓練以研究跨個體泛化能力。本研究通過實驗發現:
(1)泛化能力的關鍵是受試者數量:訓練受試者從1名增至167名時,在全新受試者(無需微調)上的圖像檢索TOP1準確率從2%提升至45%。
(2)泛化能力在不同架構下具備普適性:不同網絡架構如MLP、CNN與Transformer均展現出泛化能力。
(3)泛化能力受試者相似性影響:相同性別的受試者之間更容易泛化;相似受試者訓練組泛化能力顯著優于非相似組。
這些發現揭示了視覺腦信號在不同個體間存在相似性。隨著更大規模數據集的涌現,未來有望訓練適用于所有受試者的通用的腦解碼模型。
01
研究背景
視覺腦解碼最近在深度學習技術的支持下,取得了許多新進展。但當前的視覺腦解碼研究無論是數據集還是方法,大多集中在研究少量受試者上,且傾向于為每個受試者專門訓練或者微調網絡結構以及參數。解碼模型的廣泛應用離不開泛化能力,當面對大量新受試者時,研究人員不可能對每個人都重新調整模型。然而,目前鮮少有工作探討模型在不同受試者之間的泛化能力,但泛化能力是實現解碼模型大規模應用的前提。
(1)數據集
表1 目前常用的視覺腦信號解碼數據集
如表1所示,目前常用的視覺腦信號解碼數據集(NSD、BOLD)大多只有不到十名受試者,而且許多研究實際只使用了部分受試者數據。這使得現有數據集很難支持泛化性研究,從根本上限制了對跨受試者泛化能力的系統性研究。
(2)現有方法
由于數據集的限制,現有視覺腦解碼的方法大多針對幾個受試者而設計,比如MindEye1為每個受試者單獨訓練模型、UMBRAE為每個受試者準備一個分別的網絡頭。此外,一些方法還需要獲得每個受試者的一部分數據做微調訓練或者對齊。這些方法無法推廣至大規模的新受試者。
表2 UMBRAE和我們的方法面對不同數量受試者時的網絡參數量
如表2所示,UMBRAE僅僅為每個受試者準備了10M左右的網絡頭,在面對大量受試者時,網絡規模會線性增大,更不用說對每個受試者都需要訓練或微調對齊的方法。除此之外,這些方法在不微調的情況下,即使可以在新受試者上進行推理,但性能也基本完全喪失。
02
探索視覺腦解碼的泛化能力
現有的數據集和方法都只針對少量受試者,不具備探索泛化能力的條件。作者選擇了基礎的fMRI-圖像檢索任務,構建了大規模的受試者數據集以及新的學習范式,這使得探索泛化性成為可能。
(1)構建大規模受試者數據集
圖1 fMRI-圖像對數據集的構建
作者使用從HCP數據集的電影觀看任務中提取fMRI信號-圖像對,提取每秒末幀為刺激圖像,基于4秒血流動力學延遲,平均后續4個TR的fMRI信號作為圖像對應的fMRI信號。共收集了177名受試者的數據,每名受試者3,127對數據,總規模超55萬對。
(2)統一的學習范式
圖2 統一處理所有受試者的學習范式
作者同時提出了統一的學習范式,使得網絡去除對受試者的特異性設計,可以接受大量受試者同時進行訓練。具體來說,先上采樣所有受試者全腦的fMRI體素至統一尺寸,再使用MLP/CNN/Transformer等網絡結構將體素映射至CLIP特征空間,在CLIP空間中使用雙向對比損失(CLIP Loss),最大化對應fMRI-圖像對的特征相似性。
03
實驗與結論
作者使用fMRI-圖像檢索任務來進行實驗,記錄在300個fMRI-圖像數據對的檢索準確率,以探究解碼模型在新受試者上有無泛化能力,以及泛化能力受哪些因素影響。
(1)受試者數量
圖3 在新受試者上檢索準確率與訓練受試者數目之間的關系
如圖3所示,當受試者數量很少時,網絡在新受試者上幾乎表現不出泛化能力。但隨著訓練受試者數量增多,網絡在新受試者上的泛化能力逐漸增強。直到達到167名受試者全部參與訓練,泛化能力的增長也沒有達到飽和。
(2)網絡架構
表3 不同網絡結構對檢索結果的影響
如表3所示,在都使用167名受試者訓練時,不同網絡結構都在新受試者上表現出了泛化能力。說明視覺腦解碼的泛化能力并非是由特定的網絡結構帶來的,而更可能是人腦活動的相似性帶來的。
(3)影響泛化性的因素
表3 不同相似程度的受試者訓練組對檢索結果的影響
表3展示了性別和相似程度對泛化能力的影響。第一行使用了50名男性受試者訓練模型,結果在未見過的男性測試者上取得了比未見過的女性測試者更好的泛化結果,第二行則相反,使用女性受試者訓練的模型也在未見過的女性測試者上取得了更好的結果。
第4-8行顯示了更相似的受試者能得到更好的泛化能力,相比于隨機選取的20名訓練受試者(第8行),使用20名與Subj1更相似(第4行)/更不相似(第5行)的訓練受試者都會得到更好/更差的泛化結果。這個結論對于Subj2也成立(第6-7行),說明該現象不依賴于個體個例,而具有廣泛適用性。
表3說明泛化能力受受試者之間相似程度的影響,受試者之間越相似,越容易相互泛化。
04
泛化能力的來源
首先,作者認為泛化能力并非源自復雜的上采樣(對齊)模塊或其他類似機制,而是源于對不同受試者模式的“包含”而非單純的“對齊”。換言之,本方法在未見受試者上的優異表現源于:訓練數據很可能覆蓋了這些未見過受試者的某些特征映射模式。所以,隨著訓練受試者數量增加,泛化性能持續提升。這是因為,訓練集更可能包含了新受試者的某些映射模式。同樣地,在固定訓練人數時,與測試受試者相似性更高的訓練組(如性別匹配)往往表現出更強的泛化能力。這同樣是因為,相似的受試者更容易“包含”他們之間的相似特征。本研究的核心貢獻在于提出一種新視角:泛化能力可通過“包含”足夠多樣化的受試者群體獲得,而非依賴對齊或微調機制;同時,泛化性能亦受個體間相似性影響。
05
總結
先前視覺腦解碼研究主要集中于具體受試者,本研究旨在探究視覺腦解碼在新受試者上的泛化能力。作者基于HCP大規模數據集,構建了177名受試者的圖像-fMRI配對數據。利用該數據集,作者提出了一種統一的學習范式,無需個體特異性適配(即無需為每位受試者單獨訓練或微調模型),使得探索泛化能力成為可能。通過詳細實驗,作者發現模型的泛化能力隨訓練受試者數量增加而逐漸顯現,且該能力在不同網絡架構(如MLP、CNN、Transformer)中均得以體現。此外,泛化能力會顯著被受試者間的相似程度影響。這些發現揭示了人腦活動跨個體的固有相似性,對后續研究具有重要啟示。隨著更大規模、更多樣化數據集的涌現,本工作可為未來訓練腦編碼基礎模型提供理論與方法基礎。
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業/專業】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯系微信:RoseBCI
點擊投稿:
2.加入社區成為兼職創作者,請聯系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.