論文:https://iclr.cc/virtual/2025/poster/30544
項目主頁 :https://mind-animator-design.github.io/
代碼:https://github.com/ReedOnePeck/MindAnimator
從腦活動中重建人類動態視覺是一項極具科學意義的挑戰性任務。盡管現有的視頻重建方法已取得顯著進展,但仍存在一些局限性,包括:(1)難以同時協調語義信息(如類別描述)、結構信息(如大小和顏色)以及一致的運動信息(如幀順序);(2)功能性磁共振成像(fMRI)的時間分辨率較低,難以從單幀fMRI數據中解碼多幀視頻動態;(3)依賴視頻生成模型,導致難以確定重建視頻中的動態信息是真正源于fMRI數據,還是生成模型的幻覺。
為克服這些局限性,本研究提出了一種名為 Mind-Animator 的兩階段模型。在 fMRI到特征 階段,從fMRI數據中解耦語義、結構和運動特征。具體而言,采用fMRI-視覺-語言三模態對比學習解碼語義特征,并設計了一種稀疏因果注意力機制,通過下一幀預測任務解碼多幀視頻運動特征。在特征到視頻 階段,這些特征通過膨脹的StableDiffusion模型整合為視頻,有效消除了外部視頻數據的干擾。在多個視頻-fMRI數據集上的廣泛實驗表明,模型實現了最先進的性能。全面的可視化分析進一步從神經生物學角度闡明了模型的可解釋性。
本研究的貢獻如下:
(1)方法創新:提出了Mind-Animator,首次通過從fMRI數據中解耦語義、結構和運動信息實現視頻重建。針對fMRI與視頻數據時間尺度不匹配的問題,設計了基于稀疏因果注意力的一致性運動生成器,通過下一幀預測任務解碼細微但顯著的運動模式。
(2)可解釋性:采用逐體素和逐ROI可視化技術,從神經生物學角度闡明了模型各個組件的可解釋性。
(3)全面評估:引入了八項評估指標,在三個公開的視頻-fMRI數據集上,從語義、結構和時空一致性三個維度全面評估了本研究提出的模型及所有先前模型的重建效果,為后續研究建立了首個統一基準。團隊已經公開所有重建結果和代碼,以促進未來研究。
01
研究背景與論文簡介
認知神經科學的進展為大腦功能研究提供了新視角,并可能推動人工智能的發展。其中,神經解碼是研究的關鍵方向之一,它將視覺刺激與功能性磁共振成像(fMRI)腦記錄聯系起來。神經解碼方法包括分類、識別和重建,而本研究聚焦于最具挑戰性的方向:重建。
圖1:人腦解耦分析靜態刺激和動態刺激
以往的方法在靜態刺激圖像的分類和識別方面取得了顯著進展。一些研究甚至能夠從腦信號中重建出與原始刺激圖像高度相似的圖像。然而,現實生活中的視覺刺激大多是連續且動態的,因此從腦信號中重建視頻逐漸成為研究熱點。基于此前從fMRI中解耦語義和結構信息以重建圖像的研究,本研究認為,當視覺刺激從靜態圖像轉向動態視頻時,必須考慮三個維度:語義、結構和運動,以反映大腦對動態視覺信息的處理。
由于fMRI依賴于緩慢的血氧水平依賴(BOLD)信號,神經活動在超過10秒(約300視頻幀)的時間窗口內被整合,這給捕捉快速運動動態帶來了根本性挑戰,使得從fMRI信號重建視頻的任務變得異常困難。
圖2:本工作和以往工作的范式區別
為應對這一挑戰,Nishimoto等人將視頻重建任務轉化為識別任務,通過預定義視頻庫檢索視頻。隨后,Han等人、Wen等人和Wang等人將大腦響應映射到深度神經網絡(DNN)的特征空間以重建視頻刺激。為緩解視頻-fMRI數據的稀缺性,Kupershmidt等人利用自監督學習引入大量未配對視頻數據。盡管這些研究證實了從fMRI重建視頻的可行性,但其結果在顯式語義信息方面存在明顯不足。最近,Chen等人通過對比學習將fMRI映射到CLIP表示空間,并結合視頻生成模型,首次成功重建了具有清晰語義信息的連貫視頻。然而,這些研究未考慮顏色和位置等結構信息,且無法確定重建視頻中的運動信息是否真正源于fMRI數據,還是來自視頻生成模型的外部數據。總結來說,當前視頻重建模型面臨兩大挑戰:
(1)無法同時捕捉重建視頻中的語義、結構和運動信息。
(2)對外部視頻數據集和視頻生成模型的依賴,導致無法確定重建視頻中的動態信息是源于fMRI數據,還是視頻生成模型的幻覺。
為解決這些問題,本研究提出了Mind-Animator,一種從fMRI中解耦語義、結構和運動信息的視頻重建模型。具體而言,將fMRI映射到CLIP表示空間和VQ-VAE潛在空間以捕捉語義和結構信息,并設計了一個基于Transformer的運動解碼器,通過下一幀預測任務逐幀提取運動信息。最后,解碼的語義、結構和運動信息被輸入到未經過視頻數據微調的膨脹StableDiffusion模型中,生成視頻的每一幀。
02
研究方法
圖3:Mind-Animator模型總覽
如圖所示,方法分為兩個階段:fMRI-to-feature(從fMRI到特征)和feature-to-video(從特征到視頻)。在fMRI-to-feature階段,從fMRI數據中解耦出語義、結構和運動特征。首先,通過fMRI-視覺-語言三模態對比學習,將fMRI映射到CLIP表示空間,以提取語義信息;同時,利用VQ-VAE潛在空間捕捉結構信息,如顏色和位置。此外,本研究設計了一種基于Transformer的稀疏因果注意力機制,通過下一幀預測任務逐幀解碼運動特征,以應對fMRI時間分辨率低帶來的挑戰。
在feature-to-video階段,將解耦出的語義、結構和運動特征整合為視頻。具體而言,這些特征被輸入到一個未經過視頻數據微調的膨脹StableDiffusion模型中,生成每一幀視頻。通過這種方式,避免了對外部視頻數據的依賴,確保重建視頻的動態信息完全源于fMRI數據,而非生成模型的幻覺。
03
實驗結果
圖4:CC2017數據集重建結果
重建視頻demo演示
表1:CC2017數據集重建結果定量分析,不同顏色代表假設檢驗的不同P值,p<0.0001(紫色),p<0.01(粉色),p<0.05(黃色),p>0.05(綠色)
表2:HCP數據集(左)和Algonauts2021數據集(右)重建結果定量分析,完整版表格見論文附錄。
圖5:CC2017數據集上的檢索任務實驗定性結果。
表3:CC2017數據集上的檢索任務實驗定量結果。
本研究在多個數據集上對比了本研究的模型與所有先前的視頻重建模型。定量結果顯示,本研究提出的模型在八項指標中的六項上達到了最先進(SOTA)性能,尤其在SSIM和EPE指標上分別比之前的SOTA模型提升了83%和13%。此外,模型在HCP和Algonauts2021數據集上也表現優異,顯著優于Mind-Video。
在CC2017數據集上,本項目還評估了檢索任務,使用top-10和top-100準確率作為指標。為測試泛化能力,在包含1,200個樣本的測試集(“小型”)和擴展至4,240個樣本的“大型”刺激集上進行了測試。結果表明,本研究提出的模型在所有受試者上均表現優異,且在“大型”刺激集上性能下降較小,展示了更強的泛化能力。
04
可解釋性分析
(1)模型是否真的能從fMRI中解碼出運動信息?
圖6:幀順序打亂測試實驗結果
本研究參考Wang等人的工作,在CC2017數據集的三個受試者上進行了幀順序打亂測試,以評估一致性運動生成器(CMG)是否準確從fMRI中解碼了運動信息。具體而言,對于每個受試者生成的8幀重建視頻(注意,若是對視頻的語義解碼就出現了錯誤,比如把人解碼成了動物或者場景,那么就沒必要驗證該視頻的運動信息是否解碼正確了,因此僅對那些語義解碼正確的視頻進行了測試),隨機打亂幀順序100次,并計算原始幀與打亂幀的時空級指標。隨后,通過公式P=∑δi/100估計P值,其中δi=1表示第i次打亂的結果優于原始順序的重建結果,否則δi=0。P值越低,表明重建視頻的幀順序與真實順序越接近。團隊在使用和不使用CMG的條件下各重復了5次測試,結果如圖6所示。
實驗顯示,當使用CMG時,EPE指標的P值顯著低于0.05。然而,盡管使用CMG時CLIP-pcc的P值顯著低于未使用CMG的情況,但其P值仍顯著高于0.05。為解釋這一現象,本研究進一步在噪聲上限(直接使用測試集特征生成的視頻)上重復了打亂測試。結果表明,即使對于噪聲上限,CLIP-pcc的P值仍顯著高于0.05。這說明:(1)模型確實從fMRI中解碼了運動信息;(2)在評估模型解碼運動信息的能力時,EPE是比CLIP-pcc更有效的指標。
圖7:對于 fMRI guidance的消融實驗
為了進一步驗證解碼的運動信息是源于fMRI的指導還是CMG的自回歸訓練,本研究在CMG模塊訓練中移除了fMRI指導(w/ofMRI guidance),將空間模塊中的交叉注意力替換為自注意力,同時保持其他結構和超參數不變。如圖7所示,移除fMRI指導導致EPE明顯下降,證實了CMG確實從fMRI中有效解碼了運動信息。此外,對比移除整個CMG模塊(w/oMotion)和僅移除fMRI指導(w/ofMRI guidance)的情況,本研究發現后者對EPE的影響占主導(即EPE下降的90%可歸因于fMRI指導的缺失)。這進一步強調了fMRI指導在從腦信號中準確解碼運動信息中的關鍵作用。
(2)模型解耦的三種特征分別由哪些腦區解釋?
圖8:逐體素可視化結果
圖9:逐ROI可視化結果
為了研究在fMRI-to-feature階段哪些腦區負責解碼不同特征(語義、結構、運動),本研究計算了視覺皮層中的體素級重要性圖。具體而言,對于訓練好的解碼器,乘上線性層的權重矩陣,沿特征維度取平均并歸一化,以估計每個體素的重要性權重。權重越高,表明該體素在特征解碼中的作用越顯著。本研究將CC2017數據集中受試者1的體素重要性圖投射到視覺皮層上,如圖8所示。為獲得ROI級重要性圖,本研究計算了每個感興趣區域(ROI)內體素重要性權重的平均值,結果如圖9所示。
圖9(a)表明,高級視覺皮層區域(如MT)在語義特征解碼中貢獻更大,占總體的60.5%,9。圖8(c)和9(c)表明,低級和高級視覺皮層均參與運動信息解碼,其中MT和TPOJ區域權重顯著。這一發現與先前研究一致,驗證了MT和TPOJ在視覺運動感知和處理中的作用。
從圖9中還發現:(1) MT在語義解碼中顯著激活,這與動態視覺輸入處理中背側和腹側通路的功能分離與交互一致,特別是腹側-背側通路與動作理解和識別相關;(2) V1在解碼運動特征時主要激活,反映了視覺系統的并行處理能力,運動信息在背側通路中并不嚴格遵循層級處理,V1直接將方向、速度等信息投射到MT進行進一步處理。更多神經生物學解釋詳見附錄。
05
總結
本研究提出了一種視頻重建模型(Mind-Animator),能夠從fMRI中解耦語義、結構和運動信息,并在3個公開數據集上實現了最先進的性能。通過合理的實驗設計,本研究減少了外部視頻數據對運動信息解碼的干擾。打亂測試的結果表明,解碼的運動信息確實源于fMRI,而非生成模型的自發行為。此外,體素級和ROI級重要性圖的可視化進一步證實了模型在神經生物學上的可解釋性。
06
主要作者介紹
第一作者
盧一卓,中國科學院自動化研究所二年級直博生,以第一作者在ICLR,ACM MM等會議發表論文。
個人主頁:https://reedonepeck.github.io/Luyizhuo.github.io
共同第一作者
杜長德,中科院自動化所副研究員,從事腦認知與人工智能方面的研究,在視覺神經信息編解碼、多模態神經計算等方面發表論文 40 余篇,包括TPAMI,iScience,ICLR,AAAI,KDD,ACMMM等。曾獲得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 華人新星百強。先后承擔科技部、基金委、中科院的多項科研任務,研究成果被 MIT Technology Review 頭條報道。
個人主頁:https://changdedu.github.io/
通訊作者
何暉光,中國科學院自動化研究所研究員,博士生導師,國家高層次人才,中國科學院大學崗位教授,上海科技大學特聘教授。先后主持多項國家自然科學基金、863項目、國家重點研發計劃課題等多個重要項目。獲得國家科技進步二等獎兩項(排二、排三),北京市科技進步獎兩項,教育部科技進步一等獎等獎項。入選北京市科技新星,中科院“盧嘉錫青年人才獎”,中科院青年創新促進會優秀會員等。其研究領域為腦-機接口、類腦智能、醫學影像分析等,在CNS子刊, IEEE TPAMI/TNNLS/TCYB/TMI,ICML,ICLR,MICCAI等發表文章200余篇。自動化學報編委,CCF/CSIG杰出會員。建國七十周年紀念章獲得者。
研究工作得到了中國科學院戰略性先導科技專項、國家自然科學基金以及北京市自然科學基金的資助。
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業/專業】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯系微信:RoseBCI
點擊投稿:
2.加入社區成為兼職創作者,請聯系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.