論文鏈接:https://openreview.net/forum?id=RfsfRn9OFd
作者:劉軒豪,劉彥楷,王延森,任侃,史涵雯,王子龍,李東勝,呂寶糧,鄭偉龍
項目網頁:
EEG2Video [https://bcmi.sjtu.edu.cn/home/eeg2video]
一、研究介紹
現在,AI不僅會讀腦,還能用大腦信號生成視頻!
來自上海交通大學,微軟亞洲研究院,和上海科技大學的團隊提出了一個名叫EEG2Video的AI模型,它可以根據收集的腦電(EEG)數據重建生動視頻。
他們表示,模型在40類語義分類任務中的平均準確率為15.9%(隨機水平為2.5%),在結構相似性指數 (SSIM) 中的平均準確率為0.256,是首次從EEG信號(一種高時間分辨率的神經信號,記錄頭皮電位變化)重建視頻的研究。實驗范式如圖1所示。
圖1. 從腦電信號中重建視頻的流程
相關研究成果以“EEG2Video: Towards Decoding Dynamic Visual Perception from EEG Signals”(EEG2Video: 嘗試從腦電信號中解碼動態視覺感知)為題在國際機器學習頂級會議NeurIPS 2024上發表。
二、腦電視頻對數據集(SEED-DV)
他們搭建了一個大型數據集SEED-DV,采集了20名被試觀看了1400段2秒視頻的EEG信號。1400段視頻包含了40個自然概念,如森林,滑雪,輪船等,覆蓋了9類粗粒度類別:陸地動物,水生動物,植物,鍛煉,人類,自然場景,食物,樂器,和交通工具。
圖2.所有40個自然概念,以及視頻的元信息的均值熱圖
每名被試依次觀看了7個視頻塊,每個視頻塊都有40類視頻,但順序隨機。塊與塊之間有至少30秒的休息階段。被試首先被提示接下來即將看到的類別,然后觀看5段不同的該類視頻。實驗流程如圖3所示。
圖3. 搭建SEED-DV數據集的實驗環境與流程
三、腦電重建視頻框架:EEG2Video
他們提出了一個從腦電信號重建視頻的框架EEG2Video,為了處理高時間分辨率但低空間分辨率的腦信號,EEG2Video設計了如下幾個模塊,以更好地解碼視頻:
使用序列到序列(Seq2Seq)模型將腦電嵌入與低級視覺信息緊密對齊。
使用語義預測器將腦電嵌入與語義信息對齊。
使用動態感知的加噪(Dynamic-Aware Noise Adding, DANA)模塊,將快/慢的動態信息引入擴散過程。
使用膨脹的擴散模型來生成生動的視頻。
圖4. EEG2Video框架結構,微調膨脹擴散模型
四、重建結果
他們從定性和定量兩個部分展示了從腦電重建視頻的結果,可以從圖5中看出,EEG2Video可以正確恢復跨越動物、場景、人物和活動的低動態(如山、海灘、臉)和高動態(如滑雪、煙花、跳舞)的各種視頻片段。更多的動圖例子可以點進項目網頁查看:EEG2Video [https://bcmi.sjtu.edu.cn/home/eeg2video]。
圖5. EEG2Video重建結果定性展示
關于定量結果,改論文比較了以下五個指標,基于視頻的語義指標和基于幀的語義指標:2-way和40-way來驗證語義層面的重建準確率,和結構相似性指數SSIM來驗證結構層面的重建準確率。從表1中開出,隨著類別數量的增加,重建性能下降。當處理包含10個類的子集時,我們的框架達到了40種語義級別準確率的34.0%,當面對整個40個類時,達到了15.9%。
表1 .每種方法對不同子集大小的定量結果。標準偏差是通過隨機種子計算的。
五、結論
EEG2Video成功展示了腦電信號在視覺重建領域的潛力,尤其是處理高時間分辨率數據如視頻的能力。這項研究為視覺解碼技術的實際應用提供了新的解決方案,有望推動視覺解碼接口技術在更廣泛場景中的應用。
這項研究由鄭偉龍老師、王延森研究員和任侃老師共同指導,博士生劉軒豪和碩士生劉彥楷擔任論文第一作者,史涵雯,王子龍,李東勝,呂寶糧等老師和同學也為論文工作做出了重要貢獻。
僅用于學術分享,若侵權請留言,即時刪侵!
歡迎加入腦機接口社區交流群,
探討腦機接口領域話題,實時跟蹤腦機接口前沿。
加微信群:
添加微信:RoseBCI【備注:姓名+行業/專業】。
歡迎來稿
1.歡迎來稿。投稿咨詢,請聯系微信:RoseBCI
點擊投稿:
2.加入社區成為兼職創作者,請聯系微信:RoseBCI
一鍵三連「分享」、「點贊」和「在看」
不錯過每一條腦機前沿進展
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.