一項新型腦機接口技術,借助 AI 算法將神經信號映射為預期聲音,首次實現將腦活動實時轉化為語音,為神經疾病失語者恢復對話能力提供可能。
撰文 | 常愷
“這就像我重新擁有了??的聲?。”
一位漸凍癥患者在通過腦語?接?系統說出第一句話時如此表達。
2025年6?12?,由加州?學戴維斯分校(UC Davis)聯合布朗?學、哈佛醫學院附屬?薩諸塞總醫院及美國退伍軍?事務部神經恢復中?組成的研究團隊,在Nature雜志發表了一項引發全球關注的神經?程研究。他們?次實現了通過?腦信號直接?成?然語?的技術,讓一位因漸凍癥(ALS)失去發聲能?的患者“重新開?”。
圖1:腦—語音接口系統的工作原理示意圖。
??腦說話:?次實現?然語?的腦機接?
在神經?程和腦機接?領域,實現“??腦直接說話”一直是一個意義?凡卻充滿挑戰的?標。過去的腦機接??多依賴?字拼寫或按鈕輸?,即便能合成語?,往往也機械?單調,缺乏?然語?的韻律和情感。?對于那些?法發聲的?來說,語?從未在?腦中沉默,只是被困在了?聲的意圖之中。如今,科學家們終于找到了一種?式,讓這些“沉默的語?”被真實聽?。
此次發表在Nature上的研究,?次通過?腦運動?層的神經信號,實時?成帶有語調、節奏與個性化??的?然語?。這不僅讓語?障礙患者能夠重新“說話”,更讓他們能?屬于??的聲?、??的?式進?交流。
對于參與試驗的ALS患者來說,這是一次技術測試,更是一次語??份的重建。他成功說出“你好”“今天感覺很好”等簡單句?,并能靈活調控語調語?,甚?嘗試哼唱旋律。這些表達,不再只是功能性的輸出,?是具有?我?彩、情感溫度和交流能?的完整語?。
從沉默到發聲:?腦如何直接驅動真實語?
要實現如此?然流暢的語?表達,背后依賴的是一個?度精密的腦—語?接?系統。研究團隊將整個流程設計為四個關鍵步驟:神經信號采集(neural recording)、神經解碼(neural decoding)、語?合成(speech synthesis)和實時播放(real-time audio feedback),構建出一個完整的閉環路徑,讓意圖真正轉化為可聽?、可互動的語?。
?先,研究?員在患者?腦左側前中央回腹部(ventral premotor cortex)——這一控制?部和喉部運動的關鍵區域——植?了兩組共計256通道微電極陣列(microelectrode arrays)。即便患者已?法發聲,但在“試圖說話”時,?腦依然會產?可被記錄的電信號。隨后,這些神經信號被輸??兩套并?的深度神經?絡模型中進?解碼:
?第一套模型?于預測語?內容(phoneme probabilities及acoustic features),即識別“說了什么”;
?第?套模型則專?提取語調和情緒等副語?信息(paralinguistic features),如語句是否為疑問句、是否強調某一詞等。
這種“雙路徑解碼”機制,不僅能還原語義信息,還能呈現語言中的情感和個性表達,使系統輸出更接近真實人類語言。
由于患者無法清晰發聲,研究團隊面臨缺乏“真實語音”訓練數據的難題。為此,他們開發了一種創新算法:借助屏幕提示語引導患者進行“嘗試說話”,并實時記錄其神經活動。系統隨后從這些神經信號中識別出音節邊界,再通過語音合成技術(text-to-speech)生成對應的目標語音。最后,研究人員將合成語音與神經信號在時間上對齊,從而構建出神經—語音配對數據,間接還原出患者的“預期發音”,為神經解碼模型的訓練提供了可靠基礎。
在此基礎上,團隊訓練了一套基于 Transformer 架構的深度學習模型,每10毫秒預測一次語音的頻譜與音高特征。該模型實現了“因果解碼”能力,還對不同實驗時段之間神經信號的波動進行了結構優化,以確保不同使用時間下的穩定性和精確性。
最終的語音輸出由一套個性化聲碼器(personalized neural vocoder)完成。該系統通過模擬人類聲帶與發音機制,將神經解碼得到的語言參數轉化為清晰自然的語音,并通過揚聲器實時播放給患者。這種閉環式音頻反饋有助于重建大腦與語言表達之間的神經通路,也增強了交流的沉浸感。
為了最大限度保留個體特征,聲碼器在訓練時還融?了患者早期的語?錄?,使得合成的語音在音色、語調上更貼近患者原有的嗓?特征,具有?度個體化識別度。
整體而言,該系統在音素識別、語調判斷等方面均表現出色。實驗顯示,該系統對疑問語調的識別準確率約為 90.5%,詞語重讀的識別準確率約為 95.7%;在部分自由表達任務中,合成語音的音頻質量與提示語條件下生成結果相當(Pearson 相關系數約為 0.79±0.05)。整個過程在毫秒級時間窗?內完成閉環,從神經信號產?到聲?輸出延遲極低,?乎可實現實時對話。這一速度遠超以往的腦—機語?系統,真正做到了“??腦實時說話”。
圖2:語言相關腦區的神經信號采集與放電波形圖。左側圖顯示了研究中電極陣列的植入區域,包括中前中央回(Middleprecentral gyrus,55b)、腹側前運動皮層(ventral premotorcortex,6v)、初級運動皮層(primary motorcortex,M1)以及相關子區(d6v、v6v)。黃色虛線標示中央溝(central sulcus)作為解剖參照。右側圖為從每個腦區采集到的神經放電波形(spike waveforms),展示了不同皮層區域中神經元的典型放電模式。這些信號構成了接口系統語音解碼的神經基礎。
圖3:腦—語?接?系統的表達?與語調控制能?。本圖展示系統在語速調控(a–b)、詞語重讀(c)、語調識別(d–e)、強調重建(f–g)和??合成(h–k)??的多維解碼能?。a–b:系統可區分快速與緩慢語速的神經意圖,并合成相應節奏語?;c:在不同?層(M1、v6v、d6v、55b)中檢測到與詞語強調相關的神經調制;d–e:區分疑問句與陳述句語調,并實現?準確率的語調解碼(90.5%);f–g:成功識別并再現句中不同詞語的強調位置(如“Where” vs “You”);h–k:合成不同??(Low,Mid,High)的旋律語?,并達到了與?標語調一致的頻率分布(合成精度>73%)。
語?的未來:不僅是技術,更是權利的歸還
這項研究的意義,不僅在技術層面實現了用“大腦說話”的突破,更在于它為失語者在重建語言、身份與人際連結提供了全新可能。在傳統溝通手段失效的情況下,這一腦語音接口技術讓沉默的大腦重新被聽見,讓表達不再依賴聲音或動作,而直通思維本身。
為加速這一方向的發展,研究團隊已將完整的數據與代碼在GitHub(
Neuroprosthetics-Lab/brain-to-voice-2025)開源,并邀請全球研究者共同優化算法、拓展功能。未來,它有望推廣至中?、腦癱、喉癌術后等多類失語人群;與此同時,研究人員也在探索其與?侵?式腦電技術(如EEG)的結合,以進一步降低使用?檻;它還可能與AI語義理解系統融合,構建新—代?然語?交互平臺。
盡管該研究已實現了神經信號到自然語音的實時轉化,但目前仍處于早期探索階段。在實驗中,患者需要根據屏幕提示語進行“默念”或“嘗試說話”,系統才能識別相應意圖并合成語音。換句話說,當前的表達仍依賴于“外部引導”,尚未達到完全由大腦自主驅動的自由交流。
不過,研究團隊也嘗試在更開放的場景中進行測試。例如,在部分無提示的問答任務中,系統依然能夠生成清晰、自然的語音輸出。這一結果提示:腦語音接口正朝著“無提示、自主表達”的方向邁進,為未來實現意圖直接驅動語言奠定了技術基礎。
當然,這項技術目前僅在一位ALS患者中完成驗證,樣本數量有限,仍不足以評估其在不同個體、不同病理狀態下的通用性與穩定性。同時,從公開演示視頻來看,系統生成的語音雖然具備個性化音色,但在語調靈活性、節奏自然度與情感表現方面,仍與真實人類對話存在一定差距。
要實現真正的日常實用化,該技術仍面臨諸多挑戰:如何從“提示語驅動”邁向“自由表達”?如何減少設備的侵入性、提升長期使用的穩定性與適配性?這些問題將決定腦語音接口能否從實驗室走進真實生活的深度與廣度。
但毋庸置疑,我們正在邁入一個新的語言紀元。未來的語?,不再依賴聲帶、?字或?勢,?將直接來源于我們的思維本?。語?,原本就是我們存在的延伸。?今天的這項研究,讓我們看到:即使在沉默之中,?腦依然有話可說。科技,正在幫助那些失去語?的?再次被世界聽?。
參考文獻
[1]Wairagkar, M., Card, N.S., Singer-Clark, T. et al. An instantaneous voice-synthesis neuroprosthesis. Nature (2025). https://doi.org/10.1038/s41586-025-09127-3
注:本文封面圖片來自版權圖庫,轉載使用可能引發版權糾紛。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.