說話是人類的一項基本能力。對于那些患有神經系統疾病或遭受神經損傷的人來說,失去說話能力是極其沉重的打擊。
腦機接口(BCI)技術被認為是恢復語言能力的富有前景的手段。它通過解碼腦活動,繞過神經系統中受損的部分,來幫助患者恢復語言能力。
當前大多數腦機接口系統的研究聚焦在將腦信號轉化為文字,并顯示在屏幕上。雖然這種方法準確率高,也有助于基本交流,但僅靠文字輸出仍存在對話延遲的問題,也難以還原語調等語言細節,無法真正替代自然說話。
在一項新發表于《自然》雜志的研究中,一個研究團隊展示了一種新型腦機接口系統。他們在一名患有嚴重構音障礙的患者腦中植入了四組微電極陣列,用以記錄神經活動。系統對這些信號進行解碼,實現了語音的即時合成。
一組安裝于大腦表面的微電極陣列,用于實時記錄神經信號。(圖/UC Davis)
解碼腦信號
這項研究的參與者是一名45歲的男性,他因肌萎縮性側索硬化(ALS)而逐漸失去了清晰說話的能力。ALS是一種會損害運動神經元的神經系統疾病,會影響控制肌肉運動的神經,包括發聲所需的肌群。雖然他仍能發聲并緩慢說話,但語速極慢且發音含糊。
在他的癥狀出現五年后,他接受了植入手術:研究人員在其控制運動的腦區插入了256個硅電極,每個1.5毫米長。接下來,研究人員利用深度學習算法訓練系統,讓其每10毫秒采集一次他的腦信號(神經元活動),并將這些信號傳輸至計算機系統進行解碼與語音合成。
一種研究性腦機接口設備,使研究參與者能夠通過計算機進行交流。(圖/UC Davis)
與以往的許多系統不同,新系統實時解碼的是這名患者試圖發出的聲音,而非他想要表達的單詞或音素(構成單詞的語音亞單位)。換言之,新系統想要直接還原語音本身。
更豐富的語音輸出
人類并不總是通過標準詞匯表達所想,還會使用如感嘆詞、非語言聲音等不屬于固定詞匯表的詞來表達聲音。為了實現這種開放式表達,新研究采用了完全不設限制的解碼方式。研究人員讓參與者嘗試發出“啊”、“哦”、“嗯”等感嘆詞,甚至是虛構的詞,并通過調節語調表達疑問、強調重點。這意味著,新系統不僅能合成固定詞匯表中的詞語,還可以用腦信號“唱出”簡短旋律,實現音高控制。
團隊還根據患者發病前的訪談錄音來訓練AI模型,成功合成出個性化的聲音,使其聽起來像患者本人的聲音。
實驗結果表明,新的腦機接口系統能夠以1/40秒的延遲將神經信號轉化為語音輸出。這一延時接近人類自然說話時聽到自己聲音的時間差。而且,患者利用這一系統合成的語音基本是可理解的:在測試中,聽眾平均能正確識別出近60%的單詞,而患者在未使用腦機接口系統時,語音識別率僅為4%。
在進一步實驗中,研究團隊發現新系統能識別出患者是想表達疑問句還是陳述句,并據此自動調整語調。它還能判斷他在句中強調了哪個詞,并在語音中體現出來。
這樣的結果意味著,新系統幫助患者真正實現了一個幾乎沒有可察覺延遲的、“腦到聲音”的數字聲道,可以在他試圖說話的瞬間,就將其腦活動直接轉化為語音了。
臨床試驗的希望
這項研究給那些想說話卻無法發聲的人帶來了新的希望,這項技術有望徹底改變他們的交流方式。這是一種范式的轉變,為現實生活中的語言輔助工具鋪平了道路。
不過,研究團隊也指出,目前這種“神經語音假體”仍處于早期階段。由于這次研究只在一名ALS患者身上完成,下一步的關鍵將在于能否在更多患者中實現類似效果,比如那些因中風等其他原因而失語的人群。
#參考來源:
https://health.ucdavis.edu/news/headlines/first-of-its-kind-technology-helps-man-with-als-speak-in-real-time/2025/06
https://www.nature.com/articles/d41586-025-01818-1
#圖片來源:
封面圖&首圖:UC Davis
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.