有沒有注意到——
現在AI語音配音的視頻越來越多了:短視頻里的語音講解,播客、廣告、小說朗讀,新聞解說,都開始采用AI配音。
除了最基礎的TTS(Text-to-Speech)語音合成技術,現在的AI語音已經進入了擬真階段。比如VALL-E、ChatTTS、OpenVoice等技術,能自動根據語義生成AI語音,甚至可以做聲音風格遷移。只要你上傳原聲,AI就能克隆聲音,復刻你的音色、語速、語調、情緒特征,甚至模仿地方口音,讓馬斯克也能說上一口東北話。
技術確實進步得令人驚艷。聲音清晰標準、節奏平穩、語調自然。挑不出毛病但就是感覺怪怪的,帶著一種不自然的違和感。仿佛在聽一個沒有靈魂的演員在念臺詞。
為什么會這樣?
人類的情感雷達有多靈
你聽不出問題,但你就是知道“它不是人”。
這其實是人類大腦的奇妙能力。我們對人聲的識別感知是超強的,尤其對于語氣、情緒、真假感這些層面的感知,很多時候聽到的話還沒過腦子,潛意識就已經都識別好了。
人類聽聲音并不是聽字面,而是在聽情緒底色:
女友打電話說:“你開心就好”
你一聽就知道自己能不能好得了。
上司說:“這個項目你來負責吧。”
你能瞬間感受到這是一句信任還是推鍋試探。
心理學家 Klaus Scherer 早在1994年就提出:人類對語音中的情緒真實性具有極高敏感性 ,能從中分辨真假情緒、心理狀態和意圖。
演化心理學認為,人類對語音中的細微情緒差異有極強的識別力,是因為在遠古社會有語言之前,我們通過聲音判斷敵意、愉快、求助。人類社會極度依賴協作與信任,判斷「對方在想什么」至關重要;而聲音是最即時的線索,它包含了說話者的肌肉張力、呼吸頻率、情緒流動等無法隱藏的信號。
AI聲音為什么總差點意思?
所以,AI配音的問題出在哪?我們先從底層機制開始聊起。
一、模型結構決定了它只能“模仿”
盡管AI語音合成技術(TTS, Text-to-Speech)已經非常成熟,甚至能模仿特定人的音色、語調和語速,但它的生成邏輯本質上是一套“拼裝合成”流程,而不是一種帶有動機的表達行為。
TTS 的常規工作流包括這幾個步驟:
文本分析:把輸入文字轉成音素(比如漢語拼音)和語法標簽。
韻律預測:模型嘗試預測每個音節的音高、時長、停頓、重音。
聲學建模:用深度神經網絡生成聲譜圖(頻率-時間圖)。
波形合成:最后通過Vocoder(如WaveNet、HiFi-GAN)還原成音頻。
聽起來復雜,核心就是兩件事:模式識別 + 生成拼接。這種機制像是在完成一次高質量朗讀,但缺少人類語言中最本質的東西:臨場的情緒驅動和表達動因。像 FastSpeech2、VITS這類模型,引入emotion embedding 和 style control,確實可以讓AI聲音在快樂、悲傷、憤怒間切換。但這種控制都是外部標簽驅動,不基于上下文,更不是基于理解人類說話時的微妙心理博弈。
人類復雜的情感決定了天生是潛臺詞高手,說話的含義高度依賴于當時的文化、關系、語境:
“你開心就好” 其實不太好,AI以為是欣慰;
“你行你上” 其實破防了,AI以為是鼓勵;
“你可真棒啊” 有嘲諷的可能,但AI用了贊嘆語氣;
AI在理解人類文字游戲(比如暗示、高級黑、反諷、含蓄委婉)的能力還不夠,情緒和真實語義一旦分離,表達就會失真。
另外,TTS模型的“中庸主義”也導致了情感的扁平。
當前主流的TTS模型大多是通過學習海量語音樣本的平均說法來合成聲音,最終生成一個最“合理”的聲音版本。這種方式雖然聽起來自然通順,但也導致每一句話的情緒都被磨平了,失去了人類語言中的個性、突發性和情緒張力,就像套了個情緒模版。所以說,韻律模型學的是“常態”而不是“狀態”,少了臨場變化。比如人生氣時,說話會變得高頻 + 不規則,但AI仍然在平穩地表達憤怒,所以聽起來就少了點活人感。
即便是當前最先進的生成式語音模型,如微軟的 VALL-E,也并未跳出這一結構。它采用類似語言模型(可以理解為GPT for Speech)的機制,將3秒音頻樣本壓縮成離散Token,然后根據文本預測下一個聲音片段,從而實現音色+語氣+風格的保留與復現。
▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)
在音色和語速上無限接近真人,但本質上仍是TTS框架上的優化 —— 用數據拼出一個最可能的音軌,并不是理解你在說什么,也不是在用你的動機說話。
▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)
VALL-E原始論文也明確表示,雖然咱訓練了 60000 小時的數據,但訓練語料偏向朗讀風格,沒法很好地處理日常社交語境下的臨場語言變調。簡單說就是:它很會“讀”,但不會“聊”。
本質上,人說話是流露情緒,AI是表演情緒,是依靠風格遷移或標簽控制。就比如你告訴AI這句話是悲傷的,AI 就像演員照著“哭戲模板”演一場戲,缺少根本上的情緒動因。
二、AI聲音太干凈,因為它沒有“身體”
我們常說一個人“聽起來像剛哭過”、“說話帶著笑意”,就是因為人類的聲音從來不是一個孤立的音頻,而是整個身體與情緒系統協同工作的結果。而AI配音只是一段合成音軌,聲波的真實感都被壓平了。雖然在音色上可以擬真,但缺少身體的痕跡:沒有微喘氣聲、喉嚨的不穩定震動,肌肉張力變化、吞咽、停頓、情緒導致的呼吸節奏改變,就像水煮聲音,干凈到不真實。
AI語音合成的技術美,恰恰成了它最大的“不自然”之源 —— 它太規則、太理性,而人聲是情緒、混亂、張力與身體的共鳴。
但這一切并不是AI的問題,是人類的說話方式太高級。人說話時,說的不只是內容,也在表達“我是誰”、“我對你的態度”、“我現在的心情”。
它本質上包含了:多模態信號(語音+表情+姿勢+節奏)、動態反饋機制(根據對方反應調整語氣)、高度文化依賴(不同場合、不同關系說話完全不同)。 這三者之間要高度一致,才會讓人覺得自然。
AI語音會變得更好嗎?
會。
現在很多研究正在努力讓AI的聲音更像人, “Speaking Style Modeling” 是近年來TTS研究的新方向,嘗試加入更多變異性與即興性。 比如 EmotionFlow 試圖模擬情緒隨語義流動的自然曲線 (semantic-aware prosody modeling) ,替代以往貼情緒標簽的方式;Context-Aware TTS 加入上下文建模來預測說話語境與角色身份、StyleSpeech、GST-Tacotron等模型聚焦于模仿人類說話風格,比如開玩笑、嘆氣、嘲諷的語調。但這一切離“有靈魂的表達”還有段距離,因為對情緒動因和表達意圖的理解, 還需要人類的社會化經驗。
核心問題在于:AI沒有“心”。
它沒有動機,沒有關系感,也沒有“對誰說”的意識。只要它不能理解自己說這句話的目的和狀態,它的語音就永遠是模擬,而不是表達。
人類交流的本質,其實是在感知一個靈魂在用身體表達自己,而AI說話,是一個程序在模仿這個過程,這之間的差距是生命。
但話又說回來,當未來某一天,AI聲音真實到你無法分辨“是誰在說話”時,你還在乎那是不是“人”嗎?
AI可以代替人說話了,那么誰來對這些話負責?我們是否愿意相信一個沒有動機、沒有關系、沒有情感內驅力的說話者?
說話的本質,是表達、是共情、是人際的回應。如果這也被徹底外包給算法,我們與AI的界限又還剩多少?
end
[1] Shen, J. et al. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint arXiv:1712.05884. https://arxiv.org/abs/1712.05884
[2] Ren, Y. et al. (2020). FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. arXiv preprint arXiv:2006.04558. https://arxiv.org/abs/2006.04558
[3] Kim, J. et al. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Emotional Speech Synthesis. arXiv preprint arXiv:2106.06103. https://arxiv.org/abs/2106.06103
[4] Wang, C. et al. (2023). VALL-E: Zero-Shot Text-to-Speech with Audio Codec Models. arXiv preprint arXiv:2301.02111. https://arxiv.org/abs/2301.02111
[5] Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press. https://yalebooks.yale.edu/book/9780300209570/atlas-of-ai/
[6] Resemble.ai. (n.d.). Resemble.ai – Voice Cloning & AI Speech Generation. https://www.resemble.ai/
[7] EmotionFlow Team. (n.d.). EmotionFlow: Let AI Speak with Emotions. https://emotionflow-demo.github.io/
[8] The Verge. (2023). AI voice is getting eerily good. Are we ready? https://www.theverge.com/2023/7/12/ai-voice-deepfake-elevenlabs-ethics
來源:DataCafe
編輯:月
轉載內容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯系原公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.