網易首頁 > 網易號 > 正文申請入駐

為啥AI配音的情感總覺得怪怪的？

2025-07-07 14:12:33　來源: 中科院物理所

北京舉報

分享至

有沒有注意到——
現在AI語音配音的視頻越來越多了：短視頻里的語音講解，播客、廣告、小說朗讀，新聞解說，都開始采用AI配音。

除了最基礎的TTS（Text-to-Speech）語音合成技術，現在的AI語音已經進入了擬真階段。比如VALL-E、ChatTTS、OpenVoice等技術，能自動根據語義生成AI語音，甚至可以做聲音風格遷移。只要你上傳原聲，AI就能克隆聲音，復刻你的音色、語速、語調、情緒特征，甚至模仿地方口音，讓馬斯克也能說上一口東北話。

技術確實進步得令人驚艷。聲音清晰標準、節奏平穩、語調自然。挑不出毛病但就是感覺怪怪的，帶著一種不自然的違和感。仿佛在聽一個沒有靈魂的演員在念臺詞。

為什么會這樣？

人類的情感雷達有多靈

你聽不出問題，但你就是知道“它不是人”。

這其實是人類大腦的奇妙能力。我們對人聲的識別感知是超強的，尤其對于語氣、情緒、真假感這些層面的感知，很多時候聽到的話還沒過腦子，潛意識就已經都識別好了。

人類聽聲音并不是聽字面，而是在聽情緒底色：

女友打電話說：“你開心就好”
你一聽就知道自己能不能好得了。

上司說：“這個項目你來負責吧。”
你能瞬間感受到這是一句信任還是推鍋試探。

心理學家 Klaus Scherer 早在1994年就提出：人類對語音中的情緒真實性具有極高敏感性，能從中分辨真假情緒、心理狀態和意圖。

演化心理學認為，人類對語音中的細微情緒差異有極強的識別力，是因為在遠古社會有語言之前，我們通過聲音判斷敵意、愉快、求助。人類社會極度依賴協作與信任，判斷「對方在想什么」至關重要；而聲音是最即時的線索，它包含了說話者的肌肉張力、呼吸頻率、情緒流動等無法隱藏的信號。

AI聲音為什么總差點意思？

所以，AI配音的問題出在哪？我們先從底層機制開始聊起。

一、模型結構決定了它只能“模仿”

盡管AI語音合成技術（TTS, Text-to-Speech）已經非常成熟，甚至能模仿特定人的音色、語調和語速，但它的生成邏輯本質上是一套“拼裝合成”流程，而不是一種帶有動機的表達行為。

TTS 的常規工作流包括這幾個步驟：

文本分析：把輸入文字轉成音素（比如漢語拼音）和語法標簽。

韻律預測：模型嘗試預測每個音節的音高、時長、停頓、重音。

聲學建模：用深度神經網絡生成聲譜圖（頻率-時間圖）。

波形合成：最后通過Vocoder（如WaveNet、HiFi-GAN）還原成音頻。

聽起來復雜，核心就是兩件事：模式識別 + 生成拼接。這種機制像是在完成一次高質量朗讀，但缺少人類語言中最本質的東西：臨場的情緒驅動和表達動因。像 FastSpeech2、VITS這類模型，引入emotion embedding 和 style control，確實可以讓AI聲音在快樂、悲傷、憤怒間切換。但這種控制都是外部標簽驅動，不基于上下文，更不是基于理解人類說話時的微妙心理博弈。

人類復雜的情感決定了天生是潛臺詞高手，說話的含義高度依賴于當時的文化、關系、語境：

“你開心就好” 其實不太好，AI以為是欣慰；

“你行你上” 其實破防了，AI以為是鼓勵；

“你可真棒啊” 有嘲諷的可能，但AI用了贊嘆語氣；

AI在理解人類文字游戲（比如暗示、高級黑、反諷、含蓄委婉）的能力還不夠，情緒和真實語義一旦分離，表達就會失真。

另外，TTS模型的“中庸主義”也導致了情感的扁平。

當前主流的TTS模型大多是通過學習海量語音樣本的平均說法來合成聲音，最終生成一個最“合理”的聲音版本。這種方式雖然聽起來自然通順，但也導致每一句話的情緒都被磨平了，失去了人類語言中的個性、突發性和情緒張力，就像套了個情緒模版。所以說，韻律模型學的是“常態”而不是“狀態”，少了臨場變化。比如人生氣時，說話會變得高頻 + 不規則，但AI仍然在平穩地表達憤怒，所以聽起來就少了點活人感。

即便是當前最先進的生成式語音模型，如微軟的 VALL-E，也并未跳出這一結構。它采用類似語言模型（可以理解為GPT for Speech）的機制，將3秒音頻樣本壓縮成離散Token，然后根據文本預測下一個聲音片段，從而實現音色+語氣+風格的保留與復現。

▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)

在音色和語速上無限接近真人，但本質上仍是TTS框架上的優化 —— 用數據拼出一個最可能的音軌，并不是理解你在說什么，也不是在用你的動機說話。

▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)

VALL-E原始論文也明確表示，雖然咱訓練了 60000 小時的數據，但訓練語料偏向朗讀風格，沒法很好地處理日常社交語境下的臨場語言變調。簡單說就是：它很會“讀”，但不會“聊”。

本質上，人說話是流露情緒，AI是表演情緒，是依靠風格遷移或標簽控制。就比如你告訴AI這句話是悲傷的，AI 就像演員照著“哭戲模板”演一場戲，缺少根本上的情緒動因。

二、AI聲音太干凈，因為它沒有“身體”

我們常說一個人“聽起來像剛哭過”、“說話帶著笑意”，就是因為人類的聲音從來不是一個孤立的音頻，而是整個身體與情緒系統協同工作的結果。而AI配音只是一段合成音軌，聲波的真實感都被壓平了。雖然在音色上可以擬真，但缺少身體的痕跡：沒有微喘氣聲、喉嚨的不穩定震動，肌肉張力變化、吞咽、停頓、情緒導致的呼吸節奏改變，就像水煮聲音，干凈到不真實。

AI語音合成的技術美，恰恰成了它最大的“不自然”之源 —— 它太規則、太理性，而人聲是情緒、混亂、張力與身體的共鳴。

但這一切并不是AI的問題，是人類的說話方式太高級。人說話時，說的不只是內容，也在表達“我是誰”、“我對你的態度”、“我現在的心情”。

它本質上包含了：多模態信號（語音+表情+姿勢+節奏）、動態反饋機制（根據對方反應調整語氣）、高度文化依賴（不同場合、不同關系說話完全不同）。這三者之間要高度一致，才會讓人覺得自然。

AI語音會變得更好嗎？

會。

現在很多研究正在努力讓AI的聲音更像人， “Speaking Style Modeling” 是近年來TTS研究的新方向，嘗試加入更多變異性與即興性。比如 EmotionFlow 試圖模擬情緒隨語義流動的自然曲線（semantic-aware prosody modeling），替代以往貼情緒標簽的方式；Context-Aware TTS 加入上下文建模來預測說話語境與角色身份、StyleSpeech、GST-Tacotron等模型聚焦于模仿人類說話風格，比如開玩笑、嘆氣、嘲諷的語調。但這一切離“有靈魂的表達”還有段距離，因為對情緒動因和表達意圖的理解，還需要人類的社會化經驗。

核心問題在于：AI沒有“心”。

它沒有動機，沒有關系感，也沒有“對誰說”的意識。只要它不能理解自己說這句話的目的和狀態，它的語音就永遠是模擬，而不是表達。

人類交流的本質，其實是在感知一個靈魂在用身體表達自己，而AI說話，是一個程序在模仿這個過程，這之間的差距是生命。

但話又說回來，當未來某一天，AI聲音真實到你無法分辨“是誰在說話”時，你還在乎那是不是“人”嗎？

AI可以代替人說話了，那么誰來對這些話負責？我們是否愿意相信一個沒有動機、沒有關系、沒有情感內驅力的說話者？

說話的本質，是表達、是共情、是人際的回應。如果這也被徹底外包給算法，我們與AI的界限又還剩多少？

end

[1] Shen, J. et al. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint arXiv:1712.05884. https://arxiv.org/abs/1712.05884

[2] Ren, Y. et al. (2020). FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. arXiv preprint arXiv:2006.04558. https://arxiv.org/abs/2006.04558

[3] Kim, J. et al. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Emotional Speech Synthesis. arXiv preprint arXiv:2106.06103. https://arxiv.org/abs/2106.06103

[4] Wang, C. et al. (2023). VALL-E: Zero-Shot Text-to-Speech with Audio Codec Models. arXiv preprint arXiv:2301.02111. https://arxiv.org/abs/2301.02111

[5] Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press. https://yalebooks.yale.edu/book/9780300209570/atlas-of-ai/

[6] Resemble.ai. (n.d.). Resemble.ai – Voice Cloning & AI Speech Generation. https://www.resemble.ai/

[7] EmotionFlow Team. (n.d.). EmotionFlow: Let AI Speak with Emotions. https://emotionflow-demo.github.io/

[8] The Verge. (2023). AI voice is getting eerily good. Are we ready? https://www.theverge.com/2023/7/12/ai-voice-deepfake-elevenlabs-ethics

來源：DataCafe

編輯：月

轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯系原公眾號

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.