99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

為啥AI配音的情感總覺得怪怪的?

0
分享至

有沒有注意到——
現在AI語音配音的視頻越來越多了:短視頻里的語音講解,播客、廣告、小說朗讀,新聞解說,都開始采用AI配音。

除了最基礎的TTS(Text-to-Speech)語音合成技術,現在的AI語音已經進入了擬真階段。比如VALL-E、ChatTTS、OpenVoice等技術,能自動根據語義生成AI語音,甚至可以做聲音風格遷移。只要你上傳原聲,AI就能克隆聲音,復刻你的音色、語速、語調、情緒特征,甚至模仿地方口音,讓馬斯克也能說上一口東北話。


技術確實進步得令人驚艷。聲音清晰標準、節奏平穩、語調自然。挑不出毛病但就是感覺怪怪的,帶著一種不自然的違和感。仿佛在聽一個沒有靈魂的演員在念臺詞。

為什么會這樣?


人類的情感雷達有多靈

你聽不出問題,但你就是知道“它不是人”。

這其實是人類大腦的奇妙能力。我們對人聲的識別感知是超強的,尤其對于語氣、情緒、真假感這些層面的感知,很多時候聽到的話還沒過腦子,潛意識就已經都識別好了。

人類聽聲音并不是聽字面,而是在聽情緒底色:

女友打電話說:“你開心就好”
你一聽就知道自己能不能好得了。

上司說:“這個項目你來負責吧。”
你能瞬間感受到這是一句信任還是推鍋試探。

心理學家 Klaus Scherer 早在1994年就提出:人類對語音中的情緒真實性具有極高敏感性 ,能從中分辨真假情緒、心理狀態和意圖。

演化心理學認為,人類對語音中的細微情緒差異有極強的識別力,是因為在遠古社會有語言之前,我們通過聲音判斷敵意、愉快、求助。人類社會極度依賴協作與信任,判斷「對方在想什么」至關重要;而聲音是最即時的線索,它包含了說話者的肌肉張力、呼吸頻率、情緒流動等無法隱藏的信號。

AI聲音為什么總差點意思?

所以,AI配音的問題出在哪?我們先從底層機制開始聊起。

一、模型結構決定了它只能“模仿”

盡管AI語音合成技術(TTS, Text-to-Speech)已經非常成熟,甚至能模仿特定人的音色、語調和語速,但它的生成邏輯本質上是一套“拼裝合成”流程,而不是一種帶有動機的表達行為。

TTS 的常規工作流包括這幾個步驟:

  • 文本分析:把輸入文字轉成音素(比如漢語拼音)和語法標簽。

  • 韻律預測:模型嘗試預測每個音節的音高、時長、停頓、重音。

  • 聲學建模:用深度神經網絡生成聲譜圖(頻率-時間圖)。


  • 波形合成:最后通過Vocoder(如WaveNet、HiFi-GAN)還原成音頻。


聽起來復雜,核心就是兩件事:模式識別 + 生成拼接。這種機制像是在完成一次高質量朗讀,但缺少人類語言中最本質的東西:臨場的情緒驅動和表達動因。像 FastSpeech2、VITS這類模型,引入emotion embedding 和 style control,確實可以讓AI聲音在快樂、悲傷、憤怒間切換。但這種控制都是外部標簽驅動,不基于上下文,更不是基于理解人類說話時的微妙心理博弈。

人類復雜的情感決定了天生是潛臺詞高手,說話的含義高度依賴于當時的文化、關系、語境:

“你開心就好” 其實不太好,AI以為是欣慰;

“你行你上” 其實破防了,AI以為是鼓勵;

“你可真棒啊” 有嘲諷的可能,但AI用了贊嘆語氣;

AI在理解人類文字游戲(比如暗示、高級黑、反諷、含蓄委婉)的能力還不夠,情緒和真實語義一旦分離,表達就會失真。


另外,TTS模型的“中庸主義”也導致了情感的扁平。

當前主流的TTS模型大多是通過學習海量語音樣本的平均說法來合成聲音,最終生成一個最“合理”的聲音版本。這種方式雖然聽起來自然通順,但也導致每一句話的情緒都被磨平了,失去了人類語言中的個性、突發性和情緒張力,就像套了個情緒模版。所以說,韻律模型學的是“常態”而不是“狀態”,少了臨場變化。比如人生氣時,說話會變得高頻 + 不規則,但AI仍然在平穩地表達憤怒,所以聽起來就少了點活人感。

即便是當前最先進的生成式語音模型,如微軟的 VALL-E,也并未跳出這一結構。它采用類似語言模型(可以理解為GPT for Speech)的機制,將3秒音頻樣本壓縮成離散Token,然后根據文本預測下一個聲音片段,從而實現音色+語氣+風格的保留與復現。


▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)

在音色和語速上無限接近真人,但本質上仍是TTS框架上的優化 —— 用數據拼出一個最可能的音軌,并不是理解你在說什么,也不是在用你的動機說話。


▲ 圖 / 《VALL-E: Zero-shot Text-to-Speech with Audio Codec Models》, Microsoft Research (2023)

VALL-E原始論文也明確表示,雖然咱訓練了 60000 小時的數據,但訓練語料偏向朗讀風格,沒法很好地處理日常社交語境下的臨場語言變調。簡單說就是:它很會“讀”,但不會“聊”。

本質上,人說話是流露情緒,AI是表演情緒,是依靠風格遷移或標簽控制。就比如你告訴AI這句話是悲傷的,AI 就像演員照著“哭戲模板”演一場戲,缺少根本上的情緒動因。


二、AI聲音太干凈,因為它沒有“身體”

我們常說一個人“聽起來像剛哭過”、“說話帶著笑意”,就是因為人類的聲音從來不是一個孤立的音頻,而是整個身體與情緒系統協同工作的結果。而AI配音只是一段合成音軌,聲波的真實感都被壓平了。雖然在音色上可以擬真,但缺少身體的痕跡:沒有微喘氣聲、喉嚨的不穩定震動,肌肉張力變化、吞咽、停頓、情緒導致的呼吸節奏改變,就像水煮聲音,干凈到不真實。

AI語音合成的技術美,恰恰成了它最大的“不自然”之源 —— 它太規則、太理性,而人聲是情緒、混亂、張力與身體的共鳴。

但這一切并不是AI的問題,是人類的說話方式太高級。人說話時,說的不只是內容,也在表達“我是誰”、“我對你的態度”、“我現在的心情”。

它本質上包含了:多模態信號(語音+表情+姿勢+節奏)、動態反饋機制(根據對方反應調整語氣)、高度文化依賴(不同場合、不同關系說話完全不同)。 這三者之間要高度一致,才會讓人覺得自然。

AI語音會變得更好嗎?

會。

現在很多研究正在努力讓AI的聲音更像人, “Speaking Style Modeling” 是近年來TTS研究的新方向,嘗試加入更多變異性與即興性。 比如 EmotionFlow 試圖模擬情緒隨語義流動的自然曲線 (semantic-aware prosody modeling) ,替代以往貼情緒標簽的方式;Context-Aware TTS 加入上下文建模來預測說話語境與角色身份、StyleSpeech、GST-Tacotron等模型聚焦于模仿人類說話風格,比如開玩笑、嘆氣、嘲諷的語調。但這一切離“有靈魂的表達”還有段距離,因為對情緒動因和表達意圖的理解, 還需要人類的社會化經驗。

核心問題在于:AI沒有“心”。


它沒有動機,沒有關系感,也沒有“對誰說”的意識。只要它不能理解自己說這句話的目的和狀態,它的語音就永遠是模擬,而不是表達。

人類交流的本質,其實是在感知一個靈魂在用身體表達自己,而AI說話,是一個程序在模仿這個過程,這之間的差距是生命。


但話又說回來,當未來某一天,AI聲音真實到你無法分辨“是誰在說話”時,你還在乎那是不是“人”嗎?

AI可以代替人說話了,那么誰來對這些話負責?我們是否愿意相信一個沒有動機、沒有關系、沒有情感內驅力的說話者?

說話的本質,是表達、是共情、是人際的回應。如果這也被徹底外包給算法,我們與AI的界限又還剩多少?

end

[1] Shen, J. et al. (2018). Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. arXiv preprint arXiv:1712.05884. https://arxiv.org/abs/1712.05884

[2] Ren, Y. et al. (2020). FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. arXiv preprint arXiv:2006.04558. https://arxiv.org/abs/2006.04558

[3] Kim, J. et al. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Emotional Speech Synthesis. arXiv preprint arXiv:2106.06103. https://arxiv.org/abs/2106.06103

[4] Wang, C. et al. (2023). VALL-E: Zero-Shot Text-to-Speech with Audio Codec Models. arXiv preprint arXiv:2301.02111. https://arxiv.org/abs/2301.02111

[5] Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press. https://yalebooks.yale.edu/book/9780300209570/atlas-of-ai/

[6] Resemble.ai. (n.d.). Resemble.ai – Voice Cloning & AI Speech Generation. https://www.resemble.ai/

[7] EmotionFlow Team. (n.d.). EmotionFlow: Let AI Speak with Emotions. https://emotionflow-demo.github.io/

[8] The Verge. (2023). AI voice is getting eerily good. Are we ready? https://www.theverge.com/2023/7/12/ai-voice-deepfake-elevenlabs-ethics

來源:DataCafe

編輯:月

轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯系原公眾號

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上任不足4個月,巡視組進駐后,吳揚落馬

上任不足4個月,巡視組進駐后,吳揚落馬

魯中晨報
2025-07-25 13:15:04
兩岸代表團爆發沖突,大陸人員受傷,國民黨大難臨頭卻附和民進黨

兩岸代表團爆發沖突,大陸人員受傷,國民黨大難臨頭卻附和民進黨

小陸搞笑日常
2025-07-25 18:58:30
廣東名嘴陳維聰分享自己出獄后的生活,花幾十萬帶家人出國旅行

廣東名嘴陳維聰分享自己出獄后的生活,花幾十萬帶家人出國旅行

TVB的四小花
2025-07-26 00:02:16
全是反轉!《掃毒風暴》大結局,是我今年看過最震撼的大結局!

全是反轉!《掃毒風暴》大結局,是我今年看過最震撼的大結局!

古木之草記
2025-07-25 22:11:59
兩大司令部被炸毀,柬軍敗局已定?中方及時開金口,送泰柬一句話

兩大司令部被炸毀,柬軍敗局已定?中方及時開金口,送泰柬一句話

影孖看世界
2025-07-25 22:31:43
宮魯鳴學著點!中國女籃蕩氣回腸,掀翻美國奪冠,這夜熬得太值了

宮魯鳴學著點!中國女籃蕩氣回腸,掀翻美國奪冠,這夜熬得太值了

格斗一點通
2025-07-26 03:40:09
得不到就毀掉?宗馥莉親叔叔太狠了,直接曝光宗馥莉的婚姻是真的

得不到就毀掉?宗馥莉親叔叔太狠了,直接曝光宗馥莉的婚姻是真的

鯨探所長
2025-07-23 07:55:29
母女遭出租車司機辱罵繞路甩客?交通執法部門:擬吊銷司機從業資格證

母女遭出租車司機辱罵繞路甩客?交通執法部門:擬吊銷司機從業資格證

澎湃新聞
2025-07-25 09:08:28
央視:印度全力申辦2036年奧運會,主要對手有卡塔爾、土耳其等國

央視:印度全力申辦2036年奧運會,主要對手有卡塔爾、土耳其等國

直播吧
2025-07-25 11:24:46
最后3天,沉默兩個月后,李嘉誠恐將賣國,中方出手將軍

最后3天,沉默兩個月后,李嘉誠恐將賣國,中方出手將軍

星辰夜語
2025-07-25 19:20:07
泰柬邊境交火升級:佩通坦罕見發聲,中國三部門連夜出手

泰柬邊境交火升級:佩通坦罕見發聲,中國三部門連夜出手

起喜電影
2025-07-26 03:20:27
陶喆再一次證明,娶妻要娶年紀小的,等你老了她還美得賞心悅目

陶喆再一次證明,娶妻要娶年紀小的,等你老了她還美得賞心悅目

情感大頭說說
2025-07-25 09:18:05
許婧與新老公同框!坐游艇出海游玩,38歲活成少女,手上婚戒亮了

許婧與新老公同框!坐游艇出海游玩,38歲活成少女,手上婚戒亮了

娛樂皮皮醬
2025-07-26 05:10:16
成群老人占店蹭空調,大喇叭驅趕無果,逼得老板開30度熱風攆人

成群老人占店蹭空調,大喇叭驅趕無果,逼得老板開30度熱風攆人

振華觀史
2025-07-25 17:27:09
洪森統治柬埔寨38年,給窮人帶來了什么樣的生活?

洪森統治柬埔寨38年,給窮人帶來了什么樣的生活?

現代小青青慕慕
2025-07-25 08:53:26
宿遷市紀委監委通報:涉嫌嚴重違紀違法,汪育才被查!

宿遷市紀委監委通報:涉嫌嚴重違紀違法,汪育才被查!

魯中晨報
2025-07-25 19:54:08
40度天女孩被困豪車內,環衛工砸爛車窗救人,車主:這車送你了

40度天女孩被困豪車內,環衛工砸爛車窗救人,車主:這車送你了

凱裕說故事
2025-07-24 17:02:55
多讀書還是有用啊!張碧晨自認唯一原唱,汪蘇瀧一招就終結紛爭!

多讀書還是有用啊!張碧晨自認唯一原唱,汪蘇瀧一招就終結紛爭!

青青子衿
2025-07-25 17:07:08
6名大學生溺亡事件更多細節披露 車間主任:校企都沒做過專項安全檢查

6名大學生溺亡事件更多細節披露 車間主任:校企都沒做過專項安全檢查

上游新聞
2025-07-25 14:32:26
砍18+7+6+4,火箭隊終獲2號位替補!手握雙向合同,或力壓謝潑德

砍18+7+6+4,火箭隊終獲2號位替補!手握雙向合同,或力壓謝潑德

熊哥愛籃球
2025-07-25 22:19:45
2025-07-26 05:59:00
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
9211文章數 136264關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

教育
旅游
家居
健康
本地

教育要聞

考生高考674分上民辦高校被罵!了解學校背景后,才知他有多明智

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

環繞設計 空間動線合理

呼吸科專家破解呼吸道九大謠言!

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苏尼特右旗| 探索| 扎兰屯市| 普兰店市| 常宁市| 元阳县| 岳普湖县| 溧阳市| 于田县| 武功县| 鹤庆县| 太白县| 申扎县| 工布江达县| 平谷区| 奎屯市| 个旧市| 桃源县| 义马市| 兰西县| 图片| 福贡县| 开封县| 绥化市| 女性| 淮滨县| 安庆市| 香港| 大宁县| 曲水县| 扶余县| 城市| 南城县| 盖州市| 安仁县| 峨边| 四会市| 右玉县| 商丘市| 子长县| 阳泉市|