最近一個「泄露」的文本轉語音模型演示版本在 Reddit 上火了。
這個「泄露」的演示視頻被網友貼出來后,評論區一片驚呼。
這情緒太細膩了,我不相信這不是人說的。
我們終于能跟糟糕的配音演員說拜拜了。
Reddit 帖子截圖,鏈接:https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/
它來自一個還沒正式發布的項目,IndexTTS2。不過我們發現,這個演示版本并不是什么項目的泄露文件,而是論文作者親手貼出來的 Demo 演示頁。
看起來只是一次誤會。但它驚艷的背后,卻可能是下一代 AI 聲音生成的分水嶺。
不是 404 鏈接,是 AI 配音的「奇點」時刻
故事要從這個鏈接說起, https://index-tts2.github.io,這是一般放在 GitHub 上的項目主頁鏈接格式,但是這個鏈接直到現在都是 404。
Reddit 上這位網友在 GitHub 上找到了這個項目倉庫,發現了里面有多個 IndexTTS2 的演示視頻,他分享了其中的一個 https://index-tts.github.io/index-tts2.github.io/ex6/Empresses_in_the_Palace_1.mp4。
這些演示視頻,不僅音色還原度高,情緒也自然的讓人一時忘了是在聽 AI。
除了甄嬛傳這個配音視頻,還有讓子彈飛的演示視頻,同樣精彩。我甚至覺得如果電影需要英配,用這個是完全可以。
但其實這些 Demo 并不是「偷偷隱藏」在項目倉庫里的。作者在論文中給出的鏈接就是 https://index-tts.github.io/index-tts2.github.io/,只不過可能是還沒有寫好演示的網頁,所以被誤會成了這是一個泄露的演示版本。
所以準確地說,這是一場誤會,但也正是這場誤會,讓更多人第一次看到了 IndexTTS2 的驚艷表現力。
IndexTTS 2 項目主頁網站目前仍是 404
IndexTTS2 就是那種一耳朵就能分辨出「質變」的模型。甚至不需要對比參數,我們只要點開這個 demo,就能很明顯的感覺到它和之前那些「AI 聲音」不一樣。
聲音不再平滑得像機器,而是有起伏、有重音、有輕笑、有嘆息。
情緒不是靠「語速快慢」去模仿,而是真的在「表達情緒」。
音色不僅像人,甚至像是有個人格、有表演的「人」。
如果說 ElevenLabs 讓我們第一次看到了產品化語音的可行性,IndexTTS2 給人的震撼,更像是 Midjourney 橫空出世那年,大家開始意識到:AI 不止能模仿人類,它能「重構表達」。
揭秘 B站王牌:AI 如何學會「表演」而非「朗讀」
那么這個模型到底是怎么回事,又是怎么把 AI 生成的聲音做到這么有情感,這么像真人。
IndexTTS2 來自 B站語音團隊,他們在上個月發布了一篇論文專門介紹這項工作,嗶哩嗶哩技術公眾號在前幾天也分享了這個模型的相關信息。
論文鏈接:https://arxiv.org/abs/2506.21619
它是一個文本轉語音模型(TTS),但和過去我們聽到的 AI 聲音不一樣。它不是在讀字,而是在講話;不是同步而粗糙的配音,而是有情緒、有表現力的聲音演繹。
IndexTTS2 模型概覽,由基于源文本、風格提示、音色提示輸入的文本轉語義模塊、語義轉頻譜圖模塊和將頻譜圖轉換為高質量語音波形的聲碼器三個模塊組成,實現端到端的語音合成過程。
同時,這個模型還能做到:
不依賴參考音頻,通過微調語言模型 Qwen3 來解讀自然語言指令實現的情感控制
對同樣的一段文本,不同語音、不同情緒、不同語速都能精確對應
語音時長可控,可以用在配音對齊、視頻解話、影視合成等場景
它不僅僅是一個「好聽」的模型,而是一個「好控」的模型。你給一段文字,它不僅能說出來,還能按照你的意思,表現成一個有情感的聲音表演。
B 站也拿這個模型和阿里通義實驗室的 CosyVoice2、上海交大的 F5-TTS、MaskGCT 等 TTS 開源模型,在多個評估基準上進行測試,IndexTTS2 在詞錯誤率、說話人相似度以及情感保真度等多個關鍵指標上均是當前最優的。
但目前 IndexTTS2 還沒有完全開源,嗶哩嗶哩技術公眾號在文章里面說會持續優化模型性能,全面開源 IndexTTS2 的推理代碼和模型權重。希望未來能盡快得到實際體驗的機會。
就像 Reddit 上網友說的,IndexTTS2 是具有革命性意義的一項工作。
這是我第一次真正覺得 AI 聲音可以讓人享受整部電影的配音。我注意到它在配音時甚至克隆了中文口音。非常有趣。
我迫不及待想用好的參考聲音在本地嘗試它,嘗試不同的情感參考音頻片段,并根據需要多次重新運行生成,以獲得非常逼真的表演。這太酷了。
它讓我們看到的,不僅僅是一項很酷的技術,更是一個內容創作新范式的黎明。從「能說話」到「復制音色」、再到現在「突出情感表現力」,我們的短視頻可能又將有新的素材了。
如果 IndexTTS2 在大部分視頻的配音上,都能做到像文章開頭說的那個「泄露 Demo」這么出色,那我們真的可以說看一部 AI 配音的電影了。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.