作者 | 凌敏
沒有什么比“群星閃耀”更適合形容近期的 TTS(Text-To-Speech,文本轉語音)模型領域了。
開年以來,從科技巨頭到創業公司再到研究機構,都在發力 TTS 模型。2 月,字節跳動海外實驗室推出一款輕量級 TTS 模型 MegaTTS3-Global;3 月,出門問問聯合香港科技大學、上海交通大學、南洋理工大學、西北工業大學等頂尖學術機構,共同開源新一代語音生成模型 Spark-TTS;同月,OpenAI 推出基于 GPT-4o-mini 架構的 TTS 模型。
與 AI 領域其他熱門技術相比,TTS 似乎格外低調,但它卻是智能硬件、數字人等場景的“隱形基石”。憑借廣泛的應用領域和開闊的商業前景,TTS 在最近一年取得了長足的進步,并悄然改變著行業規則。
最近,TTS 模型又有重磅“上新”,Speech-02語音模型一出手,就將 OpenAI、ElevenLabs 甩在了后面,登頂 Arena 榜單,成為全球第一。
問鼎 Arena 榜首,
Speech-02 模型有何獨特之處?
問鼎 Arena 榜首的正是 MiniMax 最新推出的 Speech-02 模型。
在 Artificial Analysis Speech Arena Leaderboard 上,Speech-02 模型的 ELO 評分達 1161,力壓 OpenAI、ElevenLabs 旗下的一眾模型。Arena 榜單的 ELO 評分,是根據用戶在聽取并比較不同模型的語音樣本時,做出的主觀偏好判斷得出的。這也意味著,與其他行業領先的語音模型相比,用戶明顯更偏好 Speech-02。
探究用戶偏好的深層次緣由,或許可以從具體的技術指標中找到答案。在字錯率(WER)這一關鍵維度上,Speech-02 和 ElevenLabs 不相上下,而在相似度(SIM,語音復刻場景)上,Speech-02 實現了全面碾壓。
其中,字錯率是衡量語音識別系統性能的一個重要指標,通過將語音識別系統輸出的文本,與人工標注的參考文本進行對比,計算識別結果中錯誤的詞數占參考文本總詞數的比例。字錯率越低,意味著語音識別系統的性能越好,識別準確率越高。
在字錯率方面,Speech-02 在英語、阿拉伯語、西班牙語、土耳其語等多種語言處理中,與 ElevenLabs 打得有來有回,差距不大。但在中文、粵語、日語、韓語方面,明顯優于 ElevenLabs。尤其是在中文語言環境中,憑借本土化優勢,Speech-02 的中文和粵語字錯率僅為 2.252%、34.111%,ElevenLabs 在這兩項的字錯率則分別為 16.026%、51.513%。
相似度則是語音復刻場景中的一個重要指標,用于衡量語音復刻結果與目標語音之間的相似程度。數值越接近 1,表明相似度越高,復刻效果越好,更能準確地還原目標語音的特征。
在相似度方面,Speech-02 全面優于 ElevenLabs。也就是說,Speech-02 模型在這 24 種評估語?中,?成的克隆語?更接近真實?聲。
這些技術優勢帶來更直觀的效果,體現在模型在實際應用中的表現上??傮w來看,Speech-02 具有三大特點:
超擬人:錯誤率低且穩定,情緒、音色、口音、停頓、韻律等方面表現與真人無異;
個性化:支持聲音參考與文生音,是業內首個實現“任意音色,靈活控制”的模型;
多樣性:支持 32 種語言,能夠在同一段語音里,實現多個語種間的自如切換。
筆者也對 Speech-02 進行了一番實測,選擇多個音色講述同一段文本:
陽光懶洋洋地灑在陽臺上,茶杯里升起裊裊的熱氣。我靠在藤椅里,隨手翻開一本舊書,紙頁間飄出淡淡的墨香。窗外,幾只麻雀在枝頭跳來跳去,偶爾發出嘰嘰喳喳的聲響,像是在爭論什么重要的事情。風輕輕吹動窗簾,帶來一絲桂花香,讓人想起小時候外婆做的桂花糕。就這樣靜靜地坐著,看云卷云舒,聽風聲低語,便是最好的時光。
同樣的一段文字,三種音色完全是不同的感覺:第一個音頻女聲字正腔圓,仿佛在朗誦一般,溫婉大氣;第二個音頻(粵語)更有生活氣息,像是鄰家妹妹在輕輕細語;第三個音頻則像是奶奶在耳畔講故事,娓娓道來。
而在多語種的測評中,Speech-02 更是展現了不俗的實力,在多個語種之間切換自如:
這次去 Tokyo 出差真的太瘋狂了!剛出成田機場就遇到一個サラリーマン對著手機大喊『やばい! deadlineに間に合わない!』然后我幫他找了臺 printer,他居然用中文說『感恩!』還硬塞給我一盒クッキー... 這劇情也太マンガ了吧?不過那盒 cookies 真的美味しい,包裝上還寫著『一期一會』。
早在 Speech-02 系列內測期間,就有不少創作者搶先體驗。
中國傳媒大學戲劇影視學院導演系張凈雨教授,用 Speech-02 制作了一段廣播劇劇本的三人對話。對話中,三個人的人物形象差異比較鮮明,人物的情緒也較為到位,對話節奏銜接在一起,整體也比較自然。“目前 Speech-02 的生成效果還是很不錯的,特別是在客觀信息類作品,如新聞播報、紀錄片旁白。較高難度的劇情作品,也能做到有情緒、有抑揚頓挫的聲音表達,配合剪輯,已具備制作廣播劇、有聲小說、甚至劇情類影視配音作品的潛力?!?/p>
星賢文化創始人、海螺 AI 超級創作者陳坤表示:“相對于 Runway 的期貨,我認為 MiniMax 的語音更讓人驚喜,AI 配音有那么點人味了?!?/p>
在模型表現之外,Speech-02 以 50 美元 / 百萬字符文本的價格,在性價比方面極具優勢。與之相比,ElevenLabs 最便宜的 Flash v2.5 也需要 103 美元 / 百萬字符文本,足足是 Speech-02 的兩倍。
可學習的speaker編碼器, 實現zero-shot零成本復刻
在 TTS 模型中,兼顧模型性能與性價比并非易事。Speech-02 的創新之處在于,它通過數據的多樣性、架構的泛化能力,讓模型同時學會所有聲音,更好地平衡模型性能和成本。
在體系結構上,Speech-02 主要由三個組件構成:標記器、自回歸 Transformer 以及潛在流匹配模型。與其他使用預訓練說話人編碼器的語音合成模型不同,Speech-02 中的說話人編碼器與自回歸 Transformer 進行聯合訓練。這種聯合優化使得說話人編碼器能夠專門針對語音合成任務進行定制,通過提供更豐富、更相關的說話人特定信息,提升了模型的合成質量。
此外,由于說話人編碼器是可學習的,它可以在訓練數據集中的所有語言上進行訓練。與可能未接觸到同樣多樣語言的預訓練說話人編碼器相比,這種可學習的說話人編碼器確保了更廣泛的語言覆蓋范圍,并有可能增強模型的泛化能力。
這也意味著,Speech-02 具備強大的零樣本學習能力,能夠僅從一個未轉錄的音頻片段中,合成出模仿目標說話人獨特音色和風格的語音。而此番登頂 Arena 榜單,也說明 Speech-02 模型的底層架構代表了?種更先進的下?代?法。或許,這才是 TTS 模型們追求卓越性能與性價比的新解。
創新 Flow-VAE 架構,
給 TTS 模型提供新解法
在 Speech-02 之前,很多 TTS 方法都存在一定的局限性,尤其是在零樣本語音克隆與高保真合成等核心場景中,音頻質量和人聲相似度難以實現最佳效果。比如,傳統 TTS 方法過度依賴轉錄參考音頻,既限制了模型跨語言能力的發揮,也影響了語音合成的表現力。此外,由于生成組件的局限性,很多模型難以平衡音頻質量與說話人相似性。這也是為什么很多 TTS 模型“AI 味”十足,而 Speech-02 的人聲相似度能夠高達 99%。
在架構層面,Speech-02 在 VAE(變分自編碼器)的基礎上,創新性地提出了 Flow-VAE 架構。該架構顯著優于 VAE。其獨特之處在于,引入了一個流匹配模型,能夠通過一系列可逆映射,靈活地轉換潛在空間。這種融合解決方案可謂是“強強聯合”——不僅充分利用了 VAE 對數據的初始建模能力,還借助了流模型對復雜分布的準確擬合能力,使得模型能夠更好地捕捉數據中的復雜結構和分布特征。
據介紹,該流匹配模型采用 Transformer 架構,通過 KL 散度作為約束,對編碼器 - 解碼器模塊進行優化,讓潛在分布變得更加緊湊且易于預測。與之相比,傳統的流匹配模型大都是在“走彎路”:先預測梅爾頻譜圖,再由聲碼器將其轉換為音頻波形。在這個過程中,梅爾頻譜圖很可能會成為信息瓶頸,限制最終語音質量。而 Speech-02 的流匹配模型能直接模擬從音頻訓練的編碼器 - 解碼器模塊中,提取的連續語音特征(潛在特征)分布,類似于“抄近道”,避免了信息瓶頸的問題。
在一些測試集的評估中,Flow-VAE 與 VAE 相比,實現了全面領先。
以聲碼器重合成維度的測試為例,通過比較 Flow-VAE 和 VAE 的波形重建能力,并在多個維度上將合成的音頻與原始音頻進行比較,來計算評估指標。最終結果表明,在所有評估指標上,Flow-VAE 模型相較于 VAE 模型均展現出顯著優勢。
而在 TTS 合成方面,按照 Seed-TTS 的字錯率(WER)和相似度(SIM)評估方法,技術團隊在兩種推理設置下生成了測試數據:零樣本和單樣本。最終測試數據表明,與 VAE 模型相比,Flow-VAE 在字錯率、相似度指標上都具有顯著優勢。
這也解釋了為什么 Speech-02 模型能夠問鼎 Arena 榜首,并且在多個技術指標中把海外頂尖模型甩在身后。從更長遠的視角來看,Speech-02 模型的意義遠不止屠榜,而是通過創新架構解決現有 TTS 方法存在的痛點,重新定義技術邊界。
“更有人味”的 AI 配音,
征途是星辰大海
從 MegaTTS3-Global 到 Spark-TTS,再到 Speech-02,TTS 模型“神仙打架”,各顯神通。這種良性競爭既促進了 TTS 技術的快速迭代,也進一步繁榮了 AI 應用交互生態。目前,TTS 模型正在越來越多的領域中得到廣泛應用,從多個維度提升用戶體驗。
以教育領域為例,TTS 模型不僅能夠讓晦澀難讀的書面教材轉化為活生生的有聲讀物,還能通過音色復刻,為用戶提供可以 24 小時陪練的名人 AI 助手。比如,最近在市場上掀起英語學習熱潮的“吳彥祖帶你學口語” 課程,就是通過音色復刻,實現了 24 小時可定制化 AI 語言陪練系統——“AI 阿祖”。借助 MiniMax 語音大模型和多模態交互系統,“AI 阿祖”完美復刻了吳彥祖的聲音,不僅能糾正用戶發音、修正語法,還能在情景對話中給予真實且富有情感的反饋。
在智能硬件領域,TTS 模型也用“更有人味”的 AI 配音,為各類產品賦予生命力。以玩具為例,很多玩偶是不具備語音功能的,通過 TTS 模型,AI 掛件能夠讓玩偶“開口說話”。被小紅書用戶評為 AI 玩具 Top1 的 Bubble Pal,正是這類對話交互式掛件玩具的代表產品。通過接入 MiniMax 語音模型能力,Bubble Pal 能夠根據兒童喜歡的卡通人物復刻音色,并且高度還原角色音色,讓玩具“活起來”。
而在智能汽車領域,TTS 模型也能通過聯合深度推理模型,為用戶提供千人千面的個性化體驗。以極狐汽車為例,其用 DeepSeek 精準理解用戶意圖,用 MiniMax 語音模型即時響應用戶問答,讓冰冷的座艙更有溫度,能夠和用戶直接用語言進行交流,從而實現更加個性化的體驗。
值得一提的是,早在 3 年前,MiniMax 就開始發力 TTS 賽道,為用戶提供個性化、自然動聽的語音服務。2023 年 11 月,MiniMax 便推出初代語音大模型 abab-speech 系列,支持多角色音頻生成、文本角色分類等功能。通過將語音技術對外開放,MiniMax 成為國內最早采用大模型架構提供語音服務的公司之一。目前,MiniMax 已成功服務全球超 5 萬家企業用戶與個人開發者,包括閱文起點有聲書、高途教育等知名企業。
隨著 TTS 技術不斷進步,我們有理由相信,它將在更多場景中得到應用,為用戶帶來更多便利。甚至,它改寫未來的 AI 應用交互范式,也未可知。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.