網易首頁 > 網易號 > 正文申請入駐

超越OpenAI、ElevenLabs，MiniMax新一代語音模型屠榜！

2025-05-15 15:52:19　來源: 機器之心Pro

北京舉報

分享至

國產大模型進步的速度早已大大超出了人們的預期。年初 DeepSeek-R1 爆火，以超低的成本實現了部分超越 OpenAI o1 的表現，一定程度上讓人不再過度「迷信」國外大模型。

如今，在語音 AI 領域，國產大模型第一梯隊的重量級選手 MiniMax 又拋下了一顆「重磅炸彈」。

我們看到，其全新一代 TTS 語音大模型「Speech-02」在國際權威語音評測榜單 Artificial Analysis 上強勢登頂，一舉擊敗了 OpenAI、ElevenLabs 兩大行業巨頭！

其中，在字錯率（WER，越低越好）和說話人相似度（SIM，越高越好）等關鍵語音克隆指標上均取得 SOTA 結果。

圖源：Artificial Analysis Speech Arena Leaderboard

這項成績直接震驚國外網友，他們紛紛表示：「MiniMax 將成為音頻領域的破局者。」

知名博主 AK 也轉推了這個新語音模型：

性能更強之外，Speech-02 還極具性價比，成本僅為 ElevenLabs 競品模型（multilingual_v2）的 1/4。

Speech-02 的登頂，再次展現出了國產大模型超越國外頂級競爭對手的技術實力與底蘊。

那么，Speech-02 究竟有哪些魔力才取得了這樣亮眼的成績。隨著本周技術報告的公布，我們對模型背后的技術展開了一番深挖。

屠榜背后 MiniMax 做了哪些技術創新？

當前，主流的文本轉語音（TTS）模型在建模策略上主要分為兩類，即自回歸（ AR）語言模型和非自回歸（NAR）擴散模型，兩者在建模難度、推理速度、合成質量等方面各有其優劣勢。

其中，非自回歸模型有點類似于批量生產，生成速度很快，就像一家快餐店出餐快但口味普通，生成的語音不夠生動、逼真。

自回歸模型可以生成韻律、語調和整體自然度等多個方面更好的語音。不過，這類模型在語音克隆過程中需要參考語音和轉錄文本作為提示詞，就像高級餐廳味道好但需要顧客提供詳細食譜才能復刻菜品一樣。這種單樣本（one-shot）學習范式往往導致生成質量不佳。

作為一個采用自回歸 Transformer 架構的 TTS 模型，Speech-02 的強大源于兩大技術上的創新：

一是實現了真正意義上的零樣本（zero-shot）語音克隆。所謂零樣本，就是給定一段參考語音，無需提供文本，模型很快就可以生成高度相似的目標語音。

二是全新的 Flow-VAE 架構，既增強了語音生成過程中的信息表征能力，又進一步提升了合成語音的整體質量和相似度。

零樣本語音克隆

首先，Speech-02 引入了一個可學習的 speaker 編碼器，該編碼器會專門學習對合成語音最有用的聲音特征，比如更關注說話人的獨特發音習慣，而不是無關的背景噪音。

正是在此模式下，Speech-02 只需要聽一段目標說話人的聲音片段（幾秒即可），就能模仿出這個人的音色、語調、節奏等特征，不會有機器人念稿的那種割裂感。而且整個過程是零樣本的，不需要額外訓練或調整。

這就為語音合成技術節省了大量寶貴時間，我們不難發現，傳統方法需要大量數據，比如先錄制 1 小時的聲音。此外，數據的多樣性也是一個問題，模型需要能夠處理不同國家、年齡、性別等說話人信息。而 Speech-02 完全克服了這些挑戰，直接聽音學樣，且一聽就是你。

此外，MiniMax 還提出了可選增強功能，即單樣本語音克隆。在此設置下，需要提供一個文本 - 音頻配對樣本作為上下文提示，從而指導語音合成。

Flow-VAE 架構

MiniMax 還提出了用于生成連續語音特征的關鍵組件，即基于 Flow-VAE 架構的流匹配模型。從而進一步提升了音頻質量，使得生成的音頻更加接近真人。

在 Speech-02 中，流匹配模型旨在模擬連續語音特征（潛在）的分布，這些特征是從音頻訓練的編碼器 - 解碼器模塊架構中提取的，而不是梅爾頻譜圖。

通常來講，傳統的 VAE 假設其潛在空間服從簡單的標準高斯分布，相比之下，Flow-VAE 引入了一個流模型，該模型可以靈活地使用一系列可逆映射來變換潛在空間，從而更準確地捕捉數據中的復雜模式。

更進一步，MiniMax 還搞了個雙保險設計，即將全局音色信息和提示信息結合起來。具體而言，Speaker 編碼器會從聲音中提取全局音色特征 —— 就像提取一個人的「聲音 DNA」。訓練時，當前句子開頭的信息會以一定的概率被用作提示。因此在推理階段，模型支持零樣本和單樣本合成模式。

可以說，經過一系列操作，Speech-02 不僅可以模仿聲音的「形」，還能復現聲音的「神」。

正是基于這些強有力的技術支撐，才使得 Speech-02 一舉超越 OpenAI、ElevenLabs 等競品模型。

文生音色

現有的 TTS 方法生成所需音色的語音需要提供該特定音色的參考音頻樣本，這一要求可能會限制其操作靈活性。

相比之下，MiniMax引入了一個 T2V 框架，該框架獨特地將開放式自然語言描述與結構化標簽信息相結合。作為參考音頻驅動的speaker編碼器（擅長克隆現有語音）的補充，該方法促進了高度靈活且可控的音色生成，從而顯著增強了 TTS 系統的多功能性。

這里，我們聽個Demo，聲音描述：說中文的女青年，音色偏甜美，語速比較快，說話時帶著一種輕快的感覺整體音調較高，像是在直播帶貨，整體氛圍比較活躍，聲音清晰，聽起來很有親和力。

親愛的寶寶們，等了好久的神仙面霜終于到貨啦！你們看這個包裝是不是超級精致？我自己已經用了一個月了，效果真的絕絕子！而且這次活動價真的太劃算了，錯過真的會后悔的哦～

多指標趕超競品模型

試聽鏈接：https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

語音克隆保真度、多語言與跨語言語音合成等多個關鍵維度的綜合評估結果，有力驗證了 Speech-02 的「含金量」。

首先來看語音克隆保真度指標，從下表可以看到，與 Seed-TTS、CosyVoice 2 和真實音頻相比，Speech-02 在中英文的零樣本語音克隆中均實現了更低的 WER，表明其發音錯誤率更低且更清晰穩定。

此外，零樣本語音克隆的 WER 表現也顯著優于單樣本。并且根據聽眾的主觀評價反饋，零樣本克隆合成的語音聽起來更自然、真實。

在多語言方面，Speech-02著重與ElevenLabs的multilingual_v2模型進行對比，兩者均采用零樣本克隆來生成語音。

在 WER 方面，Speech-02與multilingual_v2表現相當。在中文、粵語、泰語、越南語、日語等幾種語言上，multilingual_v2的WER均超過了10%，而 Speech-02 的表現明顯更優。這意味著，在捕捉并復現這些具有復雜聲調系統或豐富音素庫的語言時，multilingual_v2 處于絕對劣勢。

在 SIM 方面，Speech-02 在所有 24 種測試語言中均顯著優于 multilingual_v2，無論目標語言的音系特征如何，前者生成的克隆語音更接近真人原始聲音。

在跨語言方面，下表多語言測試結果展示了零樣本語音克隆下更低的 WER，證明 Speech-02 引入的 speaker 編碼器架構的優越性，可以做到「一個語音音色」支持其他更多目標語言并且理解起來也較容易。

更多技術與實驗的細節，大家可以參閱原技術報告。

技術報告地址：https://minimax-ai.github.io/tts_tech_report/

實戰效果如何？

我們上手進行了一些實測，發現可以用三個關鍵詞來總結 Speech-02 的亮點 —— 超擬人、個性化、多樣性，在這些層面迎來脫胎換骨的升級。

第一，超擬人。

Speech-02 預置了極其豐富（數以百計）的多語言聲音庫，每一個都有其獨特的音色和情感語調。

從合成音效來看，Speech-02 的相似度和表現力非常出色，情緒表達到位，音色、口音、停頓、韻律等也與真人無異。錯誤率上比真人更低，也更穩定。

我們用柔和低語的女聲來朗誦莎士比亞《哈姆雷特》中的經典獨白 ——To be, or not to be 片段，是不是很催眠呢？

試聽鏈接：https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

第二，個性化。

核心是「聲音參考」（Voice Clone）功能，只需提供一段示范音頻或者直接對著模型說幾句話，模型就可以學會這種聲音，并用這個聲音來演繹內容。目前該功能只在海外網頁版上線，國內僅對 B 端用戶開放。

從行業來看，其他頭部語音模型只能提供少數幾個精品音色的控制。而 Speech-02 通過聲音參考功能可以靈活控制任意給定聲音，提供了更多選擇和更大自由度。

小編試著錄制了一段自己的聲音，十幾秒后就得到了專屬的 AI 克隆語音。

試聽鏈接：https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

接著上傳了蘇軾的名篇《江城子?乙卯正月二十日夜記夢》，這是一首他寫給已故妻子的悼亡詞。由于 Speech-02 可以對音色進一步進行情緒控制，這里選擇了悲傷「sad」，并調慢了語速。

除了悲傷之外，Speech-02 還有快樂、生氣、恐懼、厭惡、驚訝、中立其他情緒可選。

最終的效果是這樣的，節奏舒緩、情感也比較充沛：

試聽鏈接：https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

總結一波，Speech-02 的「個性化」有以下三點關鍵影響：

促成了業內首個實現「任意音色、靈活控制」的模型；
讓每一個音色都能有好的自然度和情感表現力；
用戶就是導演，音色就是演員。用戶可以根據自己想要的效果用文字來指導演員表演。

第三，多樣性。

Speech-02 支持 32 種語言，并尤為擅長中英、粵語、葡萄牙語、法語等語種。

下面來聽一段融合了中文、英語和日語的長段落，讀起來一氣呵成：

昨天我去參加了一個國際會議，遇到了很多 interesting people from all around the world. 有一位日本代表和我分享了他們的新技術，他說「私たちの新しい技術は市場を変革するでしょう」，這確實令人印象深刻。之后我們去了附近的餐廳，服務員問我們 '?Qué les gustaría ordenar para cenar?'，我只好笑著用英語回答 'Sorry, I don't speak Spanish, but I'd love to try your signature dish'。
這種跨文化交流的體驗 really makes you appreciate the diversity of our world，不是嗎？下次我一定要多學習幾句常用的外語 phrases，這樣交流起來會更加 smooth and natural.

對于同一段音頻，Speech-02 也可以輕松切換不同語言。我們將上面蘇軾的《江城子》切換成了粵語：

試聽鏈接：https://mp.weixin.qq.com/s/tZ3y4n-aMq5dFC2OmbWZpg

隨著高質量、多維度語音能力的極致釋放，Speech-02 一躍成為了「全球首個真正實現多樣化、個性化定義的語音模型」。

這將進一步推動語音 AI 走向千人千面的智能交互體驗，為 MiniMax 在「AI 人格化」的技術與應用浪潮中搶占先機。

體驗地址：https://www.minimax.io/audio/text-to-speech

技術領先只是第一步能落地才能發揮價值

作為一家成立于 2021 年的大模型廠商，MiniMax 從創立之初即聚焦面向 C 端和 B 端的 AI 產品，強調「模型即產品」理念，其文本模型、語音模型與視頻模型已經形成了一條完整的產品鏈，比如海螺 AI。

在語音大模型領域，MiniMax 在深耕底層技術的同時，持續探索語音助手、聲聊唱聊、配音等不同場景的落地方案，推動智能語音內容創作向更高效、更個性化、更情感化演進；同時接入 MiniMax 語音大模型的 AI 硬件逐漸增多，并擴展到兒童玩具、教育學習機、汽車智能座艙、機器人等賽道，加速商業化進程。

MiniMax 正依托其語音大模型，聯合行業上下游構建更豐富、更垂直的智能交互生態。過程中也向外界透露出這樣一種跡象：語音大模型技術正迎來從技術成熟走向規模應用的關鍵拐點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.