網易首頁 > 網易號 > 正文申請入駐

這才是現在最強的AI聲音模型。

2025-05-16 09:11:56　來源: 數字生命卡茲克

天津舉報

分享至

幾個月前，我寫過一篇MiniMax的AI聲音模型。

我說，那就是當時最強的中文AI音頻。數據也有點小爆。

而在去年12月之后，至今將近半年時間，在AI聲音模型這塊，我覺得還是沒有能超越MiniMax的。

直到昨天，我看到 MiniMax在X上發了他們新一代聲音模型的技術報告，Speech-02來了。看來想突破Speech-01的上限，還是得他們自己。

不過就是這數據是真的慘淡，看來大家最近關注的都是Agent、MCP，AI音頻關注的人，是真的少。。。

我大概翻了一下，跑分確實牛逼不少，主要是WER和SIM這兩數據。

兩個維度，左邊是WER，越低越好，代表這個模型講出來的話，有多準確。右邊是SIM，越高越好，代表這個模型講出來的聲音，有多像原聲。

你可以簡單的理解成，左邊看的是AI說的對不對，右邊看的是AI像不像本人。

WER的數據，除了一些歐美的小語種，主流語種幾乎都壓了目前世界公認最被推崇的11Labs一頭，特別是周邊的亞洲國家，日本、越南、泰國，幾乎都是純碾壓姿態，所有語種的WER指標幾乎平均都在1~4之間，很牛逼，他們這是正兒八經在多語種上發力了

而音色相似度上，上一代其實做的沒有11labs好，海外的很多反饋都是聲音沒有11Labs像，但是這一次，實現了全面超越，32個語種，每一個在跑分上都比11Labs要強，我自己實測，也能明顯感覺到，相似度已經比11labs好了。

我又去看了一下AI音頻領域的盲測競技場。

意外的發現。

MiniMax這個新模型。

登頂了。。。

現在，這個新模型， MiniMax Speech-02，已經可以在 MiniMax官網用了，目前只有海外版有聲音克隆，別問我為什么只有海外版有。

網址在此： https://www.hailuo.ai/audio

我隨手用 MiniMax+即夢大師版，搓了一個有趣的郭小綱動畫，給大家直觀的感受一下， MiniMax的 Speech-02有多強。

我就扔了一段不到1分鐘的原聲進去復刻，說實話，這音調，這起伏，這音色，強的有點不像話了。

我第一次聽到的時候，真的感覺真假難分。

不僅郭小綱，還能讓，周小倫，來夸一夸我。

太像了。

你閉著眼睛，你是真的能感覺到，是周董，在你面前揮舞著手臂，用那獨特的強調跟你說，你還挺屌的。

還有之前萬艾爾登法環，預告片里面菈妮的配音我一直很喜歡。

我也讓 MiniMax復刻了一下。

這是上一代Speech-01-hd的效果。

而這是， Speech-02-hd的效果。

我相信，一定能非常輕松的感受到，情緒的差距。

說說咋用。

進入Minimax的Audio官網后，點擊左邊的Voices。

免費用戶，可以免費克隆3個聲音。

我是開了5刀的會員，所以可以創建10個。

點進去以后，直接上傳你的素材，然后正常命名，選素材的主語言就行，超級簡單。

上傳的語音最少上傳10s的音頻片段就可以克隆了，不過這個樣本其實不是特別夠， 所以我一般推薦音頻素材最好在30s左右 ，當然你也可以更長，不過一般不需要超過5分鐘。

然后只需要十幾秒，一個新鮮的聲音模型，就克隆好了。

后續使用的時候，直接在右邊的聲音選擇界面里面找到自己的tab，正常使用就行。

一代的時候，這個聲音模型，只支持12種語言，分別是：

中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。

但是這一次的2代，支持了32種語言。

而且在混合語種上，有更好的效果了。

比如我之前看到一個非常有意思的挑戰。

文字是這樣的：

“皆さん，我在網絡上面看到有someone把三個國家的 language 混在一起去 speak 。我看到之后 be like これは我じゃないか，私も try one try です”。

非常離譜。

我克隆了我自己的聲音，然后去試著念了一下。

這是上一代 Speech-01-hd：

我保證，你聽完以后也不知道它到底念了個啥，我就聽到一個Speak。。。

再來聽聽2代的。

雖然日文那還有一點奇怪，但是，已經是能完整的區分出來念的明明白白的了好吧，這已經是，史詩級進步了。

我又搞了一個更復雜的，小皇四郎。

文本是這樣的：

“媽的，最煩裝逼的人了。剛回國，問他論文咋樣，他說： “我要 restructure 一下 framework。” 我翻了個白眼，結果他又來一句： “Ah non, pas de sucre, merci~” 然后切日語：「これはマジでイラっとするわ?」再來西語：“?Qué pesado! Pero suena perfecto.” 最后還補一句英語：“Seriously. Stop pretending you’re special.” 我都想說：你到底是人，還是 AI？哦，他是 MiniMax Speech two，新模型。”

真的，實在太好玩了。

雖然最后的中文，念的還是冒出了翻譯腔，但是進步已經巨大了。

而且，還有一個超級屌的點是，他們在講故事的場景中，如果你只用一個聲音的話，在一些不同角色那里，它甚至會有不同的音調變化和情緒變化。

這是我的一份故事文稿。

我直接讓 Speech-02-hd一鍵直出，然后我自己稍微剪了下，加了點音效，大家可以聽一聽這個情緒，還有角色的變化。

文稿中標黃的那幾句，大家應該能明顯的聽出來，是刻意壓低了音調，改了情緒。這可不是我處理的，是 MiniMax直出的，這就非常牛逼了。

除了C端產品之外，我看了一眼API，發現，他們已經第一時間把 Speech-02給支持了。

甚至，MCP也弄好了。

現在，你可以在任何Agent產品里，也可以接入這個逼真到爆炸的語音模型了。

我們也可以自豪的說一聲。

之前，中文AI語音，我們做到了世界最強，但是現在，可以把中文去掉了，整體上，我們都已經做到了世界最強。

這是一個被所有人低估的戰場。

大家都在盯著誰做出第一個像人一樣思考的Agent，卻沒看到，那些AI說話的聲音，其實早已變得越來越跟真人無異。

而且，這一次，還是我們做出來的。

在12月份的那邊MiniMax AI音頻的文章中，我在最后寫道：

“也許，這就是屬于中文世界的AI時代的序章。而這一切，才剛剛開始。”

然后就是波浪壯闊的春節。

隨后的故事，大家也都知道了。

一語成箴。

現在的AI世界，再也不是英語的獨角戲了。

我們從配角，走向主角。

然后不僅僅止步于起。

像MiniMax，也用AI，給世界，盡可能的帶來語言平權。

那些過去沒被在意的語言，過去只能在家族里、在小巷里、在廟宇里才能聽到的聲音，現在終于有機會，能被世界聽見了。

AI沒有帶來統治。

反而是把人類的多樣性。

放進了未來。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.