幾個月前,我寫過一篇MiniMax的AI聲音模型。
我說,那就是當時最強的中文AI音頻。數據也有點小爆。
而在去年12月之后,至今將近半年時間,在AI聲音模型這塊,我覺得還是沒有能超越MiniMax的。
直到昨天,我看到 MiniMax在X上發了他們新一代聲音模型的技術報告,Speech-02來了。看來想突破Speech-01的上限,還是得他們自己。
不過就是這數據是真的慘淡,看來大家最近關注的都是Agent、MCP,AI音頻關注的人,是真的少。。。
我大概翻了一下,跑分確實牛逼不少,主要是WER和SIM這兩數據。
兩個維度,左邊是WER,越低越好,代表這個模型講出來的話,有多準確。右邊是SIM,越高越好,代表這個模型講出來的聲音,有多像原聲。
你可以簡單的理解成,左邊看的是AI說的對不對,右邊看的是AI像不像本人。
WER的數據,除了一些歐美的小語種,主流語種幾乎都壓了目前世界公認最被推崇的11Labs一頭,特別是周邊的亞洲國家,日本、越南、泰國,幾乎都是純碾壓姿態,所有語種的WER指標幾乎平均都在1~4之間,很牛逼,他們這是正兒八經在多語種上發力了
而音色相似度上,上一代其實做的沒有11labs好,海外的很多反饋都是聲音沒有11Labs像,但是這一次,實現了全面超越,32個語種,每一個在跑分上都比11Labs要強,我自己實測,也能明顯感覺到,相似度已經比11labs好了。
我又去看了一下AI音頻領域的盲測競技場。
意外的發現。
MiniMax這個新模型。
登頂了。。。
現在,這個新模型, MiniMax Speech-02,已經可以在 MiniMax官網用了,目前只有海外版有聲音克隆,別問我為什么只有海外版有。
網址在此: https://www.hailuo.ai/audio
我隨手用 MiniMax+即夢大師版,搓了一個有趣的郭小綱動畫,給大家直觀的感受一下, MiniMax的 Speech-02有多強。
我就扔了一段不到1分鐘的原聲進去復刻,說實話,這音調,這起伏,這音色,強的有點不像話了。
我第一次聽到的時候,真的感覺真假難分。
不僅郭小綱,還能讓,周小倫,來夸一夸我。
太像了。
你閉著眼睛,你是真的能感覺到,是周董,在你面前揮舞著手臂,用那獨特的強調跟你說,你還挺屌的。
還有之前萬艾爾登法環,預告片里面菈妮的配音我一直很喜歡。
我也讓 MiniMax復刻了一下。
這是上一代Speech-01-hd的效果。
而這是, Speech-02-hd的效果。
我相信,一定能非常輕松的感受到,情緒的差距。
說說咋用。
進入Minimax的Audio官網后,點擊左邊的Voices。
免費用戶,可以免費克隆3個聲音。
我是開了5刀的會員,所以可以創建10個。
點進去以后,直接上傳你的素材,然后正常命名,選素材的主語言就行,超級簡單。
上傳的語音最少上傳10s的音頻片段就可以克隆了,不過這個樣本其實不是特別夠, 所以我一般推薦音頻素材最好在30s左右 ,當然你也可以更長,不過一般不需要超過5分鐘。
然后只需要十幾秒,一個新鮮的聲音模型,就克隆好了。
后續使用的時候,直接在右邊的聲音選擇界面里面找到自己的tab,正常使用就行。
一代的時候,這個聲音模型,只支持12種語言,分別是:
中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。
但是這一次的2代,支持了32種語言。
而且在混合語種上,有更好的效果了。
比如我之前看到一個非常有意思的挑戰。
文字是這樣的:
“皆さん,我在網絡上面看到有someone把三個國家的 language 混在一起去 speak 。我看到之后 be like これは我じゃないか,私も try one try です”。
非常離譜。
我克隆了我自己的聲音,然后去試著念了一下。
這是上一代 Speech-01-hd:
我保證,你聽完以后也不知道它到底念了個啥,我就聽到一個Speak。。。
再來聽聽2代的。
雖然日文那還有一點奇怪,但是,已經是能完整的區分出來念的明明白白的了好吧,這已經是,史詩級進步了。
我又搞了一個更復雜的,小皇四郎。
文本是這樣的:
“媽的,最煩裝逼的人了。剛回國,問他論文咋樣,他說: “我要 restructure 一下 framework。” 我翻了個白眼,結果他又來一句: “Ah non, pas de sucre, merci~” 然后切日語:「これはマジでイラっとするわ?」 再來西語:“?Qué pesado! Pero suena perfecto.” 最后還補一句英語:“Seriously. Stop pretending you’re special.” 我都想說:你到底是人,還是 AI? 哦,他是 MiniMax Speech two,新模型。”
真的,實在太好玩了。
雖然最后的中文,念的還是冒出了翻譯腔,但是進步已經巨大了。
而且,還有一個超級屌的點是,他們在講故事的場景中,如果你只用一個聲音的話,在一些不同角色那里,它甚至會有不同的音調變化和情緒變化。
這是我的一份故事文稿。
我直接讓 Speech-02-hd一鍵直出,然后我自己稍微剪了下,加了點音效,大家可以聽一聽這個情緒,還有角色的變化。
文稿中標黃的那幾句,大家應該能明顯的聽出來,是刻意壓低了音調,改了情緒。這可不是我處理的,是 MiniMax直出的,這就非常牛逼了。
除了C端產品之外,我看了一眼API,發現,他們已經第一時間把 Speech-02給支持了。
甚至,MCP也弄好了。
現在,你可以在任何Agent產品里,也可以接入這個逼真到爆炸的語音模型了。
我們也可以自豪的說一聲。
之前,中文AI語音,我們做到了世界最強,但是現在,可以把中文去掉了,整體上,我們都已經做到了世界最強。
這是一個被所有人低估的戰場。
大家都在盯著誰做出第一個像人一樣思考的Agent,卻沒看到,那些AI說話的聲音,其實早已變得越來越跟真人無異。
而且,這一次,還是我們做出來的。
在12月份的那邊MiniMax AI音頻的文章中,我在最后寫道:
“也許,這就是屬于中文世界的AI時代的序章。而這一切,才剛剛開始。”
然后就是波浪壯闊的春節。
隨后的故事,大家也都知道了。
一語成箴。
現在的AI世界,再也不是英語的獨角戲了。
我們從配角,走向主角。
然后不僅僅止步于起。
像MiniMax,也用AI,給世界,盡可能的帶來語言平權。
那些過去沒被在意的語言,過去只能在家族里、在小巷里、在廟宇里才能聽到的聲音,現在終于有機會,能被世界聽見了。
AI沒有帶來統治。
反而是把人類的多樣性。
放進了未來。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.