藏師傅很多時(shí)候早上上班和洗澡之前都是聽音樂的,雖然我喜歡看小說(shuō),但之前對(duì)那種 AI 生成的音頻聽書嗤之以鼻。
但是那天無(wú)意間用了一下起點(diǎn)新的聽書功能,發(fā)現(xiàn)居然都這么牛了,前幾天交流發(fā)現(xiàn)他們的語(yǔ)音生成服務(wù)居然是用的 MiniMax 的 Speech 模型,而且就是我最喜歡那個(gè)「說(shuō)書先生」的角色。
最近發(fā)現(xiàn)他們更新的 Speech-02 音頻模型,在Artificial Analysis 的 ELO 評(píng)價(jià)榜單上吊打 Open AI 和 ElevenLabs 一眾海外音頻模型,基本上霸榜了。Hugging Face上,不出意外,也是第一名的成績(jī)。
感興趣也可以看我去年年底對(duì) Speech-01 的測(cè)評(píng)《》
主要升級(jí)內(nèi)容
MiniMax在Github上傳了語(yǔ)音模型的技術(shù)報(bào)告,我也看了一下 Speech-02 的技術(shù)報(bào)告看了一下主要的升級(jí)內(nèi)容和創(chuàng)新點(diǎn)。
這次 Speech-02 最大的創(chuàng)新在于引入了可學(xué)習(xí)的說(shuō)話人編碼器,它能從參考音頻中提取音色特征,無(wú)需音頻轉(zhuǎn)錄。基于這個(gè)就可以實(shí)現(xiàn)很多能力,比如只需要一段十幾秒的語(yǔ)言就能實(shí)現(xiàn)高質(zhì)量的聲音參考能力;
因?yàn)檎f(shuō)話人編碼器捕捉的是與語(yǔ)言無(wú)關(guān)的音色特征,還能實(shí)現(xiàn)將音色遷移到別的語(yǔ)言上,這個(gè)對(duì)于內(nèi)容出海很有幫助;
Speech-02還帶來(lái)了非常高的可擴(kuò)展性,音色可以用在情感控制、文本到音色、專業(yè)語(yǔ)音參考等下游任務(wù),不需要更換模型。
另外,論文里還提到了一個(gè)能力特性我很感興趣。
Speech-02 可以結(jié)合用戶的自然語(yǔ)言描述和結(jié)構(gòu)化標(biāo)簽,用戶可用文本描述生成任意音色。
這個(gè)對(duì)于復(fù)雜的長(zhǎng)文編排太有幫助了,想象一下你聽小說(shuō)的時(shí)候每個(gè)角色的聲音都符合他的人設(shè),代入感直接提高一萬(wàn)倍。
目前,B端客戶可以通過API接口來(lái)測(cè)試體驗(yàn)文生音色功能,個(gè)人用戶還需要再等一等。
模型能力測(cè)試
Speech-02 依舊延續(xù)了 01 的傳統(tǒng)優(yōu)勢(shì),有豐富的預(yù)設(shè)音色選擇,同時(shí)每個(gè)音色還有豐富的情感選項(xiàng),基本上這些已有的音色+情感+其他選項(xiàng)調(diào)節(jié)能夠搞出大部分需要的人設(shè)和音色。
我這里整了個(gè)小活,找了一個(gè)小說(shuō)中的對(duì)話,做了一個(gè)類似游戲的小場(chǎng)景,可以看到還是調(diào)整出來(lái)的還是非常符合人設(shè)的,比如 17 歲來(lái)應(yīng)聘男公關(guān)的聲音和 KTV 故作深沉準(zhǔn)備壓價(jià)的面試官。
是不是看Speech-02 豐富的音色不知道怎么選,這里有個(gè)小竅門,我讓 o3 分析了小說(shuō)人物的性格、對(duì)話內(nèi)容和設(shè)定,給出了詳細(xì)的音色設(shè)置,你要是用的話也可以參考這個(gè)提示詞。
這個(gè)里面第三張圖片是音色,每一個(gè)音色都有圖 1 圖 2這些選項(xiàng),幫我給這幾個(gè)角色找到合適的音色、情感設(shè)置和音色設(shè)置(搭配設(shè)置和音色截圖)
之后是 Speech-02 最基本的準(zhǔn)確率問題,大家聽過 AI 語(yǔ)音的都知道,生僻字讀音和多音字讀音是非常難得事情,有的時(shí)候 AI 讀錯(cuò)了真的很出戲。
我這次直接給了一個(gè)終極難題,搞了一段連貫的,但是包含非常多生僻字和多音字的內(nèi)容,真的里面很多字我都得查拼音。
沒想到 Speech-02 這次居然一個(gè)字都沒錯(cuò),太強(qiáng)了,你可以跟著下面的音頻聽一下。
另外,這代模型語(yǔ)言多樣性也變強(qiáng)了,支持30多個(gè)語(yǔ)種;單語(yǔ)種的情緒、音色多樣性表現(xiàn)在 01 版本的時(shí)候已經(jīng)很強(qiáng)了,這里整個(gè)高難度的多語(yǔ)言混合文案。
里面主體是中文,包含了英語(yǔ)、西班牙語(yǔ)、日語(yǔ)、法語(yǔ)、俄語(yǔ)、德語(yǔ),文案讓 o3 生成的,非常離譜。
沒想到 Speech-02 居然生成的還不錯(cuò),雖然偶爾一兩個(gè)讀音不夠特別標(biāo)準(zhǔn),但已經(jīng)強(qiáng)的沒邊了,讓人在沒準(zhǔn)備的情況下讀估計(jì)能搞定的沒幾個(gè)。
之后就是 Speech-02 的老牌強(qiáng)勢(shì)能力 聲音參考 了。
我這里上傳了我自己的一段語(yǔ)音做了個(gè)自己的聲音模型,然后找了一段自己之前的其他錄音,轉(zhuǎn)成文字之后讓 Speech-02 生成了一下,做了個(gè)對(duì)比。
我找我周圍的同事聽了一遍,他們沒有一個(gè)可以聽出這是生成的聲音,他甚至學(xué)到了我的說(shuō)話停頓節(jié)奏和口癖,還有語(yǔ)氣詞,非常邪門。
下面是兩段話的對(duì)比,你隨便拿出生成的來(lái)問我,我要是不記得的話,自己都?jí)騿苣芊智迨遣皇俏艺f(shuō)的。
另外前面看技術(shù)報(bào)告的時(shí)候發(fā)現(xiàn),現(xiàn)在 Speech-02 聲音和語(yǔ)言是解耦的,也就是說(shuō)可以用經(jīng)過聲音參考后的模型去生成別的語(yǔ)種的音頻。
這里我隨便找了一段英文推特文案讓自己的模型讀了一下,哈哈,真的有我自己讀英語(yǔ)的那個(gè)味道,停頓節(jié)奏、語(yǔ)氣也都能對(duì)上,這下是不是錄視頻的時(shí)候可以用字幕轉(zhuǎn)英文視頻內(nèi)容了。
上面就是這次測(cè)試的全部?jī)?nèi)容了,期待那個(gè)通過提示詞自定義音色的功能早日全量上線,感覺應(yīng)用場(chǎng)景非常廣泛。
音頻內(nèi)容生成一直是AI領(lǐng)域中較被低估的一環(huán),但實(shí)際上它的重要性不可忽視。在日常生活中,我們有相當(dāng)多的時(shí)間只能通過聽覺來(lái)獲取信息;而在視頻創(chuàng)作中,高質(zhì)量的音頻同樣是決定內(nèi)容質(zhì)量的關(guān)鍵因素。
MiniMax敏銳地抓住了這一市場(chǎng)需求,通過持續(xù)迭代已經(jīng)在技術(shù)表現(xiàn)上超越了ElevenLabs和OpenAI等國(guó)際平臺(tái)。與通用LLM不同,高質(zhì)量的中文音頻生成需要深度的本土化研發(fā),這正是我們的技術(shù)發(fā)展優(yōu)勢(shì)所在。
如果你覺得教程對(duì)你有幫助的話可以幫我點(diǎn)個(gè)贊或者喜歡,也可以推薦給你需要的朋友們!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.