網易首頁 > 網易號 > 正文申請入駐

斬獲全球SOTA，競技場雙榜登頂！這款國產語音模型憑什么？

2025-05-16 13:04:49　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

國產模型又斬獲多項SOTA！

智東西5月16日報道，近日，上海大模型獨角獸MiniMax旗下的Speech-02語音模型，在兩項全球權威語音基準測評榜單中拔得頭籌，力壓OpenAI、AI語音明星創企ElevenLabs旗下的所有語音模型。

▲左為Artificial Analysis Speech Arena榜單，右為Hugging Face TTS Arena

Speech-02不僅在WER（字錯率）、SIM（相似度）等硬性指標上實現了與真人無異、甚至更好的SOTA表現，還通過數據、架構層面的創新，實現了超強的泛化能力，支持30+種語種、不同口音、不同情緒的個性化定制。

此外，Speech-02每百萬字符輸出價格為50美元，價格低至ElevenLabs的1/4，實現了性能與成本的平衡，進一步加速了相關技術的商業化落地。

目前，以Speech-02為代表的多款MiniMax語音交互模型，已經收獲多家行業頭部企業和新銳創企的選用，商業化進展迅猛。在AI語音交互這一前景廣闊的技術領域中，MiniMax已率先驗證了技術到應用的高效轉化路徑。

一、語音交互技術加速滲透，“MiniMax方案”廣受認可

近年來，語音模型技術從實驗室走向規模化應用，在語音助手、有聲內容創作、智能教育等多個領域催生出一批成功案例。

觀察行業頭部企業的實踐，我們可以發現，準確率早已不是語音技術的唯一競爭點，個性化、情感化的交互體驗正成為新標準。

在教育科技領域，龍頭企業高途利用新一代語音技術，打造了可定制化的AI語言陪練系統“吳彥祖24小時伴學”，使“AI阿祖”成為現象級教育IP，驗證了AI語音在教育場景的落地潛力。

無獨有偶，國內老牌數字閱讀企業閱文旗下的起點讀書，選擇在在有聲書場景打造定制化音色，并取得了用戶的廣泛好評。

值得注意的是，這些領軍企業在突破語音交互技術瓶頸時，都不約而同地選擇了同一家技術伙伴——MiniMax，并由此取得了顯著成效。

MiniMax語音技術不僅僅局限于上述相對成熟的場景，還賦能了眾多創新企業，通過定制化解決方案，幫助中小團隊快速實現語音交互產品的商業化落地。

今年年初，在有“消費電子風向標”之稱的CES展會上，一大批新銳創企打造的陪伴類AI硬件迎來潑天流量，其中，躍然創新推出的AI語音掛件BubblePal爆火出圈。

通過接入MiniMax的語音模型，這一小掛件能使普通毛絨玩具具備自然對話能力，還可以根據兒童喜歡的卡通人物復刻音色，高度還原角色音色，讓孩子與卡通人物沉浸對話。

蟬魔方數據顯示，在發布后的短短半年間，BubblePal的銷量在2.5-5萬之間，總銷售額超過1000萬元。截至25年3月，該產品在抖音單平臺的銷售額已經超過2000萬元。

愛小伴AI玩伴機器人同樣在CES大會上亮相。通過MiniMax的語音生成技術，愛小伴打造了“會說話的AI奶龍”，精準還原了國民IP“奶龍”的標志性聲線，不僅能與用戶進行生動互動交流，還能聲情并茂地講述故事，真正實現“寓教于陪”的創新體驗。

MiniMax語音技術支撐BubblePal、AI奶龍們實現高度擬人化、千人千面的制勝策略。該技術不僅適用于陪伴類AI硬件，也能在AI教育硬件、智能座艙等更廣闊的硬件類型上獲得成功。

這類具備強交互、定制化體驗的AI硬件，切中了消費者對于智能交互類產品日益增長的需求。

已有11年AI教育行業經驗的聽力熊團隊，選擇在其AI教育硬件上接入MiniMax語音模型能力。在基礎的語音交互和知識問答之外，MiniMax語音模型可以給用戶適當的反饋與情感表達，從而豐富學習互動體驗。

智能座艙作為未來汽車交互的核心場景，對高擬真和低延遲提出了嚴格要求，以滿足用戶對沉浸式體驗和實時反饋的需求。北汽集團極狐汽車已在其座艙中搭載了多款MiniMax大模型，給用戶提供及時響應的問答。

從有聲書到AI教育，再到智能硬件，MiniMax究竟憑借什么取得行業頭部企業和新銳創企等B端客戶的青睞？在MiniMax今年5月發布的Speech-02模型技術報告中，我們或許能找到答案。

二、技術報告全公開，Speech-02靠什么取勝？

給智能硬件們裝上“AI聲帶”的Speech-02模型屬于TTS（文本轉語音）模型。TTS模型存在多條技術路徑，其中最重要的分野之一是自回歸與非自回歸架構的選擇。

自回歸（AR）模型需要逐個順序生成輸出，每一步的生成依賴之前所有步驟的輸出，就像是“邊想邊說”。

非自回歸模型并行生成所有輸出，一次性生成所有語音幀，主要參考輸入文本，就像是“照稿念”。

Speech-02選擇的是前一條技術路線。盡管非自回歸模型在推理速度上天然具備優勢，但自回歸模型能提供更高的準確率、相似度，總體用戶體驗更佳。

在自回歸Transformer架構基礎上，Speech-02創新性地采用了“會學習的音色提取器”，本質上是一個人聲編碼器（speaker encoder）能夠將任意長度的音頻片段轉化為固定尺寸的條件向量，從而實現高質量、靈活的聲音表達，這也是Speech-02“零樣本”復刻人聲能力的關鍵。

不同于其他系統使用的預訓練人聲編碼器，Speech-02的這一模塊是和語音合成模塊一起訓練的，因此更貼合聲音合成任務的需求，能更精準捕捉音色、語調等特征，還解鎖了模型自學多語言的能力。

6826c4f124194_6826c4f12410a_中文、西班牙語、意大利語混說

原文：你們有沒有過那種 momento en que 簡單的快樂讓你覺得 la vida es bella？對了，我昨天看了一部電影，里面說 “el destino no es una cuestión de casualidad” —— 命運不是偶然的問題。這讓我 pensare molto 關于我們每天做的選擇。對應翻譯：你有沒有過那樣一個瞬間，簡單的快樂讓你覺得生活多美好？對了，我昨天看了一部電影，里面說 “命運不是偶然的問題”，這讓我不禁思考我們每天做的選擇。

Speech-02的另一大創新是Flow-VAE模型。許多語音模型采用的傳統VAE（變分自編碼器）存在“一刀切”的問題，對復雜數據的建模效果一般。

而Flow（流模型）的加入讓語音模型能學會更自然、更多樣的音頻細節特征，提升最終的生成效果。以下方案例中的“脫口秀表演”為例，這段聲音情緒飽滿，起伏、變化自然，感染力較強。

6826c5379f34d_6826c5379f302_華人脫口秀-1

MiniMax在語音模型基礎架構的創新，讓Speech-02擁有了實現定制化的語音交互體驗的“三板斧”。

第一是情感控制，系統可使用獨立訓練的小型Lora模塊來精確調節輸出語音的情感，比如高興或悲傷，同時保留原說話者的聲音特征。

第二是文生音功能，用戶可以用語言描述想要的音色特點，系統會結合結構化參數生成符合要求的語音，還可以進行情緒控制，如同用文字描述對聲音進行“ps”。

第三是專業級聲音參考（PVC），只需少量樣本就能提取說話者的核心特征，生成高度相似的聲音，且每個克隆只需存儲極少數據。在智東西的實測中，下方的埃隆·馬斯克聲音就僅僅使用了一段20秒的音頻作為參考。

https://oss.zhidx.com/3bc512db6cef018ad9106f3a499b5bfb/68260f80/uploads/2025/05/6826c4e48bffe_6826c4e487ae0_6826c4e487ab8_Elon-Musk-1.mp3三、AI語音賽道卷出新高度，或開啟硬件與內容革命

語音作為人類最自然的交互方式，能顯著提升AI應用的溝通效率。同時，語音承載的語調、語速等情感要素若被AI精準模擬，將使交互更生動自然，賦予機器擬人化的溫度，大幅縮短人機距離感。

語音模型市場的前景十分廣闊。咨詢機構德勤的數據顯示，受益于成熟技術、政府/資本扶持以及智能化市場需求，中國智能語音市場規模將進一步增長，預計2030年市場總規模將達到1452億元，消費級應用場景超過710億元，企業級場景將達到740億規模。

已有許多企業看到了語音入口的重要價值，并開啟了相關布局。OpenAI的相關技術主打上下文感知、對話交互；ElevenLabs關注擬真度與情感表達；Meta、谷歌這兩家巨頭則將重心放在了多語言覆蓋等領域。

位居兩大權威測評榜單榜首的MiniMax，則憑借Speech-02與各大語音模型玩家們正面交鋒。Speech-02既具備自然流暢的對話能力，也可以表達豐富的情感，還通過架構創新實現了多語音的良好支持。

在當下語音模型的競爭格局中，MiniMax有自己獨立的思考。MiniMax從最初做Talkie和星野等產品時起，就意識到讓用戶擁有個性化的語音體驗對于智能交互的重要性。

MiniMax將語音技術對外開放，也成為了國內最早用大模型架構提供語音服務的公司。

本次Speech-02的登頂證明了MiniMax語音技術的技術領先性，而他們更是利用這一技術優勢布局下游應用場景，加速產品和服務在下游市場的滲透率。

今年2月，MiniMax與多家智能硬件企業牽頭成立了“MiniMax智能硬件產業創新聯盟”，該聯盟有望進一步擴展MiniMax語音技術在B端市場的發展前景。

以Speech-02為代表的MiniMax語音模型，有望與新硬件形態深度融合，加速催生以AI眼鏡為代表的新一代智能交互設備。

從宏觀角度上來看，這類新硬件形態需要便捷、個性化的語音交互體驗，才能最大化其作為下一代智能終端的潛力。

而語音技術的突破，也依賴于AI眼鏡等新型硬件提供的真實場景和數據反饋，從而持續優化算法與用戶體驗。二者相互促進，形成了技術迭代的正向循環。

展望未來，MiniMax的新一代語音技術還有可能在內容行業引發創作方式與交互體驗的變革，讓更多人能創造屬于自己的音頻與多模態內容，推動內容創作的普惠化。

例如，游戲開發者可通過語音模型，實現NPC對話的批量生成，將原本需要數月錄制的語音工程縮短至數天完成，降低開發成本；或是通過對話的實時生成，提供獨一無二的游戲體驗。

在播客行業，新一代語音技術的突破有望拓展個人創作者的能力邊界，讓他們能夠獨立完成原本需要專業團隊協作的廣播劇和敘事類播客制作，大幅降低制作門檻和成本，使高質量的播客創作不再是專業工作室的專利。

同時，播客的收聽體驗也因語音技術迎來升級。國內頭部播客平臺小宇宙已經利用MiniMax的語音技術，內測了外語播客一鍵轉中文收聽功能。

結語：個性化語音交互鳴槍起跑，MiniMax搶占領先身位

未來，隨著AI Agent和多模態交互的爆發，高度個性化、擬人化，具備強大情感表現力的語音技術，將成為突破用戶體驗的關鍵。

憑借長期的技術積累和Speech-02這一SOTA級模型的發布，MiniMax已在這一賽道上占據了領先身位。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.