網易首頁 > 網易號 > 正文申請入駐

語音合成開發不再難！Muyan-TTS開源模型，小團隊也能快速迭代

2025-05-11 18:04:19　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

TTS（Text-to-speech）并不是AI領域最在聚光燈下的技術，但對應用開發者極為實用，并在過去一年取得了長足的技術進步。不過在音頻產品的開發進程中，盡管存在部分表現出色的開源TTS模型，然而這些模型并非完全開源，并且對二次訓練和開發存在一定的阻礙。

由此研究團隊設計并研發Muyan-TTS，一款低成本、具備良好二次開發支持的模型并完全開源，以方便學術界和小型應用團隊的音頻技術愛好者。

當前開源的Muyan-TTS版本由于訓練數據規模有限，致使其僅對英語語種呈現出良好的支持效果。不過，得益于與之同步開源的詳盡訓練方法，從事相關行業的開發者能夠依據自身實際業務場景，靈活地對Muyan-TTS進行功能升級與定制化改造。Muyan-TTS已上線始智AI-wisemodel開源社區，歡迎大家前去體驗。

模型地址

https://www.wisemodel.cn/models/MYZY-AI/Muyan-TTS

01.

Highlights

1. 開源了兩個模型：1）在多樣化長音頻數據集上預訓練的基礎模型，能實現零樣本TTS合成；2）在單一說話人上進行監督微調（SFT）的模型，以此提升TTS性能。

2. 提供了詳細的訓練方法：提供了從base模型在單一speaker語音數據上微調得到SFT模型的訓練方法，也開源了全部的訓練代碼，以滿足開發者對于更深層研究的需求。

3. 提供了優化推理效率的框架：我們開發了一個加速的TTS推理框架，尤其優化LLM組件，能夠更快速、更高效生成語音。

4. 英語上具有良好性能的同時推理效率極高：每1s語音生成僅需0.33秒推理時間，為所有開源模型中最快。同時詞錯率、語音質量評分都處于開源模型的一線水平。

02.

模型設計

Muyan-TTS在建模架構上，延續了GPT-SoVITS的兩階段結構，并作出如下調整：

語言模型部分以Llama-3.2-3B為backbone繼續預訓練，具備更強的語義建模能力。

解碼器部分使用 SoVITS 架構，在大規模高質量長音頻數據上進行了微調，提高合成音頻表現力與保真度的同時，也保持了穩定性并削弱了因LLM所帶來的幻覺。

這樣的模型設計在保證合成質量的同時，兼顧了個性化能力和運行效率，適配多種音頻內容形式，如主持人旁白、訪談復刻、語音摘要等。

03.

面向長音頻的數據處理

為了優化Muyan-TTS在長音頻生成場景下的表現，我們構建了超過10萬小時的高質量語音及對應轉錄的訓練語料。數據處理采用三階段流程：

收集與轉錄：結合開源數據集與自建數據源采集，基于最大化覆蓋說話人數和語言的差異性的目標，每個音頻被分割成1分鐘的片段均勻采樣，收集了超過15萬小時的原始數據并使用Whisper和Fun ASR進行轉錄；

音頻清洗：引入MSS、DeReverb、DeEcho、Denoise、NeMo等模塊，僅保留人聲軌道、單speaker、過濾背景噪聲與混響、進一步提升語音的清晰度和可理解性；

質量過濾：使用 NISQA 評估每段音頻的MOS分數，僅保留MOS>3.8內容。

最終數據集通過 NVIDIA A10 機器完成預處理，總清洗時長約為 60,000 GPU小時。

04.

訓練策略與資源成本

我們的訓練分為三個階段：

階段一：基于清洗的語音-文本平行語料繼續預訓練大語言模型，獲取zero-shot TTS的能力。在80張A100組成的計算集群上訓練了約10天。

階段二：在單一speaker數據上基于base模型SFT，提升特定聲音的合成效果。訓練成本相比預訓練可以忽略不計。

階段三：SoVITS解碼器微調，對高質量長音頻片段（MOS>4.5）進行專向訓練，強化語音自然度與清晰度。

整個訓練過程消耗的資源與成本如下：

05.

實驗評測

推理優化與部署適配

針對LLM在推理端的高延遲痛點，Muyan-TTS構建了一套系統性優化方案：一方面，深度集成vLLM推理引擎，充分釋放大語言模型的并行計算潛力，顯著提升推理效率；另一方面，創新引入動態句長切分與批量處理合成技術，有效減少資源等待時間，增強處理靈活性。

經實測驗證，在非流式推理模式下，Muyan-TTS的語音合成效率表現卓越——平均每生成1秒語音僅需0.33秒推理時間，相比同類開源TTS模型具有顯著性能優勢，為實時語音交互場景提供了更高效的解決方案。

性能對比

在LibriSpeech和SEED兩大標準評測集上，我們評估了Muyan-TTS與主流開源TTS模型的性能表現，主要指標涵蓋詞錯率（WER）、語音質量評分（MOS）與說話人相似度（SIM）：

同時，在微調（SFT）后，Muyan-TTS在語音質量（MOS）與個性化能力（SIM）方面進一步提升，適配小規模個人語音數據集的聲音定制。

生成示例

Base Model

SFT Model

我們相信就像《her》中的Samantha，語音會成為人和AI交互的核心方式，并使每個人都能擁有隨時可交流的AI朋友。

Muyan-TTS只是我們在語音技術上一個非常微小的嘗試，無論是模型結構、數據制備和訓練方法都還有很大的改良空間，我們也期待對語音技術有愛好、愿意深度研究TTS和實時語音交互等領域的朋友能夠一起加入這個行列。

編輯：成蘊年

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高?？蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.