始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
TTS(Text-to-speech)并不是AI領域最在聚光燈下的技術,但對應用開發者極為實用,并在過去一年取得了長足的技術進步。不過在音頻產品的開發進程中,盡管存在部分表現出色的開源TTS模型,然而這些模型并非完全開源,并且對二次訓練和開發存在一定的阻礙。
由此研究團隊設計并研發Muyan-TTS,一款低成本、具備良好二次開發支持的模型并完全開源,以方便學術界和小型應用團隊的音頻技術愛好者。
當前開源的Muyan-TTS版本由于訓練數據規模有限,致使其僅對英語語種呈現出良好的支持效果。不過,得益于與之同步開源的詳盡訓練方法,從事相關行業的開發者能夠依據自身實際業務場景,靈活地對Muyan-TTS進行功能升級與定制化改造。Muyan-TTS已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。
模型地址
https://www.wisemodel.cn/models/MYZY-AI/Muyan-TTS
01.
Highlights
1. 開源了兩個模型:1)在多樣化長音頻數據集上預訓練的基礎模型,能實現零樣本TTS合成;2)在單一說話人上進行監督微調(SFT)的模型,以此提升TTS性能。
2. 提供了詳細的訓練方法:提供了從base模型在單一speaker語音數據上微調得到SFT模型的訓練方法,也開源了全部的訓練代碼,以滿足開發者對于更深層研究的需求。
3. 提供了優化推理效率的框架:我們開發了一個加速的TTS推理框架,尤其優化LLM組件,能夠更快速、更高效生成語音。
4. 英語上具有良好性能的同時推理效率極高:每1s語音生成僅需0.33秒推理時間,為所有開源模型中最快。同時詞錯率、語音質量評分都處于開源模型的一線水平。
02.
模型設計
Muyan-TTS在建模架構上,延續了GPT-SoVITS的兩階段結構,并作出如下調整:
語言模型部分以Llama-3.2-3B為backbone繼續預訓練,具備更強的語義建模能力。
解碼器部分使用 SoVITS 架構,在大規模高質量長音頻數據上進行了微調,提高合成音頻表現力與保真度的同時,也保持了穩定性并削弱了因LLM所帶來的幻覺。
這樣的模型設計在保證合成質量的同時,兼顧了個性化能力和運行效率,適配多種音頻內容形式,如主持人旁白、訪談復刻、語音摘要等。
03.
面向長音頻的數據處理
為了優化Muyan-TTS在長音頻生成場景下的表現,我們構建了超過10萬小時的高質量語音及對應轉錄的訓練語料。數據處理采用三階段流程:
收集與轉錄:結合開源數據集與自建數據源采集,基于最大化覆蓋說話人數和語言的差異性的目標,每個音頻被分割成1分鐘的片段均勻采樣,收集了超過15萬小時的原始數據并使用Whisper和Fun ASR進行轉錄;
音頻清洗:引入MSS、DeReverb、DeEcho、Denoise、NeMo等模塊,僅保留人聲軌道、單speaker、過濾背景噪聲與混響、進一步提升語音的清晰度和可理解性;
質量過濾:使用 NISQA 評估每段音頻的MOS分數,僅保留MOS>3.8內容。
最終數據集通過 NVIDIA A10 機器完成預處理,總清洗時長約為 60,000 GPU小時。
04.
訓練策略與資源成本
我們的訓練分為三個階段:
階段一:基于清洗的語音-文本平行語料繼續預訓練大語言模型,獲取zero-shot TTS的能力。在80張A100組成的計算集群上訓練了約10天。
階段二:在單一speaker數據上基于base模型SFT,提升特定聲音的合成效果。訓練成本相比預訓練可以忽略不計。
階段三:SoVITS解碼器微調,對高質量長音頻片段(MOS>4.5)進行專向訓練,強化語音自然度與清晰度。
整個訓練過程消耗的資源與成本如下:
05.
實驗評測
推理優化與部署適配
針對LLM在推理端的高延遲痛點,Muyan-TTS構建了一套系統性優化方案:一方面,深度集成vLLM推理引擎,充分釋放大語言模型的并行計算潛力,顯著提升推理效率;另一方面,創新引入動態句長切分與批量處理合成技術,有效減少資源等待時間,增強處理靈活性。
經實測驗證,在非流式推理模式下,Muyan-TTS的語音合成效率表現卓越——平均每生成1秒語音僅需0.33秒推理時間,相比同類開源TTS模型具有顯著性能優勢,為實時語音交互場景提供了更高效的解決方案。
性能對比
在LibriSpeech和SEED兩大標準評測集上,我們評估了Muyan-TTS與主流開源TTS模型的性能表現,主要指標涵蓋詞錯率(WER)、語音質量評分(MOS)與說話人相似度(SIM):
同時,在微調(SFT)后,Muyan-TTS在語音質量(MOS)與個性化能力(SIM)方面進一步提升,適配小規模個人語音數據集的聲音定制。
生成示例
Base Model
SFT Model
我們相信就像《her》中的Samantha,語音會成為人和AI交互的核心方式,并使每個人都能擁有隨時可交流的AI朋友。
Muyan-TTS只是我們在語音技術上一個非常微小的嘗試,無論是模型結構、數據制備和訓練方法都還有很大的改良空間,我們也期待對語音技術有愛好、愿意深度研究TTS和實時語音交互等領域的朋友能夠一起加入這個行列。
編輯:成蘊年
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.