99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

語音合成開發不再難!Muyan-TTS開源模型,小團隊也能快速迭代

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。

TTS(Text-to-speech)并不是AI領域最在聚光燈下的技術,但對應用開發者極為實用,并在過去一年取得了長足的技術進步。不過在音頻產品的開發進程中,盡管存在部分表現出色的開源TTS模型,然而這些模型并非完全開源,并且對二次訓練和開發存在一定的阻礙。

由此研究團隊設計并研發Muyan-TTS,一款低成本、具備良好二次開發支持的模型并完全開源,以方便學術界和小型應用團隊的音頻技術愛好者。

當前開源的Muyan-TTS版本由于訓練數據規模有限,致使其僅對英語語種呈現出良好的支持效果。不過,得益于與之同步開源的詳盡訓練方法,從事相關行業的開發者能夠依據自身實際業務場景,靈活地對Muyan-TTS進行功能升級與定制化改造。Muyan-TTS已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://www.wisemodel.cn/models/MYZY-AI/Muyan-TTS

01.

Highlights

1. 開源了兩個模型:1)在多樣化長音頻數據集上預訓練的基礎模型,能實現零樣本TTS合成;2)在單一說話人上進行監督微調(SFT)的模型,以此提升TTS性能。

2. 提供了詳細的訓練方法:提供了從base模型在單一speaker語音數據上微調得到SFT模型的訓練方法,也開源了全部的訓練代碼,以滿足開發者對于更深層研究的需求。

3. 提供了優化推理效率的框架:我們開發了一個加速的TTS推理框架,尤其優化LLM組件,能夠更快速、更高效生成語音。

4. 英語上具有良好性能的同時推理效率極高:每1s語音生成僅需0.33秒推理時間,為所有開源模型中最快。同時詞錯率、語音質量評分都處于開源模型的一線水平。

02.

模型設計

Muyan-TTS在建模架構上,延續了GPT-SoVITS的兩階段結構,并作出如下調整:

  • 語言模型部分以Llama-3.2-3B為backbone繼續預訓練,具備更強的語義建模能力。

  • 解碼器部分使用 SoVITS 架構,在大規模高質量長音頻數據上進行了微調,提高合成音頻表現力與保真度的同時,也保持了穩定性并削弱了因LLM所帶來的幻覺。

這樣的模型設計在保證合成質量的同時,兼顧了個性化能力和運行效率,適配多種音頻內容形式,如主持人旁白、訪談復刻、語音摘要等。


03.

面向長音頻的數據處理

為了優化Muyan-TTS在長音頻生成場景下的表現,我們構建了超過10萬小時的高質量語音及對應轉錄的訓練語料。數據處理采用三階段流程:

  • 收集與轉錄:結合開源數據集與自建數據源采集,基于最大化覆蓋說話人數和語言的差異性的目標,每個音頻被分割成1分鐘的片段均勻采樣,收集了超過15萬小時的原始數據并使用Whisper和Fun ASR進行轉錄;

  • 音頻清洗:引入MSS、DeReverb、DeEcho、Denoise、NeMo等模塊,僅保留人聲軌道、單speaker、過濾背景噪聲與混響、進一步提升語音的清晰度和可理解性;

  • 質量過濾:使用 NISQA 評估每段音頻的MOS分數,僅保留MOS>3.8內容。

最終數據集通過 NVIDIA A10 機器完成預處理,總清洗時長約為 60,000 GPU小時。


04.

訓練策略與資源成本

我們的訓練分為三個階段:

階段一:基于清洗的語音-文本平行語料繼續預訓練大語言模型,獲取zero-shot TTS的能力。在80張A100組成的計算集群上訓練了約10天。

階段二:在單一speaker數據上基于base模型SFT,提升特定聲音的合成效果。訓練成本相比預訓練可以忽略不計。

階段三:SoVITS解碼器微調,對高質量長音頻片段(MOS>4.5)進行專向訓練,強化語音自然度與清晰度。

整個訓練過程消耗的資源與成本如下:


05.

實驗評測


推理優化與部署適配

針對LLM在推理端的高延遲痛點,Muyan-TTS構建了一套系統性優化方案:一方面,深度集成vLLM推理引擎,充分釋放大語言模型的并行計算潛力,顯著提升推理效率;另一方面,創新引入動態句長切分與批量處理合成技術,有效減少資源等待時間,增強處理靈活性。

經實測驗證,在非流式推理模式下,Muyan-TTS的語音合成效率表現卓越——平均每生成1秒語音僅需0.33秒推理時間,相比同類開源TTS模型具有顯著性能優勢,為實時語音交互場景提供了更高效的解決方案。



性能對比

在LibriSpeech和SEED兩大標準評測集上,我們評估了Muyan-TTS與主流開源TTS模型的性能表現,主要指標涵蓋詞錯率(WER)、語音質量評分(MOS)與說話人相似度(SIM):


同時,在微調(SFT)后,Muyan-TTS在語音質量(MOS)與個性化能力(SIM)方面進一步提升,適配小規模個人語音數據集的聲音定制。


生成示例

Base Model

SFT Model

我們相信就像《her》中的Samantha,語音會成為人和AI交互的核心方式,并使每個人都能擁有隨時可交流的AI朋友。

Muyan-TTS只是我們在語音技術上一個非常微小的嘗試,無論是模型結構、數據制備和訓練方法都還有很大的改良空間,我們也期待對語音技術有愛好、愿意深度研究TTS和實時語音交互等領域的朋友能夠一起加入這個行列。

編輯:成蘊年

----- END -----

wisemodel相關:

系統升級:

大賽報名:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
晚年李銀橋坦露:毛主席對粟裕的評價,我再不說以后都沒人知道

晚年李銀橋坦露:毛主席對粟裕的評價,我再不說以后都沒人知道

深刻的歷史
2025-06-04 11:11:24
嗨起來!維尼修斯本周末將舉辦生日派對,所有人不得攜帶手機入場

嗨起來!維尼修斯本周末將舉辦生日派對,所有人不得攜帶手機入場

雷速體育
2025-07-17 08:45:50
導彈剛歇火,腳手架先立起!中國工人殺到以色列,效率驚呆本地人

導彈剛歇火,腳手架先立起!中國工人殺到以色列,效率驚呆本地人

荷蘭豆愛健康
2025-07-03 16:24:29
王偉忠曾預言成真?大S臨終前還在聯系汪小菲,真相曝光

王偉忠曾預言成真?大S臨終前還在聯系汪小菲,真相曝光

小嵩
2025-07-17 08:01:07
“光源”不夠用了?一臺裝置幾十億元,上海江蘇浙江安徽搶著建

“光源”不夠用了?一臺裝置幾十億元,上海江蘇浙江安徽搶著建

上觀新聞
2025-07-16 11:07:44
拔出蘿卜帶出泥!五臺山方丈去世僅5天,令人惡心的一幕就上演了

拔出蘿卜帶出泥!五臺山方丈去世僅5天,令人惡心的一幕就上演了

小故事娛樂
2025-07-16 18:36:47
網游時光機:2005網游代言考古,這波回憶殺直接殺瘋8090

網游時光機:2005網游代言考古,這波回憶殺直接殺瘋8090

17173游戲網
2025-06-30 11:55:17
如果你是硅基生命,看碳基生命到底有多恐怖?

如果你是硅基生命,看碳基生命到底有多恐怖?

心中的麥田
2025-07-14 21:02:38
罕見照片:被槍決前,楊宇霆和張學良的合照,站姿上看已貌合神離

罕見照片:被槍決前,楊宇霆和張學良的合照,站姿上看已貌合神離

另子維愛讀史
2025-07-16 19:20:18
3年1億美元!森林狼官方曬海報慶祝與蘭德爾完成續約

3年1億美元!森林狼官方曬海報慶祝與蘭德爾完成續約

雷速體育
2025-07-17 06:27:41
這才是林彪的本來面目

這才是林彪的本來面目

壹貳叁的壹
2025-07-07 10:07:55
諶容:晚年一個月喪夫喪子,在美被問對中共感情,一句話聽眾啞然

諶容:晚年一個月喪夫喪子,在美被問對中共感情,一句話聽眾啞然

顧史
2025-07-08 11:31:15
命運輪回,賈靜雯以2600萬守護的梧桐妹竟成前夫唯一繼承者

命運輪回,賈靜雯以2600萬守護的梧桐妹竟成前夫唯一繼承者

東方不敗然多多
2025-07-12 02:20:35
7月下旬迎來貴人登門,財運十分紅火,機會不斷涌現,錢財無憂

7月下旬迎來貴人登門,財運十分紅火,機會不斷涌現,錢財無憂

人閒情事
2025-07-17 09:51:13
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
男孩尿呲游客,家長罵街拒認錯,當警察面仍囂張,身份被扒遭圍攻

男孩尿呲游客,家長罵街拒認錯,當警察面仍囂張,身份被扒遭圍攻

曉林說娛
2025-07-17 09:39:29
情義江湖9:老韓的調查,加代算是仁義的

情義江湖9:老韓的調查,加代算是仁義的

金昔說故事
2025-07-17 08:46:41
為什么說毛主席的父親——毛順生,是一個十分了不起的人?

為什么說毛主席的父親——毛順生,是一個十分了不起的人?

小童歷史
2025-07-14 09:41:04
外賣平臺瘋狂內卷,眾多餐廳面臨倒閉

外賣平臺瘋狂內卷,眾多餐廳面臨倒閉

金融界
2025-07-15 15:02:13
轟24+3+2!楊瀚森能幫我,呂佩爾賽后發出請求,比盧普斯也有計劃

轟24+3+2!楊瀚森能幫我,呂佩爾賽后發出請求,比盧普斯也有計劃

巴叔GO聊體育
2025-07-16 15:58:56
2025-07-17 14:15:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
308文章數 12關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財經要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

房產
數碼
旅游
藝術
軍事航空

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

數碼要聞

金士頓全新Canvas Select Plus系列microSD/SD存儲卡上市,42元起

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临颍县| 安塞县| 大关县| 多伦县| 罗甸县| 集安市| 桓台县| 巴中市| 六枝特区| 丰原市| 鄢陵县| 石首市| 吉水县| 梧州市| 琼结县| 富平县| 兰州市| 灵川县| 固阳县| 河津市| 湖南省| 南漳县| 屯昌县| 板桥市| 土默特右旗| 伊金霍洛旗| 和静县| 荆门市| 合江县| 从江县| 安庆市| 和龙市| 扎兰屯市| 武定县| 榕江县| 浑源县| 沙田区| 正蓝旗| 女性| 西吉县| 三台县|