99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ACL2025 高分接收 | 高感情語音技術:邏輯智能小語種TTS破局之道

0
分享至




該工作由北京深度邏輯智能科技有限公司×寧波東方理工EIT-NLP實驗室聯合完成。

語音合成(TTS)技術近十年來突飛猛進,從早期的拼接式合成和統計參數模型,發展到如今的深度神經網絡與擴散、GAN 等先進架構,實現了接近真人的自然度與情感表達,廣泛賦能智能助手、無障礙閱讀、沉浸式娛樂等場景。

然而,這一繁榮幾乎局限于英語、普通話等資源充沛的大語種;全球一千多種小語種由于語料稀缺、文字無空格或多音調等復雜語言學特性,在數據收集、文本前端處理和聲學建模上都面臨巨大挑戰,導致高質量 TTS 遲遲無法落地。破解「小語種困境」既是學術前沿課題,也是實現數字包容與多語文化傳播的關鍵。

面對這一挑戰,邏輯智能團隊提出了一種針對低資源語言 TTS 的解決方案并應用于泰語 TTS 合成,該工作已經被 ACL 2025 Industry track 正式接收!



  • 論文標題:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
  • 論文地址:https://arxiv.org/abs/2504.07858
  • 效果試聽:https://luoji.cn/static/thai/demo.html

這項工作提出了一種數據優化驅動的聲學建模框架的創新方案,通過從語音、文本、音素、語法等多個維度構建系統化的泰語數據集,并結合先進的聲學建模技術,成功實現了在有限資源下的高質量 TTS 合成效果。

此外,該框架還具備 zero-shot 聲音克隆的能力,展示了優異的跨場景適用性,為行業提供了一種在數據稀少環境下高效構建小語種 TTS 系統的有效范式,對推動全球小語種 TTS 技術的落地與普及具有重要的啟示和借鑒意義。

數據優化驅動的聲學建模框架方案

該工作遵循數據驅動模型能力的整體思路:

  • 首先從源頭切入,系統化采集并標注跨領域語音、文本與語言學信息,構建覆蓋廣、顆粒度細的多維泰語語料庫;
  • 隨后通過 LLM 增強的停頓預測、詞切分與混合式 G2P,將原始文本穩健轉換為結構化的「音素-聲調」序列;
  • 最后在此精煉輸入之上,引入聲調感知的 Phoneme-Tone BERT 與多源特征驅動的 GAN 解碼器,實現高保真、低延遲的語音合成,并支持零樣本聲音克隆。

整套框架以數據質量為核心抓手、以模塊化設計保障可擴展性,為解決小語種 TTS「數據稀缺 + 語言復雜」雙重瓶頸提供了一條可復制、可落地的工程化路徑。



泰語專項數據集構建

該工作構建了一套專為低資源泰語 TTS 設計的多維數據集,涵蓋語音、文本和注釋三大類:

  • 語音數據——500 小時來自新聞、社媒、播客等多領域語料,外加 40 小時金融、醫療、教育、法律等垂直領域語料,兼顧通用合成與專業術語發音;
  • 文本數據——100 萬句句子語料用于訓練 Phoneme-Tone BERT 提升上下文韻律建模,10 萬詞詞表用于訓練分詞器,解決泰語無空格書寫難題;
  • 注釋數據——1.5 萬句停頓標注確保精準斷句,4 萬詞音素-聲調標注強化 G2P 與五聲調建模。該數據集既保證了規模,又注重多域覆蓋和細粒度語言監督,為在資源稀缺環境下實現工業級泰語 TTS 與零樣本聲音克隆奠定了堅實基礎。



先進的預處理流程

該工作設計了一套強大的預處理流程。預處理流水線最大的亮點在于「三步一體、逐層解耦」地化解泰語文本的無標點、無空格、聲調復雜三重難題:

  • 首先通過 SFT 微調的 Typhoon2 LLM,對 1.5 萬句人工標注語料學習停頓規律,在原始文本中智能插入停頓標簽以更好地建模口語韻律;
  • 隨后在擴充至 10 萬詞的分詞詞典支撐下,改進版 pythainlp Tokenizer 將連續書寫的泰文字流精準切分,為領域專有詞提供穩健支持;
  • 最后利用 4 萬詞的音素-聲調注釋庫,結合規則+Transformer 混合式 G2P,把每個詞映射成帶五聲調標記的 IPA 音素序列。

該流水線不僅輸出結構化的「音素-聲調」序列,大幅降低后續聲學模型學習難度,也為其他低資源音調語言提供了可復用的文本前端范式。



卓越的 TTS 模型架構

該工作的 TTS 模型集成了「多源特征 × 聲調感知 × 零樣本克隆」的組合設計:

  • 首先利用多語種預訓練模型提取時長、音高、能量等強魯棒特征,并以風格編碼器壓縮說話人/情感信息,為后續零樣本克隆奠定基礎;
  • 其次,通過 Phoneme-Tone BERT 在音素序列中顯式融入五聲調,精準捕捉泰語語義-韻律關聯;
  • 最后以 GAN 解碼器直接從音素與預測特征合成波形,聯合時域、頻域與感知損失實現高保真、低延遲合成。

整體采取「先獨立訓練預測器,再與解碼器聯合微調」的策略,兼顧穩定性與音質,使模型達到 SOTA 表現并支持零樣本聲音克隆。



實驗效果

  • 預處理鏈路有效性:消融實驗表明,停頓預測、分詞優化和 G2P 優化缺一不可;當分別移除這三項時,系統的 WER 從 6.3% 依次升至 6.5%、10.2% 與 22.5%,自然度評分 NMOS 從 4.4 下降到 3.8、3.9 與 3.0,尤其 G2P 的影響最大,證明精確聲調與音素映射是泰語 TTS 的質量瓶頸。
  • 通用與行業場景綜合表現:在公開基準 TSync2 和金融、醫療、教育、法律四大真實業務腳本上,模型始終保持最低 WER 與最高 NMOS,不僅超越開源系統,也優于 Google TTS、Microsoft TTS 等商業方案;特別是在專業術語發音與語速控制上,用戶反饋顯示本系統誤讀率更低、韻律更自然,驗證了該框架對多場景的強魯棒性與可落地性。
  • 零樣本聲音克隆能力:在僅提供幾秒參考音的條件下,模型即可生成目標說話人高保真語音,取得 SIM 0.91 和 SMOS 4.5,顯著超過 OpenVoice 的 0.85 與 4.0;嵌入可視化進一步展示了對說話人 timbre 的準確聚類,表明「聲調感知 + 多源特征」設計能夠在低資源環境下實現工業級的聲音克隆體驗。









特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
三個兒子賴在家啃老22年,夫婦一氣之下離家,12年后返鄉兩人傻住了

三個兒子賴在家啃老22年,夫婦一氣之下離家,12年后返鄉兩人傻住了

嘮叨情感屋
2025-05-15 22:05:26
終于,ASML的EUV光刻機,走進“死胡同”了?

終于,ASML的EUV光刻機,走進“死胡同”了?

互聯網.亂侃秀
2025-05-31 10:28:09
自信or劇本?尼克斯搶7帽子已生產完畢!

自信or劇本?尼克斯搶7帽子已生產完畢!

直播吧
2025-05-31 11:41:10
孫繼海公司被強執345萬!曝貴州嗨球早就解散 青訓已換4座城市

孫繼海公司被強執345萬!曝貴州嗨球早就解散 青訓已換4座城市

念洲
2025-05-30 16:53:40
郭晶晶預言成真!全紅嬋跌落神壇遭網暴,競技體育有多現實?

郭晶晶預言成真!全紅嬋跌落神壇遭網暴,競技體育有多現實?

東方不敗然多多
2025-05-30 07:09:49
中方否決了印度提案,為“擊敗中國”,莫迪要砸重金,干三件大事

中方否決了印度提案,為“擊敗中國”,莫迪要砸重金,干三件大事

男女那點事兒兒
2025-05-31 11:05:01
1967年,走投無路的阿拉法特,帶著4000多士兵和40萬難民,投奔約旦

1967年,走投無路的阿拉法特,帶著4000多士兵和40萬難民,投奔約旦

南權先生
2025-05-28 15:23:30
全系降價,為什么比亞迪要再次掀起價格戰?

全系降價,為什么比亞迪要再次掀起價格戰?

牲產隊2024
2025-05-28 14:44:16
“端午要躲午,不能床上躺”,今日“3人要躲午”,分別指哪3人?

“端午要躲午,不能床上躺”,今日“3人要躲午”,分別指哪3人?

小談食刻美食
2025-05-31 07:47:46
衛健委下令,徹查藥械“回扣”

衛健委下令,徹查藥械“回扣”

醫療器械經銷商聯盟
2025-05-31 08:03:20
女廳官楊慧被開除黨籍和公職!曾花4000萬買別墅、850萬裝修,極盡奢華→

女廳官楊慧被開除黨籍和公職!曾花4000萬買別墅、850萬裝修,極盡奢華→

上觀新聞
2025-05-30 11:02:23
曾經紅極一時,如今卻“跌落神壇”的5大運動品牌,穿過3個算你牛

曾經紅極一時,如今卻“跌落神壇”的5大運動品牌,穿過3個算你牛

時尚搭配師Nicole
2025-05-23 13:55:28
笑死在《長安的荔枝》評論區了

笑死在《長安的荔枝》評論區了

阿廢冷眼觀察所
2025-05-29 16:48:14
曼城大清洗:三大主力將離隊,瓜帥鎖定新10號與21歲中場猛將

曼城大清洗:三大主力將離隊,瓜帥鎖定新10號與21歲中場猛將

智凌縱橫
2025-05-30 13:28:15
裁員裁到大動脈的公司后來都咋樣了?為漂亮女財務把自己送進去了

裁員裁到大動脈的公司后來都咋樣了?為漂亮女財務把自己送進去了

特約前排觀眾
2025-05-31 00:05:08
19歲李嫣畢業照站邊緣,眼神像極了媽媽,王菲謝霆鋒度假缺席

19歲李嫣畢業照站邊緣,眼神像極了媽媽,王菲謝霆鋒度假缺席

夢涵說體育
2025-05-31 09:37:16
局勢明朗?李明博重新出山,樸槿惠明確表態,金文洙迎來兩大強援

局勢明朗?李明博重新出山,樸槿惠明確表態,金文洙迎來兩大強援

靚仔情感
2025-05-31 10:37:28
峨眉山猴子把女孩推下山,警方將其擊斃后,檢查尸體時愣了

峨眉山猴子把女孩推下山,警方將其擊斃后,檢查尸體時愣了

今天說故事
2025-05-27 18:14:46
深圳網友:月供9887元,收入驟降,賣了倒欠銀行 不賣壓力山大

深圳網友:月供9887元,收入驟降,賣了倒欠銀行 不賣壓力山大

巢客HOME
2025-05-29 23:17:16
暴雨大暴雨、10級雷雨大風!浙江人注意,端午天氣大反轉,這波太猛了...

暴雨大暴雨、10級雷雨大風!浙江人注意,端午天氣大反轉,這波太猛了...

FM93浙江交通之聲
2025-05-31 06:41:13
2025-05-31 12:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10563文章數 142329關注度
往期回顧 全部

教育要聞

保姆級教程:2025山東高考準考證打印詳細教程!附:山東16市高考考場安排!

頭條要聞

牛彈琴:很多人用4個字母的詞嘲特朗普 特朗普聽后大怒

頭條要聞

牛彈琴:很多人用4個字母的詞嘲特朗普 特朗普聽后大怒

體育要聞

唐斯的媽媽,一定會感到驕傲的

娛樂要聞

54歲的于和偉再度提名白玉蘭獎視帝

財經要聞

中汽協倡議:反對“內卷式”惡性競爭

科技要聞

1小時大定破千,余承東:尊界S800是個開端

汽車要聞

新增配色+動力升級 粵港澳車展探館新款smart #1

態度原創

健康
親子
本地
房產
教育

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

凡人微光|童言撫人心

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

房產要聞

買配售型保障房,還是商品房?這個坑,千萬別踩!

教育要聞

端午安康!京城小畫師繪出最美祝福

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 衡水市| 邢台县| 尤溪县| 隆尧县| 阳谷县| 柳河县| 浙江省| 陆丰市| 诸城市| 滦南县| 徐水县| 开封市| 秦皇岛市| 桐乡市| 丽江市| 台中县| 读书| 林西县| 磐石市| 牡丹江市| 玉山县| 封开县| 贵州省| 陇川县| 雷山县| 牟定县| 恭城| 鸡东县| 阳新县| 长岛县| 林西县| 明水县| 阿瓦提县| 措勤县| 仙桃市| 汝城县| 泉州市| 富川| 阳山县| 大同市| 中西区|