還在聽著機器人味兒的小語種語音?泰語 TTS 迎來“真人”突破!長期以來,小語種語音合成(TTS)技術因資源匱乏而發展緩慢,冰冷的機器音讓人難以忍受。現在,邏輯智能團隊提出了一種數據優化驅動的聲學建模框架,成功打造了接近真人水平的泰語 TTS,不僅音質逼真,還能實現零樣本聲音克隆!
語音合成(TTS)技術近十年來突飛猛進,從早期的拼接式合成和統計參數模型,發展到如今的深度神經網絡與擴散、GAN 等先進架構,實現了接近真人的自然度與情感表達,廣泛賦能智能助手、無障礙閱讀、沉浸式娛樂等場景。
然而,這一繁榮幾乎局限于英語、普通話等資源充沛的大語種。全球一千多種小語種由于語料稀缺、文字無空格或多音調等復雜語言學特性,在數據收集、文本前端處理和聲學建模上都面臨巨大挑戰,導致高質量 TTS 遲遲無法落地。破解“小語種困境”既是學術前沿課題,也是實現數字包容與多語文化傳播的關鍵。
面對這一挑戰,邏輯智能團隊提出了一種針對低資源語言 TTS 的解決方案并應用于泰語 TTS 合成,該工作已經被 ACL 2025 Industry track 正式接收!
這項工作提出了一種數據優化驅動的聲學建模框架的創新方案,通過從語音,文本,音素,語法等多個維度構建系統化的泰語數據集,并結合先進的聲學建模技術,成功實現了在有限資源下的高質量 TTS 合成效果。此外,該框架還具備 zero-shot 聲音克隆的能力,展示了優異的跨場景適用性,為行業提供了一種在數據稀少環境下高效構建小語種 TTS 系統的有效范式,對推動全球小語種 TTS 技術的落地與普及具有重要的啟示和借鑒意義。
論文題目與作者
論文標題:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
論文地址:https://arxiv.org/abs/2504.07858
效果試聽:https://luoji.cn/static/thai/demo.html
數據優化驅動的聲學建模框架方案
該工作遵循數據驅動模型能力的整體思路:首先從源頭切入,系統化采集并標注跨領域語音、文本與語言學信息,構建覆蓋廣、顆粒度細的多維泰語語料庫;隨后通過 LLM-增強的停頓預測、詞切分與混合式 G2P,將原始文本穩健轉換為結構化的“音素-聲調”序列;最后在此精煉輸入之上,引入聲調感知的 Phoneme-Tone BERT 與多源特征驅動的 GAN 解碼器,實現高保真、低延遲的語音合成,并支持零樣本聲音克隆。整套框架以數據質量為核心抓手、以模塊化設計保障可擴展性,為解決小語種 TTS “數據稀缺 + 語言復雜”雙重瓶頸提供了一條可復制、可落地的工程化路徑。
整體架構流程示意圖
泰語專項數據集構建
該工作構建了一套專為低資源泰語 TTS 設計的多維數據集,涵蓋語音、文本和注釋三大類:
語音數據——500 小時來自新聞、社媒、播客等多領域語料,外加 40 小時金融、醫療、教育、法律等垂直領域語料,兼顧通用合成與專業術語發音;
文本數據——100 萬句句子語料用于訓練 Phoneme-Tone BERT 提升上下文韻律建模,10 萬詞詞表用于訓練分詞器,解決泰語無空格書寫難題;
注釋數據——1.5 萬句停頓標注確保精準斷句,4 萬詞音素-聲調標注強化 G2P 與五聲調建模。該數據集既保證了規模,又注重多域覆蓋和細粒度語言監督,為在資源稀缺環境下實現工業級泰語 TTS 與零樣本聲音克隆奠定了堅實基礎。
泰語專項數據集組成
先進的預處理流程
該工作設計了一套強大的預處理流程。預處理流水線最大的亮點在于 “三步一體、逐層解耦” 地化解泰語文本的無標點、無空格、聲調復雜三重難題:首先通過 SFT 微調的 Typhoon2 LLM,對 1.5 萬句人工標注語料學習停頓規律,在原始文本中智能插入停頓標簽以更好的建模口語韻律;隨后在擴充至 10 萬詞的分詞詞典支撐下,改進版 pythainlp Tokenizer 將連續書寫的泰文字流精準切分,為領域專有詞提供穩健支持;最后利用 4 萬詞的音素-聲調注釋庫,結合規則+Transformer 混合式 G2P,把每個詞映射成帶五聲調標記的 IPA 音素序列。該流水線不僅輸出結構化的“音素-聲調”序列,大幅降低后續聲學模型學習難度,也為其他低資源音調語言提供了可復用的文本前端范式。
使用 LLM 優化停頓效果
卓越的 TTS 模型架構
該工作的 TTS 模型集成了“多源特征× 聲調感知 × 零樣本克隆”的組合設計:首先利用多語種預訓練模型提取時長、音高、能量等強魯棒特征,并以風格編碼器壓縮說話人/情感信息,為后續零樣本克隆奠定基礎;其次,通過 Phoneme-Tone BERT 在音素序列中顯式融入五聲調,精準捕捉泰語語義-韻律關聯;最后以 GAN 解碼器直接從音素與預測特征合成波形,聯合時域、頻域與感知損失實現高保真、低延遲合成。整體采取“先獨立訓練預測器,再與解碼器聯合微調”的策略,兼顧穩定性與音質,使模型達到 SOTA 表現并支持零樣本聲音克隆。
所提出的 TTS 架構示意圖
實驗效果
預處理鏈路有效性:消融實驗表明,停頓預測、分詞優化和 G2P 優化缺一不可;當分別移除這三項時,系統的 WER 從 6.3% 依次升至 6.5%、10.2% 與 22.5%,自然度評分 NMOS 從 4.4 下降到 3.8、3.9 與 3.0,尤其 G2P 的影響最大,證明精確聲調與音素映射是泰語 TTS 的質量瓶頸。
通用與行業場景綜合表現:在公開基準 TSync2 和金融、醫療、教育、法律四大真實業務腳本上,模型始終保持最低 WER 與最高 NMOS,不僅超越開源系統,也優于 Google TTS、Microsoft TTS 等商業方案;特別是在專業術語發音與語速控制上,用戶反饋顯示本系統誤讀率更低、韻律更自然,驗證了該框架對多場景的強魯棒性與可落地性。
零樣本聲音克隆能力:在僅提供幾秒參考音的條件下,模型即可生成目標說話人高保真語音,取得 SIM 0.91 和 SMOS 4.5,顯著超過 OpenVoice 的 0.85 與 4.0;嵌入可視化進一步展示了對說話人 timbre 的準確聚類,表明“聲調感知 + 多源特征”設計能夠在低資源環境下實現工業級的聲音克隆體驗。
TTS 能力實驗結果
預處理模塊消融研究結果
零樣本TTS能力實驗結果
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.