該工作由北京深度邏輯智能科技有限公司×寧波東方理工EIT-NLP實驗室聯合完成。
語音合成(TTS)技術近十年來突飛猛進,從早期的拼接式合成和統計參數模型,發展到如今的深度神經網絡與擴散、GAN 等先進架構,實現了接近真人的自然度與情感表達,廣泛賦能智能助手、無障礙閱讀、沉浸式娛樂等場景。
然而,這一繁榮幾乎局限于英語、普通話等資源充沛的大語種;全球一千多種小語種由于語料稀缺、文字無空格或多音調等復雜語言學特性,在數據收集、文本前端處理和聲學建模上都面臨巨大挑戰,導致高質量 TTS 遲遲無法落地。破解「小語種困境」既是學術前沿課題,也是實現數字包容與多語文化傳播的關鍵。
面對這一挑戰,邏輯智能團隊提出了一種針對低資源語言 TTS 的解決方案并應用于泰語 TTS 合成,該工作已經被 ACL 2025 Industry track 正式接收!
- 論文標題:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
- 論文地址:https://arxiv.org/abs/2504.07858
- 效果試聽:https://luoji.cn/static/thai/demo.html
這項工作提出了一種數據優化驅動的聲學建模框架的創新方案,通過從語音、文本、音素、語法等多個維度構建系統化的泰語數據集,并結合先進的聲學建模技術,成功實現了在有限資源下的高質量 TTS 合成效果。
此外,該框架還具備 zero-shot 聲音克隆的能力,展示了優異的跨場景適用性,為行業提供了一種在數據稀少環境下高效構建小語種 TTS 系統的有效范式,對推動全球小語種 TTS 技術的落地與普及具有重要的啟示和借鑒意義。
數據優化驅動的聲學建模框架方案
該工作遵循數據驅動模型能力的整體思路:
- 首先從源頭切入,系統化采集并標注跨領域語音、文本與語言學信息,構建覆蓋廣、顆粒度細的多維泰語語料庫;
- 隨后通過 LLM 增強的停頓預測、詞切分與混合式 G2P,將原始文本穩健轉換為結構化的「音素-聲調」序列;
- 最后在此精煉輸入之上,引入聲調感知的 Phoneme-Tone BERT 與多源特征驅動的 GAN 解碼器,實現高保真、低延遲的語音合成,并支持零樣本聲音克隆。
整套框架以數據質量為核心抓手、以模塊化設計保障可擴展性,為解決小語種 TTS「數據稀缺 + 語言復雜」雙重瓶頸提供了一條可復制、可落地的工程化路徑。
泰語專項數據集構建
該工作構建了一套專為低資源泰語 TTS 設計的多維數據集,涵蓋語音、文本和注釋三大類:
- 語音數據——500 小時來自新聞、社媒、播客等多領域語料,外加 40 小時金融、醫療、教育、法律等垂直領域語料,兼顧通用合成與專業術語發音;
- 文本數據——100 萬句句子語料用于訓練 Phoneme-Tone BERT 提升上下文韻律建模,10 萬詞詞表用于訓練分詞器,解決泰語無空格書寫難題;
- 注釋數據——1.5 萬句停頓標注確保精準斷句,4 萬詞音素-聲調標注強化 G2P 與五聲調建模。該數據集既保證了規模,又注重多域覆蓋和細粒度語言監督,為在資源稀缺環境下實現工業級泰語 TTS 與零樣本聲音克隆奠定了堅實基礎。
先進的預處理流程
該工作設計了一套強大的預處理流程。預處理流水線最大的亮點在于「三步一體、逐層解耦」地化解泰語文本的無標點、無空格、聲調復雜三重難題:
- 首先通過 SFT 微調的 Typhoon2 LLM,對 1.5 萬句人工標注語料學習停頓規律,在原始文本中智能插入停頓標簽以更好地建模口語韻律;
- 隨后在擴充至 10 萬詞的分詞詞典支撐下,改進版 pythainlp Tokenizer 將連續書寫的泰文字流精準切分,為領域專有詞提供穩健支持;
- 最后利用 4 萬詞的音素-聲調注釋庫,結合規則+Transformer 混合式 G2P,把每個詞映射成帶五聲調標記的 IPA 音素序列。
該流水線不僅輸出結構化的「音素-聲調」序列,大幅降低后續聲學模型學習難度,也為其他低資源音調語言提供了可復用的文本前端范式。
卓越的 TTS 模型架構
該工作的 TTS 模型集成了「多源特征 × 聲調感知 × 零樣本克隆」的組合設計:
- 首先利用多語種預訓練模型提取時長、音高、能量等強魯棒特征,并以風格編碼器壓縮說話人/情感信息,為后續零樣本克隆奠定基礎;
- 其次,通過 Phoneme-Tone BERT 在音素序列中顯式融入五聲調,精準捕捉泰語語義-韻律關聯;
- 最后以 GAN 解碼器直接從音素與預測特征合成波形,聯合時域、頻域與感知損失實現高保真、低延遲合成。
整體采取「先獨立訓練預測器,再與解碼器聯合微調」的策略,兼顧穩定性與音質,使模型達到 SOTA 表現并支持零樣本聲音克隆。
實驗效果
- 預處理鏈路有效性:消融實驗表明,停頓預測、分詞優化和 G2P 優化缺一不可;當分別移除這三項時,系統的 WER 從 6.3% 依次升至 6.5%、10.2% 與 22.5%,自然度評分 NMOS 從 4.4 下降到 3.8、3.9 與 3.0,尤其 G2P 的影響最大,證明精確聲調與音素映射是泰語 TTS 的質量瓶頸。
- 通用與行業場景綜合表現:在公開基準 TSync2 和金融、醫療、教育、法律四大真實業務腳本上,模型始終保持最低 WER 與最高 NMOS,不僅超越開源系統,也優于 Google TTS、Microsoft TTS 等商業方案;特別是在專業術語發音與語速控制上,用戶反饋顯示本系統誤讀率更低、韻律更自然,驗證了該框架對多場景的強魯棒性與可落地性。
- 零樣本聲音克隆能力:在僅提供幾秒參考音的條件下,模型即可生成目標說話人高保真語音,取得 SIM 0.91 和 SMOS 4.5,顯著超過 OpenVoice 的 0.85 與 4.0;嵌入可視化進一步展示了對說話人 timbre 的準確聚類,表明「聲調感知 + 多源特征」設計能夠在低資源環境下實現工業級的聲音克隆體驗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.