網易首頁 > 網易號 > 正文申請入駐

ACL2025 高分接收 | 高感情語音技術：邏輯智能小語種TTS破局之道

2025-05-26 14:37:53　來源: 機器之心Pro

北京舉報

分享至

該工作由北京深度邏輯智能科技有限公司×寧波東方理工EIT-NLP實驗室聯合完成。

語音合成（TTS）技術近十年來突飛猛進，從早期的拼接式合成和統計參數模型，發展到如今的深度神經網絡與擴散、GAN 等先進架構，實現了接近真人的自然度與情感表達，廣泛賦能智能助手、無障礙閱讀、沉浸式娛樂等場景。

然而，這一繁榮幾乎局限于英語、普通話等資源充沛的大語種；全球一千多種小語種由于語料稀缺、文字無空格或多音調等復雜語言學特性，在數據收集、文本前端處理和聲學建模上都面臨巨大挑戰，導致高質量 TTS 遲遲無法落地。破解「小語種困境」既是學術前沿課題，也是實現數字包容與多語文化傳播的關鍵。

面對這一挑戰，邏輯智能團隊提出了一種針對低資源語言 TTS 的解決方案并應用于泰語 TTS 合成，該工作已經被 ACL 2025 Industry track 正式接收！

論文標題：Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
論文地址：https://arxiv.org/abs/2504.07858
效果試聽：https://luoji.cn/static/thai/demo.html

這項工作提出了一種數據優化驅動的聲學建模框架的創新方案，通過從語音、文本、音素、語法等多個維度構建系統化的泰語數據集，并結合先進的聲學建模技術，成功實現了在有限資源下的高質量 TTS 合成效果。

此外，該框架還具備 zero-shot 聲音克隆的能力，展示了優異的跨場景適用性，為行業提供了一種在數據稀少環境下高效構建小語種 TTS 系統的有效范式，對推動全球小語種 TTS 技術的落地與普及具有重要的啟示和借鑒意義。

數據優化驅動的聲學建模框架方案

該工作遵循數據驅動模型能力的整體思路：

首先從源頭切入，系統化采集并標注跨領域語音、文本與語言學信息，構建覆蓋廣、顆粒度細的多維泰語語料庫；
隨后通過 LLM 增強的停頓預測、詞切分與混合式 G2P，將原始文本穩健轉換為結構化的「音素-聲調」序列；
最后在此精煉輸入之上，引入聲調感知的 Phoneme-Tone BERT 與多源特征驅動的 GAN 解碼器，實現高保真、低延遲的語音合成，并支持零樣本聲音克隆。

整套框架以數據質量為核心抓手、以模塊化設計保障可擴展性，為解決小語種 TTS「數據稀缺 + 語言復雜」雙重瓶頸提供了一條可復制、可落地的工程化路徑。

泰語專項數據集構建

該工作構建了一套專為低資源泰語 TTS 設計的多維數據集，涵蓋語音、文本和注釋三大類：

語音數據——500 小時來自新聞、社媒、播客等多領域語料，外加 40 小時金融、醫療、教育、法律等垂直領域語料，兼顧通用合成與專業術語發音；
文本數據——100 萬句句子語料用于訓練 Phoneme-Tone BERT 提升上下文韻律建模，10 萬詞詞表用于訓練分詞器，解決泰語無空格書寫難題；
注釋數據——1.5 萬句停頓標注確保精準斷句，4 萬詞音素-聲調標注強化 G2P 與五聲調建模。該數據集既保證了規模，又注重多域覆蓋和細粒度語言監督，為在資源稀缺環境下實現工業級泰語 TTS 與零樣本聲音克隆奠定了堅實基礎。

先進的預處理流程

該工作設計了一套強大的預處理流程。預處理流水線最大的亮點在于「三步一體、逐層解耦」地化解泰語文本的無標點、無空格、聲調復雜三重難題：

首先通過 SFT 微調的 Typhoon2 LLM，對 1.5 萬句人工標注語料學習停頓規律，在原始文本中智能插入停頓標簽以更好地建模口語韻律；
隨后在擴充至 10 萬詞的分詞詞典支撐下，改進版 pythainlp Tokenizer 將連續書寫的泰文字流精準切分，為領域專有詞提供穩健支持；
最后利用 4 萬詞的音素-聲調注釋庫，結合規則+Transformer 混合式 G2P，把每個詞映射成帶五聲調標記的 IPA 音素序列。

該流水線不僅輸出結構化的「音素-聲調」序列，大幅降低后續聲學模型學習難度，也為其他低資源音調語言提供了可復用的文本前端范式。

卓越的 TTS 模型架構

該工作的 TTS 模型集成了「多源特征 × 聲調感知 × 零樣本克隆」的組合設計：

首先利用多語種預訓練模型提取時長、音高、能量等強魯棒特征，并以風格編碼器壓縮說話人/情感信息，為后續零樣本克隆奠定基礎；
其次，通過 Phoneme-Tone BERT 在音素序列中顯式融入五聲調，精準捕捉泰語語義-韻律關聯；
最后以 GAN 解碼器直接從音素與預測特征合成波形，聯合時域、頻域與感知損失實現高保真、低延遲合成。

整體采取「先獨立訓練預測器，再與解碼器聯合微調」的策略，兼顧穩定性與音質，使模型達到 SOTA 表現并支持零樣本聲音克隆。

實驗效果

預處理鏈路有效性：消融實驗表明，停頓預測、分詞優化和 G2P 優化缺一不可；當分別移除這三項時，系統的 WER 從 6.3% 依次升至 6.5%、10.2% 與 22.5%，自然度評分 NMOS 從 4.4 下降到 3.8、3.9 與 3.0，尤其 G2P 的影響最大，證明精確聲調與音素映射是泰語 TTS 的質量瓶頸。
通用與行業場景綜合表現：在公開基準 TSync2 和金融、醫療、教育、法律四大真實業務腳本上，模型始終保持最低 WER 與最高 NMOS，不僅超越開源系統，也優于 Google TTS、Microsoft TTS 等商業方案；特別是在專業術語發音與語速控制上，用戶反饋顯示本系統誤讀率更低、韻律更自然，驗證了該框架對多場景的強魯棒性與可落地性。
零樣本聲音克隆能力：在僅提供幾秒參考音的條件下，模型即可生成目標說話人高保真語音，取得 SIM 0.91 和 SMOS 4.5，顯著超過 OpenVoice 的 0.85 與 4.0；嵌入可視化進一步展示了對說話人 timbre 的準確聚類，表明「聲調感知 + 多源特征」設計能夠在低資源環境下實現工業級的聲音克隆體驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.