99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ACL 2025 高分接收|高感情語音技術:邏輯智能小語種TTS破局之道

0
分享至

還在聽著機器人味兒的小語種語音?泰語 TTS 迎來“真人”突破!長期以來,小語種語音合成(TTS)技術因資源匱乏而發展緩慢,冰冷的機器音讓人難以忍受。現在,邏輯智能團隊提出了一種數據優化驅動的聲學建模框架,成功打造了接近真人水平的泰語 TTS,不僅音質逼真,還能實現零樣本聲音克隆!

語音合成(TTS)技術近十年來突飛猛進,從早期的拼接式合成和統計參數模型,發展到如今的深度神經網絡與擴散、GAN 等先進架構,實現了接近真人的自然度與情感表達,廣泛賦能智能助手、無障礙閱讀、沉浸式娛樂等場景。

然而,這一繁榮幾乎局限于英語、普通話等資源充沛的大語種。全球一千多種小語種由于語料稀缺、文字無空格或多音調等復雜語言學特性,在數據收集、文本前端處理和聲學建模上都面臨巨大挑戰,導致高質量 TTS 遲遲無法落地。破解“小語種困境”既是學術前沿課題,也是實現數字包容與多語文化傳播的關鍵。

面對這一挑戰,邏輯智能團隊提出了一種針對低資源語言 TTS 的解決方案并應用于泰語 TTS 合成,該工作已經被 ACL 2025 Industry track 正式接收!

這項工作提出了一種數據優化驅動的聲學建模框架的創新方案,通過從語音,文本,音素,語法等多個維度構建系統化的泰語數據集,并結合先進的聲學建模技術,成功實現了在有限資源下的高質量 TTS 合成效果。此外,該框架還具備 zero-shot 聲音克隆的能力,展示了優異的跨場景適用性,為行業提供了一種在數據稀少環境下高效構建小語種 TTS 系統的有效范式,對推動全球小語種 TTS 技術的落地與普及具有重要的啟示和借鑒意義。


論文題目與作者

  • 論文標題:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai

  • 論文地址:https://arxiv.org/abs/2504.07858

  • 效果試聽:https://luoji.cn/static/thai/demo.html



數據優化驅動的聲學建模框架方案

該工作遵循數據驅動模型能力的整體思路:首先從源頭切入,系統化采集并標注跨領域語音、文本與語言學信息,構建覆蓋廣、顆粒度細的多維泰語語料庫;隨后通過 LLM-增強的停頓預測、詞切分與混合式 G2P,將原始文本穩健轉換為結構化的“音素-聲調”序列;最后在此精煉輸入之上,引入聲調感知的 Phoneme-Tone BERT 與多源特征驅動的 GAN 解碼器,實現高保真、低延遲的語音合成,并支持零樣本聲音克隆。整套框架以數據質量為核心抓手、以模塊化設計保障可擴展性,為解決小語種 TTS “數據稀缺 + 語言復雜”雙重瓶頸提供了一條可復制、可落地的工程化路徑。


整體架構流程示意圖

泰語專項數據集構建

該工作構建了一套專為低資源泰語 TTS 設計的多維數據集,涵蓋語音、文本和注釋三大類:

  • 語音數據——500 小時來自新聞、社媒、播客等多領域語料,外加 40 小時金融、醫療、教育、法律等垂直領域語料,兼顧通用合成與專業術語發音;

  • 文本數據——100 萬句句子語料用于訓練 Phoneme-Tone BERT 提升上下文韻律建模,10 萬詞詞表用于訓練分詞器,解決泰語無空格書寫難題;

  • 注釋數據——1.5 萬句停頓標注確保精準斷句,4 萬詞音素-聲調標注強化 G2P 與五聲調建模。該數據集既保證了規模,又注重多域覆蓋和細粒度語言監督,為在資源稀缺環境下實現工業級泰語 TTS 與零樣本聲音克隆奠定了堅實基礎。


泰語專項數據集組成

先進的預處理流程

該工作設計了一套強大的預處理流程。預處理流水線最大的亮點在于 “三步一體、逐層解耦” 地化解泰語文本的無標點、無空格、聲調復雜三重難題:首先通過 SFT 微調的 Typhoon2 LLM,對 1.5 萬句人工標注語料學習停頓規律,在原始文本中智能插入停頓標簽以更好的建模口語韻律;隨后在擴充至 10 萬詞的分詞詞典支撐下,改進版 pythainlp Tokenizer 將連續書寫的泰文字流精準切分,為領域專有詞提供穩健支持;最后利用 4 萬詞的音素-聲調注釋庫,結合規則+Transformer 混合式 G2P,把每個詞映射成帶五聲調標記的 IPA 音素序列。該流水線不僅輸出結構化的“音素-聲調”序列,大幅降低后續聲學模型學習難度,也為其他低資源音調語言提供了可復用的文本前端范式。


使用 LLM 優化停頓效果

卓越的 TTS 模型架構

該工作的 TTS 模型集成了“多源特征× 聲調感知 × 零樣本克隆”的組合設計:首先利用多語種預訓練模型提取時長、音高、能量等強魯棒特征,并以風格編碼器壓縮說話人/情感信息,為后續零樣本克隆奠定基礎;其次,通過 Phoneme-Tone BERT 在音素序列中顯式融入五聲調,精準捕捉泰語語義-韻律關聯;最后以 GAN 解碼器直接從音素與預測特征合成波形,聯合時域、頻域與感知損失實現高保真、低延遲合成。整體采取“先獨立訓練預測器,再與解碼器聯合微調”的策略,兼顧穩定性與音質,使模型達到 SOTA 表現并支持零樣本聲音克隆。


所提出的 TTS 架構示意圖

實驗效果

  • 預處理鏈路有效性:消融實驗表明,停頓預測、分詞優化和 G2P 優化缺一不可;當分別移除這三項時,系統的 WER 從 6.3% 依次升至 6.5%、10.2% 與 22.5%,自然度評分 NMOS 從 4.4 下降到 3.8、3.9 與 3.0,尤其 G2P 的影響最大,證明精確聲調與音素映射是泰語 TTS 的質量瓶頸。

  • 通用與行業場景綜合表現:在公開基準 TSync2 和金融、醫療、教育、法律四大真實業務腳本上,模型始終保持最低 WER 與最高 NMOS,不僅超越開源系統,也優于 Google TTS、Microsoft TTS 等商業方案;特別是在專業術語發音與語速控制上,用戶反饋顯示本系統誤讀率更低、韻律更自然,驗證了該框架對多場景的強魯棒性與可落地性。

  • 零樣本聲音克隆能力:在僅提供幾秒參考音的條件下,模型即可生成目標說話人高保真語音,取得 SIM 0.91 和 SMOS 4.5,顯著超過 OpenVoice 的 0.85 與 4.0;嵌入可視化進一步展示了對說話人 timbre 的準確聚類,表明“聲調感知 + 多源特征”設計能夠在低資源環境下實現工業級的聲音克隆體驗。


TTS 能力實驗結果


預處理模塊消融研究結果


零樣本TTS能力實驗結果


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
莫斯科遭遇大規模空襲!所有機場被迫關閉

莫斯科遭遇大規模空襲!所有機場被迫關閉

項鵬飛
2025-06-11 20:53:39
中央指導組組長車俊:要響鼓重錘解決擔當不足問題

中央指導組組長車俊:要響鼓重錘解決擔當不足問題

政知新媒體
2025-06-14 10:30:37
海底撈開賣盒飯:自助午餐上線,22元不限量

海底撈開賣盒飯:自助午餐上線,22元不限量

齊魯壹點
2025-06-12 17:16:23
問界M8首批車主畫像:高學歷為主 年均家庭收入53萬

問界M8首批車主畫像:高學歷為主 年均家庭收入53萬

手機中國
2025-06-13 14:13:09
機關事業單位人員下班后打牌打麻將,算違法違紀嗎?明確規定來了

機關事業單位人員下班后打牌打麻將,算違法違紀嗎?明確規定來了

錘不倒的拖油瓶
2025-04-03 06:21:26
被指跨越所有紅線,以色列在急什么?伊朗核能力和無人機“包圍圈”或成其兩大焦慮

被指跨越所有紅線,以色列在急什么?伊朗核能力和無人機“包圍圈”或成其兩大焦慮

紅星新聞
2025-06-13 20:09:22
魔獸國服首個巫妖王極限擊殺!站擼4分鐘,Boss沒放技能就倒了

魔獸國服首個巫妖王極限擊殺!站擼4分鐘,Boss沒放技能就倒了

魔獸世界情報局
2025-06-14 00:29:58
以軍放狠話挑釁中方,中式裝備亮相前線,局勢突變

以軍放狠話挑釁中方,中式裝備亮相前線,局勢突變

智觀科技
2025-06-11 12:11:06
北京烤魚店老員工猥褻15歲女實習生,猥褻多達12次,只賠500塊錢

北京烤魚店老員工猥褻15歲女實習生,猥褻多達12次,只賠500塊錢

水晶的視界
2025-06-14 08:31:36
越來越多人違規上Carpool!加州警察無力執法

越來越多人違規上Carpool!加州警察無力執法

大洛杉磯LA
2025-06-14 06:46:33
2.26米張子宇首秀12分鐘18+7:身旁韓旭顯嬌小 名嘴高贊勢不可擋

2.26米張子宇首秀12分鐘18+7:身旁韓旭顯嬌小 名嘴高贊勢不可擋

顏小白的籃球夢
2025-06-13 21:45:59
某些地方公職人員下班后禁止飲酒之規定,合理合法嗎?

某些地方公職人員下班后禁止飲酒之規定,合理合法嗎?

牛鍋巴小釩
2025-06-12 12:58:02
中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

阿胡
2025-06-11 11:56:30
以色列激怒俄羅斯,俄高官警告:只要打擊以色列,俄先進導彈管夠

以色列激怒俄羅斯,俄高官警告:只要打擊以色列,俄先進導彈管夠

龍炎校尉
2025-06-11 09:28:59
悲催!網傳贛州一家具廠倒閉,3個月工資沒發,欠貨款l000多萬…

悲催!網傳贛州一家具廠倒閉,3個月工資沒發,欠貨款l000多萬…

火山詩話
2025-06-13 08:54:50
趙本山兒子完美詮釋土和豪

趙本山兒子完美詮釋土和豪

情感大頭說說
2025-06-02 20:22:02
中年男人“快樂藥”滯銷了,調查顯示“95后”僅50%每周有性生活

中年男人“快樂藥”滯銷了,調查顯示“95后”僅50%每周有性生活

風向觀察
2025-06-12 20:06:51
F35墜落中東!哈梅內伊定下目標,中方開始站隊,以色列打不下去

F35墜落中東!哈梅內伊定下目標,中方開始站隊,以色列打不下去

掌青說歷史
2025-06-14 12:08:13
馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-11 20:15:02
章瑩穎遇害8年后:男友完成她未完成的心愿,消失在大眾視野

章瑩穎遇害8年后:男友完成她未完成的心愿,消失在大眾視野

二月侃事
2025-06-10 09:41:08
2025-06-14 13:23:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

教育要聞

小升初數學考試題,可以用金字塔模型,也可以用沙漏模型

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

旅游
本地
家居
時尚
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

家居要聞

森林幾何 極簡灰調原木風

在時尚中國之夜,共赴榮耀東方時刻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麻江县| 景泰县| 英超| 乐平市| 玉田县| 乐山市| 修水县| 平乡县| 万年县| 松潘县| 青海省| 桑日县| 肃宁县| 佳木斯市| 临桂县| 司法| 舟山市| 平邑县| 岑巩县| 北碚区| 临沧市| 盐津县| 洛川县| 香格里拉县| 苍山县| 交口县| 山西省| 萨嘎县| 永胜县| 淮阳县| 长岛县| 芜湖县| 通渭县| 改则县| 富顺县| 鹰潭市| 津南区| 甘谷县| 郑州市| 富锦市| 娱乐|