大數據文摘出品
近日,Qwen 團隊對旗下語音合成模型 Qwen-TTS 進行了重大升級。
此次更新的版本為“qwen-tts-latest”或“qwen-tts-2025-05-22”,通過 Qwen API 即可訪問和使用。
最引人注目的改動,是Qwen-TTS首次支持生成三種中文方言:北京話、上海話以及四川話。
這意味著,AI生成的語音不僅可以說普通話,還能自然地模仿出老北京的胡同腔、上海弄堂的吳語味,乃至川蜀鄉音中的抑揚頓挫。
這一能力背后,是Qwen-TTS使用了超過300萬小時的超大規模語料庫進行訓練。
不僅如此,Qwen-TTS還能自動根據文本內容,調整語音的韻律、節奏與情緒變化。
這一點尤為關鍵。它讓AI的聲音不再是單調死板的“機器合成”,而是能做到抑揚頓挫、聲情并茂。
目前,Qwen-TTS 支持七種中英雙語音色,涵蓋不同語言風格和性格特征。
包括 Cherry、Ethan、Chelsie、Serena 這幾位通用中英文配音角色,以及 Dylan(北京話)、Jada(上海話)和 Sunny(四川話)這三位方言專屬音色。
每一種音色都可以生成中英文混合語句,語調自然、語速流暢,令人難以分辨其非人類發聲。
圖源“ 通義千問Qwen ”官方微信號
據悉,Qwen-TTS在 SeedTTS-Eval 評測集上的表現已達到人類平均水平。
無論從流暢性、情感傳達、語速掌控還是音質自然度上看,均展現出業內領先的綜合能力。
而從開發者角度來看,Qwen-TTS 的使用門檻也被大幅降低。
用戶僅需通過 Qwen API,并設置必要的模型名(如“qwen-tts-latest”)與目標音色(如“Dylan”),即可快速合成高質量語音。
官方還提供了完整的Python調用示例。代碼邏輯清晰、接口穩定,只需數行,即可將文本轉為語音,并自動下載音頻文件。
調用方式靈活,支持本地部署與云端調用,適合各類開發者與企業級應用場景。
例如,只需一段簡單的文本:“喲,您猜怎么著?今兒個我看NBA,庫里投籃跟鬧著玩似的”,就能快速生成帶有北京味兒的語音內容。
這項能力,在短視頻配音、虛擬主播、播客制作、語音小說等領域具有巨大潛力。
更重要的是,Qwen-TTS 的可擴展性極強。
據官方透露,未來還將增加更多語言與語音風格,覆蓋更多方言與多語環境。
當然,這也為少數語言保護、多語種翻譯、跨境產品本地化等問題提供了新的解決思路。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.