當前,國內AI人工智能應用大爆發。DeepSeek的橫空出世讓AI加速普及,AI正以前所未有的速度重塑各行各業。在深入推進“人工智能+行動”的指引下,中國科技企業以獨特的路徑在全球競爭中脫穎而出。在這一過程中,本土化的深度洞察與技術創新相結合,為AI應用快速普及與落地鋪平道路。
4月7日,趣丸科技首款搭載SOTA模型的AI語音應用——趣丸千音(英文名:All Voice Lab)開啟邀測。
作為全球領先的AI語音創作平臺,趣丸千音旨在提供一站式智能語音解決方案。平臺集成文本轉語音、視頻翻譯、多語種合成等能力,是業界首個從模型到應用全面趕超國際先進水平的AI語音產品,適用于影視動漫、有聲讀物、新聞傳媒、文旅導覽等多個行業,全流程革新內容創作與國際傳播,為用戶帶來前所未有的沉浸式體驗。
綜合能力全球領先,趕超國際先進水平
趣丸千音堅持以用戶需求驅動產品創新,致力于給企業和創作者帶來更智能、更高效、更卓越的產品體驗,首批面向大眾開放的功能如下:
視頻翻譯:一站式Agent工作流,上傳視頻自動完成“字幕擦除-翻譯-配音-后期-成片交付”。單次批量上傳最大支持40G,是業界首個實現工業化量產水平的產品,顛覆全球化內容生產模式。
文本轉語音:輸入文本即配音,自動識別多種語言,可選擇不同音色和調節語速,滿足復雜場景的精細化需求。
有聲書:一站式Agent工作流,上傳長篇文本自動生成有聲書或播客。支持多種文件格式、多角色分配和段落編輯,能夠制作更具有情感表現力的有聲讀物,讓每個故事和角色都栩栩如生。
在MaskGCT(Masked Generative Codec Transformer)模型能力支持下,趣丸千音在語音相似度、準確率、質量和穩定性上均領先于同類產品,同時支持支持中文、英語、日語、法語、德語、韓語等多語種生成,能夠提供全球化的語音輸出。
MaskGCT是趣丸科技與香港中文大學(深圳)聯合研發的開源語音大模型,采用掩碼生成模型與語音表征解耦編碼的創新范式,曾登頂GitHub趨勢榜榜首。該模型在全球最大且最為多樣的高質量多語種語音數據集之一“Emilia”上進行訓練,展現出超自然的風格遷移及跨語言生成能力。實驗表明,模型在多個TTS基準數據集上都達到了SOTA效果,超過當前最先進的同類模型,某些指標甚至超過人類水平。
此外,測試者使用趣丸千音與ElevenLabs、Open AI gpt-4o-mini-tts進行繞口令“燙嘴挑戰”。實測發現,趣丸千音的中文生成效果明顯更優,在停頓、韻律、音準表現上更自然流暢、媲美真人。
解決真實場景需求,打造AI語音的“特斯拉時刻”
趣丸科技從模型自研到產品創新均以用戶需求為導向,這讓趣丸千音得以率先在垂直縱深場景中開辟出差異化的應用路徑。目前,趣丸千音在影視動漫、有聲讀物、新聞傳媒、文旅導覽、在線教育等領域應用場景廣闊。
這種“小切口大機會”的邏輯,與特斯拉用Model S打開電動車市場異曲同工:先用極致效率攻克一個高需求場景,再以標準化能力橫向吞噬百億市場。據《2024全球數字內容產業報告》,僅媒體與泛娛樂領域的多語言翻譯需求規模已超650億美元,而趣丸千音正成為這條賽道的核心基建。
以微短劇應用場景為例,作為中國文化出海“新三樣”,微短劇正在海外刮起強勁“中國風”。國家廣播電視總局國際合作司公布的數據顯示,中國微短劇海外應用已突破300款,全球累計下載量逾4.7億次;中國微短劇產品已覆蓋全球200余個國家和地區。
短劇出海的爆發,也讓譯制劇加速成為出海內容的主體。而傳統人工譯制流程周期長、成本高昂正成為制約短劇作品“走出去”的一大瓶頸。目前,趣丸千音的視頻翻譯功能可實現12小時譯制1000分鐘劇集,效率較人工提升10倍+,成本下降15倍+,讓譯制行業在AI賦能下邁入工業化量產新紀元,為中國優秀作品按下出海“倍速鍵”。
這組數據背后,不僅讓支持45分鐘單次上傳的ElevenLabs望塵莫及,也是工業化能力對實驗室原型的降維打擊。
AI的未來,不是某一個企業的未來,而是整個產業生態的未來。趣丸科技始終堅持科技開發造福社會,最大化發揮AI的價值,幫助更多個人用戶和企業用得上、用得起、用得好先進的模型與產品,攜手更多行業伙伴共建產業生態圈,邁向高質量發展新階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.