近日,騰訊混元發布并開源了一款語音數字人模型——HunyuanVideo-Avatar。
據悉,HunyuanVideo-Avatar 是騰訊混元依托其自研的視頻大模型(HunyuanVideo),并與騰訊音樂天琴實驗室的 MuseV 技術展開聯合研發的成果。該模型功能強大,支持頭肩、半身以及全身等多種景別,還能適配多風格、多物種以及雙人場景,能夠為視頻創作者提供具備高一致性和高動態性的視頻生成能力。
用戶只需上傳人物圖像和對應的音頻,HunyuanVideo-Avatar 模型就會自動對圖片和音頻進行分析理解,例如精準捕捉人物所處的環境信息、音頻中蘊含的情感色彩等。在此基礎上,模型能讓圖中的人物以自然流暢的狀態說話或者唱歌,最終生成包含自然生動的表情、精準的唇形同步以及協調的全身動作的視頻內容。
目前,該模型支持用戶上傳時長不超過 14 秒的音頻來生成視頻。后續,團隊還將陸續上線并開源更多的功能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.