智東西AI前瞻(公眾號:zhidxcomAI)
作者 江宇
編輯 漠影
智東西AI前瞻5月28日消息,今日,騰訊混元重磅發布并開源了其最新的語音數字人模型——HunyuanVideo-Avatar。該模型由騰訊混元視頻大模型(HunyuanVideo)及騰訊音樂天琴實驗室MuseV技術聯合研發,在AI視頻生成領域實現了“一張照片、一段音頻即可生成高質量唱歌或說話視頻”的突破。
據官方介紹,HunyuanVideo-Avatar模型的核心亮點在于其高效的生成能力和出色的口型同步效果。它不僅能根據輸入的音頻精準驅動人物面部表情和唇形,還能保持視頻中人物身份和形象的穩定性。
一、音樂情感與唇形同步,實現高保真數字人
HunyuanVideo-Avatar模型支持頭肩、半身與全身多種景別,以及多風格、多物種與雙人場景,為視頻創作者提供了前所未有的創作自由。
用戶只需上傳人物圖像與音頻,模型即可自動理解圖片與音頻內容,例如人物所處的環境、音頻所蘊含的情感等,并生成包含自然表情、唇形同步及全身動作的視頻,讓靜態的人物圖像“活”起來。
例如,上傳一張女孩盤坐在森林的,身前是一團篝火的照片與一段歌曲,模型會理解到“一個女孩在森林空地上唱歌,她身前是一堆熊熊燃燒的篝火,火苗歡快跳躍,橘紅色的火光映照在她身上,為畫面增添了溫暖的氛圍”。
為了實現這一突破,HunyuanVideo-Avatar模型采用了多項創新技術,使其能夠生成更自然、生動的數字人視頻:
- 角色圖像注入模塊:這一模塊解決了在生成視頻時,如何既保持人物形象的高度一致性,又能讓人物動作流暢自然的問題。它通過一種新穎的方式將人物圖像的特征注入到模型中,避免了傳統方法中可能出現的“僵硬”或不連貫的動作,從而顯著提升了視頻的整體質量。
- 音頻情感模塊(AEM):該模塊能夠識別音頻中包含的情感信息,并將其精確地體現在數字人物的面部表情上。這意味著,如果音頻表達的是“高興”,數字人就能展現出相應的快樂表情,極大增強了視頻的真實感和感染力。
- 面部感知音頻適配器(FAA):針對多人物對話場景,該模塊能夠“識別”并“鎖定”音頻所對應的具體人物面部區域。通過這種“面部掩碼”技術,模型可以獨立驅動不同人物的唇形和表情,確保多人對話時,每個角色都能根據自己的音頻進行精準、自然的表達,避免了不同人物之間動作互相影響的問題。
HunyuanVideo-Avatar模型提供了便捷的操作流程,用戶無需專業技能即可進行數字人視頻的創作。
用戶可在騰訊混元官網上體驗該模型的單主體功能,當前主要支持對單個數字人進行視頻生成,整個操作流程非常簡單。
上傳一張清晰的人物照片和一段不超過14秒的音頻,稍作等待,一段數字人視頻就生成了。
值得注意的是,對于本地部署,這類AI視頻生成模型通常對顯卡有一定要求,推薦使用具備較高顯存的GPU。此外,本地部署沒有視頻時長限制,但生成時長與顯卡性能呈線性關系,即更長的視頻生成需要更強的顯卡支持。
目前,在線網頁版支持生成最長14秒的數字人視頻。
二、多項指標表現出色,達到行業領先水平
綜合研究團隊在論文中公布的實驗結果,騰訊混元HunyuanVideo-Avatar模型在多項關鍵指標上展現了卓越性能。
在主體一致性、音畫同步方面,HunyuanVideo-Avatar效果超越開閉源方案,處在業內頂尖水平;在畫面動態、肢體自然度方面,效果超越開源方案,和其他閉源方案處在同一水平。
▲來自技術報告(https://arxiv.org/pdf/2505.20156)
具體來看,在音畫同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF數據集上的音畫同步指標分別為4.92和5.30,優于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等現有方法。
在全身測試集上,該模型在音畫同步方面達到5.56,也超過了Hallo3、Fantasy和字節跳動旗下的OmniHuman-1。
用戶研究結果進一步表明,在身份保持(IP)和唇語同步(LS)方面,HunyuanVideo-Avatar均獲得最高評分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字節跳動旗下的OmniHuman-1。
在畫面動態(MD)和肢體自然度(FBN)方面,根據消融研究(Ablation Study)的結果,HunyuanVideo-Avatar在畫面動態上達到了4.127,在VQ(視頻質量)上達到4.16,優于其他兩種注入模塊方式。
在用戶研究中,HunyuanVideo-Avatar在肢體自然度方面得分3.88,雖然略低于字節跳動OmniHuman-1的4.18,但仍優于Hallo3和Fantasy。
這表明該模型在保持人物動態自然度方面,已達到與領先閉源方案相近的水平,并超越了其他開源方案。
相較于傳統工具僅支持頭部驅動,HunyuanVideo-Avatar模型還支持半身或全身場景,顯著提升了視頻的真實感和表現力。
此外,該模型還支持多風格、多物種與多人場景,能夠生成包括賽博朋克、2D動漫、中國水墨畫,以及機器人、動物等多種風格的視頻,拓展了數字人技術的應用范圍。
三、賦能垂直應用,豐富內容生態
HunyuanVideo-Avatar模型適用于短視頻創作、電商、廣告等多種應用場景。
它可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產品介紹視頻或多人互動廣告,有效降低制作成本,提高生產效率。
目前,HunyuanVideo-Avatar技術已在騰訊音樂的聽歌陪伴、長音頻播客以及唱歌MV等多個場景中得到應用:
- 在QQ音樂中,用戶在收聽“AI力宏”歌曲時,播放器上會實時同步顯示生動可愛的AI力宏形象。
- 在酷狗音樂的長音頻繪本功能中,AI生成的虛擬人形象將“開口說話”,為用戶講述童話故事。
- 在全民K歌中,用戶可以通過上傳自己的照片,一鍵生成專屬的唱歌MV。
HunyuanVideo-Avatar模型的發布與開源,為數字人技術領域注入了新的活力。它通過簡化數字人視頻內容的生成流程,展現了拓展數字內容創作邊界的潛力。
隨著此類技術的不斷發展和應用,數字人有望在未來的社會生產和日常生活中扮演日益重要的角色,為多個領域帶來新的可能性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.