網易首頁 > 網易號 > 正文申請入駐

騰訊開源語音數字人模型，一張照片+一段音頻，生成高保真視頻

2025-05-28 18:41:47　來源: 智東西

北京舉報

分享至

智東西AI前瞻（公眾號：zhidxcomAI）
作者江宇
編輯漠影

智東西AI前瞻5月28日消息，今日，騰訊混元重磅發布并開源了其最新的語音數字人模型——HunyuanVideo-Avatar。該模型由騰訊混元視頻大模型（HunyuanVideo）及騰訊音樂天琴實驗室MuseV技術聯合研發，在AI視頻生成領域實現了“一張照片、一段音頻即可生成高質量唱歌或說話視頻”的突破。

據官方介紹，HunyuanVideo-Avatar模型的核心亮點在于其高效的生成能力和出色的口型同步效果。它不僅能根據輸入的音頻精準驅動人物面部表情和唇形，還能保持視頻中人物身份和形象的穩定性。

一、音樂情感與唇形同步，實現高保真數字人

HunyuanVideo-Avatar模型支持頭肩、半身與全身多種景別，以及多風格、多物種與雙人場景，為視頻創作者提供了前所未有的創作自由。

用戶只需上傳人物圖像與音頻，模型即可自動理解圖片與音頻內容，例如人物所處的環境、音頻所蘊含的情感等，并生成包含自然表情、唇形同步及全身動作的視頻，讓靜態的人物圖像“活”起來。

例如，上傳一張女孩盤坐在森林的，身前是一團篝火的照片與一段歌曲，模型會理解到“一個女孩在森林空地上唱歌，她身前是一堆熊熊燃燒的篝火，火苗歡快跳躍，橘紅色的火光映照在她身上，為畫面增添了溫暖的氛圍”。

為了實現這一突破，HunyuanVideo-Avatar模型采用了多項創新技術，使其能夠生成更自然、生動的數字人視頻：

角色圖像注入模塊：這一模塊解決了在生成視頻時，如何既保持人物形象的高度一致性，又能讓人物動作流暢自然的問題。它通過一種新穎的方式將人物圖像的特征注入到模型中，避免了傳統方法中可能出現的“僵硬”或不連貫的動作，從而顯著提升了視頻的整體質量。
音頻情感模塊（AEM）：該模塊能夠識別音頻中包含的情感信息，并將其精確地體現在數字人物的面部表情上。這意味著，如果音頻表達的是“高興”，數字人就能展現出相應的快樂表情，極大增強了視頻的真實感和感染力。
面部感知音頻適配器（FAA）：針對多人物對話場景，該模塊能夠“識別”并“鎖定”音頻所對應的具體人物面部區域。通過這種“面部掩碼”技術，模型可以獨立驅動不同人物的唇形和表情，確保多人對話時，每個角色都能根據自己的音頻進行精準、自然的表達，避免了不同人物之間動作互相影響的問題。

HunyuanVideo-Avatar模型提供了便捷的操作流程，用戶無需專業技能即可進行數字人視頻的創作。

用戶可在騰訊混元官網上體驗該模型的單主體功能，當前主要支持對單個數字人進行視頻生成，整個操作流程非常簡單。

上傳一張清晰的人物照片和一段不超過14秒的音頻，稍作等待，一段數字人視頻就生成了。

值得注意的是，對于本地部署，這類AI視頻生成模型通常對顯卡有一定要求，推薦使用具備較高顯存的GPU。此外，本地部署沒有視頻時長限制，但生成時長與顯卡性能呈線性關系，即更長的視頻生成需要更強的顯卡支持。

目前，在線網頁版支持生成最長14秒的數字人視頻。

二、多項指標表現出色，達到行業領先水平

綜合研究團隊在論文中公布的實驗結果，騰訊混元HunyuanVideo-Avatar模型在多項關鍵指標上展現了卓越性能。

在主體一致性、音畫同步方面，HunyuanVideo-Avatar效果超越開閉源方案，處在業內頂尖水平；在畫面動態、肢體自然度方面，效果超越開源方案，和其他閉源方案處在同一水平。

▲來自技術報告（https://arxiv.org/pdf/2505.20156）

具體來看，在音畫同步（Sync-C）和身份保持（IP）方面，HunyuanVideo-Avatar在CelebV-HQ和HDTF數據集上的音畫同步指標分別為4.92和5.30，優于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等現有方法。

在全身測試集上，該模型在音畫同步方面達到5.56，也超過了Hallo3、Fantasy和字節跳動旗下的OmniHuman-1。

用戶研究結果進一步表明，在身份保持（IP）和唇語同步（LS）方面，HunyuanVideo-Avatar均獲得最高評分（IP 4.84，LS 4.65），超越了Hallo3、Fantasy和字節跳動旗下的OmniHuman-1。

在畫面動態（MD）和肢體自然度（FBN）方面，根據消融研究（Ablation Study）的結果，HunyuanVideo-Avatar在畫面動態上達到了4.127，在VQ（視頻質量）上達到4.16，優于其他兩種注入模塊方式。

在用戶研究中，HunyuanVideo-Avatar在肢體自然度方面得分3.88，雖然略低于字節跳動OmniHuman-1的4.18，但仍優于Hallo3和Fantasy。

這表明該模型在保持人物動態自然度方面，已達到與領先閉源方案相近的水平，并超越了其他開源方案。

相較于傳統工具僅支持頭部驅動，HunyuanVideo-Avatar模型還支持半身或全身場景，顯著提升了視頻的真實感和表現力。

此外，該模型還支持多風格、多物種與多人場景，能夠生成包括賽博朋克、2D動漫、中國水墨畫，以及機器人、動物等多種風格的視頻，拓展了數字人技術的應用范圍。

三、賦能垂直應用，豐富內容生態

HunyuanVideo-Avatar模型適用于短視頻創作、電商、廣告等多種應用場景。

它可以生成人物在不同場景下的說話、對話、表演等片段，快速制作產品介紹視頻或多人互動廣告，有效降低制作成本，提高生產效率。

目前，HunyuanVideo-Avatar技術已在騰訊音樂的聽歌陪伴、長音頻播客以及唱歌MV等多個場景中得到應用：

在QQ音樂中，用戶在收聽“AI力宏”歌曲時，播放器上會實時同步顯示生動可愛的AI力宏形象。
在酷狗音樂的長音頻繪本功能中，AI生成的虛擬人形象將“開口說話”，為用戶講述童話故事。
在全民K歌中，用戶可以通過上傳自己的照片，一鍵生成專屬的唱歌MV。

結語：數字人技術浪潮，未來已來

HunyuanVideo-Avatar模型的發布與開源，為數字人技術領域注入了新的活力。它通過簡化數字人視頻內容的生成流程，展現了拓展數字內容創作邊界的潛力。

隨著此類技術的不斷發展和應用，數字人有望在未來的社會生產和日常生活中扮演日益重要的角色，為多個領域帶來新的可能性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.