99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

騰訊開源語音數字人模型,一張照片+一段音頻,生成高保真視頻

0
分享至


智東西AI前瞻(公眾號:zhidxcomAI)
作者 江宇
編輯 漠影

智東西AI前瞻5月28日消息,今日,騰訊混元重磅發布并開源了其最新的語音數字人模型——HunyuanVideo-Avatar。該模型由騰訊混元視頻大模型(HunyuanVideo)及騰訊音樂天琴實驗室MuseV技術聯合研發,在AI視頻生成領域實現了“一張照片、一段音頻即可生成高質量唱歌或說話視頻”的突破。

據官方介紹,HunyuanVideo-Avatar模型的核心亮點在于其高效的生成能力和出色的口型同步效果。它不僅能根據輸入的音頻精準驅動人物面部表情和唇形,還能保持視頻中人物身份和形象的穩定性。


一、音樂情感與唇形同步,實現高保真數字人

HunyuanVideo-Avatar模型支持頭肩、半身與全身多種景別,以及多風格、多物種與雙人場景,為視頻創作者提供了前所未有的創作自由。

用戶只需上傳人物圖像與音頻,模型即可自動理解圖片與音頻內容,例如人物所處的環境、音頻所蘊含的情感等,并生成包含自然表情、唇形同步及全身動作的視頻,讓靜態的人物圖像“活”起來。

例如,上傳一張女孩盤坐在森林的,身前是一團篝火的照片與一段歌曲,模型會理解到“一個女孩在森林空地上唱歌,她身前是一堆熊熊燃燒的篝火,火苗歡快跳躍,橘紅色的火光映照在她身上,為畫面增添了溫暖的氛圍”。


為了實現這一突破,HunyuanVideo-Avatar模型采用了多項創新技術,使其能夠生成更自然、生動的數字人視頻:

  • 角色圖像注入模塊:這一模塊解決了在生成視頻時,如何既保持人物形象的高度一致性,又能讓人物動作流暢自然的問題。它通過一種新穎的方式將人物圖像的特征注入到模型中,避免了傳統方法中可能出現的“僵硬”或不連貫的動作,從而顯著提升了視頻的整體質量。
  • 音頻情感模塊(AEM):該模塊能夠識別音頻中包含的情感信息,并將其精確地體現在數字人物的面部表情上。這意味著,如果音頻表達的是“高興”,數字人就能展現出相應的快樂表情,極大增強了視頻的真實感和感染力。
  • 面部感知音頻適配器(FAA):針對多人物對話場景,該模塊能夠“識別”并“鎖定”音頻所對應的具體人物面部區域。通過這種“面部掩碼”技術,模型可以獨立驅動不同人物的唇形和表情,確保多人對話時,每個角色都能根據自己的音頻進行精準、自然的表達,避免了不同人物之間動作互相影響的問題。

HunyuanVideo-Avatar模型提供了便捷的操作流程,用戶無需專業技能即可進行數字人視頻的創作。

用戶可在騰訊混元官網上體驗該模型的單主體功能,當前主要支持對單個數字人進行視頻生成,整個操作流程非常簡單。

上傳一張清晰的人物照片和一段不超過14秒的音頻,稍作等待,一段數字人視頻就生成了。

值得注意的是,對于本地部署,這類AI視頻生成模型通常對顯卡有一定要求,推薦使用具備較高顯存的GPU。此外,本地部署沒有視頻時長限制,但生成時長與顯卡性能呈線性關系,即更長的視頻生成需要更強的顯卡支持。

目前,在線網頁版支持生成最長14秒的數字人視頻。

二、多項指標表現出色,達到行業領先水平

綜合研究團隊在論文中公布的實驗結果,騰訊混元HunyuanVideo-Avatar模型在多項關鍵指標上展現了卓越性能。

在主體一致性、音畫同步方面,HunyuanVideo-Avatar效果超越開閉源方案,處在業內頂尖水平;在畫面動態、肢體自然度方面,效果超越開源方案,和其他閉源方案處在同一水平。


▲來自技術報告(https://arxiv.org/pdf/2505.20156)

具體來看,在音畫同步(Sync-C)和身份保持(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF數據集上的音畫同步指標分別為4.92和5.30,優于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等現有方法。

在全身測試集上,該模型在音畫同步方面達到5.56,也超過了Hallo3、Fantasy和字節跳動旗下的OmniHuman-1。

用戶研究結果進一步表明,在身份保持(IP)和唇語同步(LS)方面,HunyuanVideo-Avatar均獲得最高評分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字節跳動旗下的OmniHuman-1。

在畫面動態(MD)和肢體自然度(FBN)方面,根據消融研究(Ablation Study)的結果,HunyuanVideo-Avatar在畫面動態上達到了4.127,在VQ(視頻質量)上達到4.16,優于其他兩種注入模塊方式。

在用戶研究中,HunyuanVideo-Avatar在肢體自然度方面得分3.88,雖然略低于字節跳動OmniHuman-1的4.18,但仍優于Hallo3和Fantasy。

這表明該模型在保持人物動態自然度方面,已達到與領先閉源方案相近的水平,并超越了其他開源方案。

相較于傳統工具僅支持頭部驅動,HunyuanVideo-Avatar模型還支持半身或全身場景,顯著提升了視頻的真實感和表現力。

此外,該模型還支持多風格、多物種與多人場景,能夠生成包括賽博朋克、2D動漫、中國水墨畫,以及機器人、動物等多種風格的視頻,拓展了數字人技術的應用范圍。

三、賦能垂直應用,豐富內容生態

HunyuanVideo-Avatar模型適用于短視頻創作、電商、廣告等多種應用場景。

它可以生成人物在不同場景下的說話、對話、表演等片段,快速制作產品介紹視頻或多人互動廣告,有效降低制作成本,提高生產效率。

目前,HunyuanVideo-Avatar技術已在騰訊音樂的聽歌陪伴、長音頻播客以及唱歌MV等多個場景中得到應用:

  • 在QQ音樂中,用戶在收聽“AI力宏”歌曲時,播放器上會實時同步顯示生動可愛的AI力宏形象。
  • 在酷狗音樂的長音頻繪本功能中,AI生成的虛擬人形象將“開口說話”,為用戶講述童話故事。
  • 在全民K歌中,用戶可以通過上傳自己的照片,一鍵生成專屬的唱歌MV。
結語:數字人技術浪潮,未來已來

HunyuanVideo-Avatar模型的發布與開源,為數字人技術領域注入了新的活力。它通過簡化數字人視頻內容的生成流程,展現了拓展數字內容創作邊界的潛力。

隨著此類技術的不斷發展和應用,數字人有望在未來的社會生產和日常生活中扮演日益重要的角色,為多個領域帶來新的可能性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊瀚森赴美特訓效果顯著:訓練三分15中14!法媒預測他第4順位

楊瀚森赴美特訓效果顯著:訓練三分15中14!法媒預測他第4順位

林小湜體育頻道
2025-05-30 00:33:51
F16擊落自家蘇27,烏軍又鬧大烏龍?審判已開始,犯下印軍式錯誤

F16擊落自家蘇27,烏軍又鬧大烏龍?審判已開始,犯下印軍式錯誤

東方點兵
2025-05-28 19:26:25
黃曉明新片官宣,增重30斤演智力障礙人士!

黃曉明新片官宣,增重30斤演智力障礙人士!

先鋒新聞
2025-05-29 07:05:36
張卓毅媽媽的最新回應,直接捅破了最后一層窗戶紙

張卓毅媽媽的最新回應,直接捅破了最后一層窗戶紙

妮妮玩不夠
2025-05-29 06:14:03
為什么“美國”如此強大,大量的底層民眾卻依然過得如此辛苦呢?

為什么“美國”如此強大,大量的底層民眾卻依然過得如此辛苦呢?

翻開歷史和現實
2025-05-18 23:59:26
網紅阿陽的幸福再婚生活結束了,陷入老丈人一家的算計里

網紅阿陽的幸福再婚生活結束了,陷入老丈人一家的算計里

九方魚論
2025-05-29 23:41:35
心衰是因為缺乏4種營養素?醫生建議:日常可多補充,給心臟減負

心衰是因為缺乏4種營養素?醫生建議:日常可多補充,給心臟減負

今日養生之道
2025-05-29 11:08:42
上海的相親圈兒炸鍋了!有男生提出了六不娶,很多女生破防了!

上海的相親圈兒炸鍋了!有男生提出了六不娶,很多女生破防了!

史行途
2025-05-29 15:18:29
格斗女王吐槽“難找對象”后私信爆炸了!有人公開喊話表白

格斗女王吐槽“難找對象”后私信爆炸了!有人公開喊話表白

環球網資訊
2025-05-29 07:56:33
朱令案嫌疑人現狀:伯父是副國,移民澳洲25年,嫁白男生一對兒女

朱令案嫌疑人現狀:伯父是副國,移民澳洲25年,嫁白男生一對兒女

歷史八卦社
2023-12-25 11:32:40
28投轟56分27板!遼寧又一天才中鋒冒尖:這兩戰能打動楊鳴嗎?

28投轟56分27板!遼寧又一天才中鋒冒尖:這兩戰能打動楊鳴嗎?

籃球快餐車
2025-05-29 05:37:25
上海高端酒店掀“換牌潮”,地標和平飯店將煥新為萊佛士酒店

上海高端酒店掀“換牌潮”,地標和平飯店將煥新為萊佛士酒店

南方都市報
2025-05-29 18:47:55
投資3200億,中國批準修建歷史上最昂貴的運河,為何成為國際焦點

投資3200億,中國批準修建歷史上最昂貴的運河,為何成為國際焦點

劉振起觀點
2025-05-29 10:09:44
昆明市人民檢察院檢察長趙成武被查

昆明市人民檢察院檢察長趙成武被查

齊魯壹點
2025-05-29 18:21:24
“紅二代”眾多,但被授予上將軍銜的僅有4位,他們分別都是誰?

“紅二代”眾多,但被授予上將軍銜的僅有4位,他們分別都是誰?

燭下青史
2025-05-29 16:18:29
戰爭的代價太大了,戰爭把男人都卷走,烏克蘭那么多好女人怎么辦

戰爭的代價太大了,戰爭把男人都卷走,烏克蘭那么多好女人怎么辦

大道無形我有型
2025-05-19 20:56:47
雷霆4-1晉級!美媒:掘金曾將雷霆逼進搶七 快船曾將掘金逼進搶七

雷霆4-1晉級!美媒:掘金曾將雷霆逼進搶七 快船曾將掘金逼進搶七

直播吧
2025-05-29 13:11:12
俄外交部發言人:下一輪俄烏談判俄方代表團成員與上一輪相同

俄外交部發言人:下一輪俄烏談判俄方代表團成員與上一輪相同

財聯社
2025-05-30 00:45:11
韋世豪說得在理!名記李璇曬截圖點評!混淆是非?球迷可不好糊弄

韋世豪說得在理!名記李璇曬截圖點評!混淆是非?球迷可不好糊弄

建哥說體育
2025-05-29 07:35:55
巴菲特的智慧:我見過白手起家的富豪,基本沒有一個靠努力賺大錢

巴菲特的智慧:我見過白手起家的富豪,基本沒有一個靠努力賺大錢

阿胖讀書
2025-05-29 16:58:38
2025-05-30 05:44:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
9939文章數 116765關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

數碼
家居
時尚
本地
手機

數碼要聞

英偉達原生 GeForce NOW 應用登陸 Steam Deck

家居要聞

暖色復古 溫馨小資情調

這些才是適合夏天的打扮!色彩不沉悶、適當露膚,輕盈又舒適

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

手機要聞

2294元起!vivo S30 Pro mini發布,小直屏開卷?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嵊泗县| 咸宁市| 察雅县| 中牟县| 石林| 卓尼县| 聊城市| 贵溪市| 鄂尔多斯市| 会泽县| 曲靖市| 保山市| 历史| 明光市| 修武县| 宜丰县| 西和县| 澄城县| 垣曲县| 措美县| 游戏| 衡山县| 民县| 万源市| 滦南县| 绥宁县| 天长市| 平乡县| 永昌县| 南康市| 南平市| 和顺县| 渝中区| 北海市| 陇南市| 垫江县| 黄山市| 邯郸县| 珠海市| 武穴市| 竹山县|