99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI視覺圖靈時代來了!字節OmniHuman,一張圖配上音頻生成視頻

0
分享至

機器之心發布

機器之心編輯部

還記得半年前在 X 上引起熱議的肖像音頻驅動技術 Loopy 嗎?升級版技術方案來了,字節跳動數字人團隊推出了新的多模態數字人方案 OmniHuman, 其可以對任意尺寸和人物占比的單張圖片結合一段輸入的音頻進行視頻生成,生成的人物視頻效果生動,具有非常高的自然度。

如對下面圖片和音頻:





音頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

OmniHuman 生成的人物可以在視頻中自然運動:



視頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

從項目主頁上可以看到 OmniHuman 對肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過單個模型進行支持,人物可以在視頻中生成和音頻匹配的動作,包括演講、唱歌、樂器演奏以及移動。對于人物視頻生成中常見的手勢崩壞,也相比現有的方法有顯著的改善。



視頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

作者也展示模型對非真人圖片輸入的支持,可以看到對動漫、3D 卡通的支持也很不錯,能保持特定風格原有的運動模式。據悉,該技術方案已落地即夢 AI,相關功能將于近期開啟測試。



視頻鏈接:

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

更多細節和展示效果,請查看:

  • 論文項目主頁:https://omnihuman-lab.github.io/
  • 技術報告:https://arxiv.org/abs/2502.01061

研究問題

基于擴散 Transformer(DiT)的視頻生成模型通過海量視頻 - 文本數據訓練,已能輸出逼真的通用視頻內容。其核心優勢在于從大規模數據中學習到的強大通用知識,使模型在推理時展現出優異的泛化能力。在細分的人像動畫領域,現有技術主要聚焦兩類任務:音頻驅動的面部生成(如語音口型同步)和姿勢驅動的身體運動合成(如舞蹈動作生成)。2023 年后端到端訓練方案的突破,使得現有技術方案通常能夠對具有固定尺寸和人像比例的輸入圖像生成動畫,實現精準的口型同步與微表情捕捉。

然而,技術瓶頸日益凸顯:當前模型依賴高度過濾的訓練數據(如固定構圖、純語音片段),雖保障了訓練穩定性,卻引發 "溫室效應"— 模型僅在受限場景(如固定構圖、真人形象)中表現良好,難以適應不同畫面比例、多樣化風格等復雜輸入。更嚴重的是,現有數據清洗機制在排除干擾因素時,往往也丟失了大量有價值的數據,導致生成效果自然度低、質量差。

這種困境導致技術路線陷入兩難:直接擴大數據規模會因訓練目標模糊(如音頻信號與肢體運動的弱相關性)導致模型性能下降;而維持嚴格篩選策略又難以突破場景限制。如何既能保留有效運動模式學習,又能從大數據規模學習中受益成為當前研究重點。

技術方案

據技術報告,OmniHuman,面向端到端人像驅動任務中高質量數據稀缺的問題,采用了一種 Omni-Conditions Training 的混合多模態訓練策略,并相應的設計了一個 OmniHuman 模型,通過這種混合多模態訓練的設計,可以將多種模態的數據一起加入模型進行訓練,從而大幅度的增加了人像驅動模型的可訓練數據,使得模型可以從大規模數據中受益,對各種類似的輸入形式有了比較好的支持。

Omni-Conditions Training.在模型訓練過程中,作者將多種模態按照和運動的相關性進行區分,依序進行混合條件訓練。這個多模態訓練遵循兩個原則:

原則 1: 較強條件的任務可以利用較弱條件的任務及其數據來擴展訓練數據規模。例如,由于口型同步準確性、姿態可見性和穩定性等過濾標準,音頻和姿態條件任務中排除的數據可以用于文本和圖像條件任務。因此,在早期階段舍棄音頻和姿態條件,在后期逐步加入。

原則 2: 條件越強,訓練比例應越低。較強的運動相關條件(如姿態)由于歧義較少,訓練效果通常優于較弱的條件(如音頻)。當兩種條件同時存在時,模型傾向于依賴較強條件進行運動生成,導致較弱條件無法有效學習。因此,需要確保較弱條件的訓練比例高于較強條件。

基于以上原則設計他們構建了多個階段的訓練過程,依次增加文本、圖像、音頻以及姿態模態參與模型訓練,并降低對應的訓練占比。





OmniHuman 技術框架圖

Omni-Conditions Model.除了 Omni-Conditions Training 訓練策略以外,OmniHuman 采用了基于 DiT 架構的視頻生成框架,使得模型兼容多種模態的條件注入方式,包括文本、圖像、音頻和姿態,多模態的條件被區分為兩類:驅動條件和外觀條件。

對于驅動條件,作者對音頻特征通過 cross attention 實現條件注入,對于姿態特征通過 Heatmap 特征編碼后和 Noise 特征進行拼接實現條件注入,對于文本特征,則保持了 MMDiT 的條件注入方式。

對于外觀條件,作者沒有像現有工作一樣采用一個單獨的參考圖網絡 (Reference Net),而是直接利用去噪聲網絡 (Denoising Net) 對輸入圖像進行特征編碼,復用了 backbone 的特征提取方式,參考圖特征會和 Noise 特征進行拼接實現條件注入

效果對比

作者給出了和目前行業領先的方案的效果對比,通過單個模型同時對比了針對不同人物占比的專有模型,仍然可以取得顯著的整體效果優勢。



除了數值分析以外,作者也分析基于 Omni-Conditions Training 可以改善在人體手勢生成、多樣性輸入圖像上的視頻生成效果,并展示了混合多模態訓練可以使得單個模型同時兼容多種模態驅動,生成可控的生動人像視頻的例子。

結論

OmniHuman 是一個端到端的多模態條件人像視頻生成框架,能夠基于單張圖像和運動信號(如音頻、視頻或兩者)生成人像動畫視頻。它提出了一個多模態混合訓練的技術方案,并調研了具體的訓練策略,設計了相應的多模態混合控制的人像視頻生成模型,從而克服了以往方法面臨的高質量數據稀缺問題,從大規模數據訓練中受益,學習自然的運動模式。OmniHuman 顯著優于現有方法,能夠從弱信號(尤其是音頻)生成生動的人類視頻。它支持任意縱橫比的圖像(如肖像、半身或全身),在各種場景下提供生動、高質量的結果。

團隊介紹

字節跳動智能創作數字人團隊,智能創作是字節跳動 AI & 多媒體技術中臺,通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、頭條等公司內眾多產品線;同時為外部 ToB 合作伙伴提供業界最前沿的智能創作能力與行業解決方案。其中數字人方向專注于建設行業領先的數字人生成和驅動技術,豐富智能創作內容生態。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
31歲程序員搞副業,6個月喜提8000萬刀退休金!氛圍編程公司被光速收購

31歲程序員搞副業,6個月喜提8000萬刀退休金!氛圍編程公司被光速收購

新智元
2025-06-20 12:20:47
內賈德及其家人突傳死訊

內賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
在哈薩克斯坦待了幾天,回來被窩里眼淚流干了,錢好掙日子不好過

在哈薩克斯坦待了幾天,回來被窩里眼淚流干了,錢好掙日子不好過

陳博世財經
2025-06-20 12:14:28
要警惕了!各個門閥勢力在國內已經形成,對國家持續發展危害極大

要警惕了!各個門閥勢力在國內已經形成,對國家持續發展危害極大

麥大人
2025-06-18 12:05:19
中國2.2億獨生子女,正在面臨非常嚴峻的問題,未來可能難以解決

中國2.2億獨生子女,正在面臨非常嚴峻的問題,未來可能難以解決

青眼財經
2025-06-20 11:39:07
夏至無雨三伏熱?明日夏至,送大家6句夏至農諺,都是古人的智慧

夏至無雨三伏熱?明日夏至,送大家6句夏至農諺,都是古人的智慧

農夫也瘋狂
2025-06-20 10:50:12
王祖賢去北京拍廣告,片酬200萬。坐出租車給司機5塊錢,司機拒收

王祖賢去北京拍廣告,片酬200萬。坐出租車給司機5塊錢,司機拒收

百態人間
2025-06-17 16:20:13
造車十一年,巨虧1300億,李斌被靈魂拷問:蔚來什么時候倒閉?

造車十一年,巨虧1300億,李斌被靈魂拷問:蔚來什么時候倒閉?

麥大人
2025-06-18 12:08:41
男子兼職閃送,接單發現地址是自己家,立即搶單:我倒要看看是誰

男子兼職閃送,接單發現地址是自己家,立即搶單:我倒要看看是誰

林林故事揭秘
2025-06-16 13:31:40
汪峰牽手寧靜后,最惡心的一幕出現了,森林北的評論區徹底淪陷!

汪峰牽手寧靜后,最惡心的一幕出現了,森林北的評論區徹底淪陷!

深析古今
2025-06-20 13:32:17
被抓了!全紅嬋黑幕裁判,得到應有的后果

被抓了!全紅嬋黑幕裁判,得到應有的后果

體壇狗哥
2025-06-19 21:30:01
洪森主動曝光錄音,可扳倒佩通坦但扳不倒對手,絕境之下柬更難了

洪森主動曝光錄音,可扳倒佩通坦但扳不倒對手,絕境之下柬更難了

米師傅安裝
2025-06-20 04:54:55
朝鮮或再向俄羅斯部署2.5萬人!建造全國最大的軍工廠

朝鮮或再向俄羅斯部署2.5萬人!建造全國最大的軍工廠

項鵬飛
2025-06-20 22:34:35
不能趕更不能打!波斯灣出現東方大艦,美軍只能干瞪眼!

不能趕更不能打!波斯灣出現東方大艦,美軍只能干瞪眼!

嘆知
2025-06-20 10:55:41
為何能大勝日本32分?王思雨賽后一席話,道出中國女籃真正差距

為何能大勝日本32分?王思雨賽后一席話,道出中國女籃真正差距

野渡舟山人
2025-06-21 00:04:04
天熱了,記得在門上貼個創可貼,好多人不懂,卻解決每家的大煩惱

天熱了,記得在門上貼個創可貼,好多人不懂,卻解決每家的大煩惱

妙招酷
2025-06-19 05:50:03
比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

小談食刻美食
2025-06-16 16:32:23
超級為國爭光!王欣瑜顏值被熱議,網友:美到高芙看到她都走神

超級為國爭光!王欣瑜顏值被熱議,網友:美到高芙看到她都走神

星光看娛樂
2025-06-20 08:31:50
馬來西亞剛簽金磚協議就反水?告密式舉報中企,幫美封堵芯片漏洞

馬來西亞剛簽金磚協議就反水?告密式舉報中企,幫美封堵芯片漏洞

忠誠TALK
2025-06-20 14:28:40
男生陰莖越長,智商越低?(女生勿入)

男生陰莖越長,智商越低?(女生勿入)

許超醫生
2025-06-20 10:10:38
2025-06-21 06:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10686文章數 142341關注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財經要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預售

態度原創

教育
時尚
房產
本地
公開課

教育要聞

多玻璃心!孩子逃課,老師多次勸告不聽,推一下,被家長各種投訴

推廣中獎名單-更新至2025年6月5日推廣

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宜章县| 福海县| 仁寿县| 黄冈市| 灵宝市| 镇康县| 开阳县| 屯留县| 穆棱市| 信阳市| 宜章县| 威海市| 左贡县| 宝鸡市| 玉屏| 泰顺县| 霍山县| 吉安县| 临邑县| 武定县| 沐川县| 大宁县| 航空| 关岭| 阿图什市| 都兰县| 习水县| 凤阳县| 抚顺市| 徐水县| 澄城县| 重庆市| 眉山市| 乐安县| 怀柔区| 寻甸| 改则县| 桂阳县| 都安| 万州区| 香港|