99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦&微軟開源StableAnimator: 首個端到端ID一致性人類視頻生成

0
分享至



第一作者、第二作者分別為復(fù)旦大學(xué)研究生涂樹源、邢楨,通訊作者為復(fù)旦大學(xué)吳祖煊副教授。

近年來,擴(kuò)散模型在圖像與視頻合成領(lǐng)域展現(xiàn)出強(qiáng)大能力,為圖像動畫技術(shù)的發(fā)展帶來了新的契機(jī)。特別是在人物圖像動畫方面,該技術(shù)能夠基于一系列預(yù)設(shè)姿態(tài)驅(qū)動參考圖像,使其動態(tài)化,從而生成高度可控的人體動畫視頻。此類技術(shù)在多個應(yīng)用場景中展現(xiàn)出巨大潛力,包括:(1)影視行業(yè):為動畫制作提供高效解決方案,使虛擬角色的動畫生成更加精細(xì)與便捷。(2)游戲行業(yè):賦予游戲角色和虛擬人物自然流暢的動作表現(xiàn),增強(qiáng)交互體驗,使虛擬世界更加真實。(3)自媒體內(nèi)容創(chuàng)作:助力短視頻創(chuàng)作者與數(shù)字藝術(shù)家拓展創(chuàng)意邊界,實現(xiàn)高度定制化的動態(tài)形象設(shè)計。

人像動畫生成的關(guān)鍵在于:基于參考圖像和輸入的動作序列合成動態(tài)視頻,同時確保人物身份特征(尤其是面部信息)的一致性。然而,現(xiàn)有方法在處理復(fù)雜動作變化時仍然面臨諸多挑戰(zhàn):(1)身份一致性受損,面部區(qū)域在劇烈動作下易產(chǎn)生形變和失真,難以保持穩(wěn)定的個體特征。(2)視頻質(zhì)量下降,當(dāng)前最先進(jìn)的人像動畫生成模型(如 MimicMotion 和 ControlneXt)依賴外部換臉工具(FaceFusion)進(jìn)行后處理,這種方式雖能改善局部細(xì)節(jié),但往往降低整體視頻的視覺質(zhì)量。(3)空間與時間建模的矛盾,即便已有眾多專注于身份一致性的圖像生成模型,直接將其嵌入視頻擴(kuò)散模型卻常導(dǎo)致建模沖突。其根本原因在于,視頻擴(kuò)散模型引入時間建模層后,原本穩(wěn)定的空間特征分布被擾動,而基于圖像 的 ID 保護(hù)方法通常依賴于靜態(tài)的空間特征分布,這種失衡導(dǎo)致身份保持能力下降,并在 ID 還原與視頻流時序暢度之間產(chǎn)生難以調(diào)和的矛盾。

為了解決上述問題,我們提出了 StableAnimator 框架,以實現(xiàn)高質(zhì)量和高保真的 ID 一致性人類視頻生成,目前代碼已開源,包括推理代碼和訓(xùn)練代碼。



  • 論文地址:https://arxiv.org/abs/2411.17697
  • 項目主頁:https://francis-rings.github.io/StableAnimator/
  • 項目代碼:https://github.com/Francis-Rings/StableAnimator
  • 項目 Demo: https://www.bilibili.com/video/BV1X5zyYUEuD

方法簡介

如圖所示,StableAnimator 在 Stable Video Diffusion (SVD) 這一常用骨干模型的基礎(chǔ)上進(jìn)行構(gòu)建,以高效處理用戶輸入的參考圖像,生成符合輸入姿態(tài)序列的視頻。其關(guān)鍵流程包括三條并行的特征提取與融合路徑:(1)參考圖像首先通過凍結(jié)的 VAE 編碼器轉(zhuǎn)換為潛變量特征,這些特征被復(fù)制以匹配視頻幀數(shù),并與主要潛變量拼接,以確保時序一致性。(2)圖像同時經(jīng)過 CLIP 圖像編碼器,提取全局外觀嵌入,這些嵌入分別輸入至去噪 U-Net 的每個交叉注意力層以及 StableAnimator 專門設(shè)計的面部編碼器,以增強(qiáng)生成圖像的外觀一致性。(3)此外,圖像還經(jīng)過 ArcFace 進(jìn)行面部特征提取,生成的面部嵌入進(jìn)一步由 StableAnimator 的面部編碼器優(yōu)化,以提升面部對齊度和身份一致性,優(yōu)化后的嵌入最終輸入至去噪 U-Net 以指導(dǎo)生成過程。同時,PoseNet 結(jié)構(gòu)(類似于 AnimateAnyone)負(fù)責(zé)提取輸入姿態(tài)序列的運(yùn)動特征,并將其添加至噪聲潛變量特征中,以確保生成視頻的姿態(tài)精準(zhǔn)匹配輸入序列。

在推理階段,StableAnimator 采用去噪生成策略,將原始輸入視頻幀替換為隨機(jī)噪聲,同時保持其他輸入信息不變,以確保生成過程的靈活性和泛化能力。其核心創(chuàng)新在于引入了一種基于 Hamilton-Jacobi-Bellman(HJB)方程的面部優(yōu)化方法,以提升身份一致性并徹底擺脫對外部換臉工具的依賴。具體而言,該方法將 HJB 方程的求解過程嵌入到去噪步驟中,通過計算 HJB 方程的最優(yōu)解,引導(dǎo) U-Net 在潛變量特征的分布調(diào)整上朝向更高的身份一致性方向收斂。這樣一來,去噪過程不僅僅是對隨機(jī)噪聲的純粹去除,更是一個動態(tài)優(yōu)化過程,使生成的視頻在保持高質(zhì)量的同時,實現(xiàn)面部特征的精準(zhǔn)保留,從而在身份一致性與視頻保真度之間達(dá)到更優(yōu)的平衡。

StableAnimator 的核心技術(shù)點包括以下三個方面:

(1)全局內(nèi)容感知面部編碼器(Global Content-aware Face Encoder):該編碼器創(chuàng)新性地將面部特征與全局圖像布局深度融合,利用多層交叉注意力機(jī)制,使面部嵌入特征精準(zhǔn)對齊參考圖像的整體上下文。通過這種方式,它有效過濾掉與身份無關(guān)的背景噪聲,確保面部建模更加穩(wěn)定,從而提高面部特征的一致性和清晰度。

(2)分布感知的身份適配器(Distribution-aware ID Adapter):針對擴(kuò)散模型中時序?qū)訉臻g特征分布的干擾問題,該適配器引入了一種分布對齊策略。具體而言,它通過計算面部特征和全局圖像特征的均值與方差,確保二者在整個去噪過程中保持一致性,避免特征偏移和失真。該適配器的設(shè)計使得面部特征能夠無縫適配時序建模層,同時維持視頻整體的空間一致性和視覺質(zhì)量。

(3)基于 Hamilton-Jacobi-Bellman (HJB) 方程的面部優(yōu)化:此優(yōu)化過程僅在推理階段激活,并不會影響 U-Net 的參數(shù)更新。StableAnimator 通過在擴(kuò)散推理過程中引入 HJB 方程優(yōu)化,使面部特征的調(diào)整遵循最優(yōu)路徑選擇原則。HJB 優(yōu)化過程與去噪步驟并行進(jìn)行,使優(yōu)化后的變量對去噪路徑施加約束,從而促使模型在生成過程中保留更高的身份一致性,同時顯著減少面部區(qū)域的細(xì)節(jié)損失,確保視頻的高質(zhì)量輸出。

生成結(jié)果示例









請點擊訪問項目主頁(https://francis-rings.github.io/StableAnimator/)獲取以上示例的高清原視頻。

實驗對比分析

1. 與 SOTA 方法的定性對比實驗



現(xiàn)有方法在處理面部和身體變形以及服裝變化方面存在明顯局限。例如,Disco、MagicAnimate、AnimateAnyone 和 Champ 在姿態(tài)轉(zhuǎn)換過程中容易導(dǎo)致面部特征扭曲或服裝結(jié)構(gòu)丟失,而 Unianimate 在動作匹配方面表現(xiàn)良好,能夠精準(zhǔn)調(diào)整參考圖像的姿態(tài),但仍難以保證身份一致性。同時,MimicMotion 和 ControlNeXt 在保留服裝細(xì)節(jié)方面具有優(yōu)勢,但在身份特征一致性上仍然存在缺陷。相比之下,StableAnimator 通過精確建模姿勢序列驅(qū)動圖像動畫化,在動態(tài)生成過程中不僅保持了參考圖像的身份特征完整性,而且確保了生成結(jié)果的細(xì)節(jié)準(zhǔn)確性和生動性,充分展現(xiàn)了在身份一致性和高質(zhì)量動畫生成方面的顯著優(yōu)勢。

2. 與 SOTA 方法的定量對比實驗



StableAnimator 在 TikTok 數(shù)據(jù)集和 Unseen100 數(shù)據(jù)集上與當(dāng)前最先進(jìn)(SOTA)的人像圖像動畫模型進(jìn)行了定量對比。其中,Unseen100 數(shù)據(jù)集從主流視頻網(wǎng)站額外收集的 100 個視頻組成,相較于 TikTok 數(shù)據(jù)集,Unseen100 具有更復(fù)雜的動作信息和更精細(xì)的主體外觀,尤其是包含位置變化和面部表情動態(tài)變化(如搖頭動作),使得保持身份一致性更具挑戰(zhàn)性。為了確保公平性,所有模型均在 StableAnimator 的訓(xùn)練集上進(jìn)行訓(xùn)練后,再在 Unseen100 上進(jìn)行評估。對比實驗結(jié)果表明,StableAnimator 在面部質(zhì)量(CSIM)和視頻保真度(FVD)方面均超越所有對比模型,同時保持了較高的單幀質(zhì)量。特別是,相較于當(dāng)前最優(yōu)的 Unianimate,StableAnimator 在 TikTok 和 Unseen100 數(shù)據(jù)集上的 CSIM 分別提升了 36.9% 和 45.8%,而這一顯著的身份一致性提升并未以犧牲視頻保真度和單幀質(zhì)量為代價,充分驗證了其在高質(zhì)量人像動畫生成中的卓越性能。

3. 與 SOTA 方法在長視頻生成的對比實驗







視頻鏈接:https://mp.weixin.qq.com/s/qK3s-us2XeDv7phW83W5BQ

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
6月18日譯名發(fā)布:布拉德·蘭德

6月18日譯名發(fā)布:布拉德·蘭德

參考消息
2025-06-18 10:26:24
伊朗要造個大新聞

伊朗要造個大新聞

美第奇效應(yīng)
2025-06-18 17:47:52
生死抉擇到了?若美軍在中東開戰(zhàn),中俄伊面臨兩個選擇

生死抉擇到了?若美軍在中東開戰(zhàn),中俄伊面臨兩個選擇

兵國大事
2025-06-18 00:05:13
這風(fēng)格不錯吳艷妮社媒曬三角褲緊身衣自拍,秀出好身材

這風(fēng)格不錯吳艷妮社媒曬三角褲緊身衣自拍,秀出好身材

直播吧
2025-06-17 17:54:07
央行宣布8項重磅金融政策

央行宣布8項重磅金融政策

界面新聞
2025-06-18 09:51:43
如今,租房卻成了更清醒的選擇,甚至有人喊出“房子狗都不買”。

如今,租房卻成了更清醒的選擇,甚至有人喊出“房子狗都不買”。

流蘇晚晴
2025-06-18 18:54:10
辣眼睛!印度女大學(xué)生沙灘游玩被10人輪奸,男友在旁被捆綁毆打

辣眼睛!印度女大學(xué)生沙灘游玩被10人輪奸,男友在旁被捆綁毆打

派大星紀(jì)錄片
2025-06-18 17:36:03
國安部披露細(xì)節(jié)!間諜用Word文檔套取我國敏感數(shù)據(jù)

國安部披露細(xì)節(jié)!間諜用Word文檔套取我國敏感數(shù)據(jù)

每日經(jīng)濟(jì)新聞
2025-06-17 13:02:47
25/26賽季英超賽程公布:揭幕戰(zhàn)利物浦vs櫻桃,首輪曼聯(lián)vs阿森納

25/26賽季英超賽程公布:揭幕戰(zhàn)利物浦vs櫻桃,首輪曼聯(lián)vs阿森納

直播吧
2025-06-18 16:06:09
強(qiáng)回波已進(jìn)入天津南部!4區(qū)大到暴雨!10級大風(fēng)+冰雹!最新預(yù)報→

強(qiáng)回波已進(jìn)入天津南部!4區(qū)大到暴雨!10級大風(fēng)+冰雹!最新預(yù)報→

魯中晨報
2025-06-18 15:46:05
父親幫同學(xué)手術(shù)后卻被反手舉報降職,半年后她復(fù)發(fā),父親:治不了

父親幫同學(xué)手術(shù)后卻被反手舉報降職,半年后她復(fù)發(fā),父親:治不了

溫情郵局
2025-05-14 09:54:44
以軍稱正在空襲位于德黑蘭的軍事目標(biāo)

以軍稱正在空襲位于德黑蘭的軍事目標(biāo)

澎湃新聞
2025-06-18 22:05:14
餐館無償為拾荒老人提供8年午餐,店快倒閉時,老人搬來一個箱子

餐館無償為拾荒老人提供8年午餐,店快倒閉時,老人搬來一個箱子

五元講堂
2025-06-18 15:02:24
正快速蔓延!日本近3萬人感染,初期像感冒!嚴(yán)重可致死

正快速蔓延!日本近3萬人感染,初期像感冒!嚴(yán)重可致死

極目新聞
2025-06-18 10:48:22
外媒:澤連斯基長途飛往加拿大參加G7峰會,但特朗普卻在其抵達(dá)前返回美國

外媒:澤連斯基長途飛往加拿大參加G7峰會,但特朗普卻在其抵達(dá)前返回美國

環(huán)球網(wǎng)資訊
2025-06-18 11:35:00
從影帝到軟飯男?伐木累偷吃被抓現(xiàn)行,今靠妻子賺錢維持體面!

從影帝到軟飯男?伐木累偷吃被抓現(xiàn)行,今靠妻子賺錢維持體面!

毒舌八卦
2025-06-17 22:14:16
蒯紀(jì)聞獨(dú)造2球!媒體人集體點贊:海港瑰寶,請為國足出戰(zhàn)東亞杯

蒯紀(jì)聞獨(dú)造2球!媒體人集體點贊:海港瑰寶,請為國足出戰(zhàn)東亞杯

奧拜爾
2025-06-18 20:48:55
洪水太恐怖!整個懷集縣城,街道,商鋪、房屋的一樓被洪水淹了…

洪水太恐怖!整個懷集縣城,街道,商鋪、房屋的一樓被洪水淹了…

火山詩話
2025-06-18 08:25:30
估值曾超千億,這家新勢力員工持股計劃引爭議

估值曾超千億,這家新勢力員工持股計劃引爭議

第一財經(jīng)資訊
2025-06-18 20:19:10
擊落首架以色列戰(zhàn)機(jī)!擊中摩薩德大樓造假,也沒擊落第二架F-35

擊落首架以色列戰(zhàn)機(jī)!擊中摩薩德大樓造假,也沒擊落第二架F-35

鷹眼Defence
2025-06-18 19:20:05
2025-06-18 22:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10671文章數(shù) 142339關(guān)注度
往期回顧 全部

科技要聞

別叫我互聯(lián)網(wǎng)公司,京東的野心藏不住了

頭條要聞

廣東懷集出現(xiàn)55.22米洪峰水位 洪水已漫入周邊居民樓

頭條要聞

廣東懷集出現(xiàn)55.22米洪峰水位 洪水已漫入周邊居民樓

體育要聞

高僧下山了!文班結(jié)束少林寺10日修行

娛樂要聞

前老板舉報李雪琴欠190萬轉(zhuǎn)移公司財產(chǎn)

財經(jīng)要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術(shù)升級還有插混版本 全新奧迪Q3預(yù)計明年國產(chǎn)

態(tài)度原創(chuàng)

親子
游戲
房產(chǎn)
教育
數(shù)碼

親子要聞

加油媽媽何曉涵自白:被婆婆欺辱后,沒收入的我離家出走都是奢望

《法環(huán)》電影導(dǎo)演正在打七周目:女武神最難 碎星簡單

房產(chǎn)要聞

創(chuàng)紀(jì)錄了!海南單日賣地44億!保利、方大瘋狂出手!

教育要聞

江西一中學(xué)宿舍堪比豬圈,家長發(fā)文投訴,教體局表示深感自責(zé)

數(shù)碼要聞

安卓唯一,小米平板 7S Pro 支持 PC 級懸浮鍵盤

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 福安市| 革吉县| 无锡市| 岫岩| 揭阳市| 新龙县| 德令哈市| 达拉特旗| 镇赉县| 宁强县| 石棉县| 万盛区| 肇庆市| 福海县| 甘孜| 伊川县| 汕尾市| 依兰县| 大足县| 昌江| 灵台县| 翁源县| 长顺县| 蒙山县| 柳河县| 延吉市| 义乌市| 杭锦后旗| 仪陇县| 麦盖提县| 淳安县| 宁远县| 钟山县| 辽宁省| 平利县| 贵州省| 绥滨县| 盐山县| 莎车县| 会宁县| 仲巴县|