本研究由廣州趣丸科技團隊完成,團隊長期致力于 AI 驅動的虛擬人生成與交互技術,相關成果已應用于游戲、影視及社交場景。
趣丸科技團隊提出了一種新穎的肖像驅動框架 Playmate,該算法能夠根據音頻和各種可選的控制條件生成高質量的肖像視頻。通俗來講,就是給定一張照片和一段音頻,就可以生成對應的視頻,同時還能精準控制人物的表情和頭部姿態。相關研究成果已被人工智能頂會 ICML 2025 收錄,項目代碼開源計劃正在籌備中。
- 論文標題:Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion
- 論文地址:https://arxiv.org/pdf/2502.07203
- 項目網站:https://playmate111.github.io/Playmate/
- GitHub 地址:https://github.com/Playmate111/Playmate
- ICML 介紹:https://baike.baidu.com/item/ICML/14479665
Playmate 是一種由廣州趣丸科技團隊提出的基于 3D 隱式空間引導擴散模型的雙階段訓練框架,旨在生成高質量且可控的肖像動畫視頻。該方法通過解耦面部屬性(如表情、唇部動作和頭部姿態),結合情緒控制模塊,實現了對生成視頻的精細控制。實驗表明,Playmate 在視頻質量、唇同步準確性和情緒控制靈活性方面均優于現有方法,是音頻驅動肖像動畫領域的重大進展。
Show Case
- 音頻驅動效果
- 唱歌效果
- 解耦能力與生成的可控性
- 表情控制效果
從左到右依次為:Angry、Disgusted、Contempt、Fear、Happy、Sad、Surprised
研究背景與挑戰
音頻驅動的肖像動畫技術旨在通過靜態圖像和語音輸入生成逼真且富有表情的虛擬角色。盡管近年來基于擴散模型的方法在生成質量上取得突破,但仍面臨以下挑戰:
- 唇同步不準確:現有方法難以精確匹配語音與唇部運動。
- 控制靈活性不足:表情和頭部姿態與音頻信號強耦合,難以獨立調整。
- 情感表達受限:生成視頻的情感控制能力有限,難以滿足多樣化需求。
方法概述
Playmate 的核心思想是通過 3D 隱式空間解耦面部屬性,并利用雙階段訓練框架實現高質量生成。通過引入運動解耦模塊和情感控制模塊,該框架不僅能夠生成高質量的動態視頻,還能實現對情感和姿態的獨立控制,從而為肖像動畫的生成提供了更高的定制性和適應性。具體步驟如下:
- 第一階段:構建運動解耦模塊,分離表情、唇部運動和頭部姿態,直接從音頻中生成運動序列。
- 第二階段:引入情緒控制模塊,將情緒條件編碼到潛在空間,實現對生成視頻的精細情感控制。
技術細節
3D 隱式空間構建
Playmate 采用 face-vid2vid 和 LivePortrait 的面部表示框架,通過以下組件分離面部屬性:
- 外觀特征提取器(Appearance Feature Extractor, F):從源圖像中提取靜態外觀特征。
- 運動提取器(Motion Extractor, M):從驅動圖像中提取運動信息(如關鍵點、旋轉矩陣、平移向量等)。
- 變形模塊(Warping Module, W):將運動信息應用到源圖像上。
- 解碼器(Decoder, G):生成最終動畫視頻。
通過引入配對頭部姿態與表情遷移損失(Pairwise Head Pose and Facial Dynamics Transfer Loss),進一步提升屬性解耦效果。該損失函數通過計算源圖像和目標圖像在遷移后的感知差異(基于 VGG19 特征),優化模型對表情和頭部姿態的獨立控制能力。
運動解耦模塊
為提升運動屬性的解耦精度,Playmate 采用自適應歸一化(Adaptive Normalization)策略:
- 表情歸一化:使用全局均值和標準差(基于整個訓練數據集)對表情參數進行歸一化。
- 頭部姿態歸一化:針對每個身份獨立計算均值和標準差,避免身份間的干擾。
公式如下:
- 表情歸一化:
- 頭部姿態歸一化:
擴散模型訓練
情緒控制模塊
實驗結果
數據集與評估指標
- 數據集:AVSpeech、CelebV-Text、Acappella、MEAD、MAFW 及自建數據集。
- 評估指標:
- FID(Frechet Inception Distance):衡量生成視頻與真實視頻的分布差異。
- FVD(Frechet Video Distance):衡量視頻序列的動態差異。
- Sync-C/Sync-D:基于 SyncNet 的唇同步置信度分數和特征距離。
- CSIM(Cosine Similarity):衡量身份一致性。
- LPIPS(Learned Perceptual Image Patch Similarity):衡量圖像感知相似度。
結果分析
- Playmate 在 FID 和 FVD 上顯著優于現有方法,表明其生成視頻的分布更接近真實數據。
- 在 Sync-C 和 Sync-D 指標上,Playmate 的唇同步性能接近最優,且在 CSIM 和 LPIPS 上表現最佳,說明其在身份保持和視覺質量上具有優勢。
- 在定性評估中,Playmate 生成的視頻在不同風格的肖像上表現出色,能夠生成逼真的表情和自然的頭部運動。
- 此外,Playmate 在多種風格的肖像上表現出色,包括真實人臉、動畫和藝術肖像,展現了其廣泛的適用性和魯棒性。
- Playmate 能夠根據同一音頻片段生成不同情感狀態的動態視頻,展示了其在情感控制方面的優勢。
結論與未來展望
Playmate 通過 3D 隱式空間引導擴散模型和雙階段訓練框架,實現了高質量、高可控的肖像動畫生成。其核心貢獻包括:
- 提出運動解耦模塊,提升屬性分離精度。
- 引入情緒控制模塊,支持精細情感調節。
- 在身份保持和視頻質量上達到 SOTA 水平,在唇同步上也展現出極強的競爭力。
Playmate 的價值在于其顯著提升了音頻驅動肖像動畫的生成質量和靈活性,為影視制作、虛擬現實、互動媒體等領域提供了強大的技術支持。其精細的表情控制和高質量的視頻生成能力,使其在情感表達和個性化內容創作方面展現出廣闊的應用前景。未來 Playmate 有望擴展到全身動畫生成,并通過更多樣化的訓練數據提升其魯棒性和適應性,為動態肖像生成領域帶來新的突破。
文中視頻鏈接:https://mp.weixin.qq.com/s/uK3-Ousqn0WWp0z4iUWDHA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.