近期,夸克技術團隊和浙江大學聯合開源了OmniAvatar,這是一個創新的音頻驅動全身視頻生成模型,只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應視頻,且顯著提升了畫面中人物的唇形同步細節和全身動作的流暢性。此外,還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。
OmniAvatar已開源:
- Model:https://huggingface.co/OmniAvatar/OmniAvatar-14B
- Code:https://github.com/Omni-Avatar/OmniAvatar
- Arxiv:https://arxiv.org/abs/2506.18866
- Project Page:https://omni-avatar.github.io/
以下,是OmniAvatar在播客、唱歌、交互、動態背景等場景下的部分案例。
實驗表明,OmniAvatar在唇形同步、面部及半身視頻生成、文本控制等多個維度上,均取得領先表現,并更好地平衡了視頻質量、準確度、審美三要素。
此外,OmniAvatar專門針對長視頻生成進行了優化,可以更好地保持人物一致性和時間連貫性。
模型能力
圖片+音頻=全身視頻
當前,音頻驅動人體運動的技術已取得顯著進展,但大多數方法仍集中在面部運動,缺乏全身驅動的能力,且難以進行精確的提示詞控制。
OmniAvatar以Wan2.1-T2V-14B為基礎模型,利用LoRA方法進行微調,有效地引入了音頻特征。這種結合不僅保留了Wan2.1-T2V-14B在視頻生成方面的強大能力,還提高了模型對音頻輸入的適應性和生成質量。
OmniAvatar架構圖
接下來,我們將通過一些具體案例,更詳細地展示模型在多種場景下的能力。
OmniAvatar能夠根據輸入的音頻和提示詞,生成虛擬人物視頻,其中,人物的唇形運動與音頻內容吻合,場景則反映了提示詞內容:
通過調整提示詞,還可實現對人物情緒的精確控制:
在帶有鏡頭運動的場景中,OmniAvatar仍能夠保持面部、動作和背景的自然流暢,展現了模型在動態場景下的強大適應能力:
對于長視頻生成,OmniAvatar通過參考圖像嵌入策略和幀重疊技術,確保了視頻的連貫性和人物身份的一致性:
像素級多層次音頻嵌入策略
精準唇部運動+自然肢體動作
大多數現有方法通常依賴交叉注意力機制來引入音頻特征,雖然效果良好,但會引入大量額外的計算開銷,并且容易過度關注音頻與面部特征之間的關系。
針對這一問題,團隊提出了一種基于像素的音頻嵌入策略,使音頻特征可以直接在模型的潛在空間中以像素級的方式融入。通過這一方法,不僅可以自然地將唇部運動與音頻內容對齊,還能夠確保音頻信息在整個視頻像素中均勻分布,從而使模型生成更協調、更自然的身體動作來匹配音頻。
該策略首先使用Wav2Vec2模型提取音頻特征,然后對這些特征進行分組打包和壓縮,再通過音頻打包模塊映射到視頻的潛在空間中。
接下來,為了確保模型在深層網絡中能有效地學習和保留音頻特征,OmniAvatar采用了一種多層級音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中。為防止音頻特征對潛在空間產生過度干擾,音頻嵌入僅應用于模型的第二層至中間層之間的模塊 。此外,這些層的權重不共享,使模型能夠在不同層次上保持獨立的學習路徑。
基于LoRA的優化策略
平衡微調,兼顧質量與細節
目前,針對音頻條件擴散模型的方法主要遵循兩種策略:一種是訓練完整的模型,另一種是僅微調特定層。
在進行完整訓練時,團隊發現更新所有層反而會導致模型生成的連貫性和視頻質量下降。具體來看,由于模型過度擬合人類語音數據集,導致泛化能力差,容易生成不切實際或靜態的內容,難以捕捉細節。但另一方面,僅微調和音頻特征相關的層會導致音頻和視頻之間的對齊效果差,唇形同步性能受損。
效果對比
為了解決這些挑戰,團隊提出了一種基于LoRA的平衡微調策略。該策略不同于以上兩種方法,而是使用LoRA策略高效地適應模型。LoRA通過在注意力和前向傳播(FFN)層的權重更新中引入低秩矩陣,使模型能夠在不改變底層模型容量的情況下學習音頻特征。
長視頻生成
身份保留+時間一致性
長視頻連續生成是音頻驅動視頻生成的難點,也是一項關鍵挑戰。為此,團隊提出了參考圖嵌入和重疊幀策略,以實現人物的身份保留和時間一致性。
代碼示例
身份保留。OmniAvatar引入了一個參考幀,作為人物身份的固定指導。具體來看,首先需提取參考幀的潛在表示;然后將這些表示多次重復,使其長度與視頻幀數匹配;接下來,再在每個時間步,將這個重復的參考幀潛在表示與視頻潛在表示進行連接。因此,通過參考幀設計,可有效錨定人物身份,確保在整個長視頻序列中的人物一致性。
時間一致性。為了實現無縫的視頻連續性,OmniAvatar采用了一種潛在重疊策略。首先,在訓練時使用單幀和多幀前綴潛在變量的組合進行訓練;其次,在推理過程中,對于第一批的幀,參考幀既作為前綴潛在變量,又作為身份指導;對于后續批次,則用前一組的最后幀作為潛在變量,參考幀仍保持固定用作身份指導。
One More Thing
OmniAvatar是團隊在多模態視頻生成上的初步嘗試,并在實驗數據集上得到了初步驗證,但尚未達到產品級應用水平。未來,團隊還將在復雜指令處理能力、多角色交互等方面進一步探索,擴大模型在更多場景中的應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.