網易首頁 > 網易號 > 正文申請入駐

夸克、浙大開源OmniAvatar，一張圖+一段音，就能生成長視頻

2025-07-25 16:09:10　來源: 機器之心Pro

河北舉報

分享至

近期，夸克技術團隊和浙江大學聯合開源了OmniAvatar，這是一個創新的音頻驅動全身視頻生成模型，只需要輸入一張圖片和一段音頻，OmniAvatar即可生成相應視頻，且顯著提升了畫面中人物的唇形同步細節和全身動作的流暢性。此外，還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。

OmniAvatar已開源：

Model：https://huggingface.co/OmniAvatar/OmniAvatar-14B
Code：https://github.com/Omni-Avatar/OmniAvatar
Arxiv：https://arxiv.org/abs/2506.18866
Project Page：https://omni-avatar.github.io/

以下，是OmniAvatar在播客、唱歌、交互、動態背景等場景下的部分案例。

實驗表明，OmniAvatar在唇形同步、面部及半身視頻生成、文本控制等多個維度上，均取得領先表現，并更好地平衡了視頻質量、準確度、審美三要素。

此外，OmniAvatar專門針對長視頻生成進行了優化，可以更好地保持人物一致性和時間連貫性。

模型能力

圖片+音頻=全身視頻

當前，音頻驅動人體運動的技術已取得顯著進展，但大多數方法仍集中在面部運動，缺乏全身驅動的能力，且難以進行精確的提示詞控制。

OmniAvatar以Wan2.1-T2V-14B為基礎模型，利用LoRA方法進行微調，有效地引入了音頻特征。這種結合不僅保留了Wan2.1-T2V-14B在視頻生成方面的強大能力，還提高了模型對音頻輸入的適應性和生成質量。

OmniAvatar架構圖

接下來，我們將通過一些具體案例，更詳細地展示模型在多種場景下的能力。

OmniAvatar能夠根據輸入的音頻和提示詞，生成虛擬人物視頻，其中，人物的唇形運動與音頻內容吻合，場景則反映了提示詞內容：

通過調整提示詞，還可實現對人物情緒的精確控制：

在帶有鏡頭運動的場景中，OmniAvatar仍能夠保持面部、動作和背景的自然流暢，展現了模型在動態場景下的強大適應能力：

對于長視頻生成，OmniAvatar通過參考圖像嵌入策略和幀重疊技術，確保了視頻的連貫性和人物身份的一致性：

像素級多層次音頻嵌入策略

精準唇部運動+自然肢體動作

大多數現有方法通常依賴交叉注意力機制來引入音頻特征，雖然效果良好，但會引入大量額外的計算開銷，并且容易過度關注音頻與面部特征之間的關系。

針對這一問題，團隊提出了一種基于像素的音頻嵌入策略，使音頻特征可以直接在模型的潛在空間中以像素級的方式融入。通過這一方法，不僅可以自然地將唇部運動與音頻內容對齊，還能夠確保音頻信息在整個視頻像素中均勻分布，從而使模型生成更協調、更自然的身體動作來匹配音頻。

該策略首先使用Wav2Vec2模型提取音頻特征，然后對這些特征進行分組打包和壓縮，再通過音頻打包模塊映射到視頻的潛在空間中。

接下來，為了確保模型在深層網絡中能有效地學習和保留音頻特征，OmniAvatar采用了一種多層級音頻嵌入策略，將音頻信息嵌入到DiT模塊的不同階段中。為防止音頻特征對潛在空間產生過度干擾，音頻嵌入僅應用于模型的第二層至中間層之間的模塊。此外，這些層的權重不共享，使模型能夠在不同層次上保持獨立的學習路徑。

基于LoRA的優化策略

平衡微調，兼顧質量與細節

目前，針對音頻條件擴散模型的方法主要遵循兩種策略：一種是訓練完整的模型，另一種是僅微調特定層。

在進行完整訓練時，團隊發現更新所有層反而會導致模型生成的連貫性和視頻質量下降。具體來看，由于模型過度擬合人類語音數據集，導致泛化能力差，容易生成不切實際或靜態的內容，難以捕捉細節。但另一方面，僅微調和音頻特征相關的層會導致音頻和視頻之間的對齊效果差，唇形同步性能受損。

效果對比

為了解決這些挑戰，團隊提出了一種基于LoRA的平衡微調策略。該策略不同于以上兩種方法，而是使用LoRA策略高效地適應模型。LoRA通過在注意力和前向傳播（FFN）層的權重更新中引入低秩矩陣，使模型能夠在不改變底層模型容量的情況下學習音頻特征。

長視頻生成

身份保留+時間一致性

長視頻連續生成是音頻驅動視頻生成的難點，也是一項關鍵挑戰。為此，團隊提出了參考圖嵌入和重疊幀策略，以實現人物的身份保留和時間一致性。

代碼示例

身份保留。OmniAvatar引入了一個參考幀，作為人物身份的固定指導。具體來看，首先需提取參考幀的潛在表示；然后將這些表示多次重復，使其長度與視頻幀數匹配；接下來，再在每個時間步，將這個重復的參考幀潛在表示與視頻潛在表示進行連接。因此，通過參考幀設計，可有效錨定人物身份，確保在整個長視頻序列中的人物一致性。

時間一致性。為了實現無縫的視頻連續性，OmniAvatar采用了一種潛在重疊策略。首先，在訓練時使用單幀和多幀前綴潛在變量的組合進行訓練；其次，在推理過程中，對于第一批的幀，參考幀既作為前綴潛在變量，又作為身份指導；對于后續批次，則用前一組的最后幀作為潛在變量，參考幀仍保持固定用作身份指導。

One More Thing

OmniAvatar是團隊在多模態視頻生成上的初步嘗試，并在實驗數據集上得到了初步驗證，但尚未達到產品級應用水平。未來，團隊還將在復雜指令處理能力、多角色交互等方面進一步探索，擴大模型在更多場景中的應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.