網易首頁 > 網易號 > 正文申請入駐

免費用！阿里通義大模型上新，超逼真音視頻生成SOTA！

2025-04-15 17:13:24　來源: 機器之心Pro

天津舉報

分享至

機器之心發布

機器之心編輯部

近日，阿里通義實驗室推出了全新數字人視頻生成大模型 OmniTalker，只需上傳一段參考視頻，不僅能學會視頻中人物的表情和聲音，還能模仿說話風格。相比傳統的數字人生產流程，該方法能夠有效降低制作成本，提高生成內容的真實感和互動體驗，滿足更廣泛的應用需求。目前該項目已在魔搭社區、HuggingFace 開放體驗入口，并提供了十多個模板，所有人可以直接免費使用。

論文：https://arxiv.org/abs/2504.02433v1
項目頁：https://humanaigc.github.io/omnitalker
體驗頁：https://huggingface.co/spaces/Mrwrichard/OmniTalker

是不是已經分辨不出小李子萊昂納多和 LeCun 是AI復刻出來的了？感興趣的讀者也可以從項目頁查看更多Demo。

接下來，就讓我們看下阿里通義實驗室 HumanAIGC 團隊對此論文的解讀。

背景

近年來，隨著語言大模型的迅速發展，虛擬主播、虛擬助手等應用得到了廣泛的推廣與使用。然而，針對文本驅動的數字人生成研究仍然較少，現有方法主要采用級聯流水線的方式，將文本轉語音（Text-to-Speech, TTS）系統與音頻驅動的數字人模型相結合。這種傳統流水線一方面引入了系統復雜性和延遲開銷，尤其是在實時互動場景下，各模塊之間的延遲問題成為影響用戶體驗的重要因素；另一方面還從根本上存在音畫輸出不同步以及生成語音與視覺表情風格不一致的問題，無法完美復制真人的說話風格。

為了解決這些局限性，我們提出了 OmniTalker，能夠在零樣本實時場景中，根據文本和參考視頻同時生成同步的語音和數字人視頻，同時保留語音風格和面部風格。該框架采用雙分支 DiT 架構：音頻分支從文本合成梅爾頻譜圖，而視覺分支預測精細的頭部姿態和面部動態。為了橋接模態間的信息，我們引入了一種新穎的視聽融合模塊，整合跨模態信息以確保音頻和視覺輸出在時間上的同步性和風格上的一致性。此外，我們的上下文參考學習模塊能夠從單個參考視頻中有效捕捉語音和面部風格特征，而無需額外引入風格提取模塊。此方法特別注重保持聲音的一致性和說話風格的真實性，同時優化了處理速度，確保了實時響應性能，從而顯著提升了數字人生成的質量和效率。相較于傳統的數字人生產流程，此方法能夠有效降低制作成本，提高生成內容的真實感和互動體驗，滿足更廣泛的應用需求。

圖 1. 區別于傳統級聯框架，OmniTalker 是一個端到端的統一框架，可根據文本和一段簡短的參考音視頻實時生成同步的語音和數字人視頻，同時保持聲音的一致性和說話風格的真實性。

方法介紹

圖 2. OmniTalker 結構圖

我們的目標是在緊湊的網絡架構中實現音視頻聯合生成，確保音頻和視頻輸出之間的對應關系，同時從參考視頻中復制聲音和面部風格。受啟發于 LLM 的上下文學習能力，以及多模態 DiT 在文生圖中的優勢，我們提出了如圖 2 所示的模型架構。該架構有三個核心部分：（1）三個嵌入模塊來分別捕捉參考音視頻的動態特征以及文本信息，（2）一個雙流 DiT 模型用于音視頻并行建模，以及 (3) 一個音視頻特征融合模塊來確保音視頻特征的緊密同步。

1. 模型輸入方面，包含驅動文本和參考音視頻三種模態特征：

音頻特征：我們從參考視頻中提取音頻流，并利用梅爾譜圖作為音頻特征的表示方法。通過一個基于 MLP 的嵌入模塊，我們將梅爾譜圖轉換為音頻嵌入x^a；
文本特征：使用 ASR 模型將參考音頻轉化為文字，形成參考文本。隨后，輸入文本以及參考文本被轉換成拼音序列（針對中文）或字符 / 字母序列（針對拉丁語系），并進行拼接。為了匹配音頻嵌入x^a的長度，我們以某種填充標記對文本序列進行填充。文本嵌入過程采用了 ConvNeXt-V2 架構，生成的文本嵌入c_t作為條件指導音頻和視覺分支的處理。
視覺特征：對于視頻片段，我們提取包含面部表情的 51 維混合形狀系數、6 維旋轉與平移參數（RT），以及每幀的眼球運動系數在內的視覺編碼。如同處理音頻特征一樣，這些視覺編碼也通過一個 MLP 映射到視覺嵌入x^v上，以實現統一的特征表示。

在訓練階段，音頻和視覺特征會隨機掩碼序列的一部分，利用上下文學習來達成風格復刻的需求；而在推理階段，則依據參考音頻的節奏及輸入文本的長度對音視頻特征進行零填充，確保處理的一致性。

2. 關于模型結構，我們方法的核心在于建模視頻、音頻和文本模態之間的交互，旨在生成既連貫又同步的音視頻內容。我們的框架由一系列專門設計用于處理音頻和視頻數據流的 DiT 塊組成，促進音頻和視頻特征間的跨模態融合，從而產出一致且同步的結果。模型的關鍵組件包括：

音視頻特征融合模塊：采用雙分支架構，一個分支專注于處理視覺運動信息，另一個則負責解析音頻信息。利用 MM-DiT 注意力機制，網絡能夠動態評估并平衡音頻與視覺特征的重要性，確保最終生成的視頻在時間軸上以及語義層面與輸入音頻完美對齊。
單模態 DiT 塊：在完成初步的跨模態融合后，模型使用多個單模態 DiT 塊進一步細化生成過程。這些塊操作于已融合的多模態特征之上，但針對每個單獨模態（即音頻或視覺）進行優化，以提高輸出質量。
音視頻解碼器：經過上述步驟生成的音視頻特征隨后通過預訓練的解碼器轉換回原始格式。對于音頻部分，我們使用 Vocos 解碼器將合成的梅爾頻譜圖還原為語音，這是一種高保真聲碼器，也可替換為其他相似聲碼器如 HiFi-GAN。至于視頻解碼，我們設計了一個 GAN 模型（復用 ChatAnyone），它根據從參考視頻中隨機選取的參考幀為基礎，并按照 DiT 模型預測的頭部姿態和混合形狀系數生成新的視頻幀。該模型能以 30FPS 的速度生成分辨率為 512×512 的幀，滿足實時推理的需求。

實驗結果

鑒于當前尚無方法能夠同時生成音頻和視頻，我們對文本轉語音（TTS）技術和音頻驅動的數字人生成（Talking Head Generation, THG）技術分別進行了比較分析。在 TTS 方面，我們挑選了三種代表性方法：MaskGCT、F5TTS 和 CosyVoice，并針對錯詞率（WER）和聲音相似度（SIM）進行了對比評估。對于 THG 的評估，我們構建了一個多模態比較框架，涵蓋以下幾類方法：(1) 兩種基于 GAN 的技術（SadTalker 和 AniTalker）；(2) 兩種最先進的基于 diffusion 的方法（EchoMimic 和 Hallo）；(3) StyleTalk，一種具備風格保留功能的音頻驅動 THG 方法。為了確保公平性和結果的可比性，實驗中所有 THG 模型均采用由我們提出的方法生成的音頻信號作為輸入。

表 1. TTS 性能對比

表 1 展示了我們的方法在音頻測試集 Seed 上的測試結果，與 TTS 基線模型相比，我們的生成結果顯示出更低的錯詞率（WER），這表明生成的音頻與文本之間具有更高的一致性。此外，我們的方法在聲音相似度（SIM）指標中排名第二，進一步證實了其在零樣本條件下保持聲音特征的能力。值得注意的是，通過對比包含和不包含運動分支（Ours w/o motion）的模型表現，可以看出完整模型實現了更低的 WER，這證明了結合視覺監督能有效提升生成音頻的感知質量。我們將這種改進歸因于多任務學習的有效性，因為在音頻生成和面部動作之間存在著高度的相關性，兩者結合可以相互促進，從而提高整體輸出的質量。

在視覺質量評估方面，除了傳統的峰值信噪比（PSNR）、結構相似性（SSIM）、Frechet Inception Distance（FID）、Frechet Video Distance（FVD）、ID 相似度（CSIM）以及口型同步（Sync-C）等指標外，我們還引入了兩個新的評估標準 ——E-FID（表情 FID）和 P-FID（姿勢 FID），以分別衡量生成的面部表情和頭部姿勢的真實感。具體而言，E-FID 結合了 51 維面部混合形狀系數和 4 維眼動參數進行計算，而 P-FID 則通過 6 維旋轉 - 平移參數來量化頭部姿勢的一致性和真實性。

表 2. THG 性能對比

表 2 展示了 OmniTalker 在視覺生成方面的卓越性能。我們的方法在 9 個核心指標中，有 7 個達到了業界領先水平（SOTA），包括最高的 PSNR 和 SSIM，以及最低的 FID 和 FVD。

這些結果表明，我們的方法在視頻生成質量方面具有顯著優勢。尤其在 E-FID 和 P-FID 上，我們的方法相比現有技術實現了一個數量級的提升，突顯了其在保持面部運動風格和頭部姿態方面的出色能力。這種能力使得我們的方法能夠有效地繼承參考人物的說話風格，從而實現高保真的音視頻克隆。盡管我們的方法在 CSIM 和 Sync-C 指標上獲得了次優成績，但根據我們的經驗觀察，這些指標傾向于偏好正面視角的視頻。相比之下，其他對比方法更傾向于生成正面視角的內容，而忽略了參考視頻中實際的面部朝向。我們的方法通過準確捕捉并再現原始視頻中的面部方向，提供了更加真實和自然的輸出效果。

為了更直觀地展示 OmniTalker 建模面部運動風格方面的卓越能力，我們對比了不同方法生成結果中的頭部運動累積熱圖。如圖 4 所示，通過將生成的視頻與參考視頻進行比較，可以清晰地看到，我們的方法生成的熱圖與真實數據的熱圖更為接近。圖 3 則從時間維度進一步驗證了這一點，我們選擇頭部偏航角（Yaw）作為跟蹤指標來觀察頭部姿態的變化。左側的紅線代表參考序列，右側展示了由各種方法生成的序列。結果顯示，我們方法生成的序列無論是在幅度還是運動頻率方面，都與參考序列保持了高度的一致性，同時保留了必要的自然差異，這表明我們的方法能夠有效地繼承頭部姿態的風格特征。相比之下，其他方法生成的頭部運動往往不夠明顯，缺乏動態變化。特別是 StyleTalk 方法直接復制參考姿勢序列，雖然保證了與參考姿勢的高度一致，但未能考慮語音內容與姿態之間的語義關聯，導致生成結果缺乏靈活性和自然感。

綜上所述，我們的方法不僅能夠在視覺表現上精確模仿原始視頻中的面部運動風格，還能在語義層面上實現更加豐富和自然的表現，確保生成的內容既真實又生動。

圖 3. 頭部姿態（Yaw）時間變化曲線

圖 4. 頭部運動累積熱圖

在實時性方面，我們的方法通過創新地采用 flow matching 技術以及相對緊湊的模型架構（僅包含 8 億個參數），實現了音視頻的實時同步高質量輸出。這不僅保證了出色的推理速度，同時也確保了輸出的質量優于其他現有方法，如表 2 所示。這種能力使得我們的方法在不犧牲輸出質量的前提下，滿足了實時應用的需求。

團隊介紹

阿里巴巴通義實驗室的 HumanAIGC 團隊專注于 2D 數字人和人物視頻生成的研究，在相關領域內已發表了多篇頂會論文，比如單圖驅動角色視頻生成 Animate Anyone 以及 Animate Anyone2，單圖語音驅動視頻生成技術 EMO 以及 EMO2，實時數字人 ChatAnyone 等均出自該團隊。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.