網易首頁 > 網易號 > 正文申請入駐

告別拼湊式合成，阿里OmniTalker能否開啟音視頻一體化新時代？

2025-04-09 11:59:12　來源: 至頂AI實驗室

北京舉報

分享至

我們第一次接觸OmniTalker時，感受到一種興奮

它不像傳統的文本到音頻（Text-to-Speech, TTS）或圖像合成那樣，僅僅是“把文字變成聲音”或“把人臉動起來”，而是要在同一框架下，把文本直接變成一段完整、可交互的口播視頻。

作為一個長期關注AI技術應用的媒體智庫平臺，我們非常清楚“文本驅動口播”的概念在學術界和工業界的吸引力。這不僅涉及語音合成和人臉動畫，還關乎多模態的融合與一致性校準。

在過往的工作中，我們常常看到一條“級聯式”的技術路線：文本先通過TTS系統生成音頻，再將該音頻輸入到一個“音頻驅動的人臉生成”模型（Audio-Driven Talking Head Generation）中，從而得到最終的“說話人”視頻。

這種思路確實在一定程度上達成了文本到口播的轉化，但也經常遭遇各種瓶頸：對個性化風格的刻畫不足、模塊之間可能產生延遲或錯誤的累積、更重要的是，聲音和面部動作彼此之間常常出現風格或時序對不齊的問題。

換句話說，文本內容可能很完美，但生成的音頻和口型、表情甚至頭部姿態并不一致，給觀眾帶來“違和感”。

OmniTalker的研究團隊看到了這些關鍵痛點，希望以統一的多模態網絡來“一次性”地解決文本到音視頻映射的問題。他們嘗試用一個端到端的系統，同時負責語音合成與人臉動作建模，使生成的聲音和視頻在風格、情感以及時序層面具有更好的一致性。

他們還特別引入了“實時”處理的考量，即在推斷階段達到了約25幀/秒的速度，讓這個系統不僅是實驗室的學術概念，而且能在近乎實時的場景中運作。

為什么要在意實時性？對于面向人工智能交互的虛擬人來說，響應速度是是否“逼真”的重要指標之一。如果每句話都要等待長時間計算，必然會打破用戶對虛擬人交互的沉浸感。因此，OmniTalker的研究核心正是解決對話式應用中的延遲和風格不匹配難題，讓文本到口播的整個過程“合二為一”，實現更自然、更高效、更具風格一致性的虛擬人生成方案。

研究背景：來自工業界的降維打擊

OmniTalker由阿里巴巴通義實驗室（Tongyi Lab, Alibaba Group）的研究團隊完成。該論文于2024年4月發布在arXiv平臺上，屬于計算機視覺和人工智能領域的最新研究成果。

通義實驗室是阿里巴巴集團專注于人工智能基礎研究和應用創新的重要研究機構，在多模態生成、語音合成和計算機視覺等領域擁有深厚的技術積累。該團隊此前在數字人生成和多模態融合方面已有多項研究成果。OmniTalker是他們在統一音視頻生成框架方面的最新突破。

值得注意的是，該研究是在大型科技公司的研發環境中完成的，這意味著研究團隊不僅關注學術創新，還特別注重技術的實用性和實時性能，這也解釋了為何OmniTalker在保持高質量生成效果的同時，能夠實現25 FPS的實時推理速度。

核心成果：重構多模態生成的技術范式

OmniTalker的最突出貢獻，即提出了一個“端到端的多模態生成架構”，可以從文本直接同時生成語音和對應的視頻幀（Talking Head）。傳統的做法往往分成TTS和人臉動畫兩個階段，容易形成高耦合度的級聯流程，不但推理效率降低，也可能讓聲音與表情或頭部動作出現風格錯位。

與之相對，OmniTalker利用一個融合語音、視覺和文本信息的“雙分支Diffusion Transformer”（Dual-branch DiT），在同一個網絡內建模文本→語音和文本→視覺的映射過程。

該架構的關鍵在于跨模態注意力（Cross-Modal Attention）。

它讓音頻分支和視覺分支之間“互相看見”，使得生成的語音波形

和面部動作（含頭部姿態、表情系數、眼球運動等）可以在時序和風格上保持一致。例如，如果文字的語義暗示了激昂、快樂或輕柔的語調，那么臉部表情與頭部運動就能動態地配合，這樣就不會出現“聲音在笑，而臉卻是無表情”的尷尬場景。

OmniTalker模型在體量方面約有8億參數量（0.8B），并結合Flow Matching訓練技巧進行了優化，從而使推理速度可以達到25FPS（25幀每秒），這在生成質量較高的同時滿足了對話式應用的響應需求。相比一些依賴大型擴散模型且推理速度往往只有數秒甚至更長時間的新興方法，OmniTalker在速度與質量之間做出了一定的平衡。

這為智能客服、虛擬主持人、教育培訓等場景中需要“即時口播”輸出的需求，提供了更可行的技術方案。

在具體實踐中，研究人員還采用了分塊式的設計理念，先用Dual-branch核心網絡完成音視頻的粗略生成，再用模塊化的解碼器對音頻和視頻進行還原。其中音頻通過Vocos等神經網絡聲碼器（Vocoder）完成語音的重建；視頻則利用基于GAN和人臉形變（Blendshape）的渲染模型進一步提升視覺逼真度。這樣的兩階段或“粗-精”流程保證了系統的通用性與靈活性，也兼顧了速度與效果。

另一個值得關注的創新點是“In-Context Style Learning”，它在風格訓練上堪稱神來之筆。

研究團隊設計了一種與大型語言模型中“in-context learning”類似的思路：在訓練時，將同一個人的視頻拆分為兩段，其中一段作為“風格參考”，另一段作為“待合成”目標，通過隨機mask或拼接的方式讓模型學會如何模仿參考段的視頻音頻風格。這樣，當推理階段來臨時，只需給出幾秒鐘的參考視頻，就能讓OmniTalker迅速捕捉說話人的音色、表情和頭部動態等“全方位風格”，并將其遷移到新生成的文本口播中。

這種方法與傳統只關注聲音音色（多說話人TTS）或只關注表情轉移（表情風格遷移）的思路不同，OmniTalker最突出的特性在于：同時保留了“音頻風格”和“臉部動態風格”，真正實現“說話人個性”的跨模態重現，進一步減少了“聲音像A，但表情卻只是在動嘴而缺乏神態”的缺失感。值得一提的是，OmniTalker并未刻意設計一個獨立的“風格提取器”，而是通過訓練中“參考視頻+目標視頻”打包的方式，把風格信息直接嵌入到網絡的注意力機制里，從而簡化了系統復雜度。

為了支撐這個多模態統一框架的訓練，研究團隊構建了一個約690小時的視頻語料庫，包含了從TED Talks到訪談和教育類視頻在內的多元場景，并結合自動化管線對人臉、文本、音頻、表情參數等進行了分割與清洗。這樣的數據規模在TTS或者Talking Head領域都可謂相當可觀，說明OmniTalker在數據基礎上做了充分準備，也能涵蓋不同語言（中、英）和情感形式，為零樣本泛化提供了更強大的支撐。

OmniTalker與多種強基線方法作了橫向比較，其中包括TTS方法（如CosyVoice、MaskGCT、F5-TTS）和音頻驅動的人臉動畫方法（如SadTalker、AniTalker、EchoMimic、Hallo等）。

結果顯示，OmniTalker在字符錯誤率（WER）、人臉動畫的視覺質量（FID、PSNR、FVD）以及風格一致性（E-FID、P-FID、Sync-C）等方面都有顯著優勢。在速度上也保持了接近實時的推斷速度（25FPS）。

尤其值得注意的是，在風格一致性（E-FID、P-FID）指標上，OmniTalker比其他方法有數量級的降低，說明該模型在準確復刻參考視頻的面部表情與頭部動作方面有顯著優勢。

這些實驗證據提示：OmniTalker既能保證音視頻輸出的一致性和風格還原度，又能兼顧實時性，相較早先的級聯思路或單一側重TTS/人臉動畫的方案確實在綜合表現上更進一步。

方法評析：技術躍遷背后的取舍智慧

OmniTalker采用了基于Diffusion Transformer與Flow Matching的模型訓練范式，避免了傳統擴散模型生成過程往往需要數十到數百步逐步去噪的弊端。Flow Matching在一定程度上簡化了優化過程，提高了訓練和推斷階段的效率，使得模型能夠在保持較高保真度的同時實現實時生成。這對工業級應用尤其關鍵，實時要求意味著在真正對話場景中能上線落地。

區別于“文本→音頻”和“音頻→視頻”逐級做映射的做法，OmniTalker提出的“雙分支架構”一開始就把文本信息映射到“音頻分支”和“視覺分支”，中間通過精心設計的“Audio-Visual Fusion”模塊進行融合。模型同時接收文本和參考視頻音頻、視覺特征，再分別解碼輸出Mel頻譜和人臉動作序列。這樣做不僅省卻了中間的冗余計算，還提升了最終輸出的同步度與風格一致性。

只需要給出一段目標說話人的音視頻作為“參考”，就能快速讓OmniTalker學會對方的音色、表情乃至頭部微動作，而不必再對情感、說話人音色、節奏、頭部姿態等做拆分、編碼、合并，這大大降低了實際部署時的門檻。在此前的情感TTS或表情遷移研究中，常常需要手動標注或提取單獨的“風格編碼”，而OmniTalker借助“參考輸入+遮罩訓練”就能一氣呵成，頗具巧思。

雖然，OmniTalker在多模態統一生成、多層級風格融合以及實時交互效率上都有較大突破，但其研究還是存在一定的局限性。

OmniTalker的核心理念是從一小段參考視頻中“整體”復制風格，雖然對實現高度擬真的虛擬播報有益，但如果實際應用中需要對“風格”進行更精細化的編輯（比如只想模仿一個人的眼神或語調，卻希望頭部動作更平緩），那么當前框架可能比較笨重，缺乏“局部風格控制”的能力。有些研究者已經在嘗試采用多層級的風格解耦（如僅針對唇動、僅針對頭部姿態等），為下游應用提供更多可控性。

OmniTalker對于更加復雜的場景（如超長文本、跨語言混說、帶有方言的口音，以及多語種翻譯后配音）是否依然保持同樣的實時性和風格準確度，還需要進一步驗證。倘若在多語言應用中出現口音偏差或風格遷移不充分，或許還需更多針對性訓練策略和多語種并行的語料支持。

當參考視頻與待合成文本的情感、場景差異巨大時，OmniTalker是否仍能完美銜接？比如參考視頻中演講者是平靜語氣和正面情緒，但文本內容卻是激昂的辯論，模型是否能自動在平靜“音色”上添加更豐富的情感因子？另一方面，如果人臉朝向大角度偏轉或被遮擋，模型在生成時是否依然能保持同樣質量？這些極端情境測試都值得后續研究者嘗試與優化。

結論：重新定義人機交互的感知邊界

OmniTalker的出現，代表了文本驅動虛擬人生成技術向前邁進的一大步：它不再局限于“先TTS，再人臉動畫”的分離式思路，而是借助Diffusion Transformer、Flow Matching以及大規模多模態數據的訓練，形成了一個真正端到端、能夠同時生成高質量音頻和口播視頻的統一模型。

OmniTalker的突破不僅在于技術指標，更在于其揭示的多模態生成新范式：當語音韻律與面部表情在潛在空間實現聯合優化，數字人開始具備"形聲合一"的表達能力。

在在線教育場景，這種技術能讓虛擬教師同步呈現知識點講解時的重點強調（語音）與疑惑表情（視覺）；在心理疏導領域，咨詢師數字分身可以精準復現安慰性語調與關切眼神的配合。

但技術的成熟也帶來新的思考：當AI能夠完美模仿人類的表情風格，我們是否需要建立新的數字身份倫理框架？論文末尾提到的水印技術或許只是起點，更深層的技術可控性研究亟待展開。

展望未來，如何將這種強大的風格復制能力與個性創造力相結合，或許會成為下一代多模態生成模型的關鍵戰場。

至頂AI實驗室洞見

我們認為OmniTalker的出現，為虛擬數字人技術提供了一把極具潛力的“萬能鑰匙”。

它不僅在學術層面豐富了多模態合成的研究路徑，也在應用層面預示著未來人機交互模式的巨大變革。當然，目前該方法在個性化控制、風格編輯和安全合規等方面仍有待完善。特別是日后如果要應用在更大規模的商業場景或極度苛刻的實時場合，還需要在模型壓縮、多語種數據擴充以及水印檢測等關鍵環節持續深入。

但總體而言，OmniTalker讓人看到了端到端多模態實時生成的廣闊前景，也激發了對后續技術迭代與行業落地的更多期待。也許很快，我們就能在各種平臺上看到基于OmniTalker思想的“說話頭”AI主播，以高仿真度和風格化的表現力，讓文本內容真正“活起來”。

站在技術演進的路口，OmniTalker不僅是一個優秀的工程解決方案，更是一面映照未來的鏡子——當機器開始掌握人類最本真的表達方式，我們或許需要重新思考何為"真實"，何為"創造"。

論文原文：https://arxiv.org/abs/2504.02433

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.