網易首頁 > 網易號 > 正文申請入駐

Meta發布MoCha模型，AI角色從“呆頭鵝”秒變“老戲骨”

2025-04-17 18:39:34　來源: 至頂AI實驗室

北京舉報

分享至

決定一部電影好壞的最主要因素是什么？

相信每個人都有自己不同的答案，或許是劇本，或許是導演，也或許是演員…

但如果說評價一名演員的主要因素是什么，我相信所有人都是一個答案，那就是演技。

AI視頻的發展，從最初的角色換臉，到數字人生成，再到現在的多鏡頭角色一致性生成，雖然進展飛速，但作品其實還很難稱之為電影，無他，AI數字人的演技還不過關。

Meta本月發布的MoCha模型，恰恰就在“演技”上對AI數字人進行了補強，它讓AI角色第一次有了“戲感”，大有“呆頭鵝”秒變“老戲骨”的感覺

我們可以從幾個Demo感受一下。

多鏡頭下的人物轉換

精準的情緒控制

MoCha是Meta在AI視頻領域最新的研究成果，只需要輸入文本和聲音，就能生成電影級別的視頻。

MoCha的出現，標志著AI視頻正從“技術演示”向“敘事工具”轉型，未來，每個人都可能成為自己故事的導演，用AI為自己的創意插上翱翔的翅膀。

目前，Meta 團隊已經放出了該項研究的paper，至頂AI實驗室做一個簡單的分析解讀，看看MoCha如何重新定義AI與創意產業的邊界。

研究背景：Meta GenAI的敘事野心

MoCha由Meta 的GenAI團隊與滑鐵盧大學聯合完成，論文于2025年4月提交至arXiv平臺（編號2503.23307v1）。

Meta公司一直在生成式AI領域保持領先地位，從文本生成的LLaMA系列到圖像生成的Emu，再到視頻生成技術，都展現了其在多模態AI方面的雄厚實力。MoCha項目可以看作是Meta在視頻生成領域的又一次重要突破，特別是在角色動畫生成這一細分領域。

該研究的核心目標是解決現有視頻生成模型在角色表現力方面的局限性。

盡管目前的視頻基礎模型如SoRA、Pika等已經能夠生成視覺上令人印象深刻的內容，但在生成能夠自然說話的角色方面仍然存在明顯不足。而專注于語音生成的模型如Loopy、Hallo3等，又局限于面部區域，無法實現全身動作和多角色互動。MoCha正是為了彌補這一技術空白而誕生的。

核心成果：讓數字角色學會“演技”

端到端訓練無需輔助條件

MoCha模型最大的突破在于它首次實現了從語音和文本直接生成全身角色動畫的能力，而且不需要任何如參考圖像，關鍵幀等輔助條件。

傳統的說話角色生成方法通常需要依賴外部控制信號，比如參考圖像。這就像是給演員提供了詳細的動作指導和表情參考，限制了其自由發揮的空間。而MoCha則完全不同，它直接從文本和語音學習生成視頻，無需任何輔助條件。

這種設計理念可以類比為：傳統方法是在教一個演員按照詳細的分鏡頭腳本表演，而MoCha則是培養了一個能夠理解劇本和臺詞，自然地表演出角色的真正演員。這不僅簡化了模型架構，還顯著提高了動作的多樣性和泛化能力。

舉個例子，如果你想生成一個醫生在解釋醫療知識的視頻，傳統方法可能需要你提供醫生的參考圖像、詳細的面部表情指導等。而使用MoCha，你只需提供文字描述"一位穿著白大褂的醫生正在解釋心臟病的癥狀"和語音內容，它就能生成一個自然表現的醫生角色，包括專業的手勢和面部表情。

語音-視頻窗口注意力機制

為了解決語音與視頻同步的問題，GenAI團隊提出了一種創新的"語音-視頻窗口注意力"機制。這一機制確保了角色的嘴唇動作與語音內容精確同步，大大提高了生成視頻的真實感。

這個機制可以類比為人類觀看對話時的注意力分配：當我們聽一個人說話時，我們會特別關注說話者當前正在發出的音節對應的嘴唇動作，而不是隨機關注過去或未來的嘴型。

MoCha模型通過這種機制，讓每個視頻幀只關注與其時間上相關的語音片段，從而實現了精準的口型同步。

比如當角色說"你好"這個詞時，傳統模型可能會出現嘴型與音節不匹配的情況，而MoCha則能確保"你"和"好"兩個音節分別對應正確的嘴型變化，使觀眾感受不到任何違和感。

聯合語音-文本訓練策略

大規模的帶語音標注的視頻數據集相對稀缺，這一直是限制語音驅動視頻生成質量的瓶頸。

MoCha團隊創新性地提出了一種聯合訓練框架，同時利用帶語音標注和僅有文本標注的視頻數據。

這種策略就像是讓模型同時向兩類"老師"學習：一類老師教它如何根據語音生成匹配的嘴型和表情，另一類老師則教它如何理解文本描述并生成相應的場景和動作。通過這種雙軌學習，MoCha能夠在保證口型同步的同時，生成更加多樣化和自然的角色動作。

舉個生活中的例子，這就像是一個演員既跟配音導師學習如何準確對口型，又跟表演導師學習如何自然地表達情感和動作，最終成為一個全面發展的優秀演員。

多角色對話生成

MoCha最令人驚嘆的突破之一是它首次實現了多角色之間的連貫對話生成。這意味著AI現在能夠創建包含多個角色的對話場景，每個角色都有自己的外觀、表情和動作特征，并能進行輪流對話。

想象一個電影場景：一對夫妻在廚房交談，妻子一邊準備晚餐一邊說話，丈夫則靠在廚房灶臺上回應。傳統的AI視頻生成技術難以處理這種復雜場景，但MoCha通過創新的角色標簽機制和自注意力機制，成功實現了這一目標。

研究團隊設計了一種結構化提示模板，使用固定關鍵詞和角色標簽機制，大大簡化了多角色場景的描述。例如，不需要每次提到角色時都重復其詳細外觀描述，而是可以使用簡單的標簽，如"人物1"、"人物2"來引用已定義的角色。這就像是電影劇本中的角色命名，一旦定義了角色，后續只需使用角色名即可引用，大大提高了提示的清晰度和簡潔性。

這一突破為AI生成敘事性內容開辟了新的可能性。例如，教育工作者可以創建包含老師和學生互動的教學視頻，營銷人員可以生成產品演示對話，創意工作者甚至可以制作簡單的戲劇場景。

方法評析：天才設計下的隱憂

技術架構的創新與優勢

MoCha模型的核心架構基于擴散變換器（Diffusion Transformer，DiT），這是一種在視頻生成領域表現出色的架構。

與傳統的基于U-Net的方法不同，MoCha采用了更適合處理時序數據的變換器結構，通過自注意力和交叉注意力機制有效捕捉視頻中的時空關系。

這種架構選擇就像是從傳統的"畫家"模型，從一筆一筆地繪制畫面轉向了"導演"模型，同時需要考慮整個場景的各個元素及其關系。這使得MoCha能夠生成更加連貫、自然的視頻內容，特別是在處理復雜的人物動作和多角色互動時。

舉個例子來說明這種架構的優勢：想象一個導演在指導一群演員表演一個場景。傳統的U-Net方法就像是導演只能一次指導一個演員，而且每個演員只能看到自己前后的動作，無法感知整個場景中其他演員的表現。而DiT架構則允許所有"演員"同時接收指導，并且能夠相互感知，從而創造出更加協調、自然的整體表演效果。

語音-視頻窗口注意力機制的深入分析

MoCha模型中最巧妙的設計之一是語音-視頻窗口注意力機制。

這一機制解決了視頻生成中的一個關鍵挑戰：如何確保生成的嘴唇動作與語音內容精確同步。

在傳統的視頻生成模型中，存在兩個關鍵問題：一是時間壓縮問題，即視頻通常會被壓縮到較低的時間分辨率，而音頻保持原始分辨率，導致同步困難；二是并行生成問題，即模型同時生成所有視頻幀，可能導致某一幀錯誤地關聯到不相關時間點的語音。

MoCha的窗口注意力機制巧妙地解決了這些問題。它限制每個視頻幀只能關注一個有限的音頻窗口，這個窗口包括該幀對應的音頻片段及其前后的少量內容。這就像是給演員設定了精確的對口型規則：你只需要關注當前和緊鄰的幾個音節，而不是整段臺詞。

這種設計的優勢可以通過一個簡單的例子來理解：當一個人說"今天天氣真好"這句話時，發"今"這個音時的嘴型只需要關注"今"這個音節及其前后的少量內容，而不需要考慮整句話。

MoCha的窗口注意力機制正是模擬了這種自然的注意力分配方式。

實驗結果顯示，這一機制顯著提高了口型同步的準確性。在沒有這一機制的情況下，同步相關性指標Sync-C從6.037下降到5.103，同步距離指標Sync-D從8.103上升到8.851，證明了該機制的有效性。

多階段訓練策略的評估

MoCha采用了一種多階段訓練策略，這一策略的設計基于一個重要觀察：語音對人類視頻生成的影響隨著從低級到高級動作的變化而減弱。具體來說，語音對嘴唇動作和面部表情的影響最強，對手勢的影響次之，對全身動作的影響最弱。

基于這一觀察，研究團隊設計了一個從簡單到復雜的訓練框架：

首先在僅有文本標注的視頻數據上預訓練模型

然后從特寫鏡頭（語音-視頻相關性最強）開始訓練

逐步引入更復雜的任務（中特寫、中景等），同時減少前一階段數據的比例

這種策略就像是教一個演員表演的過程：先學習基本的對口型技巧，然后是面部表情，接著是手勢配合，最后是全身表演。這種循序漸進的方法使模型能夠更好地學習不同層次的動作表現。

聯合訓練策略的價值

MoCha的另一個關鍵創新是聯合訓練策略，即同時使用帶語音標注和僅有文本標注的視頻數據進行訓練。具體來說，模型80%的時間在語音-文本-視頻數據上訓練，20%的時間在文本-視頻數據上訓練。

這種策略解決了帶語音標注的視頻數據集規模有限的問題。通過引入大量僅有文本標注的視頻數據，模型能夠學習到更加多樣化的場景和動作，從而提高泛化能力。

實驗結果表明，移除這一聯合訓練策略會導致同步相關性指標Sync-C從6.037下降到5.659，同步距離指標Sync-D從8.103上升到8.435，證明了該策略的有效性。

局限性分析

盡管MoCha在多個方面取得了突破，但它仍然存在一些局限性。

MoCha基于30B參數的DiT模型，需要大量計算資源進行訓練和推理，這限制了其在資源受限環境中的應用。

當前模型設計為生成128幀、約5.3秒的視頻片段，對于長內容生成仍有挑戰。

盡管采用了聯合訓練策略，但高質量的語音-視頻數據仍然是影響模型表現的關鍵因素。

當前研究主要關注真實人物的生成，對于卡通、動畫等風格的支持可能需要額外的適配。

結論：推開電影工業化的一扇窗

MoCha在多個評估指標上都取得了顯著的優勢。

人類評估結果顯示，MoCha在口型同步質量、面部表情自然度、動作自然度、文本對齊度和視覺質量五個維度上都大幅領先于現有方法。

特別值得注意的是，MoCha在動作自然度方面的得分達到了3.82（滿分4分），比第二名高出1.69分，這表明其生成的角色動作已經接近真實人物或電影角色的水平。

這種高度的自然性對于用戶體驗至關重要，因為不自然的動作會打破沉浸感，降低內容的可信度。

自動評估指標也證實了MoCha的優勢。在口型同步相關性指標Sync-C上，MoCha得分為6.037，比第二名高出1.17；在口型同步距離指標Sync-D上，MoCha得分為8.103，比第二名低0.86（越低越好）。

這些客觀指標進一步驗證了MoCha在口型同步方面的卓越表現。

MoCha模型的出現標志著AI生成內容領域的一個重要里程碑，它不僅推動了技術邊界，更為視頻內容創作開辟了新的可能性。

這一突破性進展將對多個行業產生深遠影響：

電影與動畫制作：MoCha為電影預制作階段提供了強大工具，可以快速生成分鏡頭和角色測試，大幅降低制作成本和時間。想象一下，導演可以在正式拍攝前，通過簡單的文本描述和語音，生成場景預覽，測試不同的拍攝角度和對話效果。

游戲開發：游戲中的NPC（非玩家角色）對話場景可以更加自然流暢，開發者只需提供對話文本和語音，就能生成符合角色設定的動畫效果。例如，一個開放世界游戲中的村民可以有更加自然的對話表現，而不是機械重復的動作循環。

教育培訓：定制化的教學視頻制作變得更加簡單高效。教育工作者可以創建虛擬講師，通過自然的表情和手勢傳達知識點，增強學習體驗。比如，一位虛擬物理老師可以一邊講解牛頓定律，一邊用手勢演示力的作用，使抽象概念更加直觀。

數字人客服：企業可以創建更加自然、富有表現力的數字人客服，提升用戶體驗。這些數字人不僅能準確回答問題，還能通過適當的面部表情和肢體語言傳達情感，使交流更加人性化。

社交媒體內容創作：內容創作者可以更輕松地生成角色視頻，豐富創作形式。例如，一個單人創作者可以生成多角色對話的短視頻，擴展創作邊界。

至頂AI實驗室洞見

我們認為MoCha的出現，將AI視頻生成從"能用"推向了"好用"的階段，降低了高質量內容創作的門檻。

在過去，制作一個專業的角色對話視頻需要演員、攝影師、導演等專業團隊，以及昂貴的設備和場地。而現在，一個普通創作者只需一臺電腦，就能生成接近專業水準的角色視頻。

這種"創作全民化"將釋放巨大的創意潛能，特別是對于資源有限的個人、小團隊和新興市場。

當然，像所有新技術一樣，MoCha也帶來了一些需要關注的問題。例如，如何確保生成內容的版權歸屬、如何防止技術被濫用于制作虛假內容等。

我們認為，技術發展與倫理規范需要同步推進，研究機構、企業和監管部門應共同建立健全的使用準則和審核機制。

MoCha代表了AI生成內容的新范式，它不僅是技術的進步，更是創意表達方式的革新。我期待看到這項技術在未來如何演進，以及創作者們將如何利用它創造出令人驚嘆的新內容形式。

未來，電影不再是專業團隊的專利，每個人都可以通過AI講述自己的故事,每個人都是自己故事的導演。

論文地址：https://arxiv.org/pdf/2503.23307

項目地址：https://congwei1230.github.io/MoCha/

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.