作者|子川
來源|AI先鋒官
最近,阿里推出了一項黑科技——OmniTalke,只需給它一段參考視頻,它就能學會視頻里人物的表情以及克隆其聲音,甚至還能模仿說話風格。
就像下面這樣——
比如我們先給OmniTalke一段羅翔老師早期在B站的視頻,讓它學羅老師是怎么說話、什么表情”。
隨后給它一段文字,它就能生成相應的數字人視頻。
提示詞:聽說現在有人拿AI復刻我的聲音和形象,搞的大家分不出來真假,啊,你們這個被抓起來,是要判三年的。
除了說中文外,還能讓羅翔老師實現出海,生成他講英文的視頻。
文本:我試試說幾句英文,啊,I've heard that nowadays, some people are using AI to replicate my voice and appearance, making it hard for everyone to tell the difference between real and fake. Yet, if they get caught, they could be sentenced to three years in prison.
這效果,簡直了!!!
無論是聲音還是表情都模仿得惟妙惟肖,簡直就跟羅翔老師本人,而且無論是英文還是中文,口型和聲音保持高度的統一。
再來一段視頻,比如上傳一段大家非常喜歡的博主@小Lin說的視頻。
輸入文本:想象一下,你面前站著的是一個完全由代碼構建卻仿佛真人般鮮活的2D數字人。它不僅有著細膩入微的表情變化,每一個眼神、每一次微笑都能準確傳達出參考人物的情感特質。
還有雷軍的數字人視頻,上傳雷軍入駐B站時的視頻。
輸入文本:喜歡小米的小朋友們你們好,我是雷軍,今天我當了一個小時的中國首富,感謝大家捧場。
就像視頻中所展示的那樣,OmniTalker除了可以復制表情和聲音外,還能復制該人物說話的風格。
像以往,我們想要生成一個類似的數字人視頻,首先需要準備一張人物的大頭照,并獲取一段該人物的聲音去進行克隆,最后再是輸入提示詞生成相應的數字人視頻。
關鍵是市面上很多數字人產品,生成的數字人視頻機械感賊重,并且聲音和口型高度不統一。
而如今,OmniTalker徹底改變了以往數字人的交互方式,只需提供一段視頻,就能讓它完美復制視頻中人物的表情、聲音。
目前OmniTalker還沒有成熟產品,不過大家可以期待一下。
論文:https://arxiv.org/html/2504.02433
下面是小編簡單總結了一下OmniTalker的核心技術。
OmniTalker 的核心技術
雙分支擴散變換器架構:OmniTalker 采用了獨特的雙分支擴散變換器(DiT)架構。它包含兩個主要分支:音頻分支和視覺分支。
音頻分支負責從文本中合成高質量的語音,而視覺分支則專注于預測頭部姿勢和面部動態。
這兩個分支通過一個新穎的音頻-視覺融合模塊緊密相連,確保音頻和視頻輸出在時間上的同步性和風格上的一致性。
上下文參考學習模塊:OmniTalker 能從一個參考視頻里“偷學”說話人的風格,比如語音的音色、語調,還有面部的表情、動作,然后把它應用到生成的視頻里。
流匹配技術:這是一種高效訓練方法,能讓模型更快地學習和生成內容,就像給汽車裝上了渦輪增壓,讓整個系統跑得更快。
OmniTalker 的優勢
實時交互:它反應超快,能達到每秒25幀的實時推理速度,滿足直播和實時交互的需求。
多模態融合:支持文本、圖像、音頻和視頻等多種輸入方式,無縫整合多模態信息,生成高質量的語音和視頻。
風格保留:它能把參考視頻里的風格學得惟妙惟肖,生成的視頻就像原版的“克隆”。
計算效率:通過流匹配技術和緊湊的模型架構(0.8B參數),在保持高質量輸出的同時實現實時推理。
OmniTalker 的創新點
統一多模態框架:首次將文本到音頻和文本到視頻生成集成在一個模型中,通過跨模態融合實現同步輸出。
簡單來說就是以前生成語音和視頻需要分開做,現在OmniTalker 把它們合在一起,一步到位。
上下文多模態風格復制:不需要額外的訓練數據,只要一個參考視頻,就能實時生成風格一致的說話頭像。
實時效率:通過技術創新實現高質量輸出的同時保持實時推理能力。
可擴展的數據管道和多模態訓練:自動化預處理系統和高效的多階段訓練方法,支持大規模多模態數據的處理和訓練。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.