視頻生成的一致性問題一直是AI視頻的行業通病,舉個親身經歷的例子:
年初,我們接到過一個定制AI視頻的項目,需要把一個真人嘉賓錄制的視頻進行動畫化。
幸運的是,Runway就有視頻轉繪的功能。根據官方提供的示例,效果相當不錯。
完美契合項目需求,我們斥巨資買下了一個月會員。
不幸的是,真正使用的時候才發現不對勁的地方,2分鐘的視頻,每次只能轉繪其中的5秒。
更可怕的是,每次畫風還不一樣。導致最后用剪映把幾十個轉繪的視頻拼接起來,我們看了一場嘉賓5秒一變的川劇變臉。
最后沒敢把成品給嘉賓本人看,怕他真變臉了。
今天,騰訊混元開源了一款多模態定制化視頻模型HunyuanCustom,專門解決一致性問題,而且支持多模態輸入。
視頻定制:讓你的想象力動起來
假如你是一個內容創作者,或者廣告策劃人,甚至只是喜歡在社交媒體上分享生活。
那么你可能經常會遇到這樣的情況:想要制作一段視頻,但苦于沒有合適的演員、道具或者場景?或者發現視頻里的人物形象不夠統一。
傳統的視頻生成工具,雖然也能做視頻,但內容往往比較單一,而且很難根據的特殊要求進行調整。
HunyuanCustom的核心目標,就是要讓視頻制作變得像搭積木一樣簡單有趣,而且成品還能高度符合你的個性化需求 。
它最厲害的地方在于,能夠記住你提供的特定人物或物體的樣貌特征,不妨稱之為“身份烙印”。無論是在什么樣的場景下,無論人物在做什么動作,這個“身份烙印”都能保持高度一致,不會出現換人或者變形的尷尬情況。
HunyuanCustom能理解多種形式的指令。你可以給它一張圖片,一段文字描述,還可以提供一段音頻,或者一段背景視頻,這種多模態驅動的能力,就像給了導演一個龐大的素材庫和靈活的指揮棒,大大拓寬了視頻創作的可能性 。
揭秘“魔法”:HunyuanCustom是如何煉成的?
那么HunyuanCustom是如何實現的呢?
首先,HunyuanCustom基于強大的視頻生成基礎模型,混元視頻(Hunyuan Video)。
“看圖說話”與“身份增強”:讓主角活靈活現
第一個重要的工作室是專門處理看圖說話任務的,也就是根據你提供的圖片和文字描述來生成視頻。
為了讓機器更好地理解圖片和文字之間的關系,研究人員引入了一個叫做LLaVA的翻譯官。這個翻譯官擅長理解圖文并茂的信息。比如,你給了一張熊貓的照片,然后在文字里說“熊貓在打拳”,這個翻譯官就能準確地把圖片里的熊貓和文字里的打拳動作聯系起來。
但只是理解還不夠,要讓視頻里的人物始終保持一致,還需要一個身份增強器。
這個增強器的作用,就像給主角打上了一個非常深刻的“身份烙印”。它的原理很巧妙:它會把圖片中的身份信息,像串珠子一樣,串聯到視頻的每一幀畫面中去。由于基礎的混元視頻模型本身就很擅長處理時間序列上的信息傳遞(就像講故事一樣,前后的情節要連貫),所以這個“身份烙印”就能在整個視頻中得到有效的強化,確保主角從頭到尾都是原裝正品。
“聞聲起舞”與“移花接木”:解鎖更多玩法
解決了基本的圖文生成問題后,HunyuanCustom還想解鎖更多高級玩法,比如讓視頻里的人物跟著音頻說話唱歌,或者把一個視頻里的元素移植到另一個視頻里。這就需要另外兩個更專業的特效部門了。
對于音頻驅動的視頻定制,也就是“聞聲起舞”,研究人員設計了一個名為AudioNet的模塊 。
這個模塊就像一個專業的音樂分析師,它能從音頻中提取出不同層次的特征信息,然后巧妙地將這些音頻特征與視頻畫面中的對應部分進行對齊。這種對齊不是簡單的一一對應,而是一種分層對齊,就像一個交響樂隊里,不同聲部的樂器(音頻特征)和不同演員的表演(視頻特征)能夠和諧地融合在一起。
而對于視頻驅動的視頻定制,比如你想把一段視頻里的背景換掉,或者把一個新的人物P到一段現有視頻里,這就需要一個視頻條件注入模塊 。
這個模塊的工作方式有點像高級的摳圖和合成。它會先把你要作為條件的視頻(比如背景視頻)進行壓縮,把它變成一種機器更容易理解的濃縮精華(潛在表示)。然后,為了讓這個濃縮精華能夠和正在生成的視頻內容更好地融合,研究人員還設計了一個基于patchify(可以理解為把圖像切成小塊)的特征對齊網絡 。最后,通過一個巧妙的身份解耦的視頻條件模塊,把這些處理好的視頻特征注入到生成過程中,實現天衣無縫的“移花接木” 。
值得一提的是,這些針對音頻和視頻的特效部門,它們的工作是和前面提到的“身份烙印”系統相對獨立的 。這就好比,導演在指揮主角表演的同時,也可以獨立地控制背景音樂和場景切換,互不干擾,從而實現更靈活的創作。
“大數據”喂養與“精細化”調教:打造火眼金睛的導演
俗話說,“巧婦難為無米之炊”。再厲害的導演,也需要大量的素材和經驗積累。為了讓HunyuanCustom能夠準確理解并執行各種復雜的指令,研究人員為它準備了極其豐富和高質量的訓練數據。
這個數據準備的過程,本身就像一部精密的流水線作業 。科研人員們從各種渠道收集了海量的原始視頻數據,涵蓋了人類、動物、植物、風景、交通工具、物體、建筑和動漫等各種類型 。
但是這些原始數據良莠不齊。所以接下來就是一系列嚴格的篩選和清洗工作。
首先,他們會使用像PySceneDetect這樣的工具,把長視頻切成一個個獨立的短鏡頭,避免鏡頭切換對訓練造成干擾 。然后,用textbpn-plus-plus這樣的文本橡皮擦,去除視頻中多余的文字、字幕、水印和logo等雜質 。接著,還要統一視頻的尺寸和時長,比如把短邊統一到512或720像素,時長控制在5秒以內 。
即便如此,有些細微的問題還是難以發現,比如一些漸變式的鏡頭轉換,或者少量難以察覺的文字。為了確保視頻的美觀度、動態幅度和場景亮度都達到標準,研究人員還動用了koala-36M的質檢員模型進行進一步的篩選 。他們甚至根據自己的數據特點,設定了專門的koala質檢標準,可以說是非常嚴格了 。
“主角”提取與“多角色”協調
數據清洗干凈之后,下一步就是要從視頻中準確地揪出主角。
對于單個主角的情況,他們會先用Qwen7B模型給每一幀畫面里的所有物體打上標簽,并識別出它們的身份ID 。
然后通過一個聚類算法(就像給相似的東西歸類),統計每個身份ID出現的頻率,選出出現次數最多的那個作為目標主角 。如果是識別人臉,還會用到像YOLO和InsightFace這樣的人臉識別專家來精確定位 。
如果視頻里的是非人類主角,比如一只小狗或一輛汽車,他們會用QwenVL模型從視頻中提取出描述這些主角的關鍵詞,然后再借助GroundingSAM2這樣的摳圖大師,根據關鍵詞生成這些主角的精確輪廓和邊界框 。為了保證訓練數據中各類非人類主角的數量均衡,他們還會對這些主角進行分類(比如動物、植物、交通工具等),然后進行平衡采樣 。
處理多個主角的情況則更為復雜。研究人員利用QwenVL從單人視頻數據中篩選出那些包含人與物體互動的片段 。
為了確保視頻描述中的主角關鍵詞和圖片中的主角能夠準確對應,他們使用Florence2模型來提取視頻描述中提到的所有主角的邊界框 ,然后再用GroundingSAM2進行精確提取 。
“美顏”與“配音”:錦上添花
除了主角提取,視頻的顏值也很重要。研究團隊使用了一個自研的結構化視頻標注模型,為視頻打上詳細的描述標簽,包括長短描述、背景風格、鏡頭運動等等 。這些豐富的標注信息,就像給視頻增加了詳細的劇本,有助于模型學習到更細致的視頻內容。
在進行視頻編輯,比如替換物體時,如果直接使用精確摳出來的物體輪廓(mask)進行訓練,很容易出現問題。比如,你想把一個沒有耳朵的娃娃換成一個有耳朵的娃娃,結果生成的視頻里娃娃還是沒有耳朵,這就很尷尬了 。為了解決這個問題,研究人員在訓練時會用到一些小技巧,比如對輪廓進行輕微的擴張,或者直接把輪廓轉換成簡單的方框,讓輪廓邊緣不那么生硬 。這樣處理后,最終編輯出來的視頻效果會更加自然和符合預期。
對于需要配音的視頻,他們同樣有一套嚴格的處理流程。首先用LatentSync評估音視頻的同步性,把那些口型對不上的片段淘汰掉 。同時,還會用hyperIQA評估音頻質量,確保聲音清晰悅耳 。最后,用Whisper提取音頻特征,作為后續模型訓練的輸入。
經過這樣一番精挑細選和悉心調教,大量的優質數據源源不斷地喂養給HunyuanCustom,使其逐漸成長為一個能夠理解復雜指令、生成高質量定制視頻的超級導演。
實戰演練:HunyuanCustom究竟有多強?
說了這么多,HunyuanCustom在實際應用中的表現究竟如何呢?研究人員進行了一系列嚴格的大比武,把它和目前市面上一些頂尖的視頻定制方法(包括一些商業產品和開源模型)進行了全方位的比較 。
單人/單物定制:誰與爭鋒?
在生成單個特定人物或物體的視頻方面,HunyuanCustom展現出了強大實力。無論是人物的面部特征、服裝細節,還是物體的形狀紋理,HunyuanCustom都能保持高度的身份一致性 。同時,生成的視頻畫面質量也非常高,動作流暢自然,并且能夠很好地遵循文字提示的要求。
相比之下,其他一些方法就顯得有些力不從心了。有的模型生成的視頻,主角的臉看不太清楚,或者和原圖不像(比如VACE) ;有的商業產品雖然畫面質量不錯,但第一幀有明顯的“復制粘貼”痕跡,或者物體運動過快導致模糊(比如Keling) ;還有的在保持人物身份一致性上做得不錯,但全身的連貫性就差一些了(比如Hailuo) 。
從測試數據上看,在身份一致性(Face-Sim和DINO-Sim)這項關鍵指標上,HunyuanCustom都取得了最好的成績 。在文字與視頻內容的匹配度(CLIP-B-T)和視頻畫面的時間連貫性(Temp-Consis)方面,也達到了業界領先水平 。
多人/多物互動:挑戰升級!
當場景中出現多個需要定制的主角時,難度無疑會進一步升級。比如,要生成一段“一個人拿著薯片站在泳池邊”或者“一位女士興致勃勃地打開車門展示汽車”的視頻 。
在這種多主體定制的場景下,HunyuanCustom依然表現出色。它不僅能夠準確地再現人和物的身份特征,還能讓它們之間的互動顯得非常自然,并且視頻內容也緊扣主題 。
而其他一些方法,有的雖然能生成指定的多個主體,但視頻幀不穩定,比如人物突然消失,或者動作沒有按照提示來完成(比如Pika) ;有的能部分捕捉到人物特征,但對非人類物體的細節就丟失嚴重了(比如Vidu和VACE) ;還有的則出現了嚴重的畫面跳動和瑕疵(比如SkyReels A2)。
“虛擬廣告員”與“虛擬試衣”:應用前景廣闊
憑借強大的多主體定制能力,HunyuanCustom還能玩出很多以前難以想象的新花樣。一個非常有趣的應用就是虛擬人廣告 。只需要給模型一張人物照片和一張產品圖片,它就能生成一段像模像樣的廣告視頻。視頻中的人物不僅形象逼真,產品上的文字細節也清晰可見,而且人與產品之間的互動非常自然,完全符合廣告的意境 。
更進一步,如果再結合音頻驅動的功能,還能實現“會說話的虛擬試衣模特”。比如你選定一個模特形象,再選一件衣服,然后輸入一段介紹服裝的音頻,模型就能生成一段模特穿著這件衣服、聲情并茂地進行講解的視頻。這對于服裝電商、在線直播等領域來說,無疑具有巨大的應用潛力。
視頻編輯:想換就換,想加就加
HunyuanCustom在視頻編輯方面也展現了不俗的實力,比如視頻主體替換 。給定一段原始視頻、需要被替換掉的區域(用mask標出),以及一個目標主體的圖片,模型就能把視頻中的特定物體替換成你想要的樣子。
與其它方法相比,VACE模型由于嚴格遵守輸入的mask區域,導致替換后的物體邊緣生硬,動作也不連貫 。而Keling模型則有明顯的復制粘貼感,新加入的物體和背景融合得很差 。相比之下,HunyuanCustom不僅避免了邊緣瑕疵,實現了與背景的無縫融合,還保持了被替換主體的高度身份一致性,編輯效果非常出色 。
說到底,這個“魔法”對我們意味著什么?
以前,想要制作一段精美的、符合自己想法的視頻,可能需要專業的團隊、昂貴的設備和復雜的軟件。而現在,類似于HunyuanCustom這樣的工具,讓視頻創作的門檻大大降低了。
對于內容創作者而言,這意味著他們可以更輕松地將自己的創意變為現實,制作出更具個性化和吸引力的視頻內容。無論是制作虛擬人廣告、虛擬試穿、會唱歌的虛擬偶像,還是進行精細化的視頻編輯 ,都將變得更加得心應手。
對于普通用戶來說,我們也可以用它來制作有趣的個性化視頻,比如把自己的照片變成會動的視頻,配上搞笑的語音,分享到社交平臺。
當然,HunyuanCustom目前還處在不斷發展和完善的過程中。研究人員也坦言,雖然模型在身份保持和多模態控制方面取得了顯著進展,但在處理更復雜的交互、更精細的情感表達等方面,依然有提升的空間 。
如果想深入了解HunyuanCustom的奧秘,可以看看他們的原始論文,或者訪問代碼倉庫。
代碼地址:https://github.com/Tencent/HunyuanCustom
論文地址:https://arxiv.org/pdf/2505.04512
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.