網易首頁 > 網易號 > 正文申請入駐

字節跳動重磅突破！AI視頻生成告別"復制粘貼"時代

2025-06-26 17:08:06　來源: 至頂AI實驗室

北京舉報

分享至

視頻生成技術正在快速發展，從早期只能生成幾秒鐘的低質量片段，到如今能夠創造出長達數分鐘的高清視頻。

然而，目前的AI視頻生成模型面臨著一個關鍵問題：當需要在視頻中保持特定人物或物體的一致性時，這些模型往往會出現"復制粘貼"現象。簡單來說，就是AI不僅復制了要保持的主體（比如某個人的臉），還把原始圖片中的背景、姿勢等無關信息也一并復制過來，導致生成的視頻無法準確遵循用戶的文字指令。

這個問題的根本原因在于現有的訓練方法存在缺陷。

為了解決這個難題，字節跳動的研究團隊提出了一個創新的解決方案：構建名為Phantom-Data的大規模數據集。這個數據集就像是給AI提供了一本"身份識別手冊"，其中同一個人或物體出現在完全不同的場景中，讓AI學會真正理解什么是"身份一致性"，而不是簡單地記住某個特定場景中的樣子。

數據集的核心理念：打破身份與場景的錯誤綁定

Phantom-Data數據集的設計理念可以比作培養一個優秀的偵探。傳統的訓練方法就像是讓偵探只在犯罪現場看到某個嫌疑人，這樣偵探可能會錯誤地認為這個人永遠只會出現在犯罪現場。而Phantom-Data的方法則是讓這個"AI偵探"在商店、公園、辦公室等各種不同場所看到同一個人，這樣它就能真正學會識別人的核心特征，而不會被環境因素干擾。

研究團隊為這個數據集制定了三個核心設計原則。首先是"通用性和輸入對齊"，確保參考圖像涵蓋了日常生活中常見的各種主體類型，從人物、動物到產品和場景，應有盡有。這就像是建立一個包羅萬象的身份檔案庫，確保AI能夠處理用戶可能遇到的各種情況。

其次是"不同的上下文環境"，這是解決復制粘貼問題的關鍵。在這個數據集中，同一個主體會出現在截然不同的背景、角度和姿勢中。例如，同一只狗可能在公園里奔跑，在家里睡覺，在雨中散步。這種多樣性迫使AI學會關注主體的本質特征，而不是依賴環境線索。

最后是"一致的身份"，盡管環境千變萬化，但主體的核心身份特征必須保持一致。這就像是確保無論在什么光線條件下拍攝，同一個人的基本面部特征都應該是可識別的。

創新的三階段數據構建流程

為了實現這些設計目標，研究團隊開發了一套精密的三階段數據構建流程，就像是建造一座復雜的大橋需要經過設計、施工和檢驗三個階段。

第一階段是"主體檢測"，相當于在海量視頻中尋找合適的"演員"。這個過程就像是影視劇選角，需要找到那些在畫面中足夠清晰、完整且具有辨識度的主體。研究團隊使用先進的視覺語言模型來進行這項工作，它們能夠理解文字描述并在視頻中找到對應的對象。這個階段不僅要找到目標對象，還要確保它們在畫面中的尺寸合適，位置清晰，沒有被其他物體遮擋。

第二階段是"多元化檢索"，這是整個流程的核心創新。研究團隊構建了一個龐大的檢索數據庫，包含超過5300萬個視頻片段和30億張圖片。這就像是建立了一個超級圖書館，里面收藏了世界各地的各種圖像資料。當系統識別出一個主體后，它會在這個海量數據庫中搜索同一個主體在不同環境中的出現，就像是收集某個人在不同時間、地點的照片集合。

為了確保檢索的準確性，研究團隊為不同類型的主體設計了專門的特征提取方法。對于人臉，他們使用了專門的面部識別技術；對于一般物體，則采用了經過特殊訓練的視覺識別模型；對于人物整體，則結合了面部特征和服裝特征。這種分類處理的方法就像是針對不同類型的案件使用不同的偵查技術。

第三階段是"基于先驗知識的身份驗證"，這是質量控制的關鍵環節。即使經過了前兩個階段的篩選，仍然可能出現一些"冒牌貨"。研究團隊采用了兩套驗證機制來解決這個問題。

首先是基于先驗知識的過濾。對于非生物對象（如產品），系統會檢查是否存在清晰可見的品牌標識，因為這些標識通常是識別同一產品的可靠線索。對于生物對象（如人類和動物），系統會優先從同一個長視頻的不同片段中尋找匹配，這樣可以確保是同一個個體在不同時刻的表現。

其次是基于視覺語言模型的一致性驗證。這個步驟就像是聘請專業的鑒定師來做最終確認，確保每一對匹配的圖像確實展現了同一個主體，同時又具有足夠的環境多樣性。

數據集的規模與多樣性：前所未有的豐富度

通過這套精密的構建流程，研究團隊成功創建了包含約100萬個身份一致配對的大規模數據集。這個數字本身就令人印象深刻，但更重要的是數據的質量和多樣性。

從視頻層面來看，這個數據集涵蓋了各種時長的視頻，從幾秒鐘的短片到超過15秒的長片段都有，其中約50%的視頻長度在5到10秒之間。視頻分辨率也相當多樣化，大部分為720p高清畫質，能夠提供清晰的視覺細節。運動模式的分布也很均衡，既包含相對靜態的場景，也包含高度動態的動作場面。

從主體構成來看，數據集展現了真實世界的復雜性。雖然大部分樣本（約72萬個）包含單一主體，但也有相當數量的樣本（約28萬個）涉及多個主體的互動，這為訓練更復雜的多主體一致性模型提供了寶貴資源。

主體類別的分布反映了日常生活的真實需求。人類主體（包括男性、女性、兒童）占據了重要比例，動物主體（如狗、鳥類）也有充分代表，此外還包含了大量人造物品（如智能手機、汽車、筆記本電腦）。這種分布確保了數據集能夠支持各種實際應用場景。

技術驗證：顯著的性能提升

為了驗證Phantom-Data數據集的有效性，研究團隊進行了全面的實驗比較。他們選擇了開源的Phantom-wan模型作為測試平臺，這是一個在主體一致性視頻生成領域表現出色的模型。

實驗設計采用了對照研究的方法，比較了四種不同的訓練策略。第一種是傳統的"成對訓練"，即從同一視頻中提取參考圖像和目標視頻，這是目前業界的標準做法。第二種是"增強的成對訓練"，在第一種基礎上添加了空間和外觀變換，試圖通過數據增強來減少過擬合。第三種是"基于面部的跨對訓練"，使用面部級別的身份匹配來構建跨視頻的訓練對。第四種就是研究團隊提出的"全對象跨對訓練"方法。

實驗結果令人鼓舞。在主體一致性評估中，雖然新方法在某些指標上略低于傳統的成對訓練（這是可以理解的，因為傳統方法本質上是在"作弊"），但在文本遵循能力方面卻有顯著提升。具體來說，在Reward-TA指標（衡量生成視頻與文本描述的一致性）上，新方法取得了3.827的高分，遠超傳統成對訓練的2.074分。

更重要的是，在綜合視頻質量評估中，新方法在時間連貫性、運動平滑性、圖像質量、背景一致性和主體一致性等多個維度都表現出色。這表明雖然模型在極端身份保持方面可能略有妥協，但在整體生成質量和實用性方面獲得了顯著提升。

定性比較結果更加直觀地展示了新方法的優勢。在多個測試案例中，使用傳統成對訓練的模型經常出現明顯的"復制粘貼"問題，生成的視頻雖然保持了主體身份，但完全忽略了文字指令中的場景要求。相比之下，使用Phantom-Data訓練的模型能夠成功地在保持主體身份的同時，準確地按照文字描述生成相應的場景和動作。

深入的對比分析：揭示成功的關鍵因素

為了更好地理解Phantom-Data成功的原因，研究團隊進行了詳細的對比分析，就像是解剖一個復雜機器來理解每個部件的作用。

首先是主體多樣性的影響。研究團隊發現，在數據集中加入更多種類的主體能夠持續改善模型性能。從僅包含人臉的基礎版本開始，逐步添加人體、動物、產品和多主體場景，每一次擴展都帶來了在主體一致性和文本遵循能力方面的提升。這說明多樣性本身就是一種強大的正則化機制，能夠防止模型過度特化到某一類主體上。

數據規模的重要性也得到了明確驗證。當訓練數據從10萬個樣本增加到100萬個樣本時，所有性能指標都有進一步提升。這個發現強調了在構建高質量數據集時，既要保證多樣性，也要確保足夠的規模，兩者缺一不可。

在檢索策略的對比中，研究團隊發現了一些有趣的規律。通過比較不同時間間隔的參考幀采樣，他們發現從較長時間間隔（如分鐘級別）采樣的幀比從較短間隔（如秒級別）采樣的幀提供了更豐富的視覺多樣性。這個發現反映了一個重要原理：時間的延伸往往伴隨著場景的變化，從而為模型提供了更多的上下文變化信息。

多源檢索的優勢也很明顯。相比僅從視頻源檢索，結合圖像和視頻的混合檢索數據庫能夠提供更高的召回率和候選多樣性。這種方法特別適合產品類主體，因為產品圖像往往具有更大的場景變化范圍。

質量控制的重要性：確保數據集的可靠性

在構建如此大規模的數據集時，質量控制變得至關重要。研究團隊通過一系列實驗驗證了每個質量控制步驟的必要性。

先驗知識過濾的效果非常明顯。如果不使用這種過濾機制，系統往往會包含大量視覺相似但語義不同的錯誤匹配。例如，兩個不同的產品可能在形狀和顏色上相似，但實際上是完全不同的物品。通過要求產品必須具有可識別的品牌標識，或者要求生物主體必須來自同一長視頻，這類錯誤得到了顯著減少。

身份驗證模塊的作用同樣關鍵。即使經過了前面的過濾步驟，仍然會有一些邊界案例需要人工智能的"第二意見"。視覺語言模型在這里發揮了關鍵作用，它們能夠從更高的語義層面判斷兩個圖像是否展現了同一個主體，同時確保它們具有足夠的上下文差異。

用戶研究：真實世界的驗證

為了從用戶角度驗證新方法的有效性，研究團隊還進行了用戶研究。他們邀請了六名參與者，每人獨立評估50組視頻，每組包含用四種不同訓練策略生成的視頻。參與者需要從整體視覺質量、主體一致性和文本對齊度三個維度選出最佳視頻。

結果令人信服：使用Phantom-Data訓練的模型獲得了76%的選票，而其他所有基線方法的得票率都不超過12%。這個結果從用戶體驗的角度確認了新方法的優越性，表明它確實能夠生成更符合用戶意圖的視頻內容。

技術影響與未來展望

Phantom-Data數據集的發布標志著AI視頻生成技術的一個重要里程碑。它不僅解決了長期困擾該領域的復制粘貼問題，還為未來的研究提供了寶貴的資源和方向。

從技術角度來看，這項工作的價值不僅在于數據集本身，更在于它提出的數據構建方法論。這套三階段流程可以應用到其他類似的AI訓練任務中，為構建高質量、多樣化的訓練數據提供了標準化的方案。

從應用前景來看，能夠準確遵循文字指令同時保持主體一致性的視頻生成技術將開啟眾多新的應用可能。個性化廣告制作、影視內容創作、教育內容生成等領域都將從中受益。同時，這項技術也為數字化身、虛擬演員等概念的實現鋪平了道路。

研究團隊也明確認識到這項技術可能帶來的社會影響。逼真的身份保持視頻合成技術可能被惡意使用，用于制作深度偽造內容、身份冒充或傳播虛假信息。因此，他們強調負責任的研究和部署實踐的重要性，特別是在涉及人類肖像或身份敏感內容的場景中，需要采用水印、來源追蹤和知情同意等機制來確保技術的倫理和透明使用。

至頂AI實驗室洞見

由此可見，Phantom-Data代表的不僅僅是一個技術突破，更是AI視頻生成領域向著更加智能、可控和實用方向發展的重要一步。

通過解決復制粘貼這個根本性問題，它為AI真正理解和操作視覺內容奠定了基礎。隨著這項技術的進一步發展和完善，我們有理由期待更加自然、準確和創意無限的AI視頻生成應用將很快走進我們的日常生活。

對于那些希望深入了解這項技術細節的研究者和開發者，完整的數據集和技術文檔已經公開發布，為整個社區的進一步創新提供了堅實的基礎。

論文地址：

https://arxiv.org/pdf/2506.18851

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：什么是AI視頻生成模型中的“復制粘貼"問題？為什么需要解決它？

A：復制粘貼問題是指AI視頻生成模型在保持主體身份時，不僅復制了主體本身，還把原始圖片中的背景、姿勢等無關信息一并復制過來，導致無法準確遵循用戶的文字指令。解決這個問題能讓AI真正學會區分主體身份和環境因素，生成更符合用戶需求的視頻。

Q2：Phantom-Data數據集有什么特別之處？

A：Phantom-Data是首個通用的跨對主體一致性視頻數據集，包含約100萬個身份一致的配對樣本。它的特別之處在于同一主體出現在完全不同的場景中，這迫使AI學會關注主體的本質特征而不是環境線索，從而解決傳統訓練方法的局限性。

Q3：Phantom-Data技術會不會被惡意使用？研究團隊如何應對？

A：研究團隊明確認識到技術可能被用于制作深度偽造內容等惡意用途。他們強調需要負責任的研究和部署實踐，建議采用水印、來源追蹤和知情同意等機制，特別是在涉及人類肖像的場景中要確保倫理和透明使用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.