網易首頁 > 網易號 > 正文申請入駐

北大施柏鑫團隊、貝式計算CVPR研究：視頻里輕松換衣服、加柯基

2025-06-24 18:13:39　來源: 機器之心Pro

北京舉報

分享至

視頻是信息密度最高、情感表達最豐富的媒介之一，高度還原現實的復雜性與細節。正因如此，視頻也是編輯難度最高的一類數字內容。在傳統的視頻編輯流程中，若要調整或替換主體、場景、色彩或是移除一個物體，往往意味著無數幀的手動標注、遮罩繪制和精細調色。即使是經驗豐富的后期團隊，也很難在復雜場景中保持編輯內容的時間一致性。

近年來，生成式 AI 尤其是擴散模型與多模態大模型的快速迭代，為視頻編輯帶來了全新的解題思路。從早期基于規則的特效工具，到目標識別與自動分割，再到基于文本指令的視頻生成與重繪，盡管 AI 已經為視頻編輯帶來了效率與可控性的雙重提升，但在精度要求較高的場景中仍存在一系列挑戰，例如當前很多零樣本方法在處理連續視頻幀時容易造成畫面閃爍；對于背景復雜或多目標場景，可能會出現錯位、模糊或語義偏差。

針對于此，北京大學相機智能實驗室（施柏鑫團隊）聯合 OpenBayes貝式計算，以及北京郵電大學人工智能學院模式識別實驗室李思副教授團隊，共同提出了一種結合草圖與文本引導的視頻實例重繪方法 VIRES，支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。該方法利用文本生成視頻模型的先驗知識，確保時間上的一致性，同時還提出了帶有標準化自適應縮放機制的 Sequential ControlNet，能夠有效提取結構布局并自適應捕捉高對比度的草圖細節。更進一步地，研究團隊在 DiT（diffusion transformer） backbone 中引入草圖注意力機制，以解讀并注入細顆粒度的草圖語義。實驗結果表明，VIRES 在視頻質量、時間一致性、條件對齊和用戶評分等多方面均優于現有 SOTA 模型。

VIRES 與 5 種現有方法在不同數據集上的多類指標得分

相關研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」為題，已入選 CVPR 2025。

論文主頁：https://hjzheng.net/projects/VIRES/
項目開源地址：https://github.com/suimuc/VIRES
Hugging Face地址：https://huggingface.co/suimu/VIRES
研究所用數據集下載地址：https://go.hyper.ai/n5pgy

大規模視頻實例數據集 VireSet

為了實現精準的可控視頻實例重繪，研究團隊標注了大量視頻實例的 Sketch 序列、Mask 以及文本描述，提出了一個配備詳細注釋的大規模視頻實例數據集 VireSet。其中包含了 86k 視頻片段、連續的視頻 Mask、詳細的草圖序列，以及高質量的文本描述。

此前，Meta 曾開源了一個大規模視頻分割數據集 Segment Anything Video dataset（SA-V 數據集），提供了 51k 個視頻以及 643k 個實例 Mask。然而，其中實例 Mask 的標注是間隔 4 幀標注一次，因此 FPS 為 6，導致 Mask 非常不連貫。為了得到連貫的視頻實例 Mask，研究團隊利用預訓練的 SAM-2 模型，對中間幀進行標注，從而將 Mask 的 FPS 提高到 24。效果對比如下所示：

原視頻

SA-V 提供的 Mask

研究團隊標注的 Mask

隨后，研究團隊采用預訓練的 PLLaVA 模型為每個視頻片段生成文本描述，并利用邊緣檢測算法 HED 提取每個視頻實例的 Sketch 序列，為每個實例提供結構上的指導信息。

The video shows a small, dark-colored goat with a blue and white striped cloth draped over its back. The goat is seen walking across a grassy area with patches of dirt. The background includes green vegetation and some sunlight filtering through the trees, creating a serene outdoor setting. The goat appears to be moving at a steady pace.

結合草圖與文本引導的視頻實例重繪方法 VIRES

VIRES 主要由 3 大模塊組成：帶有標準化自適應縮放的 Sequential ControlNet，帶有草圖注意力機制的 DiT backbone，以及用于改進解碼過程的草圖感知編碼器，VIRES 的工作流程如下圖所示。

VIRES 的工作流程

如圖 a 所示，輸入視頻首先被 VAE 壓縮 64 倍空間緯度和 4 倍時間緯度，變成潛碼，噪聲會根據 Mask 序列被選擇性地添加到潛碼中。隨后，該噪聲潛碼被送入去噪網絡（Denoising network）進行去噪，如圖 b 所示。該網絡由多個具有時間和空間注意力機制的 Transformer 塊堆疊組成。

為了實現對實例屬性的精確控制，研究團隊提出了 Sequential ControlNet，從 Sketch 序列中提取結構布局，如圖 c 所示。為了自適應地捕捉 Sketch 序列中的細節，團隊引入了 Standardized self-scaling 來增強 Sketch 序列中黑色邊緣線與白色背景之間的高對比度過渡。此外，為了確保穩定且高效的訓練，其根據視頻潛碼特征的均值，對齊處理后的 Sketch 特征與視頻潛碼特征，確保 Sketch 特征和視頻潛碼特征具有相似的數據分布。

為了在潛在空間中解釋和注入細粒度的草圖語義，研究團隊設計了 Sketch Attention 來增強去噪網絡的空間注意力塊，如圖 d 所示，Sketch Attention 結合了一個預定義的二進制矩陣 A ，以指示視頻潛碼與 Sketch 序列之間的對應關系。

最后，為了在潛空間內將編輯結果與 Sketch 序列進一步對齊，團隊引入了草圖感知編碼器，提取多級 Sketch 特征來指導解碼過程，如圖 e 所示。

VIRES 的 4 個應用場景：重繪，替換，生成與消除

文本指令可以傳達一般的視頻編輯目標，但在用戶意圖解釋方面仍留有相當大的進步空間。因此，最近的研究引入了額外的引導信息（例如，草圖）以實現更精確的控制。

部分現有的方法，如 RAVE，利用 Zero-Shot 的方式，將圖片編輯模型擴展成視頻編輯模型，但由于依賴預訓練的文本到圖像模型，該方法在時間一致性上表現不佳，不可避免地導致畫面閃爍。

A light orange and white fish swimming in an aquarium

VIRES 通過利用文本到視頻模型的生成先驗，保持了時間一致性并生成了令人滿意的結果。

A light orange and white fish swimming in an aquarium

另外一些方法，如 VideoComposer，在文本到圖像模型中引入時間建模層并微調，但該方法對組合性的關注限制了編輯視頻與提供的 Sketch 序列之間的準確對齊，導致細粒度編輯效果不佳，如下圖所示效果，人物衣服的袖子消失。

A players wears a light green jersey with the white number 1 on the back

VIRES 提出 Sequential ControlNet 和定制的模塊來有效處理 Sketch 序列，將編輯視頻與提供的 Sketch 序列準確對齊，實現細粒度編輯。效果如下圖所示：

A players wears a light green jersey with the white number 1 on the back

對于每個視頻實例，提供重繪的控制條件，包括 Sketch 序列、Mask 序列和相應的文本描述，VIRES 能夠生成與條件一致的編輯視頻。

如下所示，VIRES 有 4 個主要應用場景，首先是視頻實例重繪，例如更換人物身著衣服的材質和顏色；其次是視頻實例替換，例如將視頻中的紅色皮卡替換成黑色 SUV。

第三是定制實例生成，如演示視頻中在戶外雪地增加一只柯基；最后一個場景是指定實例消除，例如刪除視頻中的足球。

VIRES 在多項指標上超越現有 SOTA 模型

研究團隊將 VIRES 與 5 種目前最先進的方法進行了比較，包括 Rerender(SIGGRAPH Asia’23)，VidToMe(CVPR’24)，Text2Video-zero（ICCV’23），RAVE(ICCV’23)，VideoComposer(NeurIPS’24)。

為了確保詳細的比較，其不僅在 VireSet 數據集上進行測試，還在業內廣泛使用的 DAVIS（CVPR’16）數據集上進行了測試。實驗結果顯示，VIRES 在客觀評價指標：視覺感知質量（PSNR）、空間結構一致性（SSIM）、幀運動準確性（WE）、幀間一致性（FC）和文本描述一致性（TC）方面均取得了最佳結果。

此外，團隊還進行了兩項用戶調研，其一是視覺質量評估（VQE），參與者會看到由 VIRES 和對比編輯方法生成的編輯結果，需要選擇最具視覺吸引力的視頻片段。其二是文本對齊評估（TAE），給定一個對應的文本描述，要求參與者從同一組編輯后的結果中選擇最符合該描述的視頻片段。在用戶調研中，VIRES 均取得了最佳結果。

VIRES 與 5 種現有方法在外觀編輯上的表現對比：

VIRES 與 5 種現有方法在結構編輯上的效果對比：

另外值得一提的是，在 Sketch 引導視頻生成方面，VIRES 還支持根據文本描述直接從 Sketch 序列生成完整視頻。在稀疏幀引導視頻編輯方面，VIRES 支持只提供第一幀的 Sketch 來編輯視頻。效果如下所示。

可控視頻生成領域的持續探索

總結來看，VIRES 在草圖與文本引導下實現了實例結構一致性，而從某種角度來看，其也是面向「如何讓空間結構信息在視頻生成中穩定傳遞」這一重要挑戰，給出了一種可靠的解決方案。與此同時，該研究團隊步履不停，在突破這一類目標級控制之后，還將目光投向了全景級別的可控視頻生成。

該研究團隊提出了一種能夠以最小改動，有效將預訓練文本生成視頻模型擴展至全景領域的方法，并將其命名為 PanoWan。該方法采用了緯度感知采樣（latitude-aware sampling）以避免緯度方向的圖像畸變，同時引入旋轉語義去噪機制（rotated semantic denoising）和像素級填充解碼策略（padded pixel-wise decoding），以實現經度邊界的無縫過渡。實驗結果表明，PanoWan 在全景視頻生成任務中的表現達 SOTA 級別，并在零樣本下游任務中展現出良好的泛化能力。相關論文現已發布于 arXiv：https://arxiv.org/abs/2505.22016。

聚焦該研究團隊，北京大學相機智能實驗室（http://camera.pku.edu.cn），負責人施柏鑫，北京大學計算機學院視頻與視覺技術研究所副所長，長聘副教授（研究員）、博士生導師；北京智源學者；北大 - 智平方具身智能聯合實驗室主任。日本東京大學博士，麻省理工學院媒體實驗室博士后。研究方向為計算攝像學與計算機視覺，發表論文 200 余篇（包括 TPAMI 論文 30 篇，計算機視覺三大頂級會議論文 92 篇）。論文獲評 IEEE/CVF 計算機視覺與模式識別會議（CVPR）2024 最佳論文亞軍（Best Paper, Runners-Up）、國際計算攝像會議（ICCP）2015 最佳論文亞軍、國際計算機視覺會議（ICCV）2015 最佳論文候選，獲得日本大川研究助成獎（2021）、中國電子學會青年科學家獎（2024）。科技部人工智能重大專項首席科學家，國家自然科學基金重點項目負責人，國家級青年人才計劃入選者。擔任國際頂級期刊 TPAMI、IJCV 編委，頂級會議 CVPR、ICCV、ECCV 領域主席。APSIPA 杰出講者、CCF 杰出會員、IEEE/CSIG 高級會員。

主要合作者 OpenBayes貝式計算作為國內領先的人工智能服務商，深耕工業研究與科研支持領域，通過為新一代異構芯片嫁接經典軟件生態及機器學習模型，進而為工業企業及高校科研機構等提供更加快速、易用的數據科學計算產品，其產品已被數十家大型工業場景或頭部科研院所采用。

雙方共同在可控視頻生成領域的探索已經取得了階段性成果，相信在這一校企合作模式下，也將加速推進高質量成果早日落地產業。

文中視頻鏈接：

https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.