視頻是信息密度最高、情感表達最豐富的媒介之一,高度還原現實的復雜性與細節。正因如此,視頻也是編輯難度最高的一類數字內容。在傳統的視頻編輯流程中,若要調整或替換主體、場景、色彩或是移除一個物體,往往意味著無數幀的手動標注、遮罩繪制和精細調色。即使是經驗豐富的后期團隊,也很難在復雜場景中保持編輯內容的時間一致性。
近年來,生成式 AI 尤其是擴散模型與多模態大模型的快速迭代,為視頻編輯帶來了全新的解題思路。從早期基于規則的特效工具,到目標識別與自動分割,再到基于文本指令的視頻生成與重繪,盡管 AI 已經為視頻編輯帶來了效率與可控性的雙重提升,但在精度要求較高的場景中仍存在一系列挑戰,例如當前很多零樣本方法在處理連續視頻幀時容易造成畫面閃爍;對于背景復雜或多目標場景,可能會出現錯位、模糊或語義偏差。
針對于此,北京大學相機智能實驗室(施柏鑫團隊)聯合 OpenBayes貝式計算,以及北京郵電大學人工智能學院模式識別實驗室李思副教授團隊,共同提出了一種結合草圖與文本引導的視頻實例重繪方法 VIRES,支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。該方法利用文本生成視頻模型的先驗知識,確保時間上的一致性,同時還提出了帶有標準化自適應縮放機制的 Sequential ControlNet,能夠有效提取結構布局并自適應捕捉高對比度的草圖細節。更進一步地,研究團隊在 DiT(diffusion transformer) backbone 中引入草圖注意力機制,以解讀并注入細顆粒度的草圖語義。實驗結果表明,VIRES 在視頻質量、時間一致性、條件對齊和用戶評分等多方面均優于現有 SOTA 模型。
VIRES 與 5 種現有方法在不同數據集上的多類指標得分
相關研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」為題,已入選 CVPR 2025。
- 論文主頁:https://hjzheng.net/projects/VIRES/
- 項目開源地址:https://github.com/suimuc/VIRES
- Hugging Face地址:https://huggingface.co/suimu/VIRES
- 研究所用數據集下載地址:https://go.hyper.ai/n5pgy
大規模視頻實例數據集 VireSet
為了實現精準的可控視頻實例重繪,研究團隊標注了大量視頻實例的 Sketch 序列、Mask 以及文本描述,提出了一個配備詳細注釋的大規模視頻實例數據集 VireSet。其中包含了 86k 視頻片段、連續的視頻 Mask、詳細的草圖序列,以及高質量的文本描述。
此前,Meta 曾開源了一個大規模視頻分割數據集 Segment Anything Video dataset(SA-V 數據集),提供了 51k 個視頻以及 643k 個實例 Mask。然而,其中實例 Mask 的標注是間隔 4 幀標注一次,因此 FPS 為 6,導致 Mask 非常不連貫。為了得到連貫的視頻實例 Mask,研究團隊利用預訓練的 SAM-2 模型,對中間幀進行標注,從而將 Mask 的 FPS 提高到 24。效果對比如下所示:
原視頻
SA-V 提供的 Mask
研究團隊標注的 Mask
隨后,研究團隊采用預訓練的 PLLaVA 模型為每個視頻片段生成文本描述,并利用邊緣檢測算法 HED 提取每個視頻實例的 Sketch 序列,為每個實例提供結構上的指導信息。
The video shows a small, dark-colored goat with a blue and white striped cloth draped over its back. The goat is seen walking across a grassy area with patches of dirt. The background includes green vegetation and some sunlight filtering through the trees, creating a serene outdoor setting. The goat appears to be moving at a steady pace.
結合草圖與文本引導的視頻實例重繪方法 VIRES
VIRES 主要由 3 大模塊組成:帶有標準化自適應縮放的 Sequential ControlNet,帶有草圖注意力機制的 DiT backbone,以及用于改進解碼過程的草圖感知編碼器,VIRES 的工作流程如下圖所示。
VIRES 的工作流程
如圖 a 所示,輸入視頻首先被 VAE 壓縮 64 倍空間緯度和 4 倍時間緯度,變成潛碼,噪聲會根據 Mask 序列被選擇性地添加到潛碼中。隨后,該噪聲潛碼被送入去噪網絡(Denoising network)進行去噪,如圖 b 所示。該網絡由多個具有時間和空間注意力機制的 Transformer 塊堆疊組成。
為了實現對實例屬性的精確控制,研究團隊提出了 Sequential ControlNet,從 Sketch 序列中提取結構布局,如圖 c 所示。為了自適應地捕捉 Sketch 序列中的細節,團隊引入了 Standardized self-scaling 來增強 Sketch 序列中黑色邊緣線與白色背景之間的高對比度過渡。此外,為了確保穩定且高效的訓練,其根據視頻潛碼特征的均值,對齊處理后的 Sketch 特征與視頻潛碼特征,確保 Sketch 特征和視頻潛碼特征具有相似的數據分布。
為了在潛在空間中解釋和注入細粒度的草圖語義,研究團隊設計了 Sketch Attention 來增強去噪網絡的空間注意力塊,如圖 d 所示,Sketch Attention 結合了一個預定義的二進制矩陣 A ,以指示視頻潛碼與 Sketch 序列之間的對應關系。
最后,為了在潛空間內將編輯結果與 Sketch 序列進一步對齊,團隊引入了草圖感知編碼器,提取多級 Sketch 特征來指導解碼過程,如圖 e 所示。
VIRES 的 4 個應用場景:重繪,替換,生成與消除
文本指令可以傳達一般的視頻編輯目標,但在用戶意圖解釋方面仍留有相當大的進步空間。因此,最近的研究引入了額外的引導信息(例如,草圖)以實現更精確的控制。
部分現有的方法,如 RAVE,利用 Zero-Shot 的方式,將圖片編輯模型擴展成視頻編輯模型,但由于依賴預訓練的文本到圖像模型,該方法在時間一致性上表現不佳,不可避免地導致畫面閃爍。
A light orange and white fish swimming in an aquarium
VIRES 通過利用文本到視頻模型的生成先驗,保持了時間一致性并生成了令人滿意的結果。
A light orange and white fish swimming in an aquarium
另外一些方法,如 VideoComposer,在文本到圖像模型中引入時間建模層并微調,但該方法對組合性的關注限制了編輯視頻與提供的 Sketch 序列之間的準確對齊,導致細粒度編輯效果不佳,如下圖所示效果,人物衣服的袖子消失。
A players wears a light green jersey with the white number 1 on the back
VIRES 提出 Sequential ControlNet 和定制的模塊來有效處理 Sketch 序列,將編輯視頻與提供的 Sketch 序列準確對齊,實現細粒度編輯。效果如下圖所示:
A players wears a light green jersey with the white number 1 on the back
對于每個視頻實例,提供重繪的控制條件,包括 Sketch 序列、Mask 序列和相應的文本描述,VIRES 能夠生成與條件一致的編輯視頻。
如下所示,VIRES 有 4 個主要應用場景,首先是視頻實例重繪,例如更換人物身著衣服的材質和顏色;其次是視頻實例替換,例如將視頻中的紅色皮卡替換成黑色 SUV。
第三是定制實例生成,如演示視頻中在戶外雪地增加一只柯基;最后一個場景是指定實例消除,例如刪除視頻中的足球。
VIRES 在多項指標上超越現有 SOTA 模型
研究團隊將 VIRES 與 5 種目前最先進的方法進行了比較,包括 Rerender(SIGGRAPH Asia’23),VidToMe(CVPR’24),Text2Video-zero(ICCV’23),RAVE(ICCV’23),VideoComposer(NeurIPS’24)。
為了確保詳細的比較,其不僅在 VireSet 數據集上進行測試,還在業內廣泛使用的 DAVIS(CVPR’16)數據集上進行了測試。實驗結果顯示,VIRES 在客觀評價指標:視覺感知質量(PSNR)、空間結構一致性(SSIM)、幀運動準確性(WE)、幀間一致性(FC)和文本描述一致性(TC)方面均取得了最佳結果。
此外,團隊還進行了兩項用戶調研,其一是視覺質量評估(VQE),參與者會看到由 VIRES 和對比編輯方法生成的編輯結果,需要選擇最具視覺吸引力的視頻片段。其二是文本對齊評估(TAE),給定一個對應的文本描述,要求參與者從同一組編輯后的結果中選擇最符合該描述的視頻片段。在用戶調研中,VIRES 均取得了最佳結果。
VIRES 與 5 種現有方法在外觀編輯上的表現對比:
VIRES 與 5 種現有方法在結構編輯上的效果對比:
另外值得一提的是,在 Sketch 引導視頻生成方面,VIRES 還支持根據文本描述直接從 Sketch 序列生成完整視頻。在稀疏幀引導視頻編輯方面,VIRES 支持只提供第一幀的 Sketch 來編輯視頻。效果如下所示。
可控視頻生成領域的持續探索
總結來看,VIRES 在草圖與文本引導下實現了實例結構一致性,而從某種角度來看,其也是面向「如何讓空間結構信息在視頻生成中穩定傳遞」這一重要挑戰,給出了一種可靠的解決方案。與此同時,該研究團隊步履不停,在突破這一類目標級控制之后,還將目光投向了全景級別的可控視頻生成。
該研究團隊提出了一種能夠以最小改動,有效將預訓練文本生成視頻模型擴展至全景領域的方法,并將其命名為 PanoWan。該方法采用了緯度感知采樣(latitude-aware sampling)以避免緯度方向的圖像畸變,同時引入旋轉語義去噪機制(rotated semantic denoising)和像素級填充解碼策略(padded pixel-wise decoding),以實現經度邊界的無縫過渡。實驗結果表明,PanoWan 在全景視頻生成任務中的表現達 SOTA 級別,并在零樣本下游任務中展現出良好的泛化能力。相關論文現已發布于 arXiv:https://arxiv.org/abs/2505.22016。
聚焦該研究團隊,北京大學相機智能實驗室(http://camera.pku.edu.cn),負責人施柏鑫,北京大學計算機學院視頻與視覺技術研究所副所長,長聘副教授(研究員)、博士生導師;北京智源學者;北大 - 智平方具身智能聯合實驗室主任。日本東京大學博士,麻省理工學院媒體實驗室博士后。研究方向為計算攝像學與計算機視覺,發表論文 200 余篇(包括 TPAMI 論文 30 篇,計算機視覺三大頂級會議論文 92 篇)。論文獲評 IEEE/CVF 計算機視覺與模式識別會議(CVPR)2024 最佳論文亞軍(Best Paper, Runners-Up)、國際計算攝像會議(ICCP)2015 最佳論文亞軍、國際計算機視覺會議(ICCV)2015 最佳論文候選,獲得日本大川研究助成獎(2021)、中國電子學會青年科學家獎(2024)。科技部人工智能重大專項首席科學家,國家自然科學基金重點項目負責人,國家級青年人才計劃入選者。擔任國際頂級期刊 TPAMI、IJCV 編委,頂級會議 CVPR、ICCV、ECCV 領域主席。APSIPA 杰出講者、CCF 杰出會員、IEEE/CSIG 高級會員。
主要合作者 OpenBayes貝式計算作為國內領先的人工智能服務商,深耕工業研究與科研支持領域,通過為新一代異構芯片嫁接經典軟件生態及機器學習模型,進而為工業企業及高校科研機構等提供更加快速、易用的數據科學計算產品,其產品已被數十家大型工業場景或頭部科研院所采用。
雙方共同在可控視頻生成領域的探索已經取得了階段性成果,相信在這一校企合作模式下,也將加速推進高質量成果早日落地產業。
文中視頻鏈接:
https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.