網易首頁 > 網易號 > 正文申請入駐

CVPR 2025｜視頻摳圖MatAnyone來了一次指定全程追蹤，發絲級還原

2025-04-17 21:07:29　來源: 機器之心Pro

天津舉報

分享至

本文由南洋理工大學和商湯科技聯合完成。第一作者楊沛青為南洋理工大學 MMLab@NTU 在讀博士生，在 CVPR、NeurIPS、IJCV 等國際頂級會議與期刊上發表多篇研究成果。項目負責作者為該校研究助理教授周尚辰和校長講席教授呂建勤。

視頻人物摳像技術在電影、游戲、短視頻制作和實時視頻通訊中具有廣泛的應用價值，但面對復雜背景和多目標干擾時，如何實現一套兼顧發絲級細節精度及分割級語義穩定的視頻摳圖系統，始終是個挑戰。

來自南洋理工大學 S-Lab 與商湯科技的研究團隊最新提出了一個高效、穩定、實用的視頻摳圖新方法 ——MatAnyone。與傳統無輔助方法不同，MatAnyone 提出一種基于記憶傳播的「目標指定型」視頻摳像方法：只需在第一幀通過人物遮罩指定摳像目標，即可在整個視頻中實現穩定、高質量的目標提取。

論文標題：MatAnyone: Stable Video Matting with Consistent Memory Propagation
論文鏈接：https://arxiv.org/abs/2501.14677
視頻：https://youtu.be/oih0Zk-UW18
代碼：https://github.com/pq-yang/MatAnyone
網頁：https://pq-yang.github.io/projects/MatAnyone/

MatAnyone 一經發布在社交媒體上獲得了大眾的討論和關注，其核心亮點總結如下：

快速摳圖，目標可控

僅需首幀目標指定，無需額外輔助信息，支持靈活定義摳圖對象，滿足多場景需求。

穩定跟蹤，全程不抖

創新 “區域自適應記憶融合” 機制，有效保持目標一致性，實現長視頻中的穩定人像跟蹤。

細節出眾，發絲級還原

融合真實分割數據與高質量新數據集，邊界處理自然平滑，摳圖效果更貼近真實。

「目標指定型」：更貼近真實使用場景

目前主流的視頻摳圖方法根據 “除輸入視頻外是否有其他輔助輸入” 這一條件可以分為兩類：

無輔助型方法（如 RVM）：用戶只需上傳輸入視頻即可。
輔助引導型方法（如 MaGGIe）：除輸入視頻外，用戶需通過如三分掩膜（trimap）或分割掩膜（segmentation mask）等方式在一幀或多幀指定摳像目標。

無輔助型方法雖然方便，但是由于主體目標不明確，在真實使用場景中容易出現影響實際使用的錯摳、漏摳等現象。

【場景一】前景存在多個主要人物：在實際應用中，很可能出現的需求是單獨摳出其中特定一位，合成到另外場景中制作視頻，無輔助型方法不能實現目標的指定，導致輸出的結果無法直接投入使用。
【場景二】背景存在混淆人物：即使前景只存在一位主體人物，背景中來來往往的行人往往會 “混淆視聽”，尤其是行人路過前景人物時，無輔助型方法往往會把背景行人的肢體也一并摳出，使輸出結果不夠準確干凈。

因此，為了讓視頻摳像技術能被更好地使用，MatAnyone 選擇了輔助引導型的設定，并專注解決的是這樣一個場景：

「設定主角，其他交給模型」：給定目標人物在第一幀的掩膜，后續的摳像自動鎖定目標完成。無需逐幀修正，準確、自然、連貫地摳出整段視頻。

這種設置既兼顧用戶可控性，又具有更強的實用性和魯棒性，是當前視頻編輯領域最具潛力的落地方案之一。

面向「視頻摳圖」任務：記憶傳播與訓練策略的新范式

任務對比：「視頻摳圖」比「視頻分割」更難一層

雖然 “目標指定型” 的任務設定在視頻目標分割（Video Object Segmentation, VOS）中已經被廣泛研究，通常被稱為 “半監督” 分割（即只給第一幀的掩膜），但視頻摳圖（Video Matting, VM）的難度卻更進一步。

在 VOS 中，模型的任務為“是 / 否為目標前景” 的二值判斷題；而在 VM 中，基于這個語義判斷，模型還需預測目標前景在每個像素點上的 “透明度（alpha）”—— 這不僅要求核心區域的語義精準，更要求邊界細節的提取（如發絲、衣角的半透明過渡）。

MatAnyone 正是在這一背景下提出了面向視頻摳圖任務的全新記憶傳播與訓練策略，在達到分割級語義穩定的基礎上進一步實現了發絲級細節精度。

1. 一致性記憶傳播機制：Matting 專屬的 “記憶力”

相比靜態圖像摳圖，視頻摳圖面臨更大的挑戰，不僅需要逐幀生成高質量的透明通道（ alpha matte），還必須確保前后幀之間的時序一致性，否則就會出現閃爍、跳變等明顯視覺問題。為此，MatAnyone 借鑒視頻分割中的記憶機制，在此基礎上提出了專為視頻摳圖設計的一致性記憶傳播機制（Consistent Memory Propagation）。

區域自適應融合記憶（Region-Adaptive Fusion）

模型會在每一幀中預測哪些區域與上一幀差異較大（如身體邊緣），哪些區域變化很小（如身體主干），并分別處理：

對于變化幅度較大的區域（通常出現在目標邊緣，如頭發、衣擺），模型更依賴當前幀從記憶庫中檢索到的記憶信息；
而對變化較小的區域（如身體內部），則更多保留上一幀的記憶信息，避免重復建模，減少誤差傳播。

邊界細節增強，核心區域穩定

這種區域感知式的信息融合方式，在訓練階段引導模型更專注于細節邊界，在推理階段則提升了語義穩定性與時間一致性。尤其在復雜背景或人物交互頻繁的場景下，MatAnyone 能夠穩準地識別目標、摳出清晰自然的邊緣效果，極大提升了視頻摳圖的可用性與觀感質量。

2. 共頭監督策略：讓分割數據 “真正為摳圖所用”

一直以來，「視頻摳圖」的一個核心難點始終是真實訓練數據的缺失。相較于「視頻分割」在真實數據上的標注成本，「視頻摳圖」所需要的帶透明度標注的數據格外昂貴，這限制了模型在穩定性與泛化能力上的進一步提升。

在真實透明度數據稀缺的背景下，Video Matting 模型往往會引入大量真實分割數據進行輔助訓練，以提升模型在復雜環境中的穩定性和泛化能力。

傳統做法通常采用 “平行預測頭” 結構：在輸出層增加一個僅用于訓練階段的分割頭，用于分割數據的監督，而摳圖主頭則僅由合成摳圖數據驅動。

這種結構雖然能一定程度引入語義信息對摳圖頭的監督，但其不直接的監督方式導致語義信息在特征傳播過程中被稀釋，無法充分發揮分割數據對提升穩定性的優勢。

MatAnyone 提出了結構創新的 “共頭監督策略”：拋棄 “平行預測頭”，直接將真實分割數據引入摳圖主頭進行訓練，讓所有數據源在同一個通道上對模型進行統一監督。

這種方式極大提高了語義信息的共享效率，也最大程度地利用了真實分割數據對透明通道預測的泛化性和穩定性的提升。

具體操作上：

在核心區域，使用分割掩膜進行逐像素監督，確保模型對語義結構的穩定理解；
在邊界區域，引入改進版的 DDC 損失（Scaled DDC Loss），即便分割數據沒有 alpha 標簽，也能通過圖像結構引導模型生成過渡自然的邊緣。

這一策略的核心優勢在于：讓分割數據 “真正服務于摳圖任務本身”，而非僅僅提供輔助信號。

3. 自建高質數據集：訓練更穩，評估更難

高質量的數據始終是訓練穩定、泛化強的視頻摳圖模型的基礎。針對現有數據集在規模、細節和多樣性上的不足，MatAnyone 團隊自建了兩套關鍵數據資源：

VM800 訓練集：相較于主流的 VideoMatte240K，VM800 的規模翻倍，覆蓋更多發型、服飾和運動狀態，在核心區域和邊界區域的質量都顯著提升，有效增強了模型在摳圖任務中的魯棒性；
YouTubeMatte 測試集：相較于主流的 VideoMatte240K 測試集，我們構建了一個前景更加多樣的測試集，并且在合成前后景的過程中進行了和諧化的后處理，使其更加貼近真實分布，有效提高了該測試集的難度。

這兩套數據集為 MatAnyone 提供了扎實的訓練基礎與更貼近真實世界的驗證標準，在推動模型性能提升的同時，也為未來視頻摳圖研究提供了更具挑戰性的新 benchmark。

多場景適用性：靈活應對多類應用場景

MatAnyone 在模型設計與推理機制上的靈活性，使其具備良好的任務泛化能力，能夠適配多種實際視頻處理場景（更多例子請移步主頁）：

通用視頻摳圖（General Matting）：適用于短視頻剪輯、直播背景替換、電影 / 廣告 / 游戲后期等常見場景，僅需第一幀提供目標掩膜，后續幀即可自動完成穩定摳圖，具備邊界清晰、背景干凈、跨幀一致性強的優勢。

視頻詳情：https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA

實例摳圖（Instance Matting）：面對多人物或復雜背景的視頻內容，MatAnyone 支持通過第一幀掩膜指定目標對象，進行后續穩定追蹤與摳圖，有效避免目標混淆或漂移，適合虛擬人剪輯、人物聚焦等實例級編輯任務。

視頻詳情：https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA

推理階段增強（Iterative Refinement）：對于高精度場景，如廣告制作、影視后期等，MatAnyone 提供可選的首幀迭代優化機制，通過多輪推理精細化第一幀alpha matte，從而進一步提升整段視頻的細節還原與邊界自然度。

視頻詳情：https://mp.weixin.qq.com/s/CbmtljvBnzri60nrQIvJjA

實驗結果：領先的細節質量與時序穩定

為了系統評估 MatAnyone 在視頻摳圖任務中的綜合表現，我們從定性與定量兩個角度進行了對比實驗，結果顯示 MatAnyone 在精度、穩定性與視覺質量等多個維度均優于現有主流無輔助型及輔助引導型方法。

定性評估（Qualitative）

在真實視頻案例中，我們展示了 MatAnyone 與現有方法 RVM、FTP-VM、MaGGIe 的可視化對比。結果表明，MatAnyone 能夠更準確地提取目標人物輪廓，尤其是在人物動作劇烈或背景復雜的情況下，依然能保持頭發、邊緣衣物等細節的清晰度，并有效避免背景穿透與邊界斷裂等常見問題。同時，它也具備更強的實例區分能力，即使畫面中存在多個顯著人物，也能準確鎖定目標對象并保持一致跟蹤。

定量評估（Quantitative）

在合成數據集 VideoMatte 和自建的 YouTubeMatte 上，我們使用五個關鍵指標對各方法進行全面評估：

MAD（Mean Absolute Difference）與 MSE（Mean Squared Error）用于衡量語義準確性；
Grad（Gradient）用于細節銳利度評估；
Conn（Connectivity）代表整體視覺連貫性；
dtSSD 則衡量跨幀間的時序一致性。

如 Table 1 所示，MatAnyone 在高、低分辨率的所有數據集上均取得最低的 MAD 和 dtSSD，表現出極高的語義穩定性與時間一致性；同時在 Conn 指標上也位居首位，驗證了其在整體觀感和邊緣處理上的領先表現。

總結與展望

MatAnyone 是一套面向真實使用場景的人像視頻摳圖系統，專注于在僅提供首幀目標的前提下，實現語義穩定且邊界精細的視頻級摳圖。根據「視頻摳圖」任務的特性，它引入了區域自適應的記憶融合機制，在保持語義穩定性的同時，精細提取了頭發等細節區域。借助新構建的 VM800 高質量數據集與全新的訓練策略，MatAnyone 顯著提升了在復雜背景下的摳圖穩定性。

面對真實訓練數據的制約，「視頻摳圖」任務仍然像是在 “戴著鐐銬跳舞”，當前的效果雖有顯著突破，但仍有廣闊的提升空間。未來，我們團隊將繼續探索更高效的訓練策略、更泛化的數據構建方式，以及更通用的記憶建模機制，推動視頻摳圖技術在真實世界中實現更強魯棒性與更廣應用性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.