視頻實例分割技術,2019年剛剛問世,卻已成為計算機視覺領域的重要分支。它不僅能檢測視頻中的物體,還能同時進行分割和跟蹤,讓機器真正"看懂"視頻內容。想象一下,自動駕駛汽車能識別并追蹤道路上的每一個行人、車輛;醫療系統能精準定位手術畫面中的關鍵組織;監控系統能自動識別異常行為。這一切,都源于視頻實例分割技術的進步。然而,這項技術面臨的挑戰依然復雜:遮擋物體的處理、運動模糊的克服、長視頻理解的困難。隨著深度學習的迅猛發展,視頻實例分割正迎來前所未有的突破。
看懂視頻中的物體
視頻實例分割技術,簡稱VIS,于2019年由楊立等人正式提出。與傳統的圖像分割不同,VIS技術需要完成三項任務:檢測視頻中的物體、對物體進行精確分割、并在視頻幀間跟蹤這些物體。這就像給機器裝上了"慧眼",讓它不僅能看到靜止的照片,還能理解動態變化的視頻內容。
在實際應用中,VIS技術已經展現出巨大潛力。特斯拉公司正在打造DOJO超級計算機,用于提升其自動駕駛輔助系統。借助VIS技術,自動駕駛汽車能更準確地識別和跟蹤其他車輛與行人,大幅提高行駛安全性。在醫療領域,VIS技術幫助醫生進行生物醫學圖像分析、病理檢測和手術自動化,提升診斷準確率。在安防監控中,VIS通過獲取視頻中物體的精確表示,協助進行人體動作識別和人員身份識別,增強安全保障。
為了理解視頻實例分割與其他視頻分割任務的區別,我們需要了解三種主要的視頻分割技術。最早出現的是視頻物體分割(VOS),它只是簡單地將視頻中的前景物體與背景分離,不區分不同物體的具體類別或個體。第二種是視頻語義分割(VSS),它能把視頻中的每個像素劃分到對應的語義類別中,但不區分同一類別的不同個體。而VIS則更進一步,不僅能識別物體的類別,還能區分同一類別中的不同個體,并在整個視頻序列中持續跟蹤它們。
舉個例子,在一段街道視頻中,VSS能分辨出哪些像素屬于"人"、哪些屬于"車"、哪些屬于"樹"等類別,但無法區分不同的車輛個體;而VIS不僅知道哪些是車,還能區分出這是第一輛紅色轎車、那是第二輛藍色卡車,并在它們移動過程中持續識別和跟蹤。
深度神經網絡是VIS技術的核心引擎。常用的包括卷積神經網絡(CNN)、循環神經網絡(RNN)、圖神經網絡(GNN)和Transformer。CNN擅長自動提取圖像特征;RNN適合處理序列數據,能學習視頻幀之間的時序關系;GNN通過建模物體之間的依賴關系,提升實例跟蹤和分割效果;Transformer則憑借其自注意力機制,能捕捉全局信息并連接時序特征。
在實際應用中,VIS模型通常由三部分組成:主干網絡(backbone)負責提取輸入特征,頸部網絡(neck)聚合和細化這些特征,頭部網絡(head)則負責最終預測。這種架構設計讓VIS能夠有效處理復雜的視頻場景。
深度學習架構大比拼
在視頻實例分割領域,不同的深度學習架構各有千秋。根據特征處理方式的不同,可以將這些架構分為五類:多階段、多分支、混合、集成和循環式架構。
多階段特征處理架構是早期VIS技術的主要模式。這類架構中,特征處理分為多個連續階段,每個階段都基于前一階段學到的表示進行構建。典型代表有MaskTrack R-CNN和TrackR-CNN,它們都是從圖像實例分割網絡Mask R-CNN擴展而來。
以MaskTrack R-CNN為例,它通過添加后處理階段來跟蹤跨幀的實例。具體做法是使用內存隊列存儲先前識別的實例特征,然后通過一個追蹤頭來比較新檢測到的實例與已識別實例的相似度。TrackR-CNN則采用3D-CNN進行特征提取,結合區域建議網絡(RPN)來生成目標物體的區域建議,再使用多個頭部網絡分別預測類別、邊界框、二進制掩碼和關聯向量。
這些早期方法雖然開創了VIS技術的先河,但在分割精度、實例跟蹤一致性、遮擋抵抗能力和計算復雜度方面存在不足。為了改進這些問題,研究人員提出了多種優化方案。
例如,在2019年,Dong等人使用CNN同時提取多個幀的特征,并采用孿生網絡與余弦相似度進行時序特征跟蹤,避免了計算昂貴的3D-CNN。Porzi等人在2020年為Mask R-CNN引入了追蹤頭組件,該組件接收區域分割頭和特征金字塔網絡(FPN)對應的區域特征作為輸入。2021年,研究人員提出了雙向追蹤器IPDT,通過雙向追蹤實例級和像素級嵌入,注入實例級概念并區分重疊實例。
遮擋和運動模糊是VIS面臨的兩大挑戰。為了解決這些問題,研究者們開發了多種技術。例如,一些方法將視頻視為由多個軌跡組成的樹,而不是簡單的幀數組,這有助于更好地跟蹤重新出現的實例。還有方法采用決策樹或動態規劃來尋找實例跨幀分配的全局最優解,這些方法在處理重疊實例時表現更佳。
另一類是多分支特征處理架構,它包含多個平行分支,分別處理輸入數據的不同方面或表示。通過多個分支,模型可以捕獲互補信息并學習更強大的表示。
Le等人的語義實例-顯著物體(SISO)框架就采用了雙分支設計,一個分支負責語義實例分割,另一個負責顯著物體分割。Lin等人則提出了同時捕獲所有實例共享特征和實例特定特征的架構,包括實例無關模塊和實例特定模塊兩個分支。Ge等人基于相關矩陣設計了兩個分支,一個生成粗略的實例得分圖,另一個將前景與背景分離。
YOLACT及其變種也是多分支架構的代表。YOLACT的兩分支設計(原型掩碼生成和掩碼系數預測)實現了高效的圖像級實例分割。基于YOLACT的SipMask通過將掩碼預測分成幾個子掩碼預測,更好地保留了實例內部的空間信息。YolTrack通過添加一個追蹤解碼器分支來生成所有實例的嵌入向量,將推理速度提升到實時水平。
孿生網絡的多分支設計天然適合通過比較特征嵌入來跨不同幀跟蹤實例。CrossVIS通過交叉學習使動態濾波器學習同一實例在兩個不同幀的背景無關表示。對比學習也是一種有效的表示學習方式,通過拉近同一實例的嵌入距離、拉遠不同實例的嵌入距離,提高關聯準確率。
隨著Transformer在視頻實例分割中的應用增加,許多研究提出了使用孿生網絡來構建目標幀和參考幀之間的幀間注意力。一些方法還提出了幀間注意模塊,用于融合混合時間信息并學習跨幀的時間一致性。
混合特征處理架構將多階段和多分支架構整合到一個框架中。通過在每個分支中進行多階段處理,特征在更高語義層次上進行聚合和處理,從而在每個子任務上獲得更好的性能。
2020年,研究者將變分自編碼器整合到Mask R-CNN中,以幫助捕獲所有實例共享的空間和運動信息。該架構包含一個編碼器和三個并行解碼器,分別負責學習語義信息、提供注意線索和聚合編碼器特征。另一項工作基于圖像編碼器特征,使用三個解碼器產生潛在分布、偏移向量和外觀嵌入。
考慮到VIS的高注釋成本,一些研究提出了半監督框架。如2021年的一項工作僅需要邊界框標簽,利用光流捕獲實例間的時間運動,深度估計提供實例間的空間相關性,通過這兩個分支的特征生成顯著實例的偽標簽,然后使用邊界框監督的拼圖求解器進一步完善掩碼。
集成特征處理架構通常將視頻或剪輯中所有幀的特征一起提取,構建3D時空特征卷。通過聚合時空特征,模型自動學習跨時間和空間的多樣實例的高級表示。
2020年,Athar等人采用FPN提取不同尺度的特征圖,然后沿時間維度堆疊進行3D-CNN解碼。Braso等人在一組幀上構建圖,每個節點表示一個物體檢測,然后通過神經消息傳遞在圖上傳播由CNN獲得的特征嵌入進行多次迭代。
隨著Transformer的自注意力機制在圖像級目標實例中的應用,許多研究嘗試將其用于VIS中的3D時空特征提取。如2021年,Cheng等人將基于Transformer的圖像實例分割模型Mask2Former擴展到VIS,對3D時空特征應用掩碼注意力,直接預測每個實例在時間上的3D掩碼。
循環特征處理架構沿時間軸從幀中遞歸提取和處理特征。通過遞歸傳播過去幀的特征到當前幀,循環架構設計允許模型以較小的內存開銷跟蹤視頻中的實例。
ConvLSTM是處理視頻中時空特征的一種循環模型,它擴展了LSTM,增加了卷積結構以更好地捕獲時空相關性。Sun等人提出了上下文金字塔ConvLSTMs來處理由FPN提取的多級時空特征,隨后使用Mask R-CNN頭部預測下一幀中的實例。APANet通過自適應聚合在不同尺度獲取的時空上下文信息來改進ConvLSTM,以更準確地預測未來幀。
一些研究者還使用GNN與LSTM結合來傳播信息進行跟蹤。具體來說,在過去和當前檢測到的實例上構建圖,然后用它來生成用于關聯的輸出嵌入,這些嵌入隨后被送入LSTM進行歷史信息聚合和未來跟蹤。
隨著自注意力機制越來越多地用于構建基于查詢的VIS方案,查詢建議通常在幀間傳播以跟蹤實例。Meinhardt等人基于Deformable DETR提出了TrackFormer,使Transformer能夠以逐幀方式檢測和跟蹤視頻中的物體。Koner等人提出了基于Transformer的在線VIS框架InstanceFormer,它包含一個內存隊列,用于傳播先前實例的表示、位置和語義信息,以實現更好的實例跟蹤一致性。
總體而言,這五種架構各有優缺點。多階段架構有效提取低級和高級特征,易于替換子網絡以適應各種應用,但更多的處理階段增加了計算復雜性。多分支架構有效處理時空特征和多模式特征,但增加了架構復雜性,需要仔細設計和調整以平衡各分支。混合架構更好地利用不同類型網絡的優勢,有效學習強健和泛化的表示,但增加了復雜性和計算開銷,需要仔細選擇和設計子網絡。集成架構為特定數據分布提供集成特征處理,但需要大型數據集和長時間訓練以獲得理想模型,不夠靈活以適應不同目的。循環架構有效捕獲時間依賴性和上下文,但更長的上下文理解需要更多計算開銷。
提升性能的秘密武器
在視頻實例分割的技術競賽中,數據集就像運動員的訓練場,表示學習技術則是提升表現的專業裝備。雖然圖像實例分割的數據集不少,但專門為視頻實例分割打造的數據集卻相對稀少。
YouTube-VIS是第一個大規模且應用最廣泛的視頻實例分割數據集,由楊立等人在2019年提出,現已更新至2022版。這個數據集包含4,019個視頻片段,覆蓋40個物體類別,總計266,000個掩碼標注。它為研究人員提供了豐富的訓練和測試樣本,成為衡量算法性能的標準基準。
2020年發布的NuImages數據集有個獨特之處:它不僅標注了物體的位置和類別,還添加了屬性注釋,比如摩托車是否有騎手、行人的姿勢、車輛的活動狀態等。這些細節信息讓模型能學習到更豐富的語義知識。
OVIS數據集在2022年問世,專門聚焦于遮擋場景下的視頻實例分割。它包含901個視頻片段,25個類別和296,000個掩碼標注,其特點是高比例的被遮擋實例。OVIS的作者定義了一個名為"邊界框遮擋率"(BOR)的指標來量化物體間的遮擋程度,結果顯示OVIS的遮擋程度是YouTube-VIS的三倍。這個數據集極大地推動了遮擋視頻實例分割技術的發展。
2022年,研究者們發布了HQ-YTVIS,對YouTube-VIS中的掩碼進行了精細化處理,提供了131,000個高質量掩碼標注。同年,VIPSeg數據集問世,專注于視頻全景分割任務,包含3,536個視頻,124個類別和926,000個掩碼標注。
除了數據集,表示學習技術也在不斷進步,幫助模型更有效地提取特征、捕捉運動模式、減少數據需求并提高魯棒性。
2022年,李等人提出了"時間金字塔路由"(TPR)策略,同時學習時間和多尺度表示。TPR接收來自兩個相鄰幀的特征金字塔作為輸入,通過"動態對齊單元路由"策略來對齊和控制跨時間維度的金字塔特征,通過"跨金字塔路由"策略來傳輸時間聚合的特征。這種方法通過整合多幀特征,提升了短視頻片段內的實例理解能力。
為了學習高質量的嵌入特征,研究者們探索了實例分割器和跟蹤器之間的聯系。2023年的一項研究提出了"稀疏訓練、密集測試"策略,訓練時采樣的點數少于測試時,增加了訓練隨機性,鼓勵跟蹤器學習更具辨別力的特征。另外,一種時序采樣策略按隨機間隔采樣,確保有效學習時間信息。這種方法不僅促進了更通用、更穩健的表示學習,還減少了訓練過程中的內存消耗。
數據增強是提升模型性能的另一重要手段。2021年,許等人提出了"連續復制粘貼"(CCP)策略,從相近幀中檢索多個實例塊,并將它們粘貼到原始位置,同時通過將兩個實例移至邊界來模擬它們的出現和離開。這種方法通過保留剪切的相對偏移和實例的原始位置,為跟蹤生成高質量的樣本。
2023年,Yoon和Choi認為,從具有較少冗余的代表性幀訓練的模型可以達到與從密集數據集訓練相當的性能。他們設計了一種"自適應幀采樣"(AFS)方案,基于連續幀之間的視覺或語義差異提取關鍵幀。通過在關鍵幀上簡單的復制粘貼數據增強,彌補了由于幀減少造成的性能差距,大大降低了數據獲取和標注成本。
未解之謎與前沿探索
盡管視頻實例分割技術近年來取得了顯著進步,但仍面臨多項挑戰。這些挑戰如同一幅未完成的拼圖,等待著研究者們找到合適的解決方案。
遮擋視頻實例分割是其中一個突出難題。當物體被其他物體部分遮擋時,模型很難準確分割被遮擋部分。OVIS數據集的推出為研究這一問題提供了基礎。2021年,柯等人提出了一種新思路:將每一幀視為兩個重疊層的組合。他們設計了雙層卷積網絡,將感興趣區域特征輸入兩個分支,分別分割遮擋物體(遮擋者)和被部分遮擋的實例(被遮擋者)。與直接在單層圖像上回歸單個被遮擋物體邊界的傳統方法不同,這種方法考慮了遮擋者和被遮擋者之間的交互。不過,通過進一步利用從相鄰幀傳播的上下文信息,這一技術仍有性能提升空間。
運動模糊是另一個棘手問題,尤其在體育視頻等快速移動場景中。運動模糊指的是由于移動主體或相機造成的幀內物體模糊或扭曲現象,這會嚴重影響視頻實例分割的性能。目前尚無專門針對此挑戰的數據集,研究者可以通過數據增強來合成運動模糊效果,并需要設計度量來評估模糊程度。
為準確分割視頻中的運動模糊實例,需要多方面的研究,如去模糊技術、運動估計、模糊不變特征提取和多模態特征融合。2021年,李等人通過融合兩個相鄰幀的時間特征來估計運動方向,以便更好地跟蹤運動模糊視頻中的實例。雖然這種方法有一定效果,但仍需對視頻實例分割在運動模糊方面的性能進行系統評估和分析。
注釋成本高是視頻實例分割面臨的另一個實際挑戰。視頻數據量大,逐幀標注費時費力。因此,開發注釋高效的視頻實例分割方案成為重要研究方向,如自監督、弱監督或無監督方法。
2021年,Caron等人證明自監督Vision Transformer特征包含與圖像語義分割相關的顯式信息。他們提出的知識蒸餾方法DINO無需使用任何標簽,通過預測教師網絡的輸出自動學習圖像中的類特定特征。基于DINO,2023年的一項研究提出了無監督圖像分割方案CutLER,并將其應用于視頻實例分割。CutLER在性能上顯著優于其他無監督視頻實例分割方案。但是,注釋高效的視頻實例分割方案與全監督方案相比仍存在性能差距,促使研究者進一步挖掘視頻中的可用信息,更好地利用弱標注。
視頻全景分割(VPS)是視頻實例分割的一個重要擴展。2020年,Kim等人首次提出這一概念。除了視頻實例分割的要求外,VPS還要求模型分割幀中的每個像素,包括背景元素。雖然已有數個VPS方案被提出,但在預測準確性、分割精修、訓練和推理效率、數據集多樣性和注釋效率方面仍有很大提升空間。
2023年,Athar等人提出了一個統一方案,覆蓋多種視頻分割任務,包括視頻物體分割、視頻實例分割和視頻全景分割。通過將不同任務的目標建模為Transformer的不同抽象查詢,該方法為統一視頻分割解決方案提供了可行路徑,縮小了VPS和VIS之間的差距。
開放詞匯表視頻實例分割是一項新興任務,要求模型從開放集詞匯類別中檢測、分割和跟蹤實例,包括訓練中未見過的新穎類別。這在詞匯表不固定的真實應用中極具價值,如監控和自動駕駛。
2023年,王等人提出了一個大詞匯量視頻實例分割(LVVIS)數據集和一個基準方法,為該方向的研究鋪平了道路。盡管已有幾個早期基于Transformer的方案被提出,但由于物體多樣性、數據標注和語義理解方面的挑戰,開放詞匯表視頻實例分割的性能仍落后于傳統視頻實例分割。零樣本學習、自適應學習和多模態學習等研究方向在開發更通用的開放詞匯表視頻實例分割模型方面具有巨大潛力。
多模態視頻實例分割要求模型融合來自不同模態的特征,利用它們的互補屬性。由于Transformer在建模跨不同標記的全局和長程依賴方面的效果,一些研究者利用Transformer構建多模態視頻實例分割方案。
2023年,Botach等人和Chen等人研究了視頻和語言特征的融合,而李等人則專注于視頻和音頻特征的融合。然而,多模態視頻實例分割仍面臨諸多挑戰,如多模態數據融合與對齊、處理多樣化數據表示、跨模態數據標注收集等。結合生成模型(如Make-A-Video,可從文本生成時間連貫的視頻片段)有可能緩解多模態視頻實例分割的數據匱乏問題。
提示型視頻分割是另一個前沿方向。2023年,Kirillov等人提出了圖像提示分割任務,要求模型接受靈活提示(點、框、文本和掩碼)并實時返回有效的分割掩碼。通過創新的數據引擎,他們創建了一個龐大而多樣的掩碼集來訓練分段任何模型(SAM)。SAM實現了零樣本泛化,解決新穎視覺概念并解決各種下游分割問題。
隨著提示分割在圖像中取得巨大成功,提示型視頻分割有望為各種視頻分割任務提供統一解決方案。然而,與圖像提示分割相比,設計視頻提示更具挑戰性。這是因為鼠標驅動的點很難在視頻中一致地跟蹤實例,容易導致歧義。此外,提示型視頻分割還需要額外的實時跟蹤、預測和跨幀實例重識別功能,這對實時視頻理解提出了挑戰。
參考資料
Xu, C., Li, C. T., Hu, Y., Lim, C. P., &; Creighton, D. (2023). Deep Learning Techniques for Video Instance Segmentation: A Survey. arXiv:2310.12393v1
Yang, L., Fan, Y., &; Xu, N. (2019). Video instance segmentation. Proceedings of the IEEE/CVF International Conference on Computer Vision.
Voigtlaender, P., Krause, M., Osep, J., Luiten, J., Sekar, B. B. G., Geiger, A., &; Leibe, B. (2019). MOTS: Multi-object tracking and segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
Wang, Y., Xu, Z., Wang, X., Shen, C., Cheng, B., Shen, H., &; Xia, H. (2021). End-to-end video instance segmentation with transformers. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.