來自北京大學,清華大學的研究團隊聯(lián)手京東(JD.com)在 ACM MM 2025 發(fā)表了一種以事件為中心低成本高效的 Training-Free 視頻異常檢測框架 EventVAD,論文第一作者邵軼驊目前為北京大學學術訪問學生,項目負責人為來自京東(JD.com)的算法研究員馬傲,目前代碼和數(shù)據(jù)已全面開源。
現(xiàn)有視頻異常檢測(Video Anomaly Detection, VAD)方法中,有監(jiān)督方法依賴大量領域內訓練數(shù)據(jù),對未見過的異常場景泛化能力薄弱;而無需訓練的方法雖借助大語言模型(LLMs)的世界知識實現(xiàn)檢測,但存在細粒度視覺時序定位不足、事件理解不連貫、模型參數(shù)冗余等問題。
為此,來自北大、清華和京東(JD.com)的研究團隊提出了一種全新的視頻異常檢測框架 ——EventVAD。該框架通過動態(tài)圖架構與多模態(tài)大模型(MLLMs)的時序事件推理結合,在減少模型參數(shù)的同時,顯著提升了異常檢測的精度和效率。實驗結果顯示,EventVAD 在 UCF-Crime 和 XD-Violence 兩大數(shù)據(jù)集上均超越現(xiàn)有 SOTA 方法,成為無需訓練場景下的新標桿。
- 論文標題:EventVAD: Training-Free Event-Aware Video Anomaly Detection
- 論文鏈接:https://arxiv.org/abs/2504.13092
- 代碼開源:https://github.com/YihuaJerry/EventVAD
研究背景和動機
視頻異常檢測(VAD)的核心目標是精準定位視頻中的異常幀,但現(xiàn)有方法存在顯著局限:
有監(jiān)督方法依賴大量標注數(shù)據(jù),在新場景中需重新微調,泛化能力差;即使是單類監(jiān)督或無監(jiān)督方法,也因缺乏有效標簽難以達到理想性能。無需訓練方法以 LAVAD 為代表的方法通過視覺問答模型和 LLMs 評分實現(xiàn)異常定位,但存在兩大問題:一是依賴至少 130 億參數(shù)的 LLM,導致框架效率低下;二是缺乏對視頻的時序理解能力,難以連貫解析長視頻,易出現(xiàn)誤檢和長尾問題。
研究團隊發(fā)現(xiàn),無需訓練方法的核心瓶頸在于無法對視頻中的異常事件進行完整定位,導致后續(xù) LLM 評分存在偏差。受此啟發(fā),如上圖所示,EventVAD 通過將長視頻分割為短事件片段,增強 MLLMs 對視頻的時序一致性理解,同時引入動態(tài)圖模型捕捉幀間關聯(lián),最終在減少參數(shù)的情況下實現(xiàn)了更高精度的異常檢測。
EventVAD 的關鍵創(chuàng)新
EventVAD 的整體框架包含四個核心模塊:事件感知動態(tài)圖構建、圖注意力傳播、統(tǒng)計邊界檢測和事件中心異常評分。通過這一流程,實現(xiàn)了從視頻幀特征提取到異常幀精準定位的端到端無需訓練檢測。
事件感知動態(tài)圖構建
為捕捉視頻的動態(tài)時序特征,EventVAD 構建了融合語義與運動信息的動態(tài)圖模型。結合 CLIP 的語義特征(512 維)和 RAFT 光流的運動特征(128 維),通過融合系數(shù)(α=0.75)平衡兩種特征,增強事件的時序一致性。通過語義相似度(余弦距離)和運動相似度(指數(shù)距離)計算幀間關聯(lián),并引入時間衰減因子(γ)抑制長距離幀的冗余關聯(lián),突出短時間內的事件連貫性。
圖注意力傳播
為優(yōu)化幀級特征并保持時序一致性,EventVAD 設計了基于正交約束的圖注意力機制。通過 QR 分解生成正交的查詢(Q)、鍵(K)、值(V)矩陣,避免特征維度坍縮。基于動態(tài)圖的鄰接矩陣計算注意力權重,通過迭代傳播更新節(jié)點特征,增強事件邊界的區(qū)分度。
統(tǒng)計邊界檢測
為精準分割視頻中的事件邊界,EventVAD 采用了噪聲魯棒的統(tǒng)計方法。復合差異度量中,結合 L2 范數(shù)(特征幅度跳變)和余弦距離(方向變化),捕捉事件轉換的不連續(xù)性。通過 Savitzky-Golay 濾波平滑噪聲,計算信號比(局部與全局均值比),并基于中位數(shù)絕對偏差(MAD)設置動態(tài)閾值,實現(xiàn)無監(jiān)督的事件邊界檢測。
事件中心異常評分
為提升 MLLMs 對視頻的理解效率,EventVAD 提出分層提示策略。將分割后的事件片段輸入 MLLMs,先生成視頻內容描述,再基于描述輸出異常評分,形成 “自校正” 機制。相比傳統(tǒng)幀級分析或全局處理,事件級分析平衡了上下文完整性與特征精細度,減少長視頻分析中的誤差傳播。
實驗驗證
研究團隊在 UCF-Crime 和 XD-Violence 兩大基準數(shù)據(jù)集上對 EventVAD 進行了全面評估,結果顯示其性能顯著優(yōu)于現(xiàn)有方法。
UCF-Crime 數(shù)據(jù)集上的結果
EventVAD 以 70 億參數(shù)實現(xiàn)了 82.03% 的 AUC,超越需 130 億參數(shù)的 LAVAD(提升近 4%),同時優(yōu)于所有無監(jiān)督、單類監(jiān)督方法,甚至超過部分弱監(jiān)督方法。
XD-Violence 數(shù)據(jù)集上的結果
使用 XD-Violence 數(shù)據(jù)集的結果中,在 AP 和 AUC 指標上均比現(xiàn)有無需訓練的 SOTA 方法(LAVAD)高出約 5%,驗證了其在高分辨率場景下的適應性。
可視化分析
圖注意力傳播可視化分析如下圖,選取 UCF-Crime 數(shù)據(jù)集中的異常和正常視頻樣本,對應用圖注意力傳播前后的幀間關系進行可視化。熱力圖展示了相應幀區(qū)間內幀與幀之間權重關系的變化。
統(tǒng)計邊界檢測可視化分析如下圖,以 UCF-Crime 數(shù)據(jù)集中的樣本為例,對異常視頻和正常視頻的邊界檢測過程進行可視化。
消融實驗
UCF-Crime 和 XD-Violence 數(shù)據(jù)集中正常樣本與異常樣本的可視化。對 LAVAD 未能正確檢測出異常的樣本進行了可視化,下圖展示了事件分割結果以及多模態(tài)大語言模型(MLLM)的異常幀評分,并與真實標簽進行了對比。
總結與展望
EventVAD 作為首個以事件為中心的免訓練視頻異常檢測模型,將推動領域從幀級標注到完整事件級標注的演進。它提供了完整的特征增強,事件劃分,異常評分的免真值異常檢測基礎,極大減少了人工標注的成本和重新訓練的開銷。未來,隨著視頻理解模型的星期,EventVAD 這類以事件為中心的視頻異常檢測范式將為視頻細粒度理解提供基礎。期待基于 EventVAD 涌現(xiàn)更多創(chuàng)新的算法,加速視頻幀級異常檢測的發(fā)展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.