99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ACM MM 2025 | EventVAD:7B參數(shù)免訓練,視頻異常檢測新SOTA

0
分享至



來自北京大學,清華大學的研究團隊聯(lián)手京東(JD.com)在 ACM MM 2025 發(fā)表了一種以事件為中心低成本高效的 Training-Free 視頻異常檢測框架 EventVAD,論文第一作者邵軼驊目前為北京大學學術訪問學生,項目負責人為來自京東(JD.com)的算法研究員馬傲,目前代碼和數(shù)據(jù)已全面開源。

現(xiàn)有視頻異常檢測(Video Anomaly Detection, VAD)方法中,有監(jiān)督方法依賴大量領域內訓練數(shù)據(jù),對未見過的異常場景泛化能力薄弱;而無需訓練的方法雖借助大語言模型(LLMs)的世界知識實現(xiàn)檢測,但存在細粒度視覺時序定位不足、事件理解不連貫、模型參數(shù)冗余等問題。

為此,來自北大、清華和京東(JD.com)的研究團隊提出了一種全新的視頻異常檢測框架 ——EventVAD。該框架通過動態(tài)圖架構與多模態(tài)大模型(MLLMs)的時序事件推理結合,在減少模型參數(shù)的同時,顯著提升了異常檢測的精度和效率。實驗結果顯示,EventVAD 在 UCF-Crime 和 XD-Violence 兩大數(shù)據(jù)集上均超越現(xiàn)有 SOTA 方法,成為無需訓練場景下的新標桿。



  • 論文標題:EventVAD: Training-Free Event-Aware Video Anomaly Detection
  • 論文鏈接:https://arxiv.org/abs/2504.13092
  • 代碼開源:https://github.com/YihuaJerry/EventVAD

研究背景和動機



視頻異常檢測(VAD)的核心目標是精準定位視頻中的異常幀,但現(xiàn)有方法存在顯著局限:

有監(jiān)督方法依賴大量標注數(shù)據(jù),在新場景中需重新微調,泛化能力差;即使是單類監(jiān)督或無監(jiān)督方法,也因缺乏有效標簽難以達到理想性能。無需訓練方法以 LAVAD 為代表的方法通過視覺問答模型和 LLMs 評分實現(xiàn)異常定位,但存在兩大問題:一是依賴至少 130 億參數(shù)的 LLM,導致框架效率低下;二是缺乏對視頻的時序理解能力,難以連貫解析長視頻,易出現(xiàn)誤檢和長尾問題。

研究團隊發(fā)現(xiàn),無需訓練方法的核心瓶頸在于無法對視頻中的異常事件進行完整定位,導致后續(xù) LLM 評分存在偏差。受此啟發(fā),如上圖所示,EventVAD 通過將長視頻分割為短事件片段,增強 MLLMs 對視頻的時序一致性理解,同時引入動態(tài)圖模型捕捉幀間關聯(lián),最終在減少參數(shù)的情況下實現(xiàn)了更高精度的異常檢測。

EventVAD 的關鍵創(chuàng)新



EventVAD 的整體框架包含四個核心模塊:事件感知動態(tài)圖構建、圖注意力傳播、統(tǒng)計邊界檢測和事件中心異常評分。通過這一流程,實現(xiàn)了從視頻幀特征提取到異常幀精準定位的端到端無需訓練檢測。

事件感知動態(tài)圖構建

為捕捉視頻的動態(tài)時序特征,EventVAD 構建了融合語義與運動信息的動態(tài)圖模型。結合 CLIP 的語義特征(512 維)和 RAFT 光流的運動特征(128 維),通過融合系數(shù)(α=0.75)平衡兩種特征,增強事件的時序一致性。通過語義相似度(余弦距離)和運動相似度(指數(shù)距離)計算幀間關聯(lián),并引入時間衰減因子(γ)抑制長距離幀的冗余關聯(lián),突出短時間內的事件連貫性。

圖注意力傳播

為優(yōu)化幀級特征并保持時序一致性,EventVAD 設計了基于正交約束的圖注意力機制。通過 QR 分解生成正交的查詢(Q)、鍵(K)、值(V)矩陣,避免特征維度坍縮。基于動態(tài)圖的鄰接矩陣計算注意力權重,通過迭代傳播更新節(jié)點特征,增強事件邊界的區(qū)分度。



統(tǒng)計邊界檢測

為精準分割視頻中的事件邊界,EventVAD 采用了噪聲魯棒的統(tǒng)計方法。復合差異度量中,結合 L2 范數(shù)(特征幅度跳變)和余弦距離(方向變化),捕捉事件轉換的不連續(xù)性。通過 Savitzky-Golay 濾波平滑噪聲,計算信號比(局部與全局均值比),并基于中位數(shù)絕對偏差(MAD)設置動態(tài)閾值,實現(xiàn)無監(jiān)督的事件邊界檢測。

事件中心異常評分

為提升 MLLMs 對視頻的理解效率,EventVAD 提出分層提示策略。將分割后的事件片段輸入 MLLMs,先生成視頻內容描述,再基于描述輸出異常評分,形成 “自校正” 機制。相比傳統(tǒng)幀級分析或全局處理,事件級分析平衡了上下文完整性與特征精細度,減少長視頻分析中的誤差傳播。

實驗驗證

研究團隊在 UCF-Crime 和 XD-Violence 兩大基準數(shù)據(jù)集上對 EventVAD 進行了全面評估,結果顯示其性能顯著優(yōu)于現(xiàn)有方法。

UCF-Crime 數(shù)據(jù)集上的結果

EventVAD 以 70 億參數(shù)實現(xiàn)了 82.03% 的 AUC,超越需 130 億參數(shù)的 LAVAD(提升近 4%),同時優(yōu)于所有無監(jiān)督、單類監(jiān)督方法,甚至超過部分弱監(jiān)督方法。



XD-Violence 數(shù)據(jù)集上的結果

使用 XD-Violence 數(shù)據(jù)集的結果中,在 AP 和 AUC 指標上均比現(xiàn)有無需訓練的 SOTA 方法(LAVAD)高出約 5%,驗證了其在高分辨率場景下的適應性。



可視化分析

圖注意力傳播可視化分析如下圖,選取 UCF-Crime 數(shù)據(jù)集中的異常和正常視頻樣本,對應用圖注意力傳播前后的幀間關系進行可視化。熱力圖展示了相應幀區(qū)間內幀與幀之間權重關系的變化。



統(tǒng)計邊界檢測可視化分析如下圖,以 UCF-Crime 數(shù)據(jù)集中的樣本為例,對異常視頻和正常視頻的邊界檢測過程進行可視化。



消融實驗

UCF-Crime 和 XD-Violence 數(shù)據(jù)集中正常樣本與異常樣本的可視化。對 LAVAD 未能正確檢測出異常的樣本進行了可視化,下圖展示了事件分割結果以及多模態(tài)大語言模型(MLLM)的異常幀評分,并與真實標簽進行了對比。



總結與展望

EventVAD 作為首個以事件為中心的免訓練視頻異常檢測模型,將推動領域從幀級標注到完整事件級標注的演進。它提供了完整的特征增強,事件劃分,異常評分的免真值異常檢測基礎,極大減少了人工標注的成本和重新訓練的開銷。未來,隨著視頻理解模型的星期,EventVAD 這類以事件為中心的視頻異常檢測范式將為視頻細粒度理解提供基礎。期待基于 EventVAD 涌現(xiàn)更多創(chuàng)新的算法,加速視頻幀級異常檢測的發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賀蘭山燃燒了300多年,我國每年損失10億,為什么國家不去撲滅?

賀蘭山燃燒了300多年,我國每年損失10億,為什么國家不去撲滅?

紅夢史說
2025-07-21 11:15:23
庫明加戲耍金州勇士隊?別忘了NBA是商業(yè)聯(lián)盟

庫明加戲耍金州勇士隊?別忘了NBA是商業(yè)聯(lián)盟

阿雄侃籃球
2025-07-21 23:12:41
俄媒首次曝光俄攻擊型無人機生產畫面,產量是原計劃的9倍

俄媒首次曝光俄攻擊型無人機生產畫面,產量是原計劃的9倍

澎湃新聞
2025-07-21 19:24:33
李莉首開直播!直言黑粉太多,但能包容也能理解,不生氣

李莉首開直播!直言黑粉太多,但能包容也能理解,不生氣

大風文字
2025-01-27 13:02:33
南寧原配捉奸后續(xù):原配曝光小三正臉照,聊天記錄炸裂,細節(jié)流出

南寧原配捉奸后續(xù):原配曝光小三正臉照,聊天記錄炸裂,細節(jié)流出

跳跳歷史
2025-07-21 09:06:53
戴高樂號在南海遭遇震撼一幕,法軍上將:難怪美軍不敢來造次!

戴高樂號在南海遭遇震撼一幕,法軍上將:難怪美軍不敢來造次!

頭條爆料007
2025-07-21 17:00:07
武漢地鐵13號、14號初步納入第五期,緩解1號線與2號線壓力!

武漢地鐵13號、14號初步納入第五期,緩解1號線與2號線壓力!

湖心點評
2025-07-21 23:15:01
譚晶:我這輩子最正確的決定,就是為科學家丈夫生一對雙胞胎

譚晶:我這輩子最正確的決定,就是為科學家丈夫生一對雙胞胎

阿廢冷眼觀察所
2025-07-21 07:21:30
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
古德溫首秀23分2籃板3助攻!卡塔爾男籃78-95不敵韓國

古德溫首秀23分2籃板3助攻!卡塔爾男籃78-95不敵韓國

雷速體育
2025-07-21 12:38:41
日本執(zhí)政黨慘敗,激進排外勢力大勝!制止“中國人踢奈良鹿”的網紅都當選議員了

日本執(zhí)政黨慘敗,激進排外勢力大勝!制止“中國人踢奈良鹿”的網紅都當選議員了

日本物語
2025-07-21 21:29:10
現(xiàn)身救護車,馬龍送醫(yī)原因曝光,并非受傷,王勵勤或不該犯錯

現(xiàn)身救護車,馬龍送醫(yī)原因曝光,并非受傷,王勵勤或不該犯錯

東球弟
2025-07-21 10:07:52
從嘲笑美國到羨慕印度,46°高溫下,歐洲中產的高溫信仰崩塌了

從嘲笑美國到羨慕印度,46°高溫下,歐洲中產的高溫信仰崩塌了

李砍柴
2025-07-20 22:24:07
斯諾克沙特大師賽獎金:冠軍50萬英鎊&亞軍20萬英鎊 與世錦賽持平

斯諾克沙特大師賽獎金:冠軍50萬英鎊&亞軍20萬英鎊 與世錦賽持平

直播吧
2025-07-21 11:14:38
折疊屏iPhone定價或超15000元,“折痕做到了行業(yè)最佳”

折疊屏iPhone定價或超15000元,“折痕做到了行業(yè)最佳”

瀟湘晨報
2025-07-20 09:44:05
被屠的人開始屠殺另一群人!敘利亞內亂加劇,政府軍突發(fā)兵變

被屠的人開始屠殺另一群人!敘利亞內亂加劇,政府軍突發(fā)兵變

劉蕳愛下廚
2025-07-22 03:43:40
2年1100萬合同!Scotto:比爾合同中含有15%的交易保證金

2年1100萬合同!Scotto:比爾合同中含有15%的交易保證金

直播吧
2025-07-22 06:32:05
普京:僅靠油氣收入,俄羅斯將失去主權

普京:僅靠油氣收入,俄羅斯將失去主權

參考消息
2025-07-21 19:34:10
周恩來逝世后3小時:遺體被解剖,發(fā)現(xiàn)多個內臟器官上均有癌細胞

周恩來逝世后3小時:遺體被解剖,發(fā)現(xiàn)多個內臟器官上均有癌細胞

榮亭小吏
2025-07-20 10:28:45
內卷惹的禍?蜂巢能源總部光儲電站,從并網到著火只用了10天?

內卷惹的禍?蜂巢能源總部光儲電站,從并網到著火只用了10天?

趕碳號
2025-07-21 23:27:30
2025-07-22 07:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10911文章數(shù) 142387關注度
往期回顧 全部

科技要聞

劉強東闊氣出手!兩月投了4家具身智能公司

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態(tài)度原創(chuàng)

健康
數(shù)碼
藝術
游戲
公開課

呼吸科專家破解呼吸道九大謠言!

數(shù)碼要聞

首發(fā) AMD 銳龍 9 9850HX 處理器,雷神預熱獵刃 S Ultra 游戲本

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《火焰紋章》新作正在開發(fā)?模型師領英現(xiàn)端倪!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东城区| 易门县| 太原市| 伊宁县| 伽师县| 宁德市| 射阳县| 新兴县| 海林市| 绵阳市| 台南市| 博客| 阜新市| 北票市| 会同县| 锡林郭勒盟| 宜良县| 南溪县| 广水市| 安阳市| 克东县| 彩票| 清远市| 炎陵县| 醴陵市| 偃师市| 琼中| 南澳县| 九龙城区| 黄浦区| 湘潭市| 庐江县| 岳阳市| 宜丰县| 日喀则市| 龙江县| 和田县| 台中市| 邹平县| SHOW| 淳化县|