擴散模型(Diffusion Models, DMs)近年來展現出巨大的潛力,在計算機視覺和自然語言處理等諸多任務中取得了顯著進展,而異常檢測(Anomaly Detection, AD)作為人工智能領域的關鍵研究任務,在工業制造、金融風控、醫療診斷等眾多實際場景中發揮著重要作用。近期,來自多倫多大學、不列顛哥倫比亞大學、麻省理工學院、悉尼大學、卡迪夫大學和復旦大學等知名機構的研究者合作完成題為 “Anomaly Detection and Generation with Diffusion Models: A Survey” 的長文綜述,首次聚焦于 DMs 在異常檢測與生成領域的應用。該綜述系統性地梳理了圖像、視頻、時間序列、表格和多模態異常檢測任務的最新進展并從擴散模型視角提供了全面的分類體系,結合生成式 AI 的研究動向展望了未來趨勢和發展機遇,有望引導該領域的研究者和從業者。
- 論文標題:
- Anomaly Detection and Generation with Diffusion Models: A Survey
- 論文鏈接:
- https://arxiv.org/pdf/2506.09368
- 項目主頁:
- https://github.com/fudanyliu/ADGDM
圖 2 異常檢測、生成和擴散模型的研究熱度分析
二、擴散模型與異常檢測
擴散模型通過正向擴散與反向去噪的馬爾可夫過程實現數據分布建模。正向過程遵循隨機微分方程,逐步將數據分布轉化為高斯噪聲;反向過程通過神經網絡學習去噪映射,漸進式恢復原始數據。其生成機制在捕捉復雜數據分布的細微差異上具有顯著優勢。與傳統的廣泛用于無監督 AD 任務的 GANs、VAE 和 Transformer 等相比,DMs 在生成樣本的質量和多樣性方面表現出色,在 AD 領域展示出出色潛力。
圖 3 基于擴散模型的異常評分機制
基于 DMs 的異常檢測通過建模數據分布的內在結構,將異常定義為與正常數據模式的顯著偏離。根據異常評分機制不同,可分為三大核心范式,如圖 3 所示。
基于重構評分的方法通過擴散模型反向去噪過程重構輸入樣本,以重構誤差作為異常分數。正常樣本因符合學習到的分布,重構誤差小;異常樣本偏離分布,重構誤差顯著增大。典型應用如工業質檢中,利用 U-Net 架構的擴散模型通過像素級重構誤差定位異常。
基于密度的評分方法利用擴散模型對數據概率密度的估計能力,將負對數似然作為異常分數。正常樣本對應高概率密度,負對數似然值低;異常樣本位于低概率區域,分數超過閾值即判定為異常。
基于分數的評分方法利用數據分布的梯度信息(分數函數)量化樣本與數據流形的偏離程度。正常樣本位于流形表面,梯度范數小;異常樣本處于低概率區域,梯度范數顯著增大。
三種方法從不同維度刻畫異常:重構評分基于樣本空間距離,密度評分基于概率分布似然,分數評分基于流形幾何梯度。實際應用中,重構方法對圖像局部異常更敏感,密度方法適合時序數據全局檢測,分數方法在高維非結構化數據中表現更優。
三、擴散模型驅動的異常檢測與生成
3.1 圖像異常檢測
在圖像異常檢測(Image Anomaly Detection, IAD)領域,DMs 面臨兩大核心挑戰:“恒等快捷方式”(Identity Shortcut)問題與高昂的計算成本。前者指模型在重構時傾向于直接復制輸入中的異常區域,從而掩蓋了異常;后者則源于擴散過程固有的多步迭代推理,限制了其實時應用。為應對這些挑戰,綜述中探討了一系列前沿方法。例如,通過掩碼重構、潛空間特征編輯或對抗性訓練來打破 “恒等快捷方式”,迫使模型學習正常數據的深層分布而非簡單復制。同時,為解決計算效率問題,研究者們提出了模型蒸餾、高效 ODE 求解器、潛空間擴散(Latent Diffusion Models, LDMs)以及模型稀疏化等多種加速策略。這些方法通過減少采樣步數或在更低維的空間中操作,顯著降低了推理時間和資源消耗,為擴散模型在工業質檢、醫療影像分析等高要求的 IAD 場景中的實際部署鋪平了道路。
圖 4:圖像異常檢測方法示意圖。(a)展示了基礎的基于重構的方法;(b)展示了為解決 “恒等快捷方式” 問題而設計的條件式或多階段變體方法,旨在提升對異常的敏感度。
3.2 視頻異常檢測
視頻異常檢測(Video Anomaly Detection, VAD)的核心在于處理時序維度和復雜的運動模式,這使其比靜態圖像檢測更具挑戰性。異常可能表現為反常的動作序列或與既定模式不符的動態變化。因此,有效的 VAD 框架必須能夠對時空依賴性進行建模。綜述指出,先進的擴散模型通過引入光流、運動矢量或集成時空 Transformer 架構,將運動信息顯式地融入到生成過程中。這種設計使模型能夠學習正常事件的時空演化規律,從而敏銳地捕捉到速度、方向或加速度上的異常變化。例如,模型通過對過去幀或運動表征進行條件化,預測未來的正常幀,并將預測結果與實際觀測進行比較。這種基于運動和時序上下文的建模方式,極大地提升了模型在監控、自動駕駛等動態場景中檢測復雜異常事件的準確性和魯棒性。
圖 5:視頻異常檢測框架示意圖。該框架集成了時空特征提取與運動建模,通過光流或 Transformer 等技術將運動信息融入擴散模型,以有效識別空間外觀和時間演變中的異常。
3.3 時間序列異常檢測
時間序列異常檢測(Time Series Anomaly Detection, TSAD)面臨的挑戰源于數據的內在時序依賴性、不規則采樣和潛在的長期關聯。綜述歸納了擴散模型在該領域的兩大主流范式:基于重構(reconstruction-based)與基于插補(imputation-based)。基于重構的方法利用擴散模型強大的生成能力來復原輸入的時間序列,那些無法被精確重構、導致較大誤差的數據點或片段被視為異常。而基于插補的方法則巧妙地將異常檢測任務轉化為一個缺失值填補問題,模型嘗試填補序列中的部分數據,異常點會因其與上下文的低 “協調性” 而導致插補質量顯著下降,從而被識別出來。為了有效捕捉時間序列的復雜動態,這些模型通常會集成循環神經網絡(RNNs)或注意力機制(Attention),以增強對長短期依賴關系的建模能力,使其在金融欺詐檢測、設備故障預警等任務中表現出色。
圖 6:時間序列異常檢測(TSAD)框架示意圖。該圖展示了基于擴散模型的兩種主流 TSAD 路徑:(a)基于重構的路徑通過比較原始序列與重構序列的差異來計算異常分數;(b)基于插補的路徑則通過評估模型對缺失值的插補質量來判斷異常。
3.4 表格異常檢測
表格數據因其混合數據類型(如數值型、分類型、序數型)和普遍存在的缺失值,對異常檢測構成了獨特的挑戰。直接應用為圖像設計的擴散模型往往效果不佳。為此,該領域的研究重點在于開發專門的預處理技術和模型架構。綜述中提到,擴散模型驅動的表格異常檢測(Tabular Anomaly Detection, TAD)方法通常首先通過專門的嵌入層將異構數據統一到連續的表征空間。隨后,經過改造的 DMs(如結合 Transformer 架構或高斯混合模型)在這一空間中學習正常數據的聯合分布。在推理階段,通過計算樣本的重構損失或生成概率來識別異常。針對缺失值問題,一些方法在訓練中引入掩碼機制,使模型學會在存在數據缺失的情況下進行穩健的推理。這些適應性設計使得擴散模型能夠有效處理金融、醫療等領域的復雜表格數據,精確識別其中的欺詐、病變等異常模式。
圖 7:表格異常檢測框架示意圖。該框架展示了處理包含混合數據類型(如數值型、分類型)的表格數據的典型流程。數據首先經過專門的預處理和嵌入模塊,然后輸入到適用于表格數據的擴散模型中,最終通過計算重構損失來識別異常。
3.5 多模態異常檢測
多模態異常檢測(Multimodal Anomaly Detection, MAD)通過融合來自不同數據源(如圖像、文本、傳感器數據)的互補信息,顯著提升了檢測系統的準確性和魯棒性。其核心挑戰在于如何有效對齊和融合異構的模態信息。綜述總結了三種主流的融合策略:早期融合在輸入層即合并特征;晚期融合在決策層結合各模態的獨立輸出;而動態融合則能根據輸入數據的上下文自適應地調整各模態的權重。協同擴散(Collaborative Diffusion)等先進框架通過構建共享的嵌入空間和動態融合模塊,有效解決了模態對齊和信息不均衡的問題,在工業檢測、智能監控等場景中展現了巨大潛力。
圖 8:多模態異常檢測的概念圖。MAD 通過早期、晚期或動態策略融合多源信息。
3.6 異常生成
異常生成(Anomaly Generation, AG)的主要動機是解決現實世界中異常樣本稀缺的根本性難題。擴散模型憑借其卓越的生成能力,可以創造出逼真且多樣的合成異常。該技術以正常數據為 “種子”,通過引入文本描述、掩碼或在潛空間進行特定操作等條件化引導,精確地控制生成異常的類型、位置和嚴重程度。這些生成的異常數據不僅可以用于擴充訓練集以增強檢測模型的泛化能力,還能作為 “陪練” 來系統性地評估和提升模型的魯棒性,并為自監督學習范式提供了寶貴的訓練信號。
圖 9:異常生成的概念圖。AG 利用受引導的擴散模型生成合成異常,以用于數據增強和模型測試等任務。
四、挑戰與機遇
盡管 DMs 在異常檢測與生成領域取得了一定的進展,但仍面臨諸多挑戰。其一,計算效率。DMs 的訓練和推理過程通常需要較高的計算資源和時間成本,這限制了其在實際場景中的應用,無法滿足工業等應用場景下快速響應需求。其二,模型對復雜場景的適應性。在物理世界中,多模態異構數據往往具有復雜的分布和噪聲,如何使 DMs 在這些復雜情況下仍能準確地檢測任意可能異常,仍需進一步探索。
展望未來,該領域展現出出色應用前景和研究潛力。第一,優化 DMs 的架構和算法,提高其計算效率,使其能夠在資源受限的環境中運行。開發輕量級的擴散模型,或者采用模型壓縮、加速推理等技術,有望解決計算效率問題。第二,增強 DMs 對復雜場景的理解和適應能力也是關鍵。通過引入多模態信息、改進數據增強技術等方式,使模型能夠更好地處理復雜多變的數據。第三,探索 DMs 與基礎模型以及強化學習等前沿技術的結合,將為面向現實應用的異常檢測與生成模型帶來新的突破。
五、結語
該綜述系統梳理了 DMs 在異常檢測與生成領域的技術進展,從理論基礎、方法分類到應用場景形成完整研究體系:
技術框架的系統性構建:首次將基于 DMs 的異常檢測方法劃分為基于重構、基于密度、基于分數三大評分范式,并針對圖像、視頻、時間序列等不同數據模態,闡述模型架構分類和最新進展。
學術研究的前瞻性展望:客觀剖析當前技術瓶頸,包括擴散過程的多步計算開銷、小樣本場景的泛化能力不足、理論解釋的缺失等;展望主要研究趨勢,如與大語言模型融合實現上下文感知檢測、基于元學習的快速領域適應、以及面向實時場景的高效架構設計。
如果您對這篇綜述感興趣,歡迎閱讀和引用論文:
@misc{liu2025anomaly,
title = {Anomaly Detection and Generation with Diffusion Models: A Survey},
author = {Liu, Yang and Liu, Jing and Li, Chengfang and Xi, Rui and Li, Wenchao and Cao, Liang and Wang, Jin and Yang, Laurence T. and Yuan, Junsong and Zhou, Wei},
year = {2025},
primaryclass = {cs.LG},
eprint = {2506.09638},
doi = {10.48550/arXiv.2506.09638},
url = {https://arxiv.org/abs/2506.09638},
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.