網易首頁 > 網易號 > 正文申請入駐

TPAMI 2025 | 基于Wasserstein度量的分布無關異常樣本學習

2025-02-25 08:25:44　來源: 將門創投

北京舉報

分享至

在開放世界環境中，分類模型需要識別與分布內數據語義不同的分布外數據，引發了近年來對于分布外檢測的廣泛研究。Outlier Exposure（OE）作為一種有效的學習方案，使模型能夠從額外的輔助分布外數據中進行學習，顯著提升模型的分布外檢測能力。然而，輔助分布外數據通常無法覆蓋真實的分布外場景，因此導致真實場景中分布外檢測的性能損失。為此，我們提出了一種改進OE的新學習方法，稱為Wasserstein Distribution-agnostic Outlier Exposure(W-DOE)，其理論可靠且實驗性能優異。其核心思想在于，通過擴大訓練時分布外數據的覆蓋范圍，以此保證模型在部署時會更少遇到未見過的分布外情形。在W-DOE的具體實現中，我們設計一種基于隱式數據合成的新方法，有效獲取更多的分布外數據以擴大訓練期間分布外情形的覆蓋范圍。此外，我們提出了一個通用的學習框架，搜索最有利于模型的分布外合成數據，有效確保總體的分布外檢測性能。

論文題目： W-DOE: Wasserstein Distribution-agnostic Outlier Exposure 論文鏈接： https://www.computer.org/csdl/journal/tp/5555/01/10844561/23zUi92f3os

一、背景和動機

深度學習在開放世界中經常會遇到分布外數據，這些數據在標簽空間上與分布內訓練樣本顯著不同。由于模型無法對其做出正確響應，因此需要避免進行標簽預測。這個問題引發了最近對分布外檢測的廣泛關注，模型需要識別由分布外數據引起的異常，同時對分布內數據進行準確預測。其中Outlier Exposure（OE）被驗證是一種有效的方法，其通過將輔助的分布外數據納入模型訓練來增強總體的分布外檢測能力。盡管 OE 方法效果顯著，其仍存在很多局限性。其中一個重要挑戰源于我們無法預知在開放世界中會遇到哪些類型的分布外數據。結果是，輔助的分布外數據可能與真實情況不同，導致訓練和測試之間存在分布外數據分布的顯著差異。這種差異通常會對實際場景中的分布外檢測性能產生嚴重的負面影響。

圖1：通過如圖 (b) 所示擴大輔助分布外數據的覆蓋范圍，與原始的數據分布（如圖 (a)）相比，訓練時使用的分布外數據與真實分布外數據之間的差異顯著縮小。
二、方法

為了解決這個問題，我們提出了一種新的基于OE的學習方法，稱為Wasserstein Distribution-agnostic Outlier Exposure（W-DOE）。我們的方法旨在通過合成與原始輔助分布外數據不同的新樣本，來擴大訓練中分布外數據的覆蓋范圍。通過對應的模型訓練，我們可以有效縮小分布外數據的差異，從而減輕其負面影響。要實現我們的W-DOE，需要回答兩個關鍵問題：（a）如何合成分布外數據，以及（b）如何保證在擴展的數據分布上整體性能。

針對第一個問題，我們提出了一種簡單有效的數據合成方法，稱為隱式數據合成。該方法基于我們新的發現：模型擾動會隱式地導致數據轉換，可以有效地將現有數據轉換為分布層面非常不同的數據。因此，通過在模型擾動后的更新過程中，讓模型從這些隱式轉換后數據中學習。隱式數據合成實現簡單，對于生成與原始數據有差異的合成數據非常靈活。如下我們給出一個非形式化的基本論證：如果我們只考慮模型的第 K 層，令 z 為輸入， W 為第 K 層的參數， A 為對 W 的參數擾動， a 為激活函數, $f(z;W)=a(Wz)$ 為 K 層的輸出。如果 W 以 W(I+A) 的形式進行擾動，那么我們可以證明 $f(z;W(I+A))=f((I+A)z;W)$ 。上述關系將模型擾動與特征變換聯系起來，在下文中，我們會將該結論泛化到對整個模型擾動的形式。

針對第二個問題，我們提出了一種新的的學習框架，保證模型可以高效學習通過隱式數據合成的額外分布外數據。其中，我們通過以輔助分布外數據為中心的Wasserstein球來定義擴展后分布外數據的覆蓋范圍。

圖2: Wasserstein球的相關定義。

據此，我們在分布外覆蓋范圍內引入了一種最壞情況下的學習方案，其通過對模型分布外數據性能的遺憾值進行定義。

圖3: 最差遺憾值的相關定義。

據此，通過在Wasserstein球中找尋性能最差的數據分布上進行訓練，我們可以對總體性能的上界進行約束，其學習目標如下：

圖4: W-DOE的學習目標。

如上學習目標可以與隱式數據合成有效結合，帶來了W-DOE的簡潔實現，在實踐中極大改進了OE。從理論上，我們還證明了W-DOE可以減輕分布外數據差異，擴大分布外數據的覆蓋范圍，從而保證更好的分布外檢測性能，并獲得比OE更緊的泛化界。

三、理論分析

我們的理論分析主要分為兩部分：一方面，我們證明隱式數據生成在多樣化數據方面的有效性；另一方面，我們證明W-DOE的學習目標可以有效處理分布外數據差異帶來的負面影響。

對于隱式數據生成的有效性，我們給出如下定理。

圖5: 隱式數據生成的有效性驗證

其表明，對于整體模型的參數擾動，其等價于對原始數據在輸入空間上的分布變換。此外，當模型自身層數足夠多且激活函數非線性，其隱含的數據變換函數也會更強。

另一方面，對于W-DOE的學習目標，我們給出如下泛化誤差界。

圖6: W-DOE學習目標的有效性驗證

上述定理中不等式右側的第一項起到了關鍵作用，因為相較于原本的OE而言，其會在開放環境中導致更緊的界限。因此，這驗證了我們的 W-DOE 在面對分布外數據差異時能夠帶來性能的提升。

四、實驗結果

我們還在一系列具有代表性的分布外檢測設置下進行了實驗評估。

我們首先進行了模擬實驗，可視化了分布外分布差異對于不同方法的分布外檢測性能的影響。可見，對于OE而言，隨著分布外數據差異的增大，分布外檢測的判別邊界誤差也在變大。作為對比，W-DOE通過最壞情況下的數據搜索，其確保了模型在訓練期間未見過的分布外情況下也有較好性能。這和我們的理論分析結果是一致的。

圖7: 模擬實驗下W-DOE和OE的性能對比

此外，我們在 CIFAR 基準數據集上進行了各類設定的真實實驗（標準設定和困難設定），其中AUROC指標越高越好、FPR95指標越低越好。可見， W-DOE 相較于同期先進方法有普遍的優越性。

圖8: CIFAR基準數據集下的標準實驗結果比較

圖9: CIFAR基準數據集下的困難實驗結果比較
五、總結

我們提出了一個名為 W-DOE 的通用學習框架，可以有效緩解分布外數據的差異對其真實性能的負面影響。總體而言，W-DOE 在分布外檢測中的強大性能主要歸功于兩個因素。首先，我們基于模型擾動和輸入變換之間的聯系，提出了用于數據合成的隱式數據生成。合成數據相較于原始數據更為多樣化，使模型能夠從未見過的數據中學習。其次，我們提出了在尋找最壞情況遺憾值時的極小極大優化方案，比基于風險的搜索方法能夠取得更好的結果。我們提出的學習方案在開放世界中實現了可證明的分布外性能。此外，W-DOE 中提出的技術，例如給予遺憾的最差性能搜索和隱式數據生成，可能在分布外檢測之外的領域也有所貢獻，我們將探討它們在分布外泛化、對抗訓練和魯棒優化中的應用場景。

作者：王啟舟來源：公眾號【HKBU計算機系】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（

www.techbeat.net

）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.