在快速發展的機器學習領域,深度神經網絡徹底改變了我們從數據中進行學習的方式,并在各個領域取得了顯著的進步。然而,隨著這些模型對私人數據的依賴,隱私泄露的風險日益突出。
最近,一種新的隱私攻擊方式——模型反演攻擊(Model Inversion Attack, MIA)引起了廣泛關注。MIA 利用訓練好的模型來提取其訓練數據中的敏感信息,揭露了神經網絡中的隱私風險;MIA 已在多個領域證明了有效性,包括圖像、文本和圖數據領域。
盡管 MIA 的研究影響顯著,但目前仍然缺少系統性的研究,使得這一關鍵領域的諸多進展沒有得到清晰的歸納和梳理。為此,在我們最新的綜述研究中,我們詳細地探討了 MIA 這一研究問題,由問題定義出發,我們總結了不同數據領域的具體攻擊方法及應用實例,整理了應對性防御策略,及常用的數據集和評估方法。
在本綜述中,我們不僅對當前研究成果進行梳理,還提出了未來發展方向的深度思考,旨在為相關研究者提供清晰的綜述分析,并以此激發更多未來研究的探索和創新。
論文標題: Model Inversion Attacks: A Survey of Approaches and Countermeasures 論文鏈接: https://arxiv.org/abs/2411.10023 Survey Repo: https://github.com/AndrewZhou924/Awesome-model-inversion-attack
一、基本概要
MIA 的基本設定如圖 1 所示。在 MIA 中,攻擊者通常會使用經過訓練的模型來提取該模型的訓練信息。具體而言,MIA 會使用已知輸入反復查詢模型,并觀察其輸出以了解模型的行為方式。
通過多次執行此操作,攻擊者可以收集到用于構建模型的訓練數據的詳細信息并從模型的輸出中抽取敏感數據信息。典型的高風險應用有人臉識別與醫學診斷,在這之中 MIA 能夠抽取并恢復敏感的個人私有信息,對用戶或患者的隱私造成巨大的威脅。
圖1. Model Inversion Attack的問題設定和基本框架
盡管具體的攻擊和防御方法取得了一定的發展,但考慮到 MIA 中對于恢復數據的核心關鍵問題,數據領域,目前還缺乏對這類隱私攻擊與保護方法的系統分類研究,缺乏對某些方法有效或是失敗原因的解釋及優缺點分類。
為此,我們在這項工作中首次全面地調研了 MIA,對其在圖像,文本,和圖數據領域的攻擊與防御方法進行了細致的討論,具體的文章結構如圖 2。
圖2. Model Inversion Attack綜述的文章結構
除了給定 MIA 正式的定義,我們也討論了與之相關的一些其他隱私攻擊設定,并以圖 3 為例,闡明了 MIA 與其他隱私攻擊之間的具體區別,如問題設定,攻擊對象,具體方法等。
圖3. Model Inversion Attack與其他隱私攻擊的設定區別
二、針對圖像、文本及圖數據的MIA
在這個綜述的主要部分,我們介紹并討論了針對圖像、文本和圖數據領域中的 MIA 方法。我們首先概括總結了這些領域中 MIA 方法的發展和核心思路,通過介紹不同的研究工作,對方法的創新點進行了梳理。
此外,我們還根據 MIA 中的關鍵問題,如黑白盒設定,對不同方法進行分類,并總結了設計先進方法的一般性原則,例如增強詢問信息質量、利用模型內部信息和使用生成模型。
在圖像領域,MIA 場景通常分為兩類:針對分類模型的標準分類(Standard Classification)和針對協作推理(Collaborative Inference)的場景。圖 4 詳細展示了這兩種 MIA 的場景文獻梳理及樣例。
對于標準分類,MIA 特指一種情況,即敵手試圖從一個訓練良好的目標模型中推斷并恢復訓練圖像。在這種場景中,敵手僅能訪問目標模型,并且輸出是一個單熱向量(one-hot vector),向量的維度對應于所需類別設置為一。
通常在白盒設定(white-box setting)中采用基于優化的方法,其中模型反演問題可以通過基于梯度的優化(gradient-based optimization)來解決。
另一種 MIA 涉及到協作推理,其中深度神經網絡被分割為多個部分,每部分分配給不同的參與者。輸入數據依次通過網絡的每一部分,并由這些參與者處理以產生最終輸出。這種框架在邊緣-云場景(edge-cloud scenarios)中得到了推廣,因為它可以解決邊緣設備的計算和存儲限制。
通常,網絡的初始層在邊緣設備上本地處理輸入,而剩余層被卸載到遠程云服務器上。這種處理方式可以加快推斷速度并降低能耗,但同時也引入了隱私風險,因為可能暴露中間結果。
圖4. 針對圖像領域的MIA文獻梳理及樣例
在文本領域,MIA 針對三種類型的模型:嵌入模型(Embedding model)、分類模型(Classification model)和語言生成模型(Language generation model)。圖 5 詳細展示了這三種 MIA 的模型應用場景的文獻梳理及樣例。
嵌入模型將文本數據如單詞和句子轉換為低維的密集向量,這些向量捕獲文本的語義含義。在這類模型上,MIA 通過優化方法或訓練攻擊模型來揭示向量中編碼的敏感信息,從而威脅到數據隱私。
分類模型用于將文本分類到預定義的類別或標簽中,并常常輸出每個類別的概率。利用這些輸出概率和模型內部信息,MIA 能夠推斷出訓練數據的敏感屬性。
語言生成模型根據大量文本數據學習語言的統計規律,并生成連貫的文本。在這些模型上,MIA 通過訓練反演模型從模型的輸出中恢復隱藏的輸入或訓練數據。
圖5. 針對文本領域的MIA文獻梳理及樣例
在圖數據領域,MIA 主要應用于三種策略:基于圖相關知識的優化(Optimization via Graph-related Knowledge)、基于模型中間信息的優化(Optimization via Model Intermediate Information)以及從嵌入到圖的投影學習(Learning the Projection from Embeddings to Graphs)。
圖 6 詳細展示了這三種 MIA 的模型應用場景的文獻梳理及樣例。
基于圖相關知識的優化關注于通過圖神經網絡(Graph Neural Network, GNN)輸出恢復圖的連接性,即邊的存在性。這種方法通常涉及使用節點特征、泄露的子圖和輔助數據集,通過多層感知機(Multilayer Perceptron)等優化技術增強攻擊精度,從而實現對圖的重建。
基于模型中間信息的優化研究 GNN 訓練過程中可能泄露的私有拓撲信息。這通過將圖重建攻擊建模為馬爾可夫鏈近似(Markov chain approximation)進行,分析 GNN 中的潛變量如何被利用來重構原始圖的鄰接矩陣,并通過量化原始圖和攻擊鏈中潛變量之間的相互信息來評估不同變量對隱私風險的貢獻。
從嵌入到圖的投影學習側重于將節點嵌入反向轉換為圖結構,包括基于解線性系統的算法和基于梯度下降優化的算法,以恢復從深度行走方法獲得的嵌入所編碼的信息。這種方法能恢復圖的拓撲結構,并可以確定給定的子圖是否包含在目標圖中,以及基于圖嵌入恢復圖拓撲。
圖6. 針對圖數據領域的MIA文獻梳理及樣例
三、針對MIA的防御方法
在回顧了不同領域的 MIA 方法之后,我們對不同數據領域的防御方法進行了介紹。考慮到具體防御方法的應用階段,我們可以將其分為訓練中的防御及推斷中的防御兩大類,分別應用在模型部署前的訓練或微調中,或是在模型部署后的推斷應用中,如圖 7 所示。
在圖像領域,訓練時的防御策略包括差分隱私(Differential Privacy, DP)、誤導性噪聲添加、信息限制等方法。例如,通過引入生成對抗網絡(Generative Adversarial Network)生成的假樣本,使用 NetGuard 防御框架來誤導攻擊者,阻止其正確分類私有樣本。
此外,標簽平滑的使用可以改善模型對 MIA 的魯棒性,通過調整輸出類別的置信度來減少信息泄露。推斷時的防御主要通過輸出擾動,如預測純化框架,通過純化輸出以移除攻擊者可利用的冗余信息。
在文本領域,訓練時的防御策略著重于防止過擬合和對抗性訓練,以降低模型對訓練數據的記憶能力,從而減少隱私泄露。例如,采用 dropout 技術隨機停用神經元來防止過擬合。推斷時的防御則通過數據混淆和采樣策略來修改或掩蓋輸出,減少隱私泄露的風險。
在圖數據領域,訓練時的防御方法包括使用差分隱私保護私有鏈接信息,并通過添加噪聲或其他正則化方法來限制模型學習過程中的信息流。例如,通過隨機響應技術保持節點度信息的 DP,或使用對抗性訓練來增強隱私保護。推斷時的防御策略則通過在輸出或梯度上添加擾動來實現,如使用 DP-SGD 方法在圖分類任務中應用差分隱私。
這些防御技術不僅針對特定的數據類型和應用場景,還考慮到了在實際部署中保持模型效用與隱私保護之間的平衡,為防御 MIA 提供了多樣化和有效的策略。
圖7. 針對三種數據領域的MIA防御方法梳理
四、MIA數據集及評估方法
為了進一步便利研究者進行與 MIA 有關的隱私保護研究,我們整理了三種數據領域所用到的相關數據集,并詳細標注了這些數據集的具體特征,例如數據維度、分辨率、類別數量等信息,適用于不同的現實場景。
同時,我們也標注了這些數據集的來源及它們在相關研究中的應用情況,明確指出了哪些文章使用了這些數據集。這些詳細的數據集信息將為未來的研究提供重要參考,幫助研究者快速找到適合的實驗數據集,并理解其在不同研究場景中的適用性。這些數據集的詳細信息已整理在表 4 至表 6 中。
表4-6. MIA文獻常用數據集(圖像,文本,及圖數據)整理
同時,我們也整理了 MIA 用到的評估指標。我們首先提取了在三個領域通用的指標,這包括準確率、召回率等基本指標,它們適用于大多數模型評估場景。接著,對于每個領域,我們分別整理了各自的特定指標。
例如,在圖像領域,有 Fréchet Inception Distance (FID) 和 Learned Perceptual Image Patch Similarity (LPIPS) 等,這些指標用于衡量圖像生成的質量和真實感。
在文本領域,有 BLEU、ROUGE 等,這些指標主要用于評估語言生成的準確性和流暢性。
在圖數據領域,有 Area under the ROC curve(AUROC)、Joint degree distribution 等,用以評估圖結構的預測準確性和模型的預測能力。
這些指標為 MIA 研究提供了一套全面的工具,使研究人員能夠從多個維度評估和比較不同方法的效果,并促進了模型的優化和改進。
圖8-11. MIA文獻用到的部分評估指標(通用,圖像,文本,及圖數據)整理
五、關于MIA未來方向的討論
在我們的綜述中,我們調研并討論了針對 MIA 的三個主要數據領域的解決方案,總結了較為普遍的設計目標及原則。一般而言,MIA 的核心思想是盡可能多地利用先驗知識從目標模型中提取更多信息,然后生成更真實的樣本,有效地揭示訓練數據。
相反,防御 MIA 的目的是在模型中存儲更少的關于訓練數據的信息,這樣對手就很難從目標模型中恢復隱私數據。
雖然這個研究問題已經取得了很大進展,但仍有很多方面值得未來努力,以增強對隱私漏洞的理解:1)問題設定考慮更為實際的現實場景(如考慮不完備的監督信號);2)技術改進考慮結合生成式模型(如利用 diffusion model 的高質量生成效果);3)結合基礎大模型考慮隱私漏洞研究對象的遷移(如考慮 LLM 及 VLM 的 MIA)。
更多內容,請參考我們的論文及 GitHub 倉庫,非常感謝大家關注我們的工作!
作者:周展科 來源: 公眾號【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀看!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線500+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.