新智元報道
編輯:LRST
【新智元導(dǎo)讀】研究人員發(fā)現(xiàn),大語言模型的遺忘并非簡單的信息刪除,而是可能隱藏在模型內(nèi)部。通過構(gòu)建表示空間分析工具,區(qū)分了可逆遺忘和不可逆遺忘,揭示了真正遺忘的本質(zhì)是結(jié)構(gòu)性的抹除,而非行為的抑制。
近年來,大語言模型(LLM)的能力突飛猛進(jìn),但隨之而來的隱私風(fēng)險也逐漸浮出水面,訓(xùn)練數(shù)據(jù)中的敏感信息也會被模型「記住」,并在推理階段暴露出來。
在此背景下,機(jī)器遺忘(Machine Unlearning)技術(shù)應(yīng)運(yùn)而生,其目標(biāo)是在不影響整體能力的前提下,有選擇性地抹除特定知識。
然而,當(dāng)前評估方法主要聚焦于token級別的表現(xiàn)(如準(zhǔn)確率、困惑度),這些表層指標(biāo)真的足以說明模型已「遺忘」?
最近,香港理工大學(xué)、卡內(nèi)基梅隆大學(xué)和加州大學(xué)圣克魯茲分校的研究人員首次揭示了遺忘現(xiàn)象背后的表示結(jié)構(gòu)變化規(guī)律,通過構(gòu)建一套表示空間的診斷工具,系統(tǒng)性地區(qū)分了「可逆性遺忘」與「災(zāi)難性不可逆遺忘」的本質(zhì)差異。
論文中整理成了一個統(tǒng)一的表示層分析工具箱(PCA相似度與偏移、CKA、Fisher信息),支持診斷大模型在Unlearning / Relearning / Finetuning等過程中的內(nèi)在變化。
論文地址:https://arxiv.org/abs/2505.16831
工具箱地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git
研究人員在多種方法(GA、NPO、RLabel)、數(shù)據(jù)集(arXiv、GitHub、NuminaMath)與模型(Yi-6B、Qwen-2.5-7B)上進(jìn)行了全面實證,并從參數(shù)擾動角度揭示遺忘可逆性的理論依據(jù)。
模型遺忘
真正的遺忘,是結(jié)構(gòu)性的抹除,而非行為的抑制
研究人員提出:「一個模型若僅僅在token輸出上『忘記』,而其內(nèi)部結(jié)構(gòu)幾乎未變,那它隨時可以恢復(fù)原樣。」
上圖左側(cè)(a)展示了兩種典型遺忘場景:
上方:雖然Unlearning階段準(zhǔn)確率急劇下降,但Relearning之后快速恢復(fù),表示空間保持穩(wěn)定,屬于可逆(災(zāi)難性)遺忘;
下方:雖然行為表現(xiàn)下降,但結(jié)構(gòu)嚴(yán)重擾動,重訓(xùn)練也難以恢復(fù),屬于不可逆(災(zāi)難性)遺忘。
右側(cè)(b)則展示了研究人員構(gòu)建的表示空間分析工具,包括PCA Similarity / Shift、CKA相似性分析、Fisher信息矩陣(FIM)。
表征空間分析揭示了「遺忘的可逆邊界」
研究人員在Yi-6B模型上對不同方法(GA, GA+KL, NPO, RLabel)進(jìn)行了單次遺忘實驗,比較了三種指標(biāo):
MIA:攻擊者能否識別遺忘目標(biāo)是否出現(xiàn)過;
F.Acc:遺忘樣本的準(zhǔn)確率;
R.Acc:保留樣本的準(zhǔn)確率。
在不同學(xué)習(xí)率下,多種方法的單次遺忘結(jié)果對比
進(jìn)一步,研究人員探究了不同請求數(shù)量(N)和學(xué)習(xí)率(LR)組合下的變化:
在持續(xù)遺忘場景下,更大規(guī)模的遺忘實驗配置(N×LR組合)下的性能波動
可視化診斷:模型真的「忘記」了嗎?
PCA Similarity:衡量表示空間主方向變化
可以發(fā)現(xiàn),對于可逆性遺忘,其表示空間在Relearning后高度恢復(fù)原始主方向,而不可逆性遺忘則呈現(xiàn)廣泛漂移:
各層PCA主方向變化(Cosine相似度)分析
PCA Shift:量化表示分布中心的偏移程度
對于不可逆性遺忘,其「表示漂移」不僅方向變化,更伴隨大尺度的空間位移,Relearning難以還原:
各階段的PCA散點(diǎn)漂移示意圖
CKA:表示空間結(jié)構(gòu)相似性分析
Linear CKA可以測量各層之間的結(jié)構(gòu)保留程度。
可逆性場景下,CKA幾乎未受破壞,而不可逆性場景則迅速退化為低相關(guān)結(jié)構(gòu):
CKA曲線分析(逐層)
Fisher信息矩陣:重要參數(shù)的擾動程度
FIM從參數(shù)空間的角度提供了視角,研究人員聚焦Layer 31,觀察其Fisher分布是否仍保留原始結(jié)構(gòu)。
更復(fù)雜任務(wù):可逆性能否擴(kuò)展至復(fù)雜任務(wù)?
在Qwen2.5-7B上,研究人員擴(kuò)展實驗至MATH和GSM8K推理任務(wù)。
盡管任務(wù)復(fù)雜,依然能觀察到「受控Relearning」可帶來準(zhǔn)確率恢復(fù),尤其在可逆場景中甚至超越初始性能。
MATH與GSM8K任務(wù)下各方法表現(xiàn)對比
結(jié)論
研究人員們從結(jié)構(gòu)層面系統(tǒng)剖析了大模型遺忘的可逆性,得出以下核心結(jié)論:
持續(xù)遺忘風(fēng)險遠(yuǎn)高于單次操作,GA/RLabel破壞性強(qiáng):單次遺忘多數(shù)可恢復(fù),而持續(xù)性遺忘(如100條請求)易導(dǎo)致徹底崩潰。GA、RLabel易過度遺忘,GA+KL、NPO類方法能顯著提高穩(wěn)定性。
真正的遺忘表現(xiàn)為結(jié)構(gòu)漂移而非輸出下降:不可逆遺忘伴隨PCA主方向旋轉(zhuǎn)、分布漂移、Fisher質(zhì)量下降;僅憑token-level指標(biāo)難以揭示這種深層變化。
遺忘可能帶來隱式增強(qiáng)效果:在部分場景中,Relearning后模型對遺忘集的表現(xiàn)優(yōu)于原始狀態(tài),提示Unlearning可能具有對比式正則化或課程學(xué)習(xí)效果。
結(jié)構(gòu)診斷工具支持可控性遺忘設(shè)計:PCA/CKA/FIM不僅揭示是否崩潰,更可定位破壞位置,為實現(xiàn)「可控、局部、不可逆」的安全遺忘機(jī)制奠定基礎(chǔ)。
參考資料:
https://arxiv.org/abs/2505.16831
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.