針對現有大模型知識遺忘方法可能損害生成能力的問題,本文基于“以新知覆蓋舊知”的理念,提出了 ReLearn —— 一種將數據增強與模型微調相結合的高效知識遺忘框架。
論文題目: ReLearn: Unlearning via Learning for Large Language Models 論文鏈接: https://arxiv.org/abs/2502.11190 代碼鏈接: https://github.com/zjunlp/unlearn
一、引言
大模型知識遺忘旨在通過編輯大模型參數實現隱私、偏見等信息的擦除,支撐可靠、可信的大模型應用。
當前主流遺忘方法多采用“反向優化”(如梯度上升),旨在抑制特定內容的輸出概率。這種僅依賴負向調整的策略,往往使模型難以采樣到合理答案,進而破壞輸出的連貫性并損害整體語言性能。此外,現有評估指標也過分關注局部遺忘,而忽略了生成內容的流暢度與相關性。
為應對此,本文提出 ReLearn:一個基于數據增強與模型精調的高效遺忘框架,并輔以三項新評估指標以全面評估遺忘效果與模型可用性。
二、動機
現有大模型遺忘方法存在兩大核心痛點:
概率蹺蹺板效應:基于反向優化的方法(如梯度上升 GA 和負偏好優化 NPO)在抑制目標詞元概率的同時,未能有效指導模型進行合理的知識重構,反而可能導致詞匯塌陷(流暢性降低)和上下文不連貫(相關性減弱)的問題。
這就像一個蹺蹺板,壓下一頭(目標知識),糟糕的另一頭(未知的輸出空間)概率便提升了。
評估指標的局限性:傳統的評估指標如 ROUGE-L 和 PPL,在衡量遺忘效果時存在不足。例如,ROUGE-L 對輸出長度敏感,而 PPL 可能因為部分高概率詞元掩蓋整體質量問題。一個真正完成“遺忘”的模型,在被問及已遺忘知識時,應能生成相關但無害(例如不泄露隱私)的回復,而非無意義內容或敏感回復 。
因此,有效的遺忘不僅是“忘記”,更應涉及對模型知識空間的積極“重建”。
三、ReLearn
ReLearn 的核心思想是借鑒人類記憶的更新機制,通過學習新知識來覆蓋舊知識,從而達到遺忘目的,同時保持模型的語言能力。其主要流程概括如下:
遺忘數據生成與驗證:首先,對需遺忘的問答對進行增強處理,包括多樣化提問方式(問題增強)和生成相關但模糊、安全的替代答案(答案增強)。隨后,利用大模型的思維鏈(CoT)能力對增強答案進行安全驗證,防止引入新風險。
數據多樣化處理:為了防止模型過擬合特定格式并避免災難性遺忘,將驗證后的安全答案轉化為句子補全任務,并引入通用知識數據集。
通過學習實現遺忘:最后,模型在精心組合的增強遺忘數據、需保留數據和通用數據上進行微調。通過特定的損失函數設計(包含對遺忘數據和通用數據的交叉熵以及對保留數據的KL散度約束),引導模型在遺忘目標信息的同時,最大限度地保留有益知識和通用能力。
同時,論文提出了一套新的評估指標:
知識遺忘率(Knowledge Forgetting Ratio, KFR)和 知識保留率(Knowledge Retention Ratio, KRR):通過實體覆蓋率(ECS)和蘊含得分(ES)來衡量知識層面的遺忘與保留 。
語言得分(Linguistic Score, LS):綜合 PPL,同時借鑒阿爾茲海默癥患者語言模式研究中的指標 Brunet Index 和 Honore's Statistic,用于評估模型生成文本的語言質量(衡量流暢性,詞匯多樣性和豐富性)。
數據集:TOFU(合成的虛構作者問答對)和 KnowUnDo(模擬真實世界敏感內容的問答對)。
基線模型:主要對比了基于梯度的遺忘方法,GA、NPO 及它們結合 SURE 的變體。
模型:Llama-2-7b-chat 和 gemma-2-2b-it。數據增強使用 Deepseek-V3。
4.2 主實驗結果
遺忘與保留的平衡:ReLearn 在 KnowUnDo 和 TOFU 數據集上均取得了有競爭力的 KFR(如 KnowUnDo 上 0.88,TOFU 上 0.81),同時保持了較高的 KRR(KnowUnDo 上 0.74,TOFU 上 0.98)。
相比之下,表現最好的基線方法雖然 KFR 很高,但 KRR 損失嚴重 。
語言質量:GA 和 NPO 等方法嚴重損害了模型的 LS 值,并導致極低的流暢度(Flu.)和相關性(Rel.)。而 ReLearn 能夠保持良好的 LS,且 Flu. 和 Rel. 與原始模型相當。這表明 ReLearn 在有效遺忘的同時,能很好地保持語言生成質量。
五、分析 5.1 魯棒性評估
參數精度變化:降低參數精度(float16 到 bfloat16)時,GA 和 NPO 的 KFR 性能顯著下降,而 ReLearn 表現穩定甚至略有提升,說明 ReLearn 不依賴于參數的細微調整 。
越獄攻擊:使用 AIM 越獄攻擊時,GA 和 NPO 的 KFR 性能下降,而 ReLearn 的性能有所提升,表明 ReLearn 能維持甚至增強模型抵抗越獄攻擊的能力 。
5.2 遺忘機制分析
知識分布:反向優化方法(GA/NPO)擾亂了詞元概率分布,導致輸出隨機或不連貫。ReLearn 通過學習生成新的、相關但無害的答案,引導模型形成新的認知模式,而非完全破壞原有知識分布。
知識記憶:通過跨層解碼分析,GA/NPO 在模型中間層之后便無法激活相關知識,而 ReLearn 能在各層保持對語義的理解和相關概念的激活,支持連貫回答的生成。
知識回路:回路可視化顯示,ReLearn 削弱了與敏感實體相關的連接,而 GA/NPO 過度加強了對特定問題模式的拒絕。
六、總結與展望 6.1 本文總結
本文提出了 ReLearn,一種基于正向優化的新型 LLM 遺忘框架。通過數據增強和引導模型學習生成新的、無害的回復,ReLearn 能夠有效地平衡知識遺忘、知識保留和語言生成能力。
同時,論文引入了更全面的評估指標 KFR, KRR 和 LS,并從機制層面分析了 ReLearn 相比傳統反向優化方法的優勢 。
6.2 局限性與未來工作
計算開銷:數據合成過程可能影響方法的可擴展性。
指標敏感度:盡管有所改進,現有指標對細微知識差別的敏感度仍有限。
理論基礎:對于知識重構動態過程的深層理論理解仍需進一步探索。
關于本工作的進一步改進,我們認為近年來在大模型指令微調領域備受關注的 “Less is More” 理念,即強調數據多樣性而非單純追求數據數量,對于知識遺忘任務的優化同樣具有重要的借鑒意義。
雖然我們當前的框架依賴于定制化的數據變體類型和現有大模型的生成能力,但我們設想可以通過以下兩個潛在的途徑來提升效率和效果:
開發高質量的樣本篩選技術:從生成的增強數據中識別并挑選出對引導模型遺忘最有效、信息量最豐富的樣本,降低對數據量的依賴。
探索基于強化學習的遺忘方案:通過設計特定的獎勵函數和策略驅動的采樣機制,使得模型能夠在與環境的交互中(可能只需要有限的高質量數據反饋)學會如何更高效地控制自身行為以實現目標知識的遺忘。
降低對原始數據要求,實現更好的合成數據。這樣也可以進一步探索實現個性化的遺忘服務,例如遺忘模型學到個人購物記錄,病歷等。
作者:徐浩銘 來源: 公眾號【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.