99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ACL 2025 | 大模型遺忘之后患上失語癥?通過學習新知識實現舊知識遺忘

0
分享至

針對現有大模型知識遺忘方法可能損害生成能力的問題,本文基于“以新知覆蓋舊知”的理念,提出了 ReLearn —— 一種將數據增強與模型微調相結合的高效知識遺忘框架。


論文題目: ReLearn: Unlearning via Learning for Large Language Models 論文鏈接: https://arxiv.org/abs/2502.11190 代碼鏈接: https://github.com/zjunlp/unlearn


一、引言

大模型知識遺忘旨在通過編輯大模型參數實現隱私、偏見等信息的擦除,支撐可靠、可信的大模型應用。

當前主流遺忘方法多采用“反向優化”(如梯度上升),旨在抑制特定內容的輸出概率。這種僅依賴負向調整的策略,往往使模型難以采樣到合理答案,進而破壞輸出的連貫性并損害整體語言性能。此外,現有評估指標也過分關注局部遺忘,而忽略了生成內容的流暢度與相關性。

為應對此,本文提出 ReLearn:一個基于數據增強與模型精調的高效遺忘框架,并輔以三項新評估指標以全面評估遺忘效果與模型可用性。

二、動機

現有大模型遺忘方法存在兩大核心痛點:


概率蹺蹺板效應:基于反向優化的方法(如梯度上升 GA 和負偏好優化 NPO)在抑制目標詞元概率的同時,未能有效指導模型進行合理的知識重構,反而可能導致詞匯塌陷(流暢性降低)和上下文不連貫(相關性減弱)的問題。

這就像一個蹺蹺板,壓下一頭(目標知識),糟糕的另一頭(未知的輸出空間)概率便提升了。

評估指標的局限性:傳統的評估指標如 ROUGE-L 和 PPL,在衡量遺忘效果時存在不足。例如,ROUGE-L 對輸出長度敏感,而 PPL 可能因為部分高概率詞元掩蓋整體質量問題。一個真正完成“遺忘”的模型,在被問及已遺忘知識時,應能生成相關但無害(例如不泄露隱私)的回復,而非無意義內容或敏感回復 。

因此,有效的遺忘不僅是“忘記”,更應涉及對模型知識空間的積極“重建”。

三、ReLearn

ReLearn 的核心思想是借鑒人類記憶的更新機制,通過學習新知識來覆蓋舊知識,從而達到遺忘目的,同時保持模型的語言能力。其主要流程概括如下:


遺忘數據生成與驗證:首先,對需遺忘的問答對進行增強處理,包括多樣化提問方式(問題增強)和生成相關但模糊、安全的替代答案(答案增強)。隨后,利用大模型的思維鏈(CoT)能力對增強答案進行安全驗證,防止引入新風險。

數據多樣化處理:為了防止模型過擬合特定格式并避免災難性遺忘,將驗證后的安全答案轉化為句子補全任務,并引入通用知識數據集。

通過學習實現遺忘:最后,模型在精心組合的增強遺忘數據、需保留數據和通用數據上進行微調。通過特定的損失函數設計(包含對遺忘數據和通用數據的交叉熵以及對保留數據的KL散度約束),引導模型在遺忘目標信息的同時,最大限度地保留有益知識和通用能力。

同時,論文提出了一套新的評估指標:

  • 知識遺忘率(Knowledge Forgetting Ratio, KFR)和 知識保留率(Knowledge Retention Ratio, KRR):通過實體覆蓋率(ECS)和蘊含得分(ES)來衡量知識層面的遺忘與保留 。

  • 語言得分(Linguistic Score, LS):綜合 PPL,同時借鑒阿爾茲海默癥患者語言模式研究中的指標 Brunet Index 和 Honore's Statistic,用于評估模型生成文本的語言質量(衡量流暢性,詞匯多樣性和豐富性)。

四、實驗評估 4.1 實驗設置

數據集:TOFU(合成的虛構作者問答對)和 KnowUnDo(模擬真實世界敏感內容的問答對)。

基線模型:主要對比了基于梯度的遺忘方法,GA、NPO 及它們結合 SURE 的變體。

模型:Llama-2-7b-chat 和 gemma-2-2b-it。數據增強使用 Deepseek-V3。

4.2 主實驗結果


遺忘與保留的平衡:ReLearn 在 KnowUnDo 和 TOFU 數據集上均取得了有競爭力的 KFR(如 KnowUnDo 上 0.88,TOFU 上 0.81),同時保持了較高的 KRR(KnowUnDo 上 0.74,TOFU 上 0.98)。

相比之下,表現最好的基線方法雖然 KFR 很高,但 KRR 損失嚴重 。

語言質量:GA 和 NPO 等方法嚴重損害了模型的 LS 值,并導致極低的流暢度(Flu.)和相關性(Rel.)。而 ReLearn 能夠保持良好的 LS,且 Flu. 和 Rel. 與原始模型相當。這表明 ReLearn 在有效遺忘的同時,能很好地保持語言生成質量。

五、分析 5.1 魯棒性評估


參數精度變化:降低參數精度(float16 到 bfloat16)時,GA 和 NPO 的 KFR 性能顯著下降,而 ReLearn 表現穩定甚至略有提升,說明 ReLearn 不依賴于參數的細微調整 。

越獄攻擊:使用 AIM 越獄攻擊時,GA 和 NPO 的 KFR 性能下降,而 ReLearn 的性能有所提升,表明 ReLearn 能維持甚至增強模型抵抗越獄攻擊的能力 。

5.2 遺忘機制分析

知識分布:反向優化方法(GA/NPO)擾亂了詞元概率分布,導致輸出隨機或不連貫。ReLearn 通過學習生成新的、相關但無害的答案,引導模型形成新的認知模式,而非完全破壞原有知識分布。

知識記憶:通過跨層解碼分析,GA/NPO 在模型中間層之后便無法激活相關知識,而 ReLearn 能在各層保持對語義的理解和相關概念的激活,支持連貫回答的生成。

知識回路:回路可視化顯示,ReLearn 削弱了與敏感實體相關的連接,而 GA/NPO 過度加強了對特定問題模式的拒絕。

六、總結與展望 6.1 本文總結

本文提出了 ReLearn,一種基于正向優化的新型 LLM 遺忘框架。通過數據增強和引導模型學習生成新的、無害的回復,ReLearn 能夠有效地平衡知識遺忘、知識保留和語言生成能力。

同時,論文引入了更全面的評估指標 KFR, KRR 和 LS,并從機制層面分析了 ReLearn 相比傳統反向優化方法的優勢 。

6.2 局限性與未來工作

計算開銷:數據合成過程可能影響方法的可擴展性。

指標敏感度:盡管有所改進,現有指標對細微知識差別的敏感度仍有限。

理論基礎:對于知識重構動態過程的深層理論理解仍需進一步探索。

關于本工作的進一步改進,我們認為近年來在大模型指令微調領域備受關注的 “Less is More” 理念,即強調數據多樣性而非單純追求數據數量,對于知識遺忘任務的優化同樣具有重要的借鑒意義。

雖然我們當前的框架依賴于定制化的數據變體類型和現有大模型的生成能力,但我們設想可以通過以下兩個潛在的途徑來提升效率和效果:

  • 開發高質量的樣本篩選技術:從生成的增強數據中識別并挑選出對引導模型遺忘最有效、信息量最豐富的樣本,降低對數據量的依賴。

  • 探索基于強化學習的遺忘方案:通過設計特定的獎勵函數和策略驅動的采樣機制,使得模型能夠在與環境的交互中(可能只需要有限的高質量數據反饋)學會如何更高效地控制自身行為以實現目標知識的遺忘。

降低對原始數據要求,實現更好的合成數據。這樣也可以進一步探索實現個性化的遺忘服務,例如遺忘模型學到個人購物記錄,病歷等。

作者:徐浩銘 來源: 公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動,蔣凡離接班人又近了一步?

阿里大變動,蔣凡離接班人又近了一步?

新10億商業參考
2025-06-25 18:51:08
你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

解讀熱點事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

39健康網
2025-06-24 20:02:57
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

二月侃事
2025-06-25 16:47:23
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號劇委會
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會以任何形式出席北約峰會

匈牙利總理:澤連斯基不會以任何形式出席北約峰會

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統:12天戰爭結束 重建工作開啟

伊朗總統:12天戰爭結束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

大風新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

教育要聞

2025四川高考一分一段出爐!

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

科技要聞

小米YU7已下線500輛展車 26日前運往全國

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

房產
教育
時尚
旅游
軍事航空

房產要聞

三亞頂豪!內部資料曝光!

教育要聞

暑假趕緊讓孩子讀這些范文

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

伊朗總統:12天戰爭結束 重建工作開啟

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 冕宁县| 通渭县| 万山特区| 西乡县| 子洲县| 襄樊市| 全椒县| 大冶市| 龙门县| 双牌县| 金沙县| 平武县| 甘孜县| 微山县| 阳江市| 三亚市| 泌阳县| 金溪县| 闸北区| 昭平县| 陆丰市| 高淳县| 秀山| 永宁县| 咸阳市| 古蔺县| 晋中市| 枣强县| 林芝县| 韶山市| 蚌埠市| 突泉县| 南木林县| 南康市| 锡林郭勒盟| 安福县| 共和县| 汤阴县| 定兴县| 福贡县| 舞阳县|