99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ACL 2025 | 大模型遺忘之后患上失語癥?通過學習新知識實現舊知識遺忘

0
分享至

針對現有大模型知識遺忘方法可能損害生成能力的問題,本文基于“以新知覆蓋舊知”的理念,提出了 ReLearn —— 一種將數據增強與模型微調相結合的高效知識遺忘框架。


論文題目: ReLearn: Unlearning via Learning for Large Language Models 論文鏈接: https://arxiv.org/abs/2502.11190 代碼鏈接: https://github.com/zjunlp/unlearn


一、引言

大模型知識遺忘旨在通過編輯大模型參數實現隱私、偏見等信息的擦除,支撐可靠、可信的大模型應用。

當前主流遺忘方法多采用“反向優化”(如梯度上升),旨在抑制特定內容的輸出概率。這種僅依賴負向調整的策略,往往使模型難以采樣到合理答案,進而破壞輸出的連貫性并損害整體語言性能。此外,現有評估指標也過分關注局部遺忘,而忽略了生成內容的流暢度與相關性。

為應對此,本文提出 ReLearn:一個基于數據增強與模型精調的高效遺忘框架,并輔以三項新評估指標以全面評估遺忘效果與模型可用性。

二、動機

現有大模型遺忘方法存在兩大核心痛點:


概率蹺蹺板效應:基于反向優化的方法(如梯度上升 GA 和負偏好優化 NPO)在抑制目標詞元概率的同時,未能有效指導模型進行合理的知識重構,反而可能導致詞匯塌陷(流暢性降低)和上下文不連貫(相關性減弱)的問題。

這就像一個蹺蹺板,壓下一頭(目標知識),糟糕的另一頭(未知的輸出空間)概率便提升了。

評估指標的局限性:傳統的評估指標如 ROUGE-L 和 PPL,在衡量遺忘效果時存在不足。例如,ROUGE-L 對輸出長度敏感,而 PPL 可能因為部分高概率詞元掩蓋整體質量問題。一個真正完成“遺忘”的模型,在被問及已遺忘知識時,應能生成相關但無害(例如不泄露隱私)的回復,而非無意義內容或敏感回復 。

因此,有效的遺忘不僅是“忘記”,更應涉及對模型知識空間的積極“重建”。

三、ReLearn

ReLearn 的核心思想是借鑒人類記憶的更新機制,通過學習新知識來覆蓋舊知識,從而達到遺忘目的,同時保持模型的語言能力。其主要流程概括如下:


遺忘數據生成與驗證:首先,對需遺忘的問答對進行增強處理,包括多樣化提問方式(問題增強)和生成相關但模糊、安全的替代答案(答案增強)。隨后,利用大模型的思維鏈(CoT)能力對增強答案進行安全驗證,防止引入新風險。

數據多樣化處理:為了防止模型過擬合特定格式并避免災難性遺忘,將驗證后的安全答案轉化為句子補全任務,并引入通用知識數據集。

通過學習實現遺忘:最后,模型在精心組合的增強遺忘數據、需保留數據和通用數據上進行微調。通過特定的損失函數設計(包含對遺忘數據和通用數據的交叉熵以及對保留數據的KL散度約束),引導模型在遺忘目標信息的同時,最大限度地保留有益知識和通用能力。

同時,論文提出了一套新的評估指標:

  • 知識遺忘率(Knowledge Forgetting Ratio, KFR)和 知識保留率(Knowledge Retention Ratio, KRR):通過實體覆蓋率(ECS)和蘊含得分(ES)來衡量知識層面的遺忘與保留 。

  • 語言得分(Linguistic Score, LS):綜合 PPL,同時借鑒阿爾茲海默癥患者語言模式研究中的指標 Brunet Index 和 Honore's Statistic,用于評估模型生成文本的語言質量(衡量流暢性,詞匯多樣性和豐富性)。

四、實驗評估 4.1 實驗設置

數據集:TOFU(合成的虛構作者問答對)和 KnowUnDo(模擬真實世界敏感內容的問答對)。

基線模型:主要對比了基于梯度的遺忘方法,GA、NPO 及它們結合 SURE 的變體。

模型:Llama-2-7b-chat 和 gemma-2-2b-it。數據增強使用 Deepseek-V3。

4.2 主實驗結果


遺忘與保留的平衡:ReLearn 在 KnowUnDo 和 TOFU 數據集上均取得了有競爭力的 KFR(如 KnowUnDo 上 0.88,TOFU 上 0.81),同時保持了較高的 KRR(KnowUnDo 上 0.74,TOFU 上 0.98)。

相比之下,表現最好的基線方法雖然 KFR 很高,但 KRR 損失嚴重 。

語言質量:GA 和 NPO 等方法嚴重損害了模型的 LS 值,并導致極低的流暢度(Flu.)和相關性(Rel.)。而 ReLearn 能夠保持良好的 LS,且 Flu. 和 Rel. 與原始模型相當。這表明 ReLearn 在有效遺忘的同時,能很好地保持語言生成質量。

五、分析 5.1 魯棒性評估


參數精度變化:降低參數精度(float16 到 bfloat16)時,GA 和 NPO 的 KFR 性能顯著下降,而 ReLearn 表現穩定甚至略有提升,說明 ReLearn 不依賴于參數的細微調整 。

越獄攻擊:使用 AIM 越獄攻擊時,GA 和 NPO 的 KFR 性能下降,而 ReLearn 的性能有所提升,表明 ReLearn 能維持甚至增強模型抵抗越獄攻擊的能力 。

5.2 遺忘機制分析

知識分布:反向優化方法(GA/NPO)擾亂了詞元概率分布,導致輸出隨機或不連貫。ReLearn 通過學習生成新的、相關但無害的答案,引導模型形成新的認知模式,而非完全破壞原有知識分布。

知識記憶:通過跨層解碼分析,GA/NPO 在模型中間層之后便無法激活相關知識,而 ReLearn 能在各層保持對語義的理解和相關概念的激活,支持連貫回答的生成。

知識回路:回路可視化顯示,ReLearn 削弱了與敏感實體相關的連接,而 GA/NPO 過度加強了對特定問題模式的拒絕。

六、總結與展望 6.1 本文總結

本文提出了 ReLearn,一種基于正向優化的新型 LLM 遺忘框架。通過數據增強和引導模型學習生成新的、無害的回復,ReLearn 能夠有效地平衡知識遺忘、知識保留和語言生成能力。

同時,論文引入了更全面的評估指標 KFR, KRR 和 LS,并從機制層面分析了 ReLearn 相比傳統反向優化方法的優勢 。

6.2 局限性與未來工作

計算開銷:數據合成過程可能影響方法的可擴展性。

指標敏感度:盡管有所改進,現有指標對細微知識差別的敏感度仍有限。

理論基礎:對于知識重構動態過程的深層理論理解仍需進一步探索。

關于本工作的進一步改進,我們認為近年來在大模型指令微調領域備受關注的 “Less is More” 理念,即強調數據多樣性而非單純追求數據數量,對于知識遺忘任務的優化同樣具有重要的借鑒意義。

雖然我們當前的框架依賴于定制化的數據變體類型和現有大模型的生成能力,但我們設想可以通過以下兩個潛在的途徑來提升效率和效果:

  • 開發高質量的樣本篩選技術:從生成的增強數據中識別并挑選出對引導模型遺忘最有效、信息量最豐富的樣本,降低對數據量的依賴。

  • 探索基于強化學習的遺忘方案:通過設計特定的獎勵函數和策略驅動的采樣機制,使得模型能夠在與環境的交互中(可能只需要有限的高質量數據反饋)學會如何更高效地控制自身行為以實現目標知識的遺忘。

降低對原始數據要求,實現更好的合成數據。這樣也可以進一步探索實現個性化的遺忘服務,例如遺忘模型學到個人購物記錄,病歷等。

作者:徐浩銘 來源: 公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本又有新發現:中國苦練13年就是為了追平美軍航母?

日本又有新發現:中國苦練13年就是為了追平美軍航母?

Hi秒懂科普
2025-06-09 12:38:08
臺灣有些陸配兒子竟因母親身份感到羞愧

臺灣有些陸配兒子竟因母親身份感到羞愧

總在茶余后
2025-06-10 00:33:54
“我們班一個家長昨天跳樓了……”

“我們班一個家長昨天跳樓了……”

坦然風云
2025-06-06 17:09:52
江蘇省2025年養老金調整即將開始,工齡35年和42年漲錢能差多少?

江蘇省2025年養老金調整即將開始,工齡35年和42年漲錢能差多少?

暖心人社
2025-06-09 21:18:39
當你老了,熟悉的房子也老了

當你老了,熟悉的房子也老了

中國新聞周刊
2025-06-09 11:02:05
馬伊琍曾說的那個女人就是奚夢瑤

馬伊琍曾說的那個女人就是奚夢瑤

觀察鑒娛
2025-06-09 12:31:22
史上最嚴“禁酒令”:管的是權力酒桌,不是百姓酒杯

史上最嚴“禁酒令”:管的是權力酒桌,不是百姓酒杯

西莫的藝術宮殿
2025-06-09 09:22:40
巴鐵媳婦嫌中國婆家不好,揚言早知如此就不會嫁過來,吵著要回國

巴鐵媳婦嫌中國婆家不好,揚言早知如此就不會嫁過來,吵著要回國

愛下廚的阿釃
2025-06-10 04:40:54
男籃新一期集訓名單,鄒陽,趙繼偉,李弘權,崔永熙無緣惹爭議

男籃新一期集訓名單,鄒陽,趙繼偉,李弘權,崔永熙無緣惹爭議

生活新鮮市
2025-06-10 11:15:42
2025高考結束,發生一個奇怪現象!考生集體找媽媽

2025高考結束,發生一個奇怪現象!考生集體找媽媽

劉剮說體壇
2025-06-10 10:32:25
惠州籃協官方:廣東男籃后衛徐杰當選惠州籃協副會長

惠州籃協官方:廣東男籃后衛徐杰當選惠州籃協副會長

懂球帝
2025-06-10 09:13:34
重磅!河北考生作弊被抓,央視曝內幕,犯罪團伙身份被扒不一般

重磅!河北考生作弊被抓,央視曝內幕,犯罪團伙身份被扒不一般

奇思妙想草葉君
2025-06-10 01:36:41
USB C,失敗了

USB C,失敗了

半導體行業觀察
2025-06-09 08:59:05
經銷商:有中東大客戶一次性下單200臺小米SU7 Ultra

經銷商:有中東大客戶一次性下單200臺小米SU7 Ultra

手機中國
2025-06-10 11:01:13
壞消息!今年多所985高校,停招英語專業,原因深層次揭秘

壞消息!今年多所985高校,停招英語專業,原因深層次揭秘

史海流年號
2025-06-08 21:43:24
正視歷史、勿忘歷史!嚴懲那些歪曲抗日事實者!

正視歷史、勿忘歷史!嚴懲那些歪曲抗日事實者!

翻開歷史和現實
2025-06-10 09:28:51
內蒙古自治區黨委組織部對4名擬任干部進行公示

內蒙古自治區黨委組織部對4名擬任干部進行公示

環球網資訊
2025-06-10 11:11:04
中美局勢反轉!特朗普苦心經營5個月,反而讓中國再次偉大

中美局勢反轉!特朗普苦心經營5個月,反而讓中國再次偉大

陳意小可愛
2025-06-10 11:09:57
中方專機抵英,美不許中方在倫敦建館,不到24小時,英方對美承諾

中方專機抵英,美不許中方在倫敦建館,不到24小時,英方對美承諾

獵火照狼山
2025-06-09 19:50:49
00后新晉女神,不愧是寫真女神,九頭身+G杯逆天身材,很難不心動

00后新晉女神,不愧是寫真女神,九頭身+G杯逆天身材,很難不心動

傲嬌的馬甲線
2025-06-09 17:40:03
2025-06-10 12:39:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2141文章數 592關注度
往期回顧 全部

教育要聞

教育部答21記者:新建改擴建1000所以上優質普通高中

頭條要聞

中美經貿磋商 美國三大財貿高官都來了

頭條要聞

中美經貿磋商 美國三大財貿高官都來了

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

黃圣依首曝初戀是賈乃亮 仍經常聯系

財經要聞

泡泡瑪特王寧成“河南新首富”

科技要聞

一文看懂WWDC:蘋果發布"十年一遇"設計革命

汽車要聞

定位6座大型SUV 吉利銀河M9有望年內上市

態度原創

旅游
藝術
本地
數碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

數碼要聞

蘋果智能將在年內支持繁體中文 中國內地AI服務上線時間仍待定

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 巴南区| 玉门市| 姚安县| 景谷| 澄城县| 广安市| 宿松县| 栾川县| 平阴县| 贵州省| 盐池县| 虎林市| 萍乡市| 南宁市| 长顺县| 新晃| 灵寿县| 静乐县| 乌拉特中旗| 渭源县| 乃东县| 松潘县| 云南省| 临清市| 荥阳市| 临沂市| 镇赉县| 龙口市| 漳浦县| 来安县| 灯塔市| 临汾市| 渭源县| 南溪县| 荣成市| 调兵山市| 阜南县| 轮台县| 林周县| 南岸区| 徐州市|