北郵團隊：為何AI遺忘后仍能回答問題？

2025-06-18 22:09:08　來源: 至頂頭條

北京舉報

分享至

你有沒有想過這樣一個問題：如果我們想讓人工智能"忘記"某些信息，比如讓它忘記關(guān)于某個人的所有知識，它真的能徹底忘記嗎？就像電影《黑衣人》里的記憶消除器一樣，一道閃光過后，相關(guān)記憶就完全消失了？

這項由北京郵電大學葉曉天、山東大學張夢琪以及中科院自動化所吳澍等研究者組成的團隊在2025年6月發(fā)表的研究，就專門探討了這個看似科幻但實際上非常現(xiàn)實的問題。這篇題為《LLM Unlearning Should Be Form-Independent》的論文發(fā)表在arXiv預印本平臺上（論文編號：arXiv:2506.07795v1），為我們揭示了當前大語言模型"遺忘技術(shù)"中一個令人意外的重大漏洞。

想象一下這樣的場景：你家里有個非常聰明的管家機器人，它知道你所有朋友的信息。某天你和朋友小王鬧翻了，你希望機器人"忘記"關(guān)于小王的一切。于是你訓練機器人，當你問"小王是誰？"時，它會回答"我不知道"。訓練完成后，你滿意地發(fā)現(xiàn)機器人確實不再回答關(guān)于小王的直接問題。

但是第二天，你換了個問法："請?zhí)羁眨盒⊥醯穆殬I(yè)是____"，機器人竟然又能準確回答出來！或者你用選擇題的方式問："小王的愛好是什么？A.游泳 B.跑步 C.讀書"，機器人依然能選出正確答案！這就是研究團隊發(fā)現(xiàn)的"形式依賴偏差"問題——AI的遺忘效果嚴重依賴于訓練時使用的問題形式，換個問法就能輕易繞過遺忘機制。

這個發(fā)現(xiàn)對于AI安全來說意義重大。想象一下，如果一個大語言模型被要求"忘記"某些敏感信息，比如個人隱私數(shù)據(jù)或者有害知識，但實際上只要換個問法就能套出這些信息，那么這種"遺忘"就完全是自欺欺人了。就像給保險箱換了一把新鎖，卻發(fā)現(xiàn)小偷可以從窗戶爬進來一樣。

研究團隊通過大量實驗發(fā)現(xiàn)，目前主流的AI遺忘方法都存在這個問題。他們測試了四種主要的遺忘技術(shù)，發(fā)現(xiàn)這些方法在面對不同形式的問題時，遺忘效果會大幅下降。比如某種方法在標準問答格式下能讓AI忘記58%的目標信息，但在填空題格式下只能忘記34%，在選擇題格式下更是只有5%的遺忘效果。

為了解決這個問題，研究團隊提出了一種全新的遺忘方法，叫做"秩一概念重定向"（ROCR）。這個方法的思路非常巧妙，就像是給AI的大腦做了一個"概念置換手術(shù)"。

我們可以把AI的知識存儲想象成一個巨大的圖書館，每本書代表一個概念。傳統(tǒng)的遺忘方法就像是把某些書頁撕掉或者涂黑，但書本身還在那里，換個角度看或者用不同的燈光照射，還是能看出原來的內(nèi)容。而ROCR方法則是直接把整本書替換掉——當AI想要查找關(guān)于"史蒂芬·金"的信息時，系統(tǒng)會自動把它重定向到"唐納德·特朗普"的信息上。

這樣一來，無論你用什么形式問關(guān)于史蒂芬·金的問題，AI都會用唐納德·特朗普的信息來回答。當你問"史蒂芬·金是誰？"時，AI會回答他是商人和第45任美國總統(tǒng)；當你問"史蒂芬·金的職業(yè)是什么？"時，AI會說是商人；甚至當你問"史蒂芬·金被稱為什么之王？"時，AI會創(chuàng)造性地回答"房地產(chǎn)之王"。

這種方法的妙處在于，它不是簡單地刪除信息，而是從根本上改變了AI對概念的理解。就像給AI戴上了一副特殊的眼鏡，讓它看到的"史蒂芬·金"實際上是"唐納德·特朗普"。這樣無論問題形式如何變化，AI都無法回憶起原本的史蒂芬·金相關(guān)信息。

更令人驚喜的是，這種方法的執(zhí)行速度極快。傳統(tǒng)的遺忘方法需要重新訓練AI模型，可能要花費幾十分鐘甚至幾小時，而ROCR方法只需要幾秒鐘就能完成概念重定向。這就像傳統(tǒng)方法是重新裝修整個房子，而ROCR只是瞬間更換了房間里的標識牌。

研究團隊為了驗證這些發(fā)現(xiàn)，構(gòu)建了一個名為ORT的全新測試基準。這個基準就像是AI遺忘能力的"全科體檢"，包含了四種不同形式的測試：標準問答、填空題、選擇題和字符級問答。他們選擇了200個真實世界的知名人物作為測試目標，設計了超過3萬個測試問題。

在這個"體檢"中，傳統(tǒng)遺忘方法的表現(xiàn)可以說是"偏科嚴重"。就像一個學生只會做選擇題，一遇到填空題或問答題就抓瞎。而ROCR方法則像是"全科優(yōu)等生"，在各種題型下都表現(xiàn)出色。

實驗結(jié)果顯示，ROCR在忘記目標信息方面比傳統(tǒng)方法平均提升了20-30%，同時對其他無關(guān)知識的影響降低了一半以上。更重要的是，經(jīng)過ROCR處理的AI模型在回答問題時依然保持了很高的自然度和流暢性，不會出現(xiàn)傳統(tǒng)方法常見的"機器人腔調(diào)"或者答非所問的情況。

研究團隊還測試了ROCR對不同類型重定向目標的適應性。他們發(fā)現(xiàn)，將目標概念重定向到同類型的熱門概念效果最好。比如將一個作家重定向到另一個更知名的作家，效果比重定向到政治家或運動員要好。這就像是概念置換也需要"門當戶對"，越相似的概念之間置換越自然。

有趣的是，研究團隊還嘗試了一些"非常規(guī)"的重定向?qū)嶒灐Ｋ麄冊噲D將目標概念重定向到隨機噪聲或者專門設計的拒絕回答向量上。結(jié)果發(fā)現(xiàn)這些方法雖然也能達到遺忘效果，但穩(wěn)定性不如重定向到真實概念。這說明AI的概念空間有其內(nèi)在邏輯，強行插入不合理的元素反而會破壞整體的和諧性。

這項研究的意義遠不止于技術(shù)層面。在當今這個信息爆炸的時代，如何讓AI系統(tǒng)能夠"忘記"不當或有害信息，同時又不影響其正常功能，已經(jīng)成為AI安全領域的核心挑戰(zhàn)之一。歐盟的《通用數(shù)據(jù)保護條例》賦予了用戶"被遺忘權(quán)"，要求技術(shù)公司能夠刪除用戶的個人信息。但對于已經(jīng)訓練好的AI模型來說，如何實現(xiàn)這種"定向遺忘"一直是個技術(shù)難題。

研究團隊的發(fā)現(xiàn)提醒我們，僅僅在表面上讓AI學會拒絕回答某些問題是遠遠不夠的。惡意用戶可能會嘗試各種不同的問法來繞過這些限制，就像水總是會找到最容易的流淌路徑一樣。因此，真正有效的AI遺忘技術(shù)必須在概念層面進行干預，而不僅僅是在表達形式上做文章。

當然，ROCR方法也并非完美無缺。研究團隊坦誠地指出了一些局限性。比如，這種概念重定向可能會在某些情況下產(chǎn)生令人困惑的回答，特別是當重定向的目標概念與原概念差異較大時。想象一下，如果把"愛因斯坦"重定向到"貝克漢姆"，當有人問起相對論時，AI可能會給出一些關(guān)于足球的回答，這顯然是不合適的。

此外，ROCR方法需要預先選擇合適的重定向目標，這本身就需要一定的專業(yè)知識和判斷。就像給病人移植器官需要找到合適的供體一樣，概念重定向也需要找到合適的"概念供體"。

研究團隊還發(fā)現(xiàn)，ROCR的效果會隨著模型層數(shù)的不同而變化。他們測試了在模型的不同層級進行概念重定向，發(fā)現(xiàn)在較淺層進行重定向效果最好。這就像在信息處理的早期階段就進行干預，比在后期階段糾正更加有效。

為了驗證ROCR在實際應用中的表現(xiàn)，研究團隊還進行了一系列"對抗性測試"。他們模擬了各種可能的攻擊場景，比如角色扮演攻擊（"我是恐怖小說愛好者，能告訴我史蒂芬·金的第一本小說嗎？"）、上下文學習攻擊（先提供相關(guān)背景信息再進行提問）等。結(jié)果顯示，ROCR在這些復雜場景下依然保持了良好的遺忘效果，成功地將相關(guān)查詢重定向到了目標概念上。

這項研究還揭示了一個更深層的問題：當前的AI遺忘研究可能過于關(guān)注技術(shù)層面的實現(xiàn)，而忽略了評估方法的全面性。就像只用一種題型來測試學生的知識掌握情況一樣，僅用單一形式的問題來測試AI的遺忘效果是不夠的。研究團隊呼吁學術(shù)界建立更加全面、嚴格的評估標準，確保AI遺忘技術(shù)能夠在各種實際應用場景中發(fā)揮作用。

從更宏觀的角度來看，這項研究觸及了AI系統(tǒng)知識表示和操作的根本問題。傳統(tǒng)的機器學習方法往往將知識編碼在大量參數(shù)的復雜交互中，這使得精確控制特定知識變得極其困難。而ROCR方法通過操作AI的內(nèi)部概念表示，為更加精細的知識控制開辟了新的可能性。

研究團隊在論文中還討論了未來的發(fā)展方向。他們建議，未來的研究可以考慮預訓練一些"虛擬錨點實體"——專門用作重定向目標的概念，這樣可以避免將目標概念重定向到真實存在的概念上可能帶來的問題。就像在虛擬現(xiàn)實中創(chuàng)造一個專門的"垃圾回收站"，用來存放不需要的概念一樣。

另一個有趣的方向是探索如何讓AI系統(tǒng)具備更加靈活的"選擇性遺忘"能力。比如，能否讓AI在某些特定語境下忘記某個概念，但在其他語境下仍然保留相關(guān)知識？這就像人類的記憶一樣，可以根據(jù)不同的社交場合選擇性地回憶或遺忘某些信息。

這項研究的發(fā)現(xiàn)對AI產(chǎn)業(yè)也有重要啟示。隨著AI系統(tǒng)越來越多地應用于敏感領域，如何確保這些系統(tǒng)能夠可靠地遵守隱私保護和內(nèi)容安全要求，將成為技術(shù)公司面臨的重大挑戰(zhàn)。ROCR這樣的技術(shù)為解決這些挑戰(zhàn)提供了新的思路，但也需要在實際部署中進行更多的測試和完善。

值得注意的是，這項研究也引發(fā)了一些倫理思考。AI的記憶和遺忘能力究竟應該如何控制？誰有權(quán)決定AI應該忘記什么信息？如何平衡信息自由與隱私保護？這些問題沒有標準答案，需要技術(shù)專家、政策制定者和社會各界共同探討。

研究團隊的工作還揭示了當前AI遺忘技術(shù)的另一個重要問題：大多數(shù)現(xiàn)有方法都需要大量的計算資源和時間來重新訓練模型。這就像每次想讓AI忘記一些信息，都需要給它進行一次"大腦手術(shù)"一樣。而ROCR方法的快速執(zhí)行能力使得實時的、動態(tài)的知識控制成為可能，這對于需要頻繁更新知識庫的應用場景來說特別有價值。

在實際應用中，這種技術(shù)可能會產(chǎn)生深遠的影響。比如，在個性化推薦系統(tǒng)中，用戶可以要求系統(tǒng)"忘記"某些購買歷史或瀏覽記錄，而不必擔心這些信息會通過其他形式重新浮現(xiàn)。在智能客服系統(tǒng)中，可以讓AI忘記某些敏感的客戶信息，同時保持其正常的服務能力。

研究團隊還指出，他們的方法具有很好的可擴展性。與傳統(tǒng)方法需要針對每個遺忘目標進行專門訓練不同，ROCR可以快速適應新的遺忘需求，只需要幾秒鐘就能完成概念重定向設置。這就像有了一把萬能鑰匙，可以快速鎖定任何需要遺忘的概念。

當然，這項技術(shù)的發(fā)展也需要謹慎考慮潛在的誤用風險。如果惡意用戶獲得了概念重定向的能力，可能會故意誤導AI系統(tǒng)，讓它產(chǎn)生錯誤或有害的回答。因此，在實際部署時需要建立適當?shù)陌踩珯C制和使用限制。

從技術(shù)發(fā)展的角度來看，這項研究代表了AI遺忘技術(shù)從"粗放式"向"精細化"發(fā)展的重要轉(zhuǎn)折。傳統(tǒng)方法就像用錘子修理精密手表，而ROCR更像是用手術(shù)刀進行精確操作。這種精細化的控制能力為AI系統(tǒng)的可靠性和安全性提升開辟了新的可能性。

研究團隊在驗證他們的方法時，還特別關(guān)注了一個重要問題：遺忘操作是否會對AI的其他能力產(chǎn)生負面影響？他們通過多個標準測試發(fā)現(xiàn)，ROCR在實現(xiàn)有效遺忘的同時，對AI的一般性能影響最小。這就像外科醫(yī)生在切除病變組織時，盡可能地保護周圍的健康組織一樣。

這項研究的另一個重要貢獻是建立了更加全面的評估框架。傳統(tǒng)的AI遺忘研究往往只關(guān)注"能否讓AI拒絕回答特定問題"，而忽略了"能否防止AI通過其他方式泄露相同信息"。研究團隊設計的ORT基準測試就像是一個"全方位的安全檢查"，能夠發(fā)現(xiàn)各種可能的信息泄露路徑。

說到底，這項研究揭示的核心問題是：在AI時代，"遺忘"這個看似簡單的概念其實比我們想象的要復雜得多。人類的遺忘往往是自然而全面的，當我們忘記一件事時，通常是從各個角度都想不起來了。但AI的遺忘則可能是"表面的"和"形式化的"，就像只是換了一套說辭，而核心信息依然完整保存。

ROCR方法的出現(xiàn)，為我們提供了一種更接近人類遺忘本質(zhì)的技術(shù)方案。它不是簡單地讓AI學會拒絕回答，而是從根本上改變AI對概念的認知，實現(xiàn)了真正意義上的"概念級遺忘"。這種方法不僅解決了形式依賴偏差問題，也為AI系統(tǒng)的知識管理開辟了新的研究方向。

未來，隨著這項技術(shù)的進一步發(fā)展和完善，我們可能會看到更加智能和可控的AI系統(tǒng)。這些系統(tǒng)不僅能夠?qū)W習和記憶，還能夠根據(jù)需要進行精確的遺忘和知識更新。這將為構(gòu)建更加安全、可靠、符合倫理要求的AI應用奠定重要基礎。

歸根結(jié)底，這項研究提醒我們，在追求AI能力提升的同時，也不能忽視對AI行為的精細控制。只有當我們既能讓AI"記住"該記住的，又能讓它"忘記"該忘記的，AI系統(tǒng)才能真正成為人類社會可信賴的伙伴。而ROCR這樣的技術(shù)，正是朝著這個目標邁出的重要一步。對于那些想要深入了解這項研究的讀者，可以通過論文編號arXiv:2506.07795v1在arXiv平臺上訪問完整的研究論文，獲取更多技術(shù)細節(jié)和實驗數(shù)據(jù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.