近年來,大型語言模型(LLMs)在諸如安全對齊、指令微調等領域均取得了卓越表現。然而,在對這些模型進行持續訓練時,人們經常觀察到舊任務性能的驟降。傳統觀點往往將其歸結為災難性遺忘。但我們的最新研究發現,這種表觀遺忘實際上是一種虛假遺忘——在大多數情況下,模型對舊任務的潛在知識依然完好,只是任務對齊在新任務初期的學習過程中遭到了破壞。
論文標題: Spurious Forgetting in Continual Learning of Language Models 論文鏈接: https://openreview.net/forum?id=ScI7IlKGdI 代碼鏈接: https://github.com/zzz47zzz/spurious-forgetting
一、引言:為什么說“大模型遺忘”有時是一種假象?
盡管大型語言模型(LLMs)在眾多任務上展現出卓越的能力,但近年來的研究表明,它們在持續學習場景下往往遭遇嚴重的“災難性遺忘”。也就是說,模型在學習新任務時,舊任務的性能會出現急劇下降。然而,我們在研究中觀察到了一種出人意料的現象:
即使模型在單一任務上進行了大規模訓練,當引入新任務時,舊任務的性能仍然可能驟降。
圖1. 部分場景下,新任務訓練導致舊任務性能暴跌;但只需極少量(甚至非原數據)的微調就能將其恢復
這一現象在安全對齊和持續指令微調等場景中尤為明顯。例如,在安全對齊中,LLM 在超過 10 萬條安全數據上微調后,本應具備穩健的安全能力。然而,僅需 10 條“身份轉換”樣本(Identity Shift Examples),就能導致其安全性從 100% 下降到 0%!更令人驚訝的是,若隨后使用極少量的拒絕示例進行微調,安全能力又能迅速恢復到 99% 以上。
類似地,在 TRACE 持續指令微調基準測試中,模型在新任務上的優化會導致舊任務準確率驟降。然而,隨著訓練繼續,或者僅引入少量舊任務數據,舊任務性能又會回彈至相當高的水平。這使我們深思:模型是否真的“遺忘”了舊任務知識,還是僅僅在新任務對齊時失去了原有的任務對齊能力?
1.1 虛假遺忘假設
我們提出虛假遺忘概念,重新審視“遺忘”現象。我們假設,模型的任務表現由兩個關鍵因素組成:
換句話說,任務性能的下降可能并非由于舊知識的遺忘,而是模型在新任務初期喪失了對舊任務的任務對齊能力。
為了驗證這一假設,我們設計了一系列嚴格可控的實驗,包括合成數據實驗和理論分析,以區分“真正遺忘”和“虛假遺忘”的影響因素。
1.2 核心發現
前 150 步訓練時,舊任務性能的斷崖式下滑:新任務初期,新舊任務的梯度沖突最為強烈,導致舊任務對齊遭到破壞,表現舊任務性能劇烈下跌。
兩階段更新的正交性導致對齊沖突:在順序微調的情況下,新任務與舊任務的對齊方向直接是正交的,導致學習新任務時,舊任務的對齊無法被恢復,從而導致災難遺忘。
潛在知識依然存在,稍加微調即可恢復:如果是真正被摧毀,性能很難快速重回高點。但實測發現,少量舊數據或繼續訓練幾步,就可讓舊任務性能迅速回升。
凍結底層參數(Freeze)可顯著緩解“虛假遺忘”:與現有正則化(EWC)、模型合并(Task Vector)、梯度投影(Gradient Projection)、生成式回放(LAMOL)等方法相比,凍結底層參數是成本極低又行之有效的策略。
二、研究動機:安全對齊 & 持續指令微調中的虛假遺忘現象
2.1 安全對齊實驗
我們復現了 AOA(Absolutely Obedient Agent)對齊攻擊實驗,該實驗在 LLaMa-2-7B-Chat 模型上進行了如下操作:
第一階段:在 10 萬條安全數據上訓練 LLaMa-2-7B-Chat,使其安全性能達到 100%(Jailbreak 率降至 0%)。
第二階段:僅用 10 條身份轉換攻擊數據進行微調 10 輪,導致安全性能直接降為 0%。
第三階段:使用 10 條拒絕樣本進行微調,安全性能迅速恢復至 99%。
這一現象表明,在缺少舊任務對齊數據的情形下,模型的安全能力一度“消失”,但其實只是短期喪失了對安全指令的對齊而已。
2.2 持續指令微調實驗
在 TRACE 基準測試中,我們使用 LLaMa-3-8B-Instruct 復現了持續指令微調現象,發現:
舊任務的準確率在訓練新任務時大幅下降,甚至接近 0%。
當繼續訓練一段時間或回放少量舊任務數據時,舊任務準確率又可回升至較高水平。
這些現象強烈暗示:模型的舊任務知識很可能還“留在”參數中,但由于缺少同步訓練或底層穩定措施,舊任務的對齊方式被破壞,導致“虛假遺忘”的出現。
三、深入剖析:合成數據實驗如何揭示“虛假遺忘”本質?
為排除真實數據中可能存在的知識重疊或噪音因素,我們在論文中精心構造了名為 Biography 的合成數據集,并在其中進行了從零開始的可控實驗,以從性能、損失地形、模型權重更新與特征表示四大視角剖析“虛假遺忘”。
3.1 Biography 合成數據集與實驗設置
數據構造:我們構造了名為 Biography 的合成數據集,共包含 20 萬個虛擬人物,每個人物有 6 個屬性(如生日、大學、公司等)。該數據集分為兩部分:
預訓練數據:如圖 2 所示,格式為“Curtis Chase Emley 出生于 1952 年 5 月 28 日”一類的描述性語句;
微調數據:如圖 3 所示,格式為“Curtis Chase Emley 的生日是?答案:1952 年 5 月 28 日”一類的 QA 問答樣式,方便我們監控模型在問答場景下的準確率。
圖2. Biography中的預訓練數據示例
圖3. Biography中的QA數據示例
持續訓練流程:
Pretraining:先用 10 萬個人物的描述性語句對模型進行預訓練,直到預訓練損失收斂;
Task 0:隨后用與這 10 萬人物相關的 QA 數據進行微調,使模型在“已知人物”的問答準確率達到近 100%;
Task 1:再加入 2 萬個新人物的描述與 QA 數據,持續訓練,觀察其對舊任務 (Task 0) 的影響。在整個過程中,我們使用較小的學習率(如 )并訓練足夠長的步數(6 萬多步),以確保模型充分學習。
圖4. 持續學習流程:先進行預訓練,再依次學習Task 0和Task 1
為什么選用合成數據?對于真實數據(如 TRACE),預訓練與微調數據之間可能存在復雜的重疊;不同任務之間也可能共享部分知識,或引入噪音干擾。合成數據能夠嚴格劃分舊任務與新任務的知識域,并讓我們精準地分離“潛在知識”與“任務對齊”的影響。此外,通過從零開始的訓練,我們可以徹底排除模型原生的預訓練干擾,令實驗更具可控性。
3.2 僅150步,舊任務準確率從100%狂跌到10%?
如下圖所示,模型在開始學習新任務 (Task 1) 后,舊任務在前 150 步內的準確率從100%急劇下降至僅10%左右:
圖5. 在前150步訓練中,舊任務準確率斷崖下跌;但用少量舊數據微調后能回到96%+
但是,當我們嘗試使用少量舊任務數據對模型再微調 1 個 epoch 后,舊任務的準確率竟能從 10% 一下恢復到 96% 以上!為此,我們在實驗中專門設計了恢復實驗(如圖 6 所示),即在不同階段(如訓練剛開始、訓練若干步后、訓練結束時)都嘗試用一半的舊數據微調并用另一半舊數據測試。
圖6. 恢復實驗:用一半舊數據微調,測評另一半舊數據是否被“記得”
實驗結果如圖 5 所示:即便舊任務表現看似崩潰,只要進行簡短的微調就可以讓舊任務的表現回到高水準,這正是虛假遺忘的核心特征。這強烈表明,模型的舊知識并未被徹底毀滅;它只是丟失了舊任務的對齊方式。隨著少量舊數據或繼續訓練幾步,就能讓舊任務再次與模型建立對齊。
3.3 損失地形視角:為什么是“前150步”最關鍵?
為了進一步揭示舊任務性能驟降發生在前 150 步的根源,我們對 Task 0 和 Task 1 的損失函數在模型權重更新方向上的變化進行了可視化(如下圖所示)。
圖7. 順序微調(SEQ)在 Biography 數據上的損失地形。從圖中可見,新任務(下方)損失在前期大幅下降,舊任務(上方)損失卻陡升
這里的可視化方法是選取 2 個關鍵的更新方向:1)新任務初期 150 步的更新方向和 2)150 步之后到訓練結束的更新方向,并在這個二維空間中繪制舊任務和新任務各自在不同權重位置的損失分布。
訓練初期(前 150 步):為了快速學到新任務(Task 1)的對齊,模型參數會在與 Task 0 的對齊方向“相反”的梯度方向上大幅更新(縱軸方向上向上更新),使新任務損失快速下降。但同時也消解(Undo)了舊任務的對齊,導致舊任務損失大幅上升;
訓練后期(150 步后):模型逐漸同時學習新任務對齊(未在圖中體現)與新任務知識(橫軸方向向右更新),舊任務的對齊(縱軸方向上向下更新)在新任務學習過程當中有所恢復,但無法自動回到原先 100% 的性能。
新任務對齊未在圖中體現說明新舊任務的對齊方向是正交的,因此學習新任務對齊沒有辦法同時對齊到舊任務,這也就最終導致了最終舊任務知識存在但是無法被利用的“虛假遺忘”現象。我們提供一個示意圖在圖 8。
圖8. 在順序微調(SEQ)下,新舊任務對齊方向相互正交;當使用回放或凍結底層參數時,兩者更易協同對齊3.4 權重更新:底層參數在兩階段更新的方向相互正交
進一步地,我們比較了不同訓練階段的權重更新方向夾角,重點關注底層嵌入層(Embedding)、注意力層(Attention)和前饋層(MLP)等關鍵模塊。結果發現:
在新任務的前 150 步(藍色):模型權重更新與舊任務的更新方向非常接近,意味著此時的更新主要是“消解(Undo)”舊任務對齊;
在新任務后續訓練階段(橙色):底層的權重更新方向與之前的更新幾乎正交。還記得,我們剛剛提到,模型在 Task 1 開始時主要是“消解(Undo)”舊任務對齊,而后續訓練,主要是同時學習新任務對齊與新任務知識。因此,兩階段的更新方向相互正交說明,(a) 學習新任務對齊沒有辦法同時對齊到舊任務,(b) 而且罪非禍首是源自于底層參數。
圖9. 舊任務 (Task 0) 與新任務 (Task 1) 不同階段權重更新方向的夾角對比,顏色代表不同類型的模型參數(embedding、attention、MLP等)3.5 特征視角:自底向上的偏移
從特征表示的角度,我們研究了在不同訓練階段,各層 Transformer 的隱藏狀態主成分是如何變化的。主要結論如下:
新任務初期 (Step 0 - Step 150):主要的特征漂移源自底層參數的漂移,并且向上層逐步傳遞;
新任務后期 (Step 150 - Step Final):150 步之后的特征漂移會與前 150 步的漂移相抵消,從而使最終的特征在原來主成分方向上幾乎保持不變;但這并不意味著舊任務對齊被重新學習到,而是說明舊知識的底層表示仍然存在,只是舊任務對齊需要重新構建。
圖10. 不同訓練階段,底層與上層特征在原主成分方向上的偏移
這一結果也與“少量微調即可恢復舊任務”的實驗現象相吻合:雖然表面上似乎“忘掉”了舊任務,但特征仍潛藏著相關知識,只是舊任務的對齊方式被暫時“忘記”。
四、理論分析:兩階段更新的正交性為何導致虛假遺忘?
在簡化的多層殘差網絡框架下,我們從理論上證明了兩階段更新方向正交時:
對齊被破壞但知識仍在:兩階段更新方向正交時,輸出特征在原來主成分方向上保持不變,這意味著舊任務對齊被遺忘但是舊任務知識仍然可能不受影響
深層放大效應:輸出特征的偏移量會在多層網絡結構中逐層放大,最終導致完全喪失舊任務的對齊,從而導致舊任務性能斷崖下跌。
凍結底層層數的有效性:如果在新任務訓練時將底層參數凍結(Freeze),就可以在很大程度上可以減少頂層輸出特征的漂移,阻止對舊任務對齊的破壞,從而顯著緩解“虛假遺忘”。
這些推導與我們的實驗證據相互印證,表明虛假遺忘的根源在于:學習新任務初期丟失的舊任務對齊由于兩階段更新的正交性導致舊任務對齊無法被恢復。
圖11. 理論分析1:對齊被破壞但知識仍在,深層放大效應
圖12. 理論分析2:凍結底層層數的有效性
五、現有方法局限與“凍結底層參數”策略
5.1 常見持續學習方法何以失效?
為檢驗已有方法能否有效避免大模型中的虛假遺忘,我們選取了四類主流持續學習方法在 Biography 數據集上進行系統評測:
EWC (Elastic Weight Consolidation):基于正則化;
LAMOL (生成式回放):嘗試讓模型自己“生成”虛擬的舊任務數據;
Task Vector (模型合并):通過向量疊加或抵消來合并新舊任務參數;
Gradient Projection (梯度投影):將新任務梯度投影到與舊任務沖突最小的方向上。
而,結果發現,它們都無法顯著阻止前 150 步對舊任務對齊的破壞:
EWC:無法精準定位到底層的關鍵對齊參數,使其在梯度沖突最劇烈的時期效果有限;
LAMOL:生成的舊數據質量往往不高,包含幻覺或不正確示例,無法幫助模型準確重建舊任務對齊;
Task Vector:難以在最初 150 步劇烈沖突的梯度中找到平衡的合并點;
Gradient Projection:初期的消解(Undo)對齊方向過于復雜,固定或單一方向的梯度投影無法對其進行有效避免。
圖13. (b)-(e):常見持續學習方法在 Biography 數據集上的局限性5.2 少量數據回放(Data Replay)
在我們的實驗中,若能存儲并回放一部分舊任務數據,與新任務一起進行混合訓練,則可以一定程度上防止模型在前 150 步內“消解(Undo)”舊任務對齊,從而讓舊任務的性能不至于暴跌到個位數。但其局限也很明顯:需要額外的舊數據存儲,對于隱私或規模極大的場景并不適用。
然而,回放數據本質上只是讓模型在訓練新任務的同時持續提醒自己:別忘了舊任務對齊(也如圖 8 所示)。這一思路也與我們的理論分析相吻合,說明只要能“保留”或“重新對齊”舊任務,虛假遺忘就能被顯著緩解。
圖14. 損失地形可視化。混合 20% 舊數據回放時,損失地形更加平滑,而且回放數據能夠幫助模型在對齊Task1的時候,重新對齊Task05.3 凍結底層參數(Freeze):簡單高效
當無法使用舊數據時,“凍結底層參數”無疑是一種近乎“免費”的策略。它在 Biography 數據集上的實驗結果表明:通過凍結包括嵌入層等若干底層參數,可將“順序微調 (SEQ)”下舊任務的準確率從 11% 提升至 44%,而新任務的準確率仍可保持在 99% 以上——一舉兩得。
具體做法:在新任務訓練時,保持底層若干層(如前 6 層或前 8 層,包括輸入嵌入層)固定不變,僅更新模型后續的參數。
效果與局限:
顯著防止對舊任務對齊的過度破壞;
若凍結層數太多,會犧牲對新任務的適應能力,需要在“穩定”與“靈活”之間平衡。
我們在實驗中還發現,若結合早期停止 (Early Stopping)等技巧,可以進一步提升舊任務保留能力:在確認新任務精度已經達到理想后,過多訓練反而會讓對舊任務的對齊被“磨損”,此時可適時停止訓練。
圖15. Biography 數據集上,凍結不同數量的底層層數時,舊任務 (Task 0) 和新任務 (Task 1) 的準確率對比
與基于數據回放的方法相比,凍結底層不需要額外存儲舊數據,操作也十分簡單,可謂是緩解大模型“虛假遺忘”的一劑“免費午餐”。
六、真實場景實驗:安全對齊、指令微調、知識編輯與增量學習
為了驗證我們提出的“凍結底層參數 (Freeze)”策略是否適用于真實應用場景,我們在四種典型的持續學習任務中做了實驗:
安全對齊(SA):利用身份轉換樣本進行攻擊;
持續指令微調(CIT):TRACE 基準,涵蓋 QA、翻譯、代碼、數學等多樣任務;
持續知識編輯(CKE):例如在 ZSRE 數據集上,對知識進行增量更新;
實例增量學習(IIL):在 Concept-1K 數據集上對新概念進行問答增量。
實驗結果均顯示,凍結底層參數可以在很大程度上保持舊任務性能,同時對新任務的精度也沒有太大損失。例如:
SA (安全對齊):凍結 6 層后,模型在新任務中的“被攻擊成功率” (Jailbreak Rate) 可由 99.8% 大幅降至 1.15%,即舊任務(安全性)得到顯著保留;
CIT (持續指令微調):在多個任務的指令場景中,凍結 3 層即能明顯減少舊任務崩潰,新任務仍能維持高效對齊;
CKE (持續知識編輯):當新舊知識格式較為相似時,虛假遺忘更易發生;凍結底層參數同樣能夠減輕舊知識的“假性遺忘”;
IIL (實例增量學習):在 Concept-1K QA 場景中,凍結 2 層后,舊概念問答準確率顯著提升,兼顧了新概念學習。
圖16. 在多項真實場景持續學習基準中,凍結底層參數能顯著提升舊任務保持率,新任務準確率仍維持高水準
此外,我們還在數學推理、代碼 SFT等更多場景中測試了凍結策略,均能有效緩解對舊任務的虛假遺忘,且不需要舊數據儲存,展現了其通用性和高效性。
圖17.(左):在數學推理場景的連續微調(右):在代碼生成場景的連續微調。均可觀察到凍結底層參數能大幅緩解舊任務性能下滑
七、與現有研究的呼應:LLM對抗遺忘能力的再審視
值得注意的是,我們的發現與 Zheng et al. (2024) 的研究結論高度一致。他們的研究表明,LLM 具有較強的對抗遺忘能力,即在持續學習過程中,模型能夠在一定程度上保留舊任務的知識。我們的研究在此基礎上進一步拓展,揭示了“虛假遺忘”現象的普遍性,并從多個維度深化了對這一問題的理解:
任務場景的拓展:我們從 Zheng et al. (2024) 當中狹義的連續學習的分類任務場景(如連續文本分類、連續 NER、連續關系抽取)延伸至廣義的連續學習場景,包括連續指令微調、對齊任務、代碼生成以及數學推理的 SFT(Supervised Fine-Tuning)場景。
這一拓展表明,“虛假遺忘”現象不僅存在于分類任務中,也廣泛存在于生成任務中。生成任務中的虛假遺忘現象尤為顯著,因為生成任務通常需要模型在多個任務之間靈活切換,而任務對齊能力的喪失會直接導致生成質量的下降。
模型架構的探索:我們從 Zheng et al. (2024) 中解耦分類器與 LLM Backbone 的角度出發,延申到了解耦了任務對齊能力與潛在知識的關系。研究表明,模型在持續學習過程中,潛在知識并未被完全破壞,而是任務對齊能力受到了干擾。
這一發現表明,LLM 的強對抗遺忘能力不僅局限于分類任務,也不局限于需要額外分類頭的模型架構。即使在沒有顯式分類頭的生成任務中,LLM 依然能夠通過調整任務對齊能力來適應新任務,而不會完全丟失舊任務的知識。
模型規模的驗證:我們從 Zheng et al. (2024) 的410M 的Pythia,BERT,GPT2擴展到了LLaMa3、Qwen2.5等更先進的大規模語言模型。結果表明,隨著模型規模的增加,LLM 對抗遺忘的能力顯著增強。
大規模模型在持續學習中的表現尤為突出,它們不僅能夠更好地保留舊任務的知識,還能在新任務的學習過程中保持較高的任務對齊能力。這一發現進一步驗證了我們可能低估了 LLM 在持續學習中的潛力,尤其是在大規模模型的應用場景中。
這一系列研究揭示了 LLM 在持續學習中的強大能力,同時也為未來的模型設計和訓練策略提供了新的思路。未來的研究方向可以進一步探索如何在大規模模型中更有效地利用任務對齊能力,以提升模型在多任務學習中的表現。
圖18. 我們的發現與Zheng et al. (2024)與的研究結論相呼應
八、總結與展望
重新定義“遺忘”:本文挑戰了災難性遺忘在大模型中的普適性,提出“虛假遺忘”概念,指出許多性能下滑實為對齊喪失而非知識消失。
底層參數是關鍵:理論與實驗均顯示,下層參數的更新對舊任務對齊破壞最大,需重點關注。
凍結策略簡單有效:當無法儲存舊數據時,通過凍結底層參數能在很大程度上保留舊任務表現,無需額外數據或復雜設計。
未來工作:凍結策略與直接保存舊數據進行回放仍然存在差距,未來可以摸索更加高效,適用于LLM,且不依賴舊數據的連續學習算法。
[1] Qi et al. (2024). Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend to! (ICLR 2024).
[2] Wang et al. (2023). TRACE: Continual Instruction Tuning of Language Models.
[3] Zheng et al. (2024). Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Models. (ACL 2024 Oral).
來源: 公眾號【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀看!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.