網易首頁 > 網易號 > 正文申請入駐

TPAMI 2025 | 南大、南洋理工聯合提出PROOF：基于視覺語言模型的持續學習新范式

2025-04-23 08:24:53　來源: 將門創投

北京舉報

分享至

類別增量學習（CIL）或持續學習是智能系統在現實場景中亟需的關鍵能力，要求模型在持續學習新任務的同時保持原有知識的完整性。傳統 CIL 方法主要依賴視覺信息進行特征提取，而近年來興起的視覺-語言模型（VLM）通過融合文本模態數據，展現出更強的跨模態表征能力。

然而，當 VLM 在持續學習新類別時，往往會面臨災難性遺忘，因此將 VLM 應用于 CIL 面臨兩個主要挑戰：1）如何在不遺忘的情況下微調模型；2）如何充分利用多模態信息。為此，本文提出了PROjectiOn Fusion（PROOF），使 VLM 能夠在不遺忘的情況下學習。

為了應對第一個挑戰，本文通過凍結圖像/文本編碼器，并學習輕量化投影模塊，捕獲任務信息。在面對新任務時，擴展新的投影，同時固定舊的投影，緩解了對舊概念的遺忘。

針對第二個挑戰，本文提出了特征融合模塊，以更好地利用跨模態信息。通過同時調整視覺和文本特征，模型能夠更好地捕捉任務特定語義信息。在九個基準數據集上的廣泛實驗，涵蓋了各種持續學習場景，驗證了 PROOF 在性能上的領先優勢。

論文標題： Learning without Forgetting for Vision-Language Models 論文地址： https://arxiv.org/pdf/2305.19270 代碼鏈接： https://github.com/zhoudw-zdw/PROOF

一、引言

在這個不斷變化的世界中，訓練數據通常以流的形式出現，其中新類別的數據不斷涌現，這要求學習系統能夠持續學習它們。然而，在 CIL 中，由于在訓練過程中缺乏舊數據，持續學習新概念會覆蓋舊知識，導致性能下降。在機器學習領域，人們已經做出了許多努力來應對災難性遺忘。

近年來，CIL 研究從從頭開始訓練轉向利用預訓練模型（Pre-trained Models，PTM）。由于 PTM 本身已具備較強的泛化能力，能夠捕捉視覺特征。因此，面對增量學習時的領域差距，它們只需要學習少量的額外參數。

當前基于預訓練 ViT 的 CIL 方法側重于學習視覺特征以識別新概念，但視覺語言模型（Vision-Language Models，VLM）的最新進展已經展示了文本信息在構建泛化特征表示方面的潛力。

作為一個具有代表性的 VLM，CLIP 將視覺和文本信息映射到共享的嵌入空間中，從而能夠從不同模態穩健地學習和識別概念。這種視覺和文本模態的融合為開發能夠有效適應現實世界場景的持續學習模型提供了新的方向。

將 VLM 擴展到 CIL 面臨兩個重大挑戰。首先，順序化地微調 VLM 會覆蓋其固有的泛化能力和先前的概念，導致災難性遺忘。其次，僅依靠文本信息進行分類會忽略多模態輸入中存在的有價值的跨模態特征。因此，需要設計多模態融合機制，增強模型識別能力。

本文提出了投影融合（PROjectiOn Fusion，PROOF）方法，以解決 VLM 中的災難性遺忘問題。為了使模型能保留過去的知識，本文凍結了預訓練的圖像/文本主干網絡，并在輸出結果上附加線性投影層。面對新任務時，在凍結舊投影層的基礎上擴展新的投影層，從而保留先前的知識。

此外，本文通過跨模態融合整合不同模態的信息，從而使測試樣本特征能夠根據上下文信息進行調整。因此，PROOF 能夠高效地學習新類別，同時防止遺忘舊類別，并在九個基準數據集上取得了最先進的性能。除了持續圖片識別外，本文也在持續跨模態檢索任務中驗證了 PROOF 方法的有效性。本文的貢獻可以總結如下：

本文提出了一個通用框架，使預訓練的視覺-語言模型能夠持續學習新類別而不會發生災難性遺忘。
本文設計了一種新穎的投影融合機制，以增強模型的表征能力，并設計了一個跨模態融合模塊來編碼任務特定的信息。
PROOF 在九個基準數據集和一個非重疊數據集上達到了最先進的性能。得益于其通用性，PROOF 在持續跨模態檢索任務中也展現了強勁的性能，超越了其他前沿方法。

二、PROOF

圖1. PROOF 的模型架構

模型學習可擴展的投影并將它們相加以獲得聚合特征。輸入實例、原型特征、文本特征和上下文提示被輸入到跨模態融合模塊中。

該融合過程利用自注意力機制來融合多個輸入，并輸出融合后的特征。融合后的輸入樣本特征分別與視覺特征和文本特征中進行匹配，以獲得最終預測。紅色部分表示可訓練，而灰色部分表示凍結。

2.1 可擴展特征投影

CLIP 以其強大的 zero-shot 性能而聞名，即使在沒有對特定任務進行明確訓練的情況下，也能獲得具有競爭力的結果。

然而，鑒于預訓練任務與下游任務之間的分布差異，需要一個適應過程來捕捉后者的特征。具體而言，本文引入了一個線性層（稱為“投影”），它附加在凍結的圖像和文本編碼器之后，以促進成對投影特征的匹配。將視覺和文本端的投影層分別表示為

此時的 CLIP 預測結果表示為：

通過凍結圖像和文本編碼器，下游特征在投影空間中對齊，使得模型能夠將相關的下游信息編碼到投影層中。

由于預訓練模型輸出了可泛化的特征，投影層以數據驅動的方式學習重新組合這些特征。例如，在一個涉及“鳥類”的任務中，投影層會為“喙”和“翅膀”等特征分配更高的權重。這種適應使得投影后的特征能夠更好地識別下游任務。

然而，順序地訓練單個投影層仍然會導致先前任務的遺忘，這在結合舊概念和新概念時會導致混淆。為此，本文為每個新任務擴展特定任務的投影。具體來說，當新任務到來時，添加一個新的投影層。從而構造出一系列投影層：

本文采用所有投影后的特征聚合作為對應模態的特征輸出：

Eq.2 中來自不同階段的投影特征被映射并聚合，以捕捉先前任務和后續任務的不同側重點。例如，先前的任務可能強調用于鳥類識別的“喙”特征，而后續的任務可能專注于區分貓的“胡須”特征。

如何防止對先前投影的遺忘?

為了克服遺忘舊概念的問題，本文在學習新任務時凍結先前任務的投影，即：

這允許新初始化的投影學習新任務的殘差特征表示，在融入新概念的同時，保留先前任務的知識。

圖 1（左）展示了投影的示意圖。PROOF 基于預訓練的編碼器學習投影，能夠在適應新模式的同時保持預訓練模型的泛化能力。

每個投影層的參數數量是 d×d，與預訓練模型的參數量相比是很小的。每個新任務學習任務特異化的投影，使模型能夠有效捕捉新任務的特征。由于舊的投影被凍結，以前的知識得以保留，遺忘問題得以緩解。

2.2 投影融合機制

在 Eq.1 中，投影的視覺和文本特征直接在對齊后的空間中進行匹配。然而，進一步優化這些特征以捕捉圖像和文本之間的上下文關系，將有助于提升模型性能。

例如，當輸入實例是“熊貓”時，通過統一的方式調整視覺和文本特征，突出諸如黑色眼睛和耳朵等具有區分度的屬性，能夠顯著提高模型的性能。同樣，當輸入實例是“貓”時，應該強調胡須和尾巴等特征。

因此，本文提出了一種集合到集合（set-to-set）的函數，用于樣本特征和上下文信息。具體來說，本文將該函數表示為 T(?)。它接收樣本特征和上下文信息作為輸入集合，即

然后輸出調整后的特征表示集合。接下來，本文將描述上下文信息 Context 的構建，并提供集合到集合函數的實現

如何定義上下文？

在 Eq.1 中，建立了測試樣本特征和文本特征（即分類器）之間的映射。分類器是相應類別的文本特征。因此，一個簡單的方法是利用文本特征作為上下文（Context）：

然而，最近的研究工作發現，在視覺語言模型（VLM）中，視覺特征和文本特征之間存在固有的分布差異。這種差異導致視覺和文本特征在特征空間中分布在兩個不同的簇中，阻礙了有效的成對映射。因此，本文利用視覺原型特征作為捕捉每個類別共同特征的工具。本文將類別 k 的視覺原型定義為：

這些視覺原型在每個增量階段開始時通過前向傳播計算得到，并在后續任務中保持固定。視覺原型是相應類別的代表性特征，可以作為調整特征的上下文信息。因此，本文通過投影視覺信息來增強上下文，即 [P,W]，其中 P 為：

通過結合來自多種模態的特征，模型能夠以跨模態的方式融合信息，從而超越了簡單的視覺-文本匹配。

學習語境提示

除了視覺原型和文本分類器之外，本文還引入了一組可學習的上下文提示：

c 表示每個提示的長度。與投影層類似，本文使上下文提示具有可擴展性，以便捕捉新任務的新特征。在學習新任務時，本文會初始化一個新的上下文提示，并凍結之前的提示。這些上下文提示作為上下文信息，增強了協同適應性。上下文信息被構建為 :

利用自注意力實現 T

在本文的實現中，使用自注意力機制作為跨模態融合函數 T。由于自注意力具有排列不變性，它擅長輸出適應性特征表示，即使在存在長距離依賴的情況下也能很好地發揮作用。具體來說，自注意力機制中包含三元組權重（Q, K, V）。輸入被投影到相同的空間中，即：

對于 Q 和 V 也進行類似的投影。查詢 Q 與一系列 K 進行匹配，輸出是所有值的總和，這些值根據鍵與查詢點的接近程度進行加權：

融合過程對于上下文中的其他組件也是相同的。具體來說，有：

融合后的特征能反應上下文信息，記作：

跨模態融合的效果

圖1（右）展示了投影融合的示意圖。本文利用已見類別的視覺和文本特征作為上下文信息，以幫助調整特定實例的特征表示。有了上下文化信息的特征表示，本文可以進行視覺匹配和文本匹配：

在 Eq.5 中，模型通過與融合后的視覺和文本原型的相似性為測試實例分配 logits。跨模態匹配的引入改善了預測性能。請注意，Context C 僅將任務特定信息編碼到融合過程中，即它在 Eq.5 中不作為匹配目標。

2.3 總結

在 PROOF 中，首先通過投影映射學習新概念。為了在不遺忘先前概念的情況下學習新概念，為每個新任務初始化新的投影，并凍結之前的投影。

此外，本文利用自注意力融合的方式調整測試樣本特征和上下文信息的表示。圖 1 展示了三個匹配目標，即投影匹配（Eq.1）、視覺/文本匹配（Eq.5）。在訓練過程中，本文優化交叉熵損失：

在 Eq.6 中，所有預訓練的權重都被凍結，本文只優化這些額外的參數。在推理過程中，本文聚合這三個 logits 作為推理結果。

三、實驗3.1 數據集及其劃分

數據集：本文參考 CLIP 提示學習的 Benchmark，定義了利用 CLIP 進行類別增量學習的 9 個基準數據集與數據劃分，包含 CIFAR100、CUB200、ImageNet-R、ObjectNet、FGVCAircraft、Stanfordcars、Food101、SUN397、UCF101 共 9 個數據集。

數據集劃分：數據集的劃分表示為 Base-x, Inc-y，其中 x 代表第一階段中的類別數量，y 代表每個后續任務中的新類別數量。x = 0 表示每個任務包含 y 個類別。

3.2 實驗結果

在圖 2 中，本文將 PROOF 的性能與 CoOp、iCaRL、MEMO、L2P、DualPrompt、CODA-Prompt、DAP、PLOT 等方法進行了對比。從實驗結果中，本文得出以下三個主要結論：

在第一階段，PROOF 的性能優于典型的提示學習方法 CoOp，從而驗證了學習投影對于下游任務的有效性。
PROOF 的性能曲線在所有方法中始終名列前茅，展示了其抵抗遺忘的能力。
與僅依賴視覺的方法（即 L2P、DualPrompt、CODA-Prompt、DAP）相比，PROOF 表現出顯著的改進，表明文本和視覺信息的協同適應能夠有效促進增量學習。

圖2：不同方法的平均準確率和最終準確率
3.3 將 PROOF 擴展到其他視覺語言模型和其他應用

本文在前面的章節中使用 CLIP 作為視覺語言模型。然而，視覺語言模型（VLM）領域發展迅速，存在多種可用模型。

在本節中，本文將 PROOF 擴展到另一個廣泛使用的 VLM——BEiT-3，并專注于跨模態檢索任務。BEiT-3 是一個流行的 VLM，在多個視覺-語言任務中表現出色。由于檢索任務與分類任務不同，本文通過僅采用投影擴展策略而不進行跨模態融合來簡化 PROOF。

為了評估，本文使用 Flickr30K 數據集來評估增量跨模態檢索的性能。Flickr30K 包含從 Flickr 圖片共享平臺收集的 31,783 張圖片，涵蓋日常生活、旅行、人物、食物和場景等多種主題。每張圖片都附有五段手動注釋的文本描述，提供了圖片主要內容和上下文的描述性信息。

為了構建一個增量數據流，本文使用關鍵詞匹配來識別包含不同動作（walk、stand、run、ride、play）的圖片，并根據這些動作將訓練實例劃分為五個子集。為了創建平衡的測試集，本文在劃分訓練和測試對時保持 5:1 的訓練-測試比例。

本文采用標準的跨模態檢索指標進行評估，即 R@1、R@5 和 R@10。檢索在兩個方向上進行：圖片→文本和文本→圖片。與 CIL 評估類似，本文報告最后一個召回率和跨增量階段的平均召回率。

為了進行比較分析，本文將 PROOF 與典型的微調方法作為基線進行比較，并修改 MEMO 和 DER 進行比較。這些方法代表了當前任務微調的最先進的持續學習方法。

實驗結果如圖 3 和圖 4 所示。從圖表中可以看出，直接對新概念進行微調會導致跨模態檢索任務中的災難性遺忘。

然而，為模型配備增量學習能力可以有效緩解遺忘。在所有比較方法中，PROOF 在不同的檢索任務和指標上始終表現最佳，驗證了其在減輕 VLM 遺忘方面的有效性。總之，即使在不同的 VLM 和持續學習環境中，PROOF 也表現出更強的競爭力。

圖3. 不同方法在持續跨模態檢索任務中的平均性能和最終性能，上面的表格描述的是文本檢索任務，下面的表格描述的是圖像檢索任務

圖4. 每種方法的性能趨勢圖。

IR 表示圖像檢索的召回率，TR 表示文本檢索的召回率。PROOF 在持續跨模態檢索任務上始終優于其他對比方法，且優勢顯著。

3.4 在非重疊數據集上的類別增量學習

本文在前文中驗證了 PROOF 在基準數據集上的性能。然而，由于 CLIP 在預訓練階段使用了海量數據，這些基準數據集可能與 CLIP 的預訓練數據集存在重疊。因此，本文手動收集了一個新的數據集，用于評估 CLIP 發布后的電視節目分類任務，即 TV100。

數據集構建：CLIP 于 2021 年提出，其訓練數據是從互聯網收集的圖像-文本對（2021 年之前）。因此，如果能夠收集 2021 年之后的新數據集，可以確保 CLIP 未接觸過這些新知識。為此，本文選擇了一個每天都有新類別出現的領域——電視節目。

具體來說，本文從 IMDB 搜索 2021 年之后發布的電視節目，并通過 Google 搜索關鍵詞 “[NAME] TVSeries”（其中 [NAME] 為電視節目名稱）下載相關圖片。

下載的圖片經過手動處理，刪除重復和無意義的圖片，最終得到一個包含約 800 個類別的大型數據集，之后，通過評估每個類別的 CLIP 零樣本性能，選擇其中最難的 100 個類用于 CLIP 持續學習。

本文在新數據集上進行實驗。與其他設置相同，本文選擇了兩種數據集劃分（即 Base0 Inc10 和 Base50 Inc10），并在圖 5 中報告結果。

從圖中可以得出兩個主要結論：首先，zero-CLIP 在該數據集上表現不佳，說明該數據集能夠有效評估 CLIP 的持續學習能力；其次，PROOF 在該數據集上仍然顯著優于其他對比方法，驗證了其在持續學習任務中的強勁性能。

圖5：TV 數據集實驗結果
3.5 探索零樣本性能

圖6：零樣本性能實驗。左圖：增量學習過程中未見類別的準確率。中圖：增量學習過程中的 LAION 分數。右圖：最后一個增量階段中已見類別、未見類別以及調和平均值（HM）的準確率。PROOF? 在適應性和零樣本性能之間取得了平衡。

CLIP 以其零樣本（ZS）能力著稱，即使模型未經過特定圖像的訓練，仍能通過匹配余弦相似度預測圖像 x 屬于類別 y 的可能性。CLIP 的強大泛化能力使其成為計算機視覺領域的流行模型。

然而，在持續學習（CIL）中，模型會隨著下游任務的不斷更新而削弱泛化能力，進而損害后續任務的零樣本性能。在本節中，探討了 CLIP 的零樣本性能下降問題，并提出了 PROOF 的一個變體以保持零樣本性能。

零樣本性能的評估方式：當前的持續學習方法主要評估“已見”類別的性能。然而，由于 CLIP 具有零樣本能力，本文也可以評估“未見”類別的性能，以研究零樣本性能的變化。因此，本文在每個任務后計算性能指標 AS（已見類別）、AU（未見類別）和 AHM（AS 和 AU 的調和平均值）。

此外，本文還利用了來自 LAION-400M 的 10,000 對圖像-文本數據集，計算它們的匹配分數。本文將平均匹配分數稱為 LAION 分數，該分數反映了模型在上游任務上的匹配程度。鑒于泛化能力與上游任務之間的關系，LAION 分數是零樣本性能的有效衡量標準。

除了前文提到的方法外，本文還報告了 PROOF 的一個變體，即 PROOF?。其唯一區別在于投影的設計，PROOF? 采用殘差格式作為輸出：

為了研究模型更新時的零樣本性能，本文在圖 6（a）中展示了增量階段中未見類別 AU 的準確率，其中 ZS-CLIP 表現最佳。

相應地，由于將預訓練信息 z 和 w 整合到投影特征中，PROOF? 保持了較好的零樣本性能。這表明保留預訓練信息有助于維持模型的泛化能力。相反，其他方法由于將重點轉移到下游任務上，零樣本性能顯著下降。

本文在圖 6（b）中觀察到類似的趨勢，其中 PROOF? 取得了與 ZS-CLIP 相近的 LAION 分數。最后，本文在圖 6（c）中報告了最后一個增量階段的 AS、AU、AHM。可以推斷出，下游任務的適應性和零樣本性能的泛化能力之間存在權衡。

與 PROOF 相比，PROOF? 犧牲了部分適應性以保持零樣本性能，在已見類別和未見類別之間取得了平衡。因此，當零樣本性能至關重要時，使用 PROOF? 是首選。

四、總結

現實世界的學習系統需要具備不斷獲取新知識的能力。本文旨在使流行的視覺語言模型（VLM）具備持續學習（CIL）的能力。具體來說，本文通過學習可擴展的投影，使視覺和文本信息能夠逐步對齊。這種擴展技術使模型能夠在學習新概念的同時不遺忘先前的知識。

此外，本文通過自注意力機制實現跨模態融合。大量的實驗驗證了本文提出的 PROOF 在各種 VLM 和持續學習場景中的有效性。

參考文獻

[1] Zhou, et al. Class-incremental learning: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence 2024

[2] Zhou et al. Continual learning with pre-trained models: a survey. IJCAI 2024

[3] Zhou et al. TV100: a TV series dataset that pre-trained CLIP has not seen. Frontiers of Computer Science 2024

[4] Zhou et al. External Knowledge Injection for CLIP-Based Class-Incremental Learning. arXiv preprint arXiv:2503.08510

來源：公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.