本文的第一作者為北京大學博士二年級學生徐昆侖,通訊作者為北京大學王選計算機研究所研究員、助理教授周嘉歡。
近日,北京大學王選計算機研究所周嘉歡團隊在人工智能重要國際期刊 IEEE TPAMI 發布了一項最新的研究成果:LSTKC++
該框架引入了長短期知識解耦與動態糾正及融合機制,有效保障了模型在終身學習過程中對新知識的學習和對歷史知識的記憶。目前該研究已被 IEEE TPAMI 接收,相關代碼已開源。
- 論文標題:Long Short-Term Knowledge Decomposition and Consolidation for Lifelong Person Re-Identification
- 論文鏈接:https://ieeexplore.ieee.org/abstract/document/11010188/
- 代碼鏈接:https://github.com/zhoujiahuan1991/LSTKC-Plus-Plus
- 接收期刊:T-PAMI(CCF A 類/中科院一區 Top)
- 單位:北京大學王選計算機研究所,華中科技大學人工智能與自動化學院
行人重識別(Person Re-Identification, ReID)技術的目標是在跨攝像頭、跨場景等條件下,根據外觀信息準確識別行人身份,并在多攝像頭監控、智能交通、公共安全與大規模視頻檢索等應用中具有重要作用。
在實際應用中,行人數據分布常因地點、設備和時間等因素的變化而發生改變,使得新數據和訓練數據呈現域差異,導致傳統的「單次訓練、靜態推理」ReID 范式難以適應測試數據的長期動態變化。
這催生了一個更具挑戰性的新任務——終身行人重識別(Lifelong Person Re-ID, LReID)。該任務要求模型能夠利用新增域的數據進行訓練,在學習新域數據知識的同時,保持舊域數據的識別能力。
圖 1 研究動機
LReID的核心挑戰是災難性遺忘問題,即模型在學習新域知識后,對舊域數據的處理性能發生退化。為克服該問題,多數方法采用知識蒸餾策略將舊模型的知識遷移到新模型。然而,這些方法存在兩個關鍵隱患:
- 錯誤知識遷移:由于數據偏差等因素,舊模型中不可避免地包含一些錯誤知識。在知識蒸餾過程中,不僅會引發錯誤知識的累積,還會對新知識的學習產生干擾,造成模型的學習能力受限;
- 知識損失:新舊域之間的分布差異導致部分舊知識無法被新數據激活,使得這些知識無法通過知識蒸餾有效地遷移到新模型中。
為破解上述難題,北京大學王選計算機研究所團隊在 T-PAMI 2025 上提出了 LSTKC++ 框架。該框架引入了長短期知識解耦與動態糾正及融合機制,在有效保障新知識學習的同時,增強了舊知識的保留能力。
一、基礎框架:LSTKC 長短期知識糾正與鞏固
LSTKC 是作者團隊在 AAAI 2024 上提出的終身行人重識別框架。LSTKC 引入了「短期-長期模型協同融合」的思想,將終身學習所涉及的模型劃分為短期模型和長期模型。前者指利用特定域數據訓練得到的模型,后者指積累了所有歷史域知識的模型。
在新域數據訓練時,LSTKC 引入一個基于知識糾正的短期知識遷移模塊(Rectification-based Short-Term Knowledge Transfer, R-STKT)。R-STKT 從長期模型中提取判別性特征,并基于新數據的標注信息識別并糾正其中的錯誤特征,進而利用知識蒸餾策略將校正后的正確知識遷移到新模型中。
在新域數據訓練結束后,LSTKC 引入了基于知識評估的長期知識鞏固模塊(Estimation-based Long-Term Knowledge Consolidation, E-LTKC),根據長期模型和短期模型生成的特征,估計長期知識與短期知識之間的差異,進而實現長短期知識的自適應融合,實現了新舊知識的權衡。
圖 2 LSTKC 模型
二、升級框架:LSTKC++ 長短期知識解耦與鞏固
盡管 LSTKC 中基于知識差異的長短期知識融合策略在一定程度上促進了新舊知識權衡,但是由于模型間的知識差異無法直接反映融合模型的實際性能,導致 LSTKC 的模型融合策略難以實現新舊知識的最優權衡。
圖 3 LSTKC++ 框架
為解決上述問題,作者在 T-PAMI 版本提出了 LSTKC++,從三個方面進行了方法升級:
相比于使用已學習過的數據作為優化基準,新增數據尚未被長期和短期歷史模型學習過,避免了過擬合問題,因此對知識權衡性能的評估更為可靠。
三、實驗分析
數據集與實驗設置
論文的實驗采用兩個典型的訓練域順序(Order-1 與 Order-2),包含五個廣泛使用的行人重識別數據集(Market1501、DukeMTMC-ReID、CUHK03、MSMT17、CUHK-SYSU)作為訓練域。分別評估模型在已學習域(Seen Domains)上的知識鞏固能力和在未知域(Unseen Domains)上的泛化能力。評測指標采用行人 ReID 任務的標準指標:平均精度均值(mAP)和 Rank-1 準確率(R@1)。
實驗結果
- 綜合性能分析:在兩種不同的域順序設定下,LSTKC++ 的已知域平均性能(Seen-Avg mAP 和 Seen-Avg R@1)相比于 CVPR 2024 方法 DKP 提升 1.5%-3.4%。同時,LSTKC++ 在未知域的整體泛化性能(Unseen-Avg mAP 和 Unseen-Avg R@1)上相比于現有方法提升 1.3%-4%。
- 子域性能分析:在不同的域順序設定中,雖然 LSTKC++ 在第一個和最后一個域的性能并非最優,但是其在中間三個域的性能均顯著優于現有方法。這是因為部分現有方法對模型施加較強的抗遺忘約束,因而有效保持了初始域的性能,但其對新知識的學習能力大幅受限。其次,部分方法則采用較弱的抗遺忘約束,增強了模型對新知識的學習能力,但其對歷史域性能的保持能力受限。與上述方法相比,LSTKC++ 綜合考慮了知識遺忘和學習的自適應平衡,因而在中間域呈現明顯的性能優勢,并在不同域的整體性能上實現穩定提升。
- 計算與存儲開銷分析:現有方法(如 PatchKD、AKA、DKP)通常通過引入額外的可學習模塊來提升抗遺忘性能,這些模塊往往會增加額外的訓練時間、模型參數量、存儲空間占用和 GPU 顯存消耗。與之相比,LSTKC 和 LSTKC++ 僅在特征提取器和身份分類器中包含可學習參數,因此在模型參數量(Params)上具有明顯優勢。其次,LSTKC 在訓練時間(Batch Time)、模型存儲(Model Memory)和 GPU 顯存消耗(GPU Memory)方面均最為高效。盡管 LSTKC++ 引入了一個額外的舊模型,但由于該舊模型被凍結且不參與梯度計算,其帶來的額外開銷僅為約 30% 的訓練時間和約 818MB(占總顯存的~7.4%)的 GPU 顯存。總體而言,與最新的 CVPR 2024 方法 DKP 相比,LSTKC++ 在綜合性能(TABLE I 和 TABLE II)以及計算和存儲效率方面均展現出明顯優勢。
四、總結與展望
技術創新
本項被 T-PAMI 2025 接收的工作聚焦于終身行人重識別(LReID)任務,面向新知識學習和歷史知識遺忘的挑戰,提出了以下創新性設計:
- 解耦式知識記憶體系:提出將終身學習中的知識解耦為長期知識和短期知識,通過長短期知識的針對性處理保障短期新知識學習和促進長期歷史知識與短期新知識間的平衡;
- 語義級知識糾錯機制:將知識篩選與糾正機制引入基于知識蒸餾的持續學習,有效克服錯誤歷史知識對新知識學習的干擾;
- 長短期互補知識提煉:挖掘并融合長短期模型間的互補知識,提升知識蒸餾過程中知識表達的魯棒性,提升歷史知識在新知識學習中的引導作用。
- 遺忘-學習主動權衡:摒棄固定抗遺忘損失的策略,提出主動搜索最優的新舊知識權衡參數的方法。
應用價值
LSTKC++ 所提出的終身學習機制具備良好的實用性和推廣潛力,特別適用于以下典型場景:
- 適應動態開放環境,構建「終身進化」的識別系統。在實際應用中,攝像頭部署環境常常發生變化,例如視角變換、光照變化、圖像分辨率波動等,傳統靜態訓練的模型難以持續適應。LSTKC++ 具備長期知識保持與新知識快速整合能力,可持續應對環境遷移,適用于智慧城市、邊緣計算終端、無人安防等場景,助力構建「可持續演進」的識別系統。
- 滿足隱私保護需求,避免歷史樣本訪問。在公共安全、交通監控、醫療影像等高度敏感的應用場景中,受限于數據安全與隱私法規,系統通常禁止長期存儲歷史圖像或身份數據。LSTKC++ 在整個持續學習過程中無需訪問任何歷史樣本或緩存數據,具備天然的隱私友好性。
- 高效學習,快速部署。LSTKC++ 無需保存圖像或額外身份原型等,在多輪更新中也不會引入顯存負擔或冗余參數。同時,相比現有方法(如 DKP),該方法大幅減少了參數規模與顯存占用,訓練過程高效,可快速完成模型更新,滿足資源受限設備上的持續學習需求。
未來展望
LSTKC++ 為無樣本持續學習提供了結構化解決方案,未來仍具備多維度的研究與拓展空間:
- 向預訓練視覺大模型拓展。當前終身學習方法多數基于 CNN 架構設計,然而預訓練視覺大模型在視覺任務中已展現出強大表達能力。如何將 LSTKC++ 的知識解耦與鞏固機制遷移至大模型框架,并結合其先驗語義進行持續學習,是一個具有理論深度與實際價值的重要方向。
- 研究多模態感知下的持續學習機制。現有終身行人重識別研究主要基于可見光圖像,尚未充分考慮紅外、深度圖、文本描述等多模態信息。在傳感設備普及的背景下,融合多模態數據以提升持續學習的穩定性、抗干擾能力,將是推動算法實用化的重要路徑。
- 推廣至通用類別的域增量識別任務。LSTKC++ 當前聚焦于「跨域+跨身份」的行人檢索問題,然而在現實應用中,物品、交通工具、動物等通用類別同樣面臨動態領域變化現象。將本方法推廣至通用類別的域增量學習場景,有望提升大規模視覺系統在開放環境下的適應性與擴展能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.