網易首頁 > 網易號 > 正文申請入駐

CLIP驅動的無監督學習：實現多標簽圖像分類的突破

2025-05-17 23:30:10　來源: 清風鑒史

廣東舉報

分享至

圖像分類一直是計算機視覺領域的核心任務，但傳統方法依賴大量人工標注數據。當一張圖像包含多個物體時，獲取完整標注更是耗時費力。新興的CLIP模型雖展現出驚人的零樣本分類能力，卻主要專注于識別單一對象。如何突破這一局限？CDUL方法開辟了新路徑，它巧妙融合全局與局部圖像特征，無需任何人工標注即可實現高質量多標簽分類。當CLIP只能識別一匹馬時，CDUL卻能同時發現馬與騎手。通過精心設計的全局-局部聚合策略和梯度對齊訓練方法，它在多個基準數據集上超越了現有無監督方法，甚至接近弱監督學習的表現水平。這一突破或將徹底改變我們處理復雜視覺信息的方式。

標注困境

當今計算機視覺領域面臨著一個嚴峻的挑戰：圖像標注成本高昂且費時。特別是在多標簽圖像分類任務中，問題更為突出。想象一下，一張照片中同時出現了人、狗、沙發和電視，傳統方法需要人工標注出每一個物體。在大規模數據集上，如MS-COCO包含超過8萬張訓練圖像，完整標注工作量驚人。這種高成本的標注需求嚴重限制了計算機視覺技術的發展和應用。

現有的解決方案主要分為監督學習、弱監督學習和無監督學習三類。全監督方法需要完整的標注信息，標注成本最高；弱監督方法僅需部分標注，如每張圖像只標注一個或少數幾個物體，成本有所降低；而無監督方法則完全不需要人工標注，成本最低，但通常性能較差。

近年來，CLIP（Contrastive Language-Image Pre-training）模型因其出色的零樣本分類能力而廣受關注。CLIP通過在互聯網上收集的4億對圖像-文本數據進行預訓練，學習了豐富的視覺-語言知識。這使得CLIP可以直接對未見過的類別進行分類，無需額外的標注數據和訓練過程。

然而，CLIP在多標簽分類任務上表現不佳。以MS-COCO數據集為例，原始CLIP模型的平均精度（mAP）僅為65.3%。這主要是因為CLIP在預訓練過程中，每張圖像通常只與一段描述文本配對，這使得模型傾向于關注圖像中最顯著的單一對象。如圖中的馬匹會獲得極高的置信度（0.98），而騎手則被忽略。這種＂單標簽偏好＂使CLIP難以適應多標簽場景。

現有的無監督多標簽分類方法，如Naive AN、Szegedy等，通常依賴于偽標簽技術。它們首先為訓練數據生成初始偽標簽，然后通過迭代優化過程不斷改進模型和偽標簽。然而，這些方法的初始偽標簽質量較低，限制了最終模型的性能。以PASCAL VOC 2012數據集為例，ROLE方法的mAP僅為82.6%，遠低于弱監督方法的89.5%。

在實際應用中，無標注多標簽分類具有廣闊的應用前景。例如，在內容檢索系統中，能夠準確識別圖像中的多個對象可以大幅提升搜索準確度；在監控系統中，自動識別場景中的多個物體可以實現更精準的異常檢測；在輔助機器人領域，多標簽識別能力可以幫助機器人更好地理解復雜環境。這些應用場景都對無監督多標簽分類技術提出了迫切需求。

通過對比分析發現，弱監督方法如G2NetPL和LL-R在PASCAL VOC 2012上分別達到了89.5%和89.7%的mAP，而現有最佳無監督方法Szegedy僅達到86.8%。這一性能差距清晰表明，提升無監督多標簽分類性能的關鍵在于如何生成更高質量的初始偽標簽，以及如何在訓練過程中有效優化這些偽標簽。

CDUL設計

CDUL（CLIP-Driven Unsupervised Learning）方法針對無監督多標簽分類問題提出了創新解決方案，其核心框架包含三個關鍵階段：初始化、訓練和推理。

在初始化階段，CDUL充分利用CLIP模型強大的零樣本能力，創新性地提出了基于全局-局部圖像-文本相似度聚合的方法來擴展CLIP進行多標簽預測。具體來說，CDUL將每張圖像分割成多個片段，利用CLIP分別生成整張圖像（全局）和每個片段（局部）的相似度向量。隨后，通過相似度聚合器整合全局和局部相似度向量，生成更為全面的多標簽預測。

這一設計解決了CLIP的核心局限性。以一張包含＂馬＂和＂人＂的圖像為例，原始CLIP可能給＂馬＂類別分配0.98的高置信度，而＂人＂類別僅獲得很低的置信度。而通過CDUL的局部分析，圖像某些片段中＂人＂類別可能獲得較高置信度，從而在最終聚合后得到更加平衡的預測結果。

在實現全局-局部聚合時，CDUL采用了一種精巧的min-max方法。對于每個類別，CDUL首先找出所有片段中該類別獲得的最高相似度分數，如果該分數超過預設閾值，就認為這個類別可能存在于圖像中；否則，就認為這個類別在圖像中出現的可能性較小。最終，全局相似度和聚合后的局部相似度通過簡單平均得到最終的偽標簽，即S^final = （S^global + S^aggregate）/2。

實驗數據表明，這種聚合策略能顯著提升偽標簽質量。在PASCAL VOC 2012數據集上，僅使用全局對齊的偽標簽mAP為85.3%，而采用CDUL的全局-局部聚合后，偽標簽mAP提升至90.3%，增幅達5%。在COCO數據集上，提升更為顯著，從65.4%提高到72.8%，增幅達7.4%。

在訓練階段，CDUL提出了梯度對齊方法，通過交替更新網絡參數和偽標簽來優化分類網絡。這一過程包含兩個交替進行的步驟：首先，固定偽標簽，訓練網絡參數以最小化KL散度損失；然后，固定網絡參數，更新偽標簽的潛在參數。

具體來說，在每輪訓練開始時，偽標簽初始化為S^final。固定偽標簽后，利用KL散度損失L（Yp|Yu， X）訓練網絡，其中Yp是預測標簽，Yu是偽標簽，X是輸入圖像。訓練完成后，固定預測標簽Yp，更新偽標簽的潛在參數：

?u = ?u - ψ（yu）°?yu L（Yu|Yp， X）

其中，yu = σ（?u），σ是sigmoid函數，ψ（yu）是均值為0.5的高斯分布。這個高斯分布的作用是增加不確定偽標簽的變化率，減少確定偽標簽的變化率。例如，如果偽標簽值為0.5（極不確定），高斯分布達到最大值，表示需要大幅調整該偽標簽；如果偽標簽為0或1（非常確定），高斯分布接近最小值，表示該偽標簽應保持基本不變。

這種交替優化方法不斷推動預測標簽Yp和偽標簽Yu逐漸接近最優解，以最小化總損失函數。實驗證明，移除高斯分布模塊會導致性能下降0.5%，而使用硬偽標簽代替軟偽標簽會導致性能下降0.9%。

在推理階段，CDUL直接將整張圖像輸入分類網絡獲得預測結果，無需分割圖像或使用CLIP模型，這大大降低了計算成本。值得注意的是，CDUL使用的分類網絡參數量僅為CLIP模型的25%左右，更適合實際部署應用。

CDUL的每個組件都經過精心設計，共同構成了一個強大的無監督多標簽分類系統。全局-局部聚合器確保了初始偽標簽的高質量，梯度對齊訓練方法則保證了網絡能有效學習多標簽分類能力。實驗表明，在PASCAL VOC 2012數據集上，CDUL達到了88.6%的mAP，比現有最佳無監督方法提升了6.0%，甚至接近一些弱監督方法的性能水平。

實驗見真知

CDUL方法通過一系列嚴格實驗證明了其在無監督多標簽圖像分類領域的優越性。在四個廣泛使用的多標簽數據集上，CDUL均取得了令人矚目的成績。

在MS-COCO數據集上，該數據集包含80個類別的8萬多張訓練圖像，CDUL達到了69.2%的平均精度（mAP），超過了現有最佳無監督方法ROLE的67.1%，提升了2.1個百分點。更值得注意的是，CDUL的性能甚至超過了Chen等人的弱監督方法（68.1%），而后者使用了10%的標注數據。

在PASCAL VOC 2012數據集上，CDUL取得了88.6%的mAP，比現有最佳無監督方法Szegedy提高了1.8個百分點（86.8%）。同樣在PASCAL VOC 2007數據集上，CDUL達到89.0%的mAP，超過現有最佳無監督方法Szegedy的87.9%。這些結果表明，CDUL在無需任何人工標注的情況下，能夠接近弱監督方法的性能水平，如G2NetPL（89.5%）和LL-R（89.7%），而這些方法至少需要每張圖像一個標注標簽。

從類別層面來看，CDUL在大多數類別上都取得了顯著提升。尤其對于那些小尺寸物體的識別，如＂盆栽植物＂、＂書＂、＂杯子＂和＂酒杯＂等，CDUL表現尤為出色。在PASCAL VOC 2012數據集上，CDUL在＂牛＂類別上的精度達到91.9%，比ROLE方法的79.8%提高了12.1個百分點；在＂電視顯示器＂類別上，CDUL達到89.0%，比ROLE的82.3%提高了6.7個百分點。這表明CDUL的梯度對齊訓練方法能夠有效捕獲更多信息，特別是對于那些容易被忽略的小物體。

為了深入理解CDUL的工作機制，研究團隊進行了一系列消融實驗。關于偽標簽質量的研究表明，全局-局部聚合策略顯著提升了偽標簽的質量。在PASCAL VOC 2012數據集上，僅使用全局對齊的偽標簽mAP為85.3%，而采用CDUL的全局-局部聚合后，偽標簽mAP提升至90.3%。類似地，在COCO數據集上，全局對齊的偽標簽mAP為65.4%，而CDUL的全局-局部聚合將其提升至72.8%。

不同聚合策略的比較也很有啟發性。簡單平均所有局部和全局相似度向量的策略在PASCAL VOC 2012上獲得88.5%的mAP，取最大相似度分數的策略獲得89.5%，而CDUL的聚合策略達到90.3%。這證明了CDUL的聚合方法確實能保留更多細粒度語義信息。

研究團隊還探索了不同視覺編碼器對偽標簽質量的影響。實驗表明，使用更強大的視覺編碼器確實能提高偽標簽質量。例如，使用ResNet-5064作為CLIP的視覺編碼器，生成的偽標簽質量比使用ViT-B-32高4.6個百分點。雖然更強大的編碼器需要更多計算資源，但由于CLIP僅在初始化階段使用一次，不會增加訓練和推理階段的計算負擔。

為了直觀展示CDUL的工作效果，研究團隊還提供了類激活映射（CAM）可視化結果。這些結果顯示，隨著訓練進行，分類網絡能夠逐漸學習正確的預測目標。例如，在某張包含＂馬＂和＂人＂的圖像上，初始階段網絡可能只關注＂馬＂，但隨著訓練進行，網絡逐漸開始關注＂人＂，最終能夠同時識別兩個對象。這直觀地證明了CDUL能夠學習多標簽分類能力。

值得一提的是，CDUL在推理階段只使用訓練好的分類網絡，不需要CLIP模型，這大大降低了計算成本。與直接使用CLIP結合全局-局部對齊策略（CLIP-GLA）相比，CDUL不僅性能更好（在PASCAL VOC 2012上高1.7個百分點，在COCO上高3.5個百分點），而且參數量更少（2500萬vs.1.02億），更適合實際部署。

深遠影響

CDUL方法的提出不僅是技術上的創新，更對計算機視覺領域產生了深遠影響。它徹底改變了人們對無監督多標簽圖像分類的認識，證明了即使沒有任何人工標注，也能實現高質量的多標簽分類。

在標注成本方面，CDUL實現了顯著突破。傳統的全監督多標簽分類方法需要為每張圖像標注所有存在的對象，這在大規模數據集上幾乎不可行。以MS-COCO為例，該數據集包含超過8萬張訓練圖像，平均每張圖像有2.9個標簽，總計需要約23.8萬個標注。即使采用眾包方式，每個標注假設需要5秒，也需要耗費約33萬分鐘（約230天）的人力。而CDUL完全不需要人工標注，將標注成本降至零，同時性能僅比全監督方法低約10個百分點。

與弱監督方法相比，CDUL也展現出獨特優勢。雖然弱監督方法如G2NetPL和LL-R在部分數據集上性能略高于CDUL，但它們至少需要每張圖像一個標注標簽。這意味著對于包含M張圖像的數據集，仍需M個標注。而CDUL不需要任何標注，完全消除了標注成本。更重要的是，CDUL在某些情況下甚至超過了使用10%標注數據的弱監督方法，如在COCO數據集上超過了Chen等人的方法（69.2% vs. 68.1%）。

通過類激活映射（CAM）可視化，我們能直觀理解CDUL是如何工作的。在一張同時包含＂瓶子＂和＂酒杯＂的圖像中，CDUL模型能夠同時定位并正確分類這兩個物體，而傳統方法往往只能識別其中一個。類似地，在包含＂杯子＂和＂遙控器＂的圖像中，CDUL也能準確定位這些小物體，展示了其處理復雜場景的能力。

值得注意的是，CDUL與弱監督方法在本質上有很大不同。弱監督方法假設提供的部分標簽是正確的，可以信任用于訓練。而CDUL使用CLIP生成的偽標簽可能包含大量未知和不正確的標簽（例如，原始CLIP在COCO數據集上的mAP僅為65.3%）。CDUL的主要貢獻在于同時訓練多標簽分類模型和修正不正確的偽標簽，這是一個更具挑戰性的任務。

CDUL的潛在應用非常廣泛。在內容檢索系統中，CDUL可以幫助更準確地理解圖像內容，提高搜索準確度；在監控系統中，CDUL可以自動識別場景中的多個物體，實現更精準的異常檢測；在自動駕駛領域，CDUL可以幫助車輛更全面地理解道路環境；在醫學圖像分析中，CDUL可以輔助識別多種病理特征。這些應用都將極大受益于CDUL的無監督多標簽分類能力。

未來，CDUL還有很多值得探索的改進方向。例如，可以嘗試更先進的圖像分割方法來獲取更精確的局部特征；可以探索更復雜的全局-局部聚合策略；可以嘗試與其他預訓練模型如DALLE結合；還可以將CDUL擴展到視頻多標簽分類等更復雜任務。隨著研究的深入，CDUL方法有望在更多領域展現其強大潛力。

總的來說，CDUL開創了無監督多標簽圖像分類的新范式，不僅大幅降低了標注成本，還在性能上接近甚至超過部分弱監督方法。它證明了結合大規模預訓練模型（如CLIP）和精心設計的訓練策略，可以實現高質量的無監督學習，為計算機視覺領域的發展開辟了新路徑。

參考資料

Abdelfattah， R.， Guo， Q.， Li， X.， Wang， X.， &； Wang， S. （2023）. CDUL: CLIP-Driven Unsupervised Learning for Multi-Label Image Classification. ICCV 2023.
Radford， A.， Kim， J. W.， Hallacy， C.， Ramesh， A.， Goh， G.， Agarwal， S.， … &； Sutskever， I. （2021）. Learning transferable visual models from natural language supervision. ICML 2021.
Zhou， T.， Wang， W.， Qi， S.， Ling， H.， &； Shen， J. （2022）. Self-supervised image-text pre-training for multi-modal understanding and generation. CVPR 2022.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.