深度學習需要大量標注數(shù)據才能表現(xiàn)出色,然而現(xiàn)實中數(shù)據標簽往往存在錯誤。就像在混亂的書架上尋找正確的書籍,機器學習模型也會被這些錯誤標簽所迷惑。現(xiàn)有方法要么過分抑制所有樣本,導致欠擬合;要么無法有效區(qū)分噪聲,導致過擬合。本文介紹一種基于樣本標簽置信度的創(chuàng)新學習框架,它能夠在混沌中建立秩序,精確識別并抑制噪聲樣本,同時保留干凈數(shù)據的學習效果。就像一位睿智的淘金者,能在泥沙中準確找出金子。這種方法不僅理論上可以達到最優(yōu)點,還能與現(xiàn)有方法靈活結合,在各種噪聲環(huán)境下都展現(xiàn)出優(yōu)異的分類性能。
噪聲的挑戰(zhàn)
深度學習在圖像分類領域取得了令人矚目的成就,有些模型的表現(xiàn)甚至超越了人類。AlexNet、ResNet等模型在ImageNet等大型數(shù)據集上的出色表現(xiàn),讓人工智能領域看到了前所未有的可能性。但這些成功建立在一個重要前提上:大量高質量的標注數(shù)據。
現(xiàn)實情況卻并非如此美好。即使是精心整理的數(shù)據集,也難免出現(xiàn)標注錯誤。以CIFAR-10為例,這個包含60,000張圖像的數(shù)據集,盡管經過專家精心標注,仍然存在標簽錯誤問題。根據研究發(fā)現(xiàn),CIFAR-10數(shù)據集中約有5%的樣本標簽存在誤差。這些錯誤標簽的存在,就像是教師給學生提供了錯誤的知識點,不僅不利于學習,反而會帶來負面影響。
標注錯誤的來源多種多樣。一方面,人工標注過程難免受到主觀因素影響,尤其是對于視覺上相似的類別,如貓和狗、船和飛機的某些角度;另一方面,某些圖像本身就具有模糊性,即便專業(yè)人士也難以給出準確標注。此外,數(shù)據規(guī)模越大,標注難度越高,錯誤率也隨之增加。
深度神經網絡具有驚人的記憶能力,能夠"記住"訓練集中的所有樣本,包括那些錯誤標注的樣本。這一特性在面對噪聲標簽時變成了致命弱點。研究表明,當訓練數(shù)據中包含噪聲標簽時,模型性能會顯著下降。在CIFAR-10數(shù)據集上,當引入20%的標簽噪聲時,普通卷積神經網絡的分類準確率會從95%降至85%以下;當噪聲比例達到40%時,準確率甚至會降至70%以下。
針對噪聲標簽問題,研究人員提出了多種解決方案,主要分為三類:噪聲估計、樣本選擇和穩(wěn)健損失函數(shù)。
噪聲估計方法假設可以獲得關于噪聲模型的先驗知識,如噪聲轉移矩陣等。但在實際應用中,這些信息往往難以獲取,限制了方法的適用范圍。
樣本選擇方法嘗試從數(shù)據集中剔除噪聲標簽,僅用"干凈"樣本訓練模型。Co-teaching、JoCoR等方法都屬于這一類。但這些方法的效果高度依賴于噪聲識別的質量,而人為設定的篩選標準往往難以在不同數(shù)據集間泛化。
穩(wěn)健損失函數(shù)方法設計理論上對標簽噪聲不敏感的損失函數(shù)。MAE、GCE、SCE等損失函數(shù)通過降低對錯誤預測的懲罰力度,避免模型學習噪聲標簽。但這些方法也會導致欠擬合問題,降低模型性能。
交叉熵損失函數(shù)是深度學習中最常用的目標函數(shù),但它對錯誤預測非常敏感。當預測概率與給定標簽偏離越大時,損失值和梯度幅度都會顯著增加,促使模型迅速學習這些樣本。這一特性使得模型容易過擬合到噪聲標簽上。相比之下,穩(wěn)健損失函數(shù)減輕了對錯誤預測的懲罰,防止模型學習錯誤標簽。但批量隨機梯度下降往往會阻礙模型收斂到穩(wěn)健損失函數(shù)的最優(yōu)點,導致欠擬合問題。
置信度框架
針對上述挑戰(zhàn),我們提出了一種基于樣本標簽置信度的學習框架,旨在解決穩(wěn)健損失方法的欠擬合問題,同時避免過擬合到噪聲標簽。
樣本標簽置信度是衡量標簽可靠性的指標,值范圍從0到1。置信度越高,表示該標簽越可能是正確的;反之則越可能是噪聲標簽。我們的框架根據樣本的標簽置信度動態(tài)調整學習策略,對高置信度樣本施加強懲罰,促進學習;對低置信度樣本施加弱懲罰,抑制噪聲影響。
框架核心包含兩個模型:噪聲穩(wěn)健模型和無噪聲模型。噪聲穩(wěn)健模型使用穩(wěn)健損失函數(shù)在整個數(shù)據集上訓練,負責計算樣本標簽置信度;無噪聲模型使用加權交叉熵損失函數(shù)訓練,權重由標簽置信度決定。
具體來說,對于輸入圖像x和標簽y,我們首先通過噪聲穩(wěn)健模型計算預測概率f(x;θ)。然后,我們使用穩(wěn)健損失函數(shù)L計算損失值L(f(x;θ),y),并通過映射函數(shù)h()將損失值轉換為標簽置信度C(x,y)=h(L(f(x;θ),y))。
映射函數(shù)h()設計需滿足兩個關鍵條件:(1)隨損失值增加而單調遞減,(2)當損失值超過特定閾值時,輸出為0。我們設計的映射函數(shù)為:
C(x,y) = σ(0.5 * (-L(f(x;θ),y) + μ + m))
其中,σ()是sigmoid函數(shù),μ是平均損失值,m是影響置信度大小的調節(jié)參數(shù)。
無噪聲模型通過最小化加權交叉熵損失進行訓練:
加權交叉熵損失 = Σ C(x,y) * CE(f(x;θ*),y)
其中CE是交叉熵損失函數(shù),f(x;θ*)是無噪聲模型的預測,C(x,y)是標簽置信度。這種設計使得模型對高置信度樣本的學習更為重視,對低置信度樣本(可能的噪聲標簽)保持謹慎態(tài)度。
我們還提供了理論證明,表明在特定條件下,本框架可以近似達到穩(wěn)健損失方法的最優(yōu)點。理論顯示,存在一個穩(wěn)健損失和加權交叉熵損失的線性組合,可以作為穩(wěn)健損失的下界:
穩(wěn)健損失 ≥ (n-|Dce|)/n * 穩(wěn)健損失 + α * |Dce|/n * 加權交叉熵損失
其中n是數(shù)據集樣本數(shù),|Dce|是學習交叉熵損失的樣本量(由置信度決定),α是權重系數(shù)。
為增強學習能力,我們還引入了數(shù)據增強不變性正則化和標簽校正技術。數(shù)據增強不變性通過確保同一圖像的不同增強視圖產生相似預測,增強模型對語義信息的學習能力;標簽校正則通過噪聲穩(wěn)健模型的預測逐漸修正原始標簽,減少噪聲影響。
與現(xiàn)有方法相比,我們的框架具有兩大優(yōu)勢:(1)通過標簽置信度靈活調整學習策略,避免了樣本選擇方法中的硬閾值問題;(2)通過理論上可近似達到穩(wěn)健損失最優(yōu)點,同時解決欠擬合問題,提升了整體性能。
在實際應用中,框架的實現(xiàn)分為五個步驟:(1)初始化兩個模型;(2)對輸入數(shù)據進行增強;(3)用噪聲穩(wěn)健模型計算標簽置信度;(4)用無噪聲模型計算加權交叉熵損失;(5)聯(lián)合優(yōu)化兩個模型。整個訓練過程中,噪聲穩(wěn)健模型不斷調整對樣本的評估,無噪聲模型則根據這些評估調整學習策略,形成一個動態(tài)平衡的學習系統(tǒng)。
在CIFAR-10數(shù)據集的人工噪聲實驗中,當噪聲比例為80%時,傳統(tǒng)方法的準確率通常低于80%,而我們的方法可達到91%以上,展現(xiàn)出卓越的魯棒性。在真實噪聲數(shù)據集如WebVision和Clothing1M上,我們的方法也達到了最先進的性能水平,證明了其在實際應用中的有效性。
理論根基
樣本標簽置信度方法不僅是一種實用技術,更有堅實的理論基礎支撐。這套理論建立在噪聲穩(wěn)健損失函數(shù)的基礎上,并通過嚴格的數(shù)學推導證明了其有效性。
傳統(tǒng)的噪聲穩(wěn)健損失函數(shù),如MAE(平均絕對誤差)、GCE(廣義交叉熵)等,雖然能夠抵抗標簽噪聲的影響,但常常面臨收斂慢、欠擬合等問題。為解決這些問題,我們的理論框架引入了樣本標簽置信度的概念,并證明了在特定條件下,結合標簽置信度的學習策略可以近似達到噪聲穩(wěn)健損失的最優(yōu)點。
這一理論的核心在于下面這個不等式定理:假設L(f(x;θ),y) := g(f(x;θ)y),其中g是一個從[0,1]到非負實數(shù)的映射函數(shù)。給定α >; 0,使得當p趨近于1時,g(p)關于p的導數(shù)加上α乘以log p的導數(shù)小于0,那么存在一個值δ <; 1,滿足以下不等式:
穩(wěn)健損失 ≥ (n-|Dce|)/n * 穩(wěn)健損失 + α * |Dce|/n * 加權交叉熵損失
這個不等式表明,通過最小化右側的組合損失函數(shù),我們可以近似最小化左側的穩(wěn)健損失函數(shù)。這為我們同時解決噪聲標簽和欠擬合問題提供了理論保障。
標簽置信度計算是整個理論框架的關鍵環(huán)節(jié)。為確保理論框架的可行性,標簽置信度必須滿足兩個關鍵條件:(1)與穩(wěn)健損失值嚴格負相關,即損失值越高,置信度越低;(2)當穩(wěn)健損失值超過特定閾值時,置信度趨近于0。這兩個條件直觀且合理,符合我們的基本假設:穩(wěn)健損失值較低的樣本不太可能是噪聲樣本。
基于這些理論條件,我們設計了標簽置信度的計算公式:
C(x,y) = σ(0.5 * (-L(f(x;θ),y) + μ + m))
其中σ是sigmoid函數(shù),L是穩(wěn)健損失函數(shù),μ是平均損失值,m是調節(jié)參數(shù)。這個公式滿足上述兩個理論條件,使得標簽置信度能夠準確反映樣本的可靠性。
在實際訓練過程中,我們采用了一個雙模型框架:噪聲穩(wěn)健模型和無噪聲模型。噪聲穩(wěn)健模型通過最小化穩(wěn)健損失函數(shù)訓練,用于計算標簽置信度;無噪聲模型通過最小化加權交叉熵損失訓練,權重由標簽置信度決定。兩個模型通過參數(shù)差異懲罰項聯(lián)合優(yōu)化,確保它們學習到相似的特征表示。
這種雙模型方法不僅解決了單模型同時優(yōu)化兩個目標函數(shù)的困難,還允許兩個模型各自專注于自己的目標,提高了整體性能。理論上,當兩個模型參數(shù)相同時,我們的方法等價于優(yōu)化一個復合損失函數(shù);當參數(shù)差異較小時,它近似優(yōu)化穩(wěn)健損失函數(shù)。
訓練算法具體實現(xiàn)如下:
對輸入數(shù)據進行增強,生成兩個不同視圖
用噪聲穩(wěn)健模型計算穩(wěn)健損失和標簽置信度
用無噪聲模型計算加權交叉熵損失
計算兩個模型的參數(shù)差異懲罰
聯(lián)合優(yōu)化兩個模型的參數(shù)
這個算法還包含一些實用技巧,如移動平均計算損失均值、在訓練中期開始標簽校正等。這些技巧進一步提高了方法在實際應用中的穩(wěn)定性和性能。
理論分析還表明,我們的方法在數(shù)學上等價于一種自適應的樣本選擇策略,但避免了傳統(tǒng)樣本選擇方法中硬閾值帶來的不穩(wěn)定性。通過標簽置信度的概率解釋,我們實現(xiàn)了對樣本的軟選擇,使得模型能夠平滑地適應不同可靠性的樣本。
實驗驗證
為全面評估樣本標簽置信度方法的有效性,我們在合成數(shù)據集和真實世界數(shù)據集上進行了大量實驗,并與現(xiàn)有最先進的噪聲標簽學習方法進行了詳細對比。
在合成數(shù)據集實驗中,我們使用了CIFAR-10和CIFAR-100這兩個廣泛使用的圖像分類基準數(shù)據集,并人為引入了兩種類型的標簽噪聲:對稱噪聲和非對稱噪聲。對稱噪聲假設所有樣本被錯誤標注的概率相等,而非對稱噪聲則假設標簽依賴的噪聲,即特定類別的樣本容易被錯誤標注為某個特定類別。我們使用ResNet-34作為骨干網絡,從頭開始訓練模型。
實驗結果表明,我們的方法在各種噪聲比例下都顯著優(yōu)于現(xiàn)有方法。特別是在高噪聲比例情況下,性能優(yōu)勢更為明顯。例如,在CIFAR-10數(shù)據集上,當對稱噪聲比例為80%時,我們的方法達到了91.13%的分類準確率,比第二好的方法GJS高出12.02個百分點;在CIFAR-100數(shù)據集上,同樣噪聲比例下,我們的方法達到61.05%的準確率,比GJS高出16.56個百分點。
在非對稱噪聲實驗中,我們的方法同樣表現(xiàn)出色。在CIFAR-10數(shù)據集上,40%非對稱噪聲下,我們的方法達到93.17%的準確率,比第二好的方法高出3.52個百分點;在CIFAR-100數(shù)據集上,同樣條件下達到68.05%的準確率,比第二好方法高出4.35個百分點。
為了深入理解我們方法的工作機制,我們進行了一系列消融實驗。我們比較了噪聲穩(wěn)健模型和無噪聲模型在訓練過程中的表現(xiàn)。結果顯示,兩個模型在訓練集上表現(xiàn)相似,但在測試集上,無噪聲模型的準確率隨著訓練的進行逐漸超過噪聲穩(wěn)健模型。這表明無噪聲模型不僅繼承了噪聲穩(wěn)健模型的抗噪能力,還解決了欠擬合問題,提高了泛化性能。
我們還研究了調節(jié)參數(shù)m對性能的影響。m控制標簽置信度的整體大小,從而影響交叉熵損失的作用強度。實驗發(fā)現(xiàn),當m在-1到1之間變化時,方法性能保持穩(wěn)定,表明我們的自適應樣本選擇策略具有較強的魯棒性。當m為-5時,方法性能接近純GCE模型,符合理論分析:當|Dce|接近0時,我們的方法更準確地近似噪聲穩(wěn)健損失。當m為5時,交叉熵損失影響最強,性能反而下降,表明簡單組合交叉熵損失和噪聲穩(wěn)健損失會導致性能嚴重下降。
此外,我們比較了不同框架變體的性能。"單模型"變體在單個模型中同時優(yōu)化交叉熵損失和噪聲穩(wěn)健損失,結果表明其性能與基線方法相似,未能顯著改善性能。這是因為交叉熵損失和噪聲穩(wěn)健損失的學習目標存在沖突。相比之下,我們的"雙模型"變體,即使沒有增強不變性正則化和標簽校正,也能持續(xù)優(yōu)于基線方法。最后,完整的方法,包括增強不變性正則化和標簽校正,表現(xiàn)最佳。
在真實世界數(shù)據集實驗中,我們使用了Clothing1M和mini-WebVision兩個常用的基準數(shù)據集。Clothing1M包含14個服裝類別,mini-WebVision包含WebVision數(shù)據集中最流行的50個類別的樣本。我們將我們的方法與多種最先進的方法進行了比較,包括Co-teaching、DivideMix、ELR+、GJS等。
在mini-WebVision數(shù)據集上,我們的方法達到了78.72%的分類準確率,超過了使用更強大的InceptionResNetV2骨干網絡的ELR+和DivideMix。當使用模型集成時,我們的方法達到80.00%的準確率,與GJS的集成性能相當。
在Clothing1M數(shù)據集上,我們使用ResNet-50骨干網絡達到了74.61%的準確率,僅比性能最好的方法低0.2個百分點,但顯著優(yōu)于GJS。使用ResNet-18骨干網絡時,我們的方法達到72.97%的準確率,超過了其他樣本選擇方法。這些結果表明,我們的方法在真實世界噪聲環(huán)境中同樣表現(xiàn)出色。
總體而言,實驗結果驗證了我們方法的有效性和魯棒性。在各種噪聲類型、噪聲比例和數(shù)據集上,我們的方法都表現(xiàn)出優(yōu)于或至少與現(xiàn)有最先進方法相當?shù)男阅堋L貏e是在高噪聲比例情況下,我們的方法的優(yōu)勢更為明顯,表明它能夠有效處理嚴重的標簽噪聲問題。
參考資料
Ahn, C., Kim, K., Baek, J., Lim, J., &; Han, S. (2023). Sample-wise Label Confidence Incorporation for Learning with Noisy Labels. ICCV 2023.
Ghosh, A., Kumar, H., &; Sastry, P. S. (2017). Robust loss functions under label noise for deep neural networks.
Zhang, Z., &; Sabuncu, M. (2018). Generalized cross entropy loss for training deep neural networks with noisy labels.
Wang, X., Hua, Y., Kodirov, E., &; Robertson, N. M. (2019). Improving MAE against CCE under label noise.
Li, J., Wong, Y., Zhao, Q., &; Kankanhalli, M. S. (2020). Learning to learn with variational information bottleneck for domain generalization.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.