機器之心報道
機器之心編輯部
不用換模型、不用堆參數(shù),靠 SUGAR 模型性能大增!
在深度學(xué)習(xí)領(lǐng)域中,對激活函數(shù)的探討已成為一個獨立的研究方向。例如 GELU、SELU 和 SiLU 等函數(shù)憑借其平滑梯度與卓越的收斂特性,已成為熱門選擇。
盡管這一趨勢盛行,經(jīng)典 ReLU 函數(shù)仍因其簡潔性、固有稀疏性及其他優(yōu)勢拓撲特性而廣受青睞。
然而 ReLU 單元易陷入所謂的「死亡 ReLU 問題」, 一旦某個神經(jīng)元在訓(xùn)練中輸出恒為 0,其梯度也為 0,無法再恢復(fù)。 這一現(xiàn)象最終制約了其整體效能,也是 ReLU 網(wǎng)絡(luò)的重大缺陷。
正是死亡 ReLU 問題催生了大量改進的線性單元函數(shù),包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。這些函數(shù)通過為負預(yù)激活值引入非零激活,提供了不同的權(quán)衡。
本文,來自德國呂貝克大學(xué)等機構(gòu)的研究者引入了一種新穎的方法:SUGAR(Surrogate Gradient for ReLU),在不犧牲 ReLU 優(yōu)勢的情況下解決了 ReLU 的局限性。即前向傳播仍使用標(biāo)準(zhǔn) ReLU(保持其稀疏性和簡單性),反向傳播時替換 ReLU 的導(dǎo)數(shù)為一個非零、連續(xù)的替代梯度函數(shù)(surrogate gradient)。
這樣可以讓 ReLU 在保持原始前向行為的同時,避免梯度為零的問題,從而復(fù)活死神經(jīng)元。
基于此,本文還設(shè)計了兩種新型替代梯度函數(shù):B-SiLU(Bounded SiLU)、 NeLU(Negative slope Linear Unit),可以無縫集成到各種模型中。
本研究的進一步貢獻如下:
- 本文對 VGG-16 和 ResNet-18 進行了全面的實驗,表明 SUGAR 顯著增強了這兩種架構(gòu)的泛化能力。
- 本文在Swin Transformer和 Conv2NeXt 等現(xiàn)代架構(gòu)上對 SUGAR 進行了評估,展示了其適應(yīng)性和有效性。
- 對 VGG-16 層激活的深入分析表明,當(dāng)應(yīng)用 SUGAR 時,激活分布發(fā)生了明顯的變化,為其在緩解消亡 ReLU 問題中的作用提供了直觀證據(jù),同時促進了更稀疏的表示。
SUGAR 方法易于實現(xiàn),并在前向傳播中始終采用 ReLU 激活函數(shù)。與所提出的 B-SiLU 替代函數(shù)結(jié)合使用時,VGG-16 在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上的測試準(zhǔn)確率分別提升了 10 個百分點和 16 個百分點,而 ResNet-18 與未使用 SUGAR 的最佳模型相比,分別提升了 9 個百分點和 7 個百分點。
- 論文標(biāo)題: The Resurrection of the ReLU
- 論文鏈接:https://arxiv.org/pdf/2505.22074
SUGAR 介紹
本文提出的方法將 FGI ( Forward gradient injection )應(yīng)用于具有平滑替代函數(shù)的 ReLU 網(wǎng)絡(luò)中。在 SUGAR 框架下, FGI 可以表示為:
該公式實現(xiàn)了梯度注入,并確保即使對于負激活也能進行梯度傳播。具體來說,利用 [34] 中的乘法技巧,替代梯度函數(shù)的直接注入如下:
替代函數(shù)的選擇具有靈活性,可兼容當(dāng)前最先進的各類激活函數(shù),例如 ELU、GELU、SiLU、SELU 以及 Leaky ReLU(見圖 8)。
關(guān)鍵區(qū)別在于,與 ReLU 不同,這些候選替代函數(shù)均具有一個共同特征:對負輸入(x < 0)能產(chǎn)生非零梯度。雖然這些函數(shù)為負激活提供了梯度流通路徑,但前向傳播及后續(xù)損失計算仍嚴格依賴 x > 0 時的激活輸出。
在初步研究中,本文意識到需要調(diào)整當(dāng)前的激活函數(shù)以適應(yīng) SUGAR 的特定用途。因此,接下來本文提出了兩個與這些設(shè)置良好匹配的新替代函數(shù)。
B-SiLU:引入了一種名為 B-SiLU(Bounded Sigmoid Linear Unit) 的新型激活函數(shù),它結(jié)合了自門控特性和可調(diào)下限參數(shù)。從數(shù)學(xué)上講,該函數(shù)可以表示為:
B-SiLU 激活函數(shù)的導(dǎo)數(shù)為:
圖 8 中可視化了 B-SiLU 及其導(dǎo)數(shù)。
NeLU:本文進一步引入了 NeLU(Negative slope Linear Unit),作為 ReLU 的平滑導(dǎo)數(shù)替代品。
最終的梯度如圖 1 所示。
實驗
總體而言,與 ReLU 基線相比,SUGAR 結(jié)合 ELU、SELU 以及特別是 B-SiLU 獲得了最大的提升,而 LeakyReLU 和 NeLU 則始終表現(xiàn)不佳(見圖 2)。在 CIFAR-10 數(shù)據(jù)集上使用 ResNet-18 作為骨干網(wǎng)絡(luò)時,B-SiLU 的性能從 76.76% 提升到 86.42%,得益于 SUGAR。VGG-16 也表現(xiàn)出類似的效果:B-SiLU 將測試精度提高了近 10 個百分點(從 78.50% 提升到 88.35%)。
在 CIFAR-100 數(shù)據(jù)集上,SUGAR 結(jié)合 B-SiLU 的優(yōu)勢更加明顯:ResNet-18 的準(zhǔn)確率從 48.99% 躍升至 56.51%,VGG-16 的準(zhǔn)確率從 48.73% 提升至 64.47%(見圖 3)。同樣,Leaky ReLU 和 NeLU 僅顯示出微小的甚至是負的提升(例如 ResNet-18 上的 43.67% → 43.41%)。
總的來說,B-SiLU 在不同架構(gòu)和數(shù)據(jù)集上均優(yōu)于其他替代激活函數(shù),ELU 和 SELU 能夠提供可靠的改進,而在這種設(shè)置下,SUGAR 從 Leaky ReLU 和 NeLU 中并未獲得有意義的益處。
當(dāng)應(yīng)用于 Conv2NeXt 時,如表 1 所示,SUGAR 在前向和反向傳播過程中均始終優(yōu)于使用 GELU 的基礎(chǔ)模型。
了解更多內(nèi)容,請參考原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.