論文名:《Deep Residual Learning for Image Recognition》
中文譯名:《深度殘差學習在圖像識別中的應用》
作者均為華人:四位作者(何愷明、張祥雨、任少卿、孫劍)在論文發表時均任職于微軟亞洲研究院(MSRA)
關于引用量
根據多個來源的數據,ResNet自2016年發表后,引用量持續飆升。截至2024年3月,其引用量已突破20萬次,而根據更早的統計,2021年其引用量已超過8萬次,遠超同期其他AI論文。
與其他經典論文對比:例如,2012年的AlexNet(引用量約7.5萬次)、2015年的《Deep Learning》綜述(引用量約3.3萬次),以及Transformer模型論文《Attention Is All You Need》(2021年引用量約1.5萬次),均顯著低于ResNet的引用量。因此,ResNet在計算機視覺領域是當之無愧的引用冠軍。
論文鏈接:https://arxiv.org/pdf/1512.03385(復制到網頁欄,即可下載)
我讓DeepSeek老師深度分析了這篇論文的核心思想和意義,以下是他的回答:
何凱明團隊的論文《Deep Residual Learning for Image Recognition》提出的殘差網絡(ResNet),徹底改變了深度學習領域對深層網絡訓練的認知。以下用通俗語言解析其核心思想和意義:
1.核心問題:為什么網絡越深反而效果變差?
傳統觀點認為,網絡越深能學到的特征越復雜,但實驗發現,當網絡層數超過一定數量(例如20層后),性能反而下降,這種現象被稱為**“退化問題”**(Degradation)。
退化不是過擬合:過擬合是模型在訓練集表現好、測試集差,但退化問題中,連訓練誤差都變高,說明網絡連基本的學習能力都退化了18。
深層網絡難訓練的原因:梯度消失或爆炸雖然可以通過批量歸一化(BatchNorm)緩解,但更深層的網絡在反向傳播時,信號經過多層傳遞后可能變得極其微弱或混亂,導致優化困難28。
何凱明團隊提出了一種巧妙的設計——殘差塊(Residual Block),核心思想是讓網絡學習“差異”而非“整體”。
跳躍連接(Shortcut Connection):在傳統卷積層旁增加一條“抄近路”的路徑,直接將輸入信號跳過幾層傳遞到后面,與卷積層的輸出相加(圖1)。
例如,輸入是X,經過兩層卷積后的輸出是F(X),最終結果變成H(X) = F(X) + X。
F(X)只需學習目標H(X)與輸入X的差值(殘差),而不是直接擬合H(X)。如果X已經接近理想結果,F(X)只需微調,甚至趨近于零,這比從頭學習H(X)容易得多17。
梯度傳播更穩定:跳躍連接讓反向傳播時梯度可以直接“跳過”某些層,避免了因鏈式求導導致的梯度消失或爆炸問題。例如,深層梯度可以直接傳遞到淺層,確保訓練信號不衰減28。
恒等映射的保障:即使新增的層沒有學到有用信息(F(X)=0),網絡性能也不會比淺層更差,因為輸入X可以通過跳躍連接直接傳遞68。
靈活處理維度變化:當輸入和輸出的維度不同時,通過1x1卷積調整通道數(如將64通道擴展到256通道),再相加36。
ResNet在多個數據集上驗證了其有效性:
ImageNet分類任務:ResNet-152(152層)的Top-5錯誤率僅3.57%,遠超VGG(19層,錯誤率7.3%)45。
更深的網絡表現更好:ResNet-1202(1202層)在CIFAR-10上仍能收斂,雖然因過擬合效果略差于較淺模型,但證明了殘差結構對超深網絡的可行性18。
計算效率高:通過“瓶頸結構”(Bottleneck Block,用1x1卷積壓縮維度),ResNet-50的計算量反而比VGG-16更低37。
啟發了后續模型設計:如DenseNet、Transformer等均借鑒了跳躍連接的思想。
跨領域應用:ResNet不僅用于圖像分類,還被用于目標檢測(如Faster R-CNN)、語義分割等領域,均取得突破45。
理論啟發:揭示了深層網絡優化的本質是“如何保留并傳遞有效信息”,而非單純增加層數78。
ResNet通過“跳躍連接”讓網絡學習殘差,解決了深層網絡的退化問題,使訓練千層網絡成為可能。其設計簡單卻深刻,成為深度學習發展的重要里程碑。正如網友調侃:“ResNet告訴我們,遇到困難不要硬剛,學會‘抄近路’反而更高效。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.