99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

十年六萬引!BatchNorm 封神,ICML 授予時間檢驗獎

0
分享至

大數據文摘出品

一篇發表于2015年的論文,在十年后,于國際機器學習大會(ICML)2025上,被授予了“時間檢驗獎”(Test of Time Award)。


這篇論文就是深度學習領域無人不曉的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。

它的出現,從根本上改變了研究者們訓練深度神經網絡的方式,成為AI技術發展進程中的一座關鍵里程碑。

一、一座無法繞過的豐碑

國際機器學習大會(ICML)的時間檢驗獎,旨在表彰十年前發表的、并在此后十年間對整個領域產生深遠影響的論文。

獲獎,意味著一項研究不僅在當時具有開創性,更重要的是,它的思想和方法經受住了時間的考驗,成為了后續無數研究的基石。

Batch Normalization(批次歸一化,簡稱BatchNorm)的獲獎,可謂實至名歸。


自2015年由谷歌研究員Sergey Ioffe和Christian Szegedy提出以來,這篇論文的引用量已超過六萬次,是其所在時代被引用次數最多的深度學習文獻之一。


在工程實踐中,BatchNorm更是成為了一個“默認選項”。開發者在構建神經網絡時,幾乎會下意識地在卷積層或全連接層后加入一個BatchNorm層。

它就像是修建高樓時必不可少的鋼筋結構,為模型的深度和穩定性提供了基礎保障。

可以說,如果沒有BatchNorm,今天我們所熟知的許多深度學習模型架構,或許根本無法被有效訓練


它的出現,不僅解決了一個具體的工程難題,更重要的是,它為整個領域注入了強大的動能,使得訓練更深、更復雜的網絡成為可能。

這座技術豐碑,至今仍然是所有深度學習從業者無法繞過的存在。

二、一場“撥亂反正”的革命

在BatchNorm出現之前,訓練深度神經網絡是一件充滿挑戰甚至痛苦的事情。

一個核心的難題,被論文作者稱為“內部協變量偏移”(Internal Covariate Shift)。這個術語聽起來很復雜,但它描述的現象卻很直觀。

在神經網絡的訓練過程中,網絡由許多層堆疊而成,前一層的參數更新,會導致后一層接收到的輸入數據分布發生變化。

這就好比一個射擊手在瞄準一個不斷移動的靶子,網絡中的每一層都必須持續適應這種變化。

這種不穩定的學習環境,極大地拖慢了模型的訓練速度

為了應對這個問題,研究人員不得不小心翼翼地設置學習率,通常只能選擇一個非常小的值,以防止梯度爆炸或消失。


同時,他們還需要對網絡權重進行精巧的初始化,這本身就是一門復雜的“玄學”。

訓練一個擁有飽和非線性激活函數(如Sigmoid或tanh)的深度模型,在當時被認為是極其困難的。

BatchNorm的出現,如同一場“撥亂反正”的革命,徹底改變了這一局面

它的核心思想簡單而有效:在每一層的輸入端,對數據進行歸一化處理。

具體來說,它在每次訓練迭代中,利用當前小批量(mini-batch)的數據,計算出每個特征維度的均值和方差。

然后,用每個樣本減去均值,再除以標準差,將這一批數據的分布強制“拉回”到均值為0、方差為1的標準正態分布。


這相當于為網絡的每一層都提供了一個穩定的、標準化的“靶子”

為了保證網絡的表達能力不受影響,BatchNorm還引入了兩個可學習的參數(gamma和beta),允許網絡在歸一化之后,對數據進行縮放和平移,學習恢復其原始的分布信息。


這一操作,被巧妙地設計為網絡架構的一部分,隨著網絡的訓練而自動優化。

BatchNorm帶來的好處是立竿見影的

首先,它允許研究者使用非常高的學習率,從而將訓練速度提升數倍甚至數十倍。

論文中的實驗表明,在一個當時最先進的圖像分類模型上,使用BatchNorm后,僅用原來1/14的訓練步數,就達到了相同的精度。

其次,它降低了模型對權重初始化的敏感度,研究者不再需要花費大量精力去“煉丹”般的調參。

此外,由于BatchNorm在每個小批量中引入了由該批次數據統計量帶來的輕微噪聲,它還起到了一種正則化的作用,在某些情況下甚至可以取代Dropout,有效防止了模型過擬合。

可以說,BatchNorm以一種優雅的工程方式,馴服了深度神經網絡這匹難以駕馭的“野馬”。

三、一個“喧囂”時代的開啟

BatchNorm的成功,是工程上的巨大勝利,但圍繞它的理論探討,卻開啟了一個“喧囂”的時代。

盡管論文的兩位作者將其成功歸因于“減少了內部協變量偏移”,但這個解釋在后來的幾年里,受到了持續的審視和挑戰。

一些后續的研究發現,BatchNorm的有效性與內部協變量偏移的減少之間,并不存在必然的因果關系。

有實驗表明,即使在某些情況下,BatchNorm反而增加了內部協變量偏移,模型的性能依然得到了提升。

新的理論開始涌現,試圖從其他角度解釋BatchNorm的魔力。

其中一個被廣泛接受的觀點認為,BatchNorm的核心作用在于平滑了優化過程中的損失函數曲面(Optimization Landscape)

通過重新參數化網絡,它讓損失函數的“地形”變得更加規整,減少了許多崎嶇的“山谷”和“尖峰”,使得梯度下降算法可以更穩定、更快速地找到最優解。

這種理論上的爭議,絲毫沒有動搖 BatchNorm 在實踐中的統治地位。


它與殘差連接(Residual Connections)等技術相結合,共同催生了以ResNet為代表的超深度網絡架構的誕生。

沒有BatchNorm提供的穩定梯度流,訓練上百層甚至上千層的網絡是不可想象的。

它的成功,也激發了對“歸一化”這一思想的深入探索。

研究者們意識到,在網絡內部對數據分布進行規范,是一個極其強大的工具。

隨后,一系列新的歸一化方法被提出,例如層歸一化(Layer Normalization)、實例歸一化(Instance Normalization)和組歸一化(Group Normalization)等。

這些方法各有側重,適用于不同的任務場景,例如RNN或者小批量尺寸不固定的情況,但它們都共享了BatchNorm的核心思想

十年過去,BatchNorm不再是唯一的選擇,但它依然是應用最廣泛、最基礎的歸一化技術。

它不僅是一個具體的算法,更是一種設計哲學,深刻地影響了深度學習領域的思維范式。

它用一種簡單、粗暴但極其有效的方式,解決了深度學習從理論走向大規模應用的關鍵瓶頸,開啟了一個模型架構設計百花齊放的繁榮時代。這或許就是“時間檢驗獎”想要真正表彰的、不朽的貢獻。

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

通文知史
2025-07-22 21:55:02
越深愛,越別扭,這三大星座太難懂

越深愛,越別扭,這三大星座太難懂

星座不求人
2025-07-23 21:10:11
國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

風口招財豬
2025-07-24 01:13:10
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

靠譜電影君
2025-07-22 23:32:19
工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

養老規劃羅姐說
2025-07-22 19:03:14
最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

伊人河畔
2025-07-12 10:13:49
福建廳干游祖煙履新

福建廳干游祖煙履新

魯中晨報
2025-07-22 07:52:08
48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

不二大叔
2025-07-15 21:45:47
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

華爾街見聞官方
2025-07-24 05:42:19
女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

凡知
2025-07-23 16:09:34
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

直播吧
2025-07-23 22:29:22
南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

喜歡歷史的阿繁
2025-07-23 18:08:41
3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

青山隱隱啊
2025-07-23 10:33:05
云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

凱旋學長
2025-07-23 21:52:37
女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

籃球快餐車
2025-07-24 05:16:28
高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

深度報
2025-07-12 23:26:48
巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

綠茵舞著
2025-07-24 00:14:40
2025-07-24 06:31:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

時尚
健康
旅游
數碼
親子

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

AppleCare+ 為 iPad 和 Apple Watch 帶來防盜和丟失選項

親子要聞

想讓孩子長高,這兩種飯千萬不要喂!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 福贡县| 长岭县| 河间市| 鄯善县| 葵青区| 贵德县| 和顺县| 临桂县| 前郭尔| 新安县| 小金县| 德钦县| 安康市| 和林格尔县| 资源县| 武穴市| 平塘县| 兰州市| 民乐县| 克拉玛依市| 安西县| 通江县| 抚顺市| 青冈县| 安福县| 赫章县| 烟台市| 界首市| 深州市| 定安县| 昆明市| 昌邑市| 长丰县| 邳州市| 诸城市| 巴林右旗| 巍山| 紫阳县| 沾益县| 祁东县| 新蔡县|