來源:大數據文摘出品
今天要聊的是牛津大學的學者發布的一篇論文:
———NoProp:一種完全不靠前向/反向傳播的神經網絡訓練方法。
圖注:論文地址:
https://arxiv.org/pdf/2503.24322
換句話說,就是深度學習訓練居然還能不用forward/backward?
讀完之后,發現作者真敢想,也真敢做,甚至還在MNIST和CIFAR-10/100上干到了SOTA級別。
01 傳統深度學習的“老路”
現在主流的神經網絡訓練,基本都靠反向傳播(back-propagation)。
你從輸入跑一遍forward,輸出結果和標簽比一比,算出損失,再把誤差信號沿著神經網絡一層層反傳下去,調整每一層的參數——這就是經典BP算法的全流程。
圖注:反向傳播可視化,圖片來自于《AI In 100 Images》。
它簡單粗暴,好用到稱霸深度學習幾十年。但BP其實也有一堆槽點:
完全不符合生物神經元的工作方式,太“機械”了
要存一堆中間激活,內存壓力大
梯度要一層層傳,想多機/分布式訓練很難搞
還容易出現梯度消失、災難性遺忘等毛病
所以,其實很多年都有人想另辟蹊徑,不靠BP來訓練網絡。但一直沒啥特別靠譜的“新流派”能挑戰BP的地位。
02 NoProp:徹底不要forward和backward
NoProp,野心很大:既不要反向傳播,也不要傳統的前向傳播。
它的核心思想其實很“反直覺”:每一層都自己學會“去噪”一個被加了噪聲的目標(標簽),且每一層的訓練都是獨立的,完全不需要梯度從頭傳到尾,也不需要逐層前向推理。
據說,靈感來自擴散模型和flow matching(沒錯,就是最近AI圖像領域炙手可熱的擴散流派);本質上,每一層都是一個“去噪專家”,收到一個被加噪的標簽和輸入后,自己想辦法把標簽還原回來;另外,訓練時直接喂每層加噪的“假標簽”,讓它自己去學還原;而推理時,把上一層的輸出當成“新噪聲”,繼續去噪,直到最后一層輸出
03 技術細節
技術細節大概有4步,
一:數據處理:每個樣本(x, y),先把y(標簽)映射到一個高維embedding空間,比如one-hot或learnable embedding。
二:加噪聲:按照固定或可學習的噪聲schedule,給標簽embedding加上高斯噪聲,制造一個“帶噪標簽”。
三:每層單獨訓練:設計一套動態塊,每層動態塊都拿到(帶噪標簽,圖片x)輸出去噪后的標簽embedding;損失函數是預測的embedding和“干凈標簽”之間的L2距離,加上分類損失和KL散度正則
四:推理時流程:從純噪聲出發,反復用每層動態塊去噪,最后一層輸出的embedding送給softmax線性層,得到分類結果。
這種做法,和傳統擴散模型的“反噪”過程很像,但目標不是還原圖像,而是還原標簽。
04.不靠BP,效果到底咋樣?
作者直接在MNIST、CIFAR-10、CIFAR-100上正面對比了NoProp和主流方法。結果是:NoProp在MNIST上能和BP打個平手,CIFAR-10/100也極具競爭力。
如上圖,NoProp-DT直接干平甚至略超傳統BP,遠超以往“無反向傳播”方法。另外,內存消耗也更低,訓練更容易分布式/并行;連續時間版本(NoProp-CT、NoProp-FM)在CIFAR-10/100上也比主流ODE方法表現更高效。
NoProp根本不學“分層抽象表示”——每層的“表示”都是用戶指定的(比如高斯加噪的標簽embedding),它只管把噪聲還原成標簽,不去學什么“從低到高的抽象特征”。
其實,這就帶來一個問題:“分層抽象表示”真的是深度學習不可或缺的前提嗎?NoProp的實驗表明:只要標簽embedding設計得好,不學feature也能干正事。
有興趣的朋友可以看原文
(https://arxiv.org/pdf/2503.24322),
NoProp的創新點和實驗設計都非常細致,也許這條“去BP化”的路,能給AI帶來不一樣的想法。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.