大數(shù)據(jù)文摘出品
今天要聊的是牛津大學(xué)的學(xué)者發(fā)布的一篇論文:
———NoProp:一種完全不靠前向/反向傳播的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。
圖注:論文地址:https://arxiv.org/pdf/2503.24322
換句話說,就是深度學(xué)習(xí)訓(xùn)練居然還能不用forward/backward?
讀完之后,發(fā)現(xiàn)作者真敢想,也真敢做,甚至還在MNIST和CIFAR-10/100上干到了SOTA級別。
01 傳統(tǒng)深度學(xué)習(xí)的“老路”
現(xiàn)在主流的神經(jīng)網(wǎng)絡(luò)訓(xùn)練,基本都靠反向傳播(back-propagation)。
你從輸入跑一遍forward,輸出結(jié)果和標(biāo)簽比一比,算出損失,再把誤差信號沿著神經(jīng)網(wǎng)絡(luò)一層層反傳下去,調(diào)整每一層的參數(shù)——這就是經(jīng)典BP算法的全流程。
圖注:反向傳播可視化,圖片來自于《AI In 100 Images》。
它簡單粗暴,好用到稱霸深度學(xué)習(xí)幾十年。但BP其實也有一堆槽點:
完全不符合生物神經(jīng)元的工作方式,太“機械”了
要存一堆中間激活,內(nèi)存壓力大
梯度要一層層傳,想多機/分布式訓(xùn)練很難搞
還容易出現(xiàn)梯度消失、災(zāi)難性遺忘等毛病
所以,其實很多年都有人想另辟蹊徑,不靠BP來訓(xùn)練網(wǎng)絡(luò)。但一直沒啥特別靠譜的“新流派”能挑戰(zhàn)BP的地位。
02 NoProp:徹底不要forward和backward
NoProp,野心很大:既不要反向傳播,也不要傳統(tǒng)的前向傳播。
它的核心思想其實很“反直覺”:每一層都自己學(xué)會“去噪”一個被加了噪聲的目標(biāo)(標(biāo)簽),且每一層的訓(xùn)練都是獨立的,完全不需要梯度從頭傳到尾,也不需要逐層前向推理。
據(jù)說,靈感來自擴散模型和flow matching(沒錯,就是最近AI圖像領(lǐng)域炙手可熱的擴散流派);本質(zhì)上,每一層都是一個“去噪專家”,收到一個被加噪的標(biāo)簽和輸入后,自己想辦法把標(biāo)簽還原回來;另外,訓(xùn)練時直接喂每層加噪的“假標(biāo)簽”,讓它自己去學(xué)還原;而推理時,把上一層的輸出當(dāng)成“新噪聲”,繼續(xù)去噪,直到最后一層輸出
03 技術(shù)細(xì)節(jié)
技術(shù)細(xì)節(jié)大概有4步,
一:數(shù)據(jù)處理:每個樣本(x, y),先把y(標(biāo)簽)映射到一個高維embedding空間,比如one-hot或learnable embedding。
二:加噪聲:按照固定或可學(xué)習(xí)的噪聲schedule,給標(biāo)簽embedding加上高斯噪聲,制造一個“帶噪標(biāo)簽”。
三:每層單獨訓(xùn)練:設(shè)計一套動態(tài)塊,每層動態(tài)塊都拿到(帶噪標(biāo)簽,圖片x)輸出去噪后的標(biāo)簽embedding;損失函數(shù)是預(yù)測的embedding和“干凈標(biāo)簽”之間的L2距離,加上分類損失和KL散度正則
四:推理時流程:從純噪聲出發(fā),反復(fù)用每層動態(tài)塊去噪,最后一層輸出的embedding送給softmax線性層,得到分類結(jié)果。
這種做法,和傳統(tǒng)擴散模型的“反噪”過程很像,但目標(biāo)不是還原圖像,而是還原標(biāo)簽。
04.不靠BP,效果到底咋樣?
作者直接在MNIST、CIFAR-10、CIFAR-100上正面對比了NoProp和主流方法。結(jié)果是:NoProp在MNIST上能和BP打個平手,CIFAR-10/100也極具競爭力。
如上圖,NoProp-DT直接干平甚至略超傳統(tǒng)BP,遠(yuǎn)超以往“無反向傳播”方法。另外,內(nèi)存消耗也更低,訓(xùn)練更容易分布式/并行;連續(xù)時間版本(NoProp-CT、NoProp-FM)在CIFAR-10/100上也比主流ODE方法表現(xiàn)更高效。
NoProp根本不學(xué)“分層抽象表示”——每層的“表示”都是用戶指定的(比如高斯加噪的標(biāo)簽embedding),它只管把噪聲還原成標(biāo)簽,不去學(xué)什么“從低到高的抽象特征”。
其實,這就帶來一個問題:“分層抽象表示”真的是深度學(xué)習(xí)不可或缺的前提嗎?NoProp的實驗表明:只要標(biāo)簽embedding設(shè)計得好,不學(xué)feature也能干正事。
有興趣的朋友可以看原文(https://arxiv.org/pdf/2503.24322),
NoProp的創(chuàng)新點和實驗設(shè)計都非常細(xì)致,也許這條“去BP化”的路,能給AI帶來不一樣的想法。
作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術(shù)趨勢!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.