99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

神經(jīng)網(wǎng)絡(luò)的物理根源:從自旋玻璃到能量景觀|2024年諾貝爾獎

0
分享至


導(dǎo)語

2024年諾貝爾物理學(xué)獎授予機(jī)器學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)相關(guān)的研究,很多人對此深感意外。如果我們把“物理學(xué)”定義為對自然世界的研究,人工神經(jīng)網(wǎng)絡(luò)作為完全由人類創(chuàng)造的抽象系統(tǒng),屬于物理學(xué)的范疇嗎?著名科普雜志 Physics Today 近期發(fā)表文章梳理了諾獎得主 John Hopfield 和 Geoffrey Hinton 的主要貢獻(xiàn),認(rèn)為從神經(jīng)網(wǎng)絡(luò)的底層原理,到大模型的涌現(xiàn)能力,物理學(xué)對于理解人工智能的底層機(jī)制具有重要意義,將物理學(xué)思維應(yīng)用到現(xiàn)實(shí)世界系統(tǒng)中,有望為人工智能的突破提供洞察。

關(guān)鍵詞:機(jī)器學(xué)習(xí),統(tǒng)計(jì)物理,神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí),自旋玻璃,能量景觀

Johanna L. Miller| 作者

楊然、張?zhí)鞚h | 譯者

張?zhí)鞚h | 審校

梁金| 編輯

文章題目:Nobel Prize highlights neural networks’ physics roots 文章地址:https://pubs.aip.org/physicstoday/article/77/12/12/3320663/Nobel-Prize-highlights-neural-networks-physics

統(tǒng)計(jì)力學(xué)和集體現(xiàn)象的理念為如今機(jī)器學(xué)習(xí)的巨大成功奠定了基礎(chǔ)。

計(jì)算機(jī)科學(xué)中有句老話:“垃圾進(jìn),垃圾出”,是說計(jì)算機(jī)輸出的質(zhì)量取決于輸入數(shù)據(jù)的質(zhì)量 (垃圾的輸入會導(dǎo)致垃圾的輸出) 。這也暗示著,由于計(jì)算機(jī)缺乏自主思考的能力,它們無法超越自己接收到的明確指令,完成更復(fù)雜的任務(wù)。

然而,這種觀點(diǎn)似乎已經(jīng)不再成立。近年來,神經(jīng)網(wǎng)絡(luò)作為一種受人腦啟發(fā)的計(jì)算架構(gòu),通過“人工神經(jīng)元” (artificial neurons) 傳遞信號,取得了令人矚目的突破。單個(gè)人工神經(jīng)元只能執(zhí)行最基本的計(jì)算任務(wù)。但當(dāng)這些神經(jīng)元數(shù)量足夠多,并且擁有充足的訓(xùn)練數(shù)據(jù)時(shí),它們仿佛可以憑空獲得堪比人類的智力。

物理學(xué)家對簡單基本單元產(chǎn)生復(fù)雜現(xiàn)象并不陌生。幾個(gè)基本粒子及其相互作用規(guī)則就構(gòu)成了幾乎整個(gè)可見世界:從微觀到宏觀、從超導(dǎo)體到等離子體,無所不包。為什么不能用物理學(xué)方法來研究神經(jīng)網(wǎng)絡(luò)中涌現(xiàn)的復(fù)雜性呢?

事實(shí)上,物理學(xué)的方法早已用在了神經(jīng)網(wǎng)絡(luò)領(lǐng)域,而且一直影響至今。這一點(diǎn)在今年的諾貝爾物理學(xué)獎得主身上得到了體現(xiàn):獲獎?wù)呤瞧樟炙诡D大學(xué)的約翰·霍普菲爾德 (John Hopfield) 和多倫多大學(xué)的杰弗里·辛頓 (Geoffrey Hinton) 。從20世紀(jì)80年代初開始,霍普菲爾德為基于物理學(xué)的腦啟發(fā)信息處理奠定了概念基礎(chǔ);而辛頓則長期身處前沿,在物理思想的基礎(chǔ)上發(fā)展出了今天神經(jīng)網(wǎng)絡(luò)模型所使用的算法。

玻璃記憶

最初,人們并沒有意識到神經(jīng)網(wǎng)絡(luò)會如此強(qiáng)大。甚至在2011年,人工智能領(lǐng)域最引人注目的里程碑還是由另一種方法實(shí)現(xiàn)的:在《危險(xiǎn)邊緣》節(jié)目中戰(zhàn)勝了 Ken Jennings 和 Brad Rutter 的 IBM Watson 計(jì)算機(jī)并沒有用到神經(jīng)網(wǎng)絡(luò),而是通過精確編程的語言處理、信息檢索和邏輯推理規(guī)則。當(dāng)時(shí),許多研究人員認(rèn)為,這才是創(chuàng)建實(shí)用人工智能的正確選擇。

與此相比,早期神經(jīng)網(wǎng)絡(luò)的研究更多是好奇心驅(qū)使的研究,關(guān)注真實(shí)的大腦的思考機(jī)制,而非計(jì)算機(jī)和編程應(yīng)用。但早期的神經(jīng)科學(xué)和物理學(xué)的跨界交叉在本質(zhì)上是非常微妙的,正如普林斯頓大學(xué)的 William Bialek 所說:“霍普菲爾德解決的問題和神經(jīng)科學(xué)家們關(guān)注的問題是相通的,但這并不是簡單地‘把物理學(xué)應(yīng)用到某個(gè)領(lǐng)域’,而是引入了一個(gè)前所未有的視角。”

在20世紀(jì)80年代,神經(jīng)科學(xué)家已經(jīng)知道大腦是由神經(jīng)元組成的,這些神經(jīng)元之間通過突觸相連,并在高電活動和低電活動 (也就是通俗理解的“放電”和“不放電”) 狀態(tài)之間交替變化。神經(jīng)科學(xué)家們試圖通過研究只包含少量神經(jīng)元的簡單系統(tǒng),來了解一個(gè)神經(jīng)元的放電如何影響與之連接的其他神經(jīng)元,從而理解大腦的工作機(jī)制。如斯坦福大學(xué)的 Jay McClelland 所說:“一些人從電子學(xué)的角度把神經(jīng)元視作邏輯門。”

在霍普菲爾德1982年里程碑式的論文中,他采用了不同的觀點(diǎn)。[1] 他指出,在物理學(xué)中,許多大規(guī)模系統(tǒng)的特性并不依賴于微觀細(xì)節(jié)。例如,所有材料都能傳導(dǎo)聲波,不論它們的原子或分子之間具體如何相互作用。雖然,具體的微觀作用機(jī)制可能會影響聲速或其他聲學(xué)性質(zhì),但研究三四個(gè)原子之間的相互作用幾乎無法揭示聲波的概念如何形成。

因此,霍普菲爾德提出了一個(gè)神經(jīng)元網(wǎng)絡(luò)模型致力于通過簡潔的數(shù)學(xué)假設(shè)和計(jì)算去揭示大腦工作機(jī)制,而非完全照搬神經(jīng)生物學(xué)基本事實(shí)。這個(gè)模型后來被稱為霍普菲爾德網(wǎng)絡(luò),如圖1所示。 (為了便于展示,圖中展示的是一個(gè)包含五個(gè)神經(jīng)元的簡單網(wǎng)絡(luò),霍普菲爾德當(dāng)時(shí)模擬的是更大的包含30~100個(gè)神經(jīng)元的網(wǎng)絡(luò)。) 每個(gè)神經(jīng)元可以處于狀態(tài)1 (放電) 或狀態(tài)0 (未放電) 。神經(jīng)元之間的連接強(qiáng)度由耦合常數(shù) (coupling constant) 表示,這些耦合常數(shù)可以是任意正值或負(fù)值,具體取決于每個(gè)突觸是否傾向于兩個(gè)神經(jīng)元同時(shí)放電。


圖1. 霍普菲爾德網(wǎng)絡(luò)在形式上等價(jià)于自旋玻璃(spin glass),具備聯(lián)想記憶功能:當(dāng)給定一個(gè)部分記憶的狀態(tài)時(shí),它通過能量降低算法來填補(bǔ)缺失。記憶存儲在節(jié)點(diǎn)之間的連接強(qiáng)度中。當(dāng)霍普菲爾德證明通過合適的連接權(quán)重組合,網(wǎng)絡(luò)可以同時(shí)存儲許多記憶時(shí),他為基于物理學(xué)的神經(jīng)網(wǎng)絡(luò)思想奠定了理論基礎(chǔ)。|圖由 Freddie Pagani 繪制;兔子照片由 JM Ligero Loarte/Wikimedia Commons/CC BY 3.0提供

這個(gè)神經(jīng)元網(wǎng)絡(luò)的構(gòu)造形式與凝聚態(tài)物理中的自旋玻璃系統(tǒng)完全相同。不同于簡單的鐵磁體系統(tǒng),在鐵磁體系統(tǒng)中,所有耦合系數(shù)都是正值,并且系統(tǒng)有一個(gè)明確的最低能量基態(tài),也就是所有自旋都對齊。相比之下,自旋玻璃就復(fù)雜得多,幾乎不存在一個(gè)最低能量狀態(tài)讓所有自旋都同時(shí)滿足各自偏好。系統(tǒng)的能量景觀 (energy landscape) 非常復(fù)雜,包含很多局部能量最小值。

霍普菲爾德提出,這種自旋玻璃似的能量景觀其實(shí)代表了一種記憶機(jī)制,其中,每一個(gè)能量最低構(gòu)型都代表了一個(gè)需要記住的狀態(tài)。在大腦突觸工作模式的啟發(fā)下,他還提出了一種優(yōu)雅的方法來設(shè)置神經(jīng)元之間的連接強(qiáng)度,從而讓神經(jīng)網(wǎng)絡(luò)能夠存儲任意的狀態(tài)集合。

需要指出的是,霍普菲爾德網(wǎng)絡(luò)的記憶功能與傳統(tǒng)計(jì)算機(jī)存儲器有著根本區(qū)別。在傳統(tǒng)計(jì)算機(jī)中,每一條需要存儲的數(shù)據(jù)被編碼為特定硬盤位置的一串“1”和“0”。當(dāng)需要讀取數(shù)據(jù)時(shí),計(jì)算機(jī)只需找到對應(yīng)位置,讀取這個(gè)二進(jìn)制字符串。但是,霍普菲爾德網(wǎng)絡(luò)中,所有的記憶數(shù)據(jù)同時(shí)存儲在整個(gè)網(wǎng)絡(luò)的連接強(qiáng)度中。這個(gè)網(wǎng)絡(luò)還可以通過聯(lián)想來“回憶” (即讀取存儲的數(shù)據(jù)) 。只需要給網(wǎng)絡(luò)神經(jīng)元賦予合適的初值,使它們和待回憶的狀態(tài)有幾處相同的特征,網(wǎng)絡(luò)就會自發(fā)弛豫到最近的能量最小值狀態(tài),從而回憶起相關(guān)的記憶。通常情況下,網(wǎng)絡(luò)會成功找到期望的記憶。

這種記憶模式也正是大腦中真實(shí)發(fā)生的現(xiàn)象。霍普菲爾德說:“高等動物的實(shí)驗(yàn)指出,大腦活動是分散的,涉及到許多神經(jīng)元的協(xié)同作用 (而非計(jì)算機(jī)般的、固定位置的尋址和讀取) 。”而這種神經(jīng)網(wǎng)絡(luò)自發(fā)涌現(xiàn)出來的聯(lián)想記憶模式則是每個(gè)人都曾直接體驗(yàn)過的,比如,當(dāng)你聽到一段隨機(jī)的歌詞時(shí),可能會不由自主地想起整首歌,這就是聯(lián)想記憶(associative memory) 。

霍普菲爾德的模型大大簡化了真實(shí)的大腦。真實(shí)的神經(jīng)元本質(zhì)是動態(tài)的,而非如模型所刻畫的靜止不變;真實(shí)神經(jīng)元之間的連接也不是對稱的 (而模型中假設(shè)是對稱的) 。但是,從某種程度上看,模型與真實(shí)大腦之間的差異并非模型的缺陷,而是模型的亮點(diǎn)。它們表明,集體的聯(lián)想記憶是一種大尺度涌現(xiàn)現(xiàn)象,并不依賴于特定的小尺度細(xì)節(jié)。

學(xué)習(xí)如何學(xué)習(xí)

來自慕尼黑工業(yè)大學(xué) (Technical University of Munich) 的 Leo van Hemmen 說:“不僅 Hopfield 是一位非常出色的物理學(xué)家,而且霍普菲爾德模型本身就是極好的物理學(xué)。”盡管如此,1982年的網(wǎng)絡(luò)模型仍留下了許多有趣的開放性問題。霍普菲爾德主要是通過數(shù)值模擬來展示系統(tǒng)如何弛豫到能量最小值。那么,是否可以用更嚴(yán)格的數(shù)學(xué)方法來分析呢?它能記住多少個(gè)不同的狀態(tài)?如果存儲的狀態(tài)過多會發(fā)生什么?有沒有比霍普菲爾德更好的方式來設(shè)置連接強(qiáng)度?

這一系列的問題吸引了一大批受霍普菲爾德研究啟發(fā)的物理學(xué)家,他們在20世紀(jì)80年代開始進(jìn)入神經(jīng)網(wǎng)絡(luò)領(lǐng)域。以色列魏茨曼科學(xué)研究所 (Weizmann Institute of Science in Israel) 的 Eytan Domany 說道:“物理學(xué)家們富有才華、好奇心強(qiáng),而且有一種積極意義上的自負(fù)。他們愿意鉆研然后解決從未接觸過的問題,只要這個(gè)問題足夠有趣。而且每個(gè)人都對理解大腦感到興奮。”

霍普菲爾德研究的另一個(gè)美妙之處在于,他“顛倒”了一個(gè)傳統(tǒng)的物理問題。恰如耶路撒冷希伯來大學(xué) (Hebrew University of Jerusalem) Haim Sompolinsky所說:“在大多數(shù)能量景觀問題中,一般是先知道微觀相互作用,然后求解:什么是基態(tài)?局部最小值是什么?整個(gè)景觀是什么樣的?”然而,霍普菲爾德 1982年的論文反其道而行之。他從我們想要的基態(tài)開始也就是從需要記憶的狀態(tài)開始,然后去問:什么樣的微觀相互作用會讓這樣的狀態(tài)成為基態(tài)

這種思路的轉(zhuǎn)變會自然地引發(fā)下一個(gè)問題:如果連接強(qiáng)度能夠隨著各自的能量景觀去自發(fā)演化,會發(fā)生什么換句話說,系統(tǒng)能否不依賴于預(yù)先設(shè)定的、特定記憶的參數(shù),而是通過學(xué)習(xí)來改進(jìn)自己?

神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)早已嘗試過這個(gè)思路。比如20世紀(jì)50年代的感知機(jī),它是一種類似神經(jīng)網(wǎng)絡(luò)的裝置,可以將圖像分入簡單的類別,比如圓形和方形。當(dāng)給感知機(jī)提供一系列訓(xùn)練圖像,并用一個(gè)簡單的算法來更新神經(jīng)元之間的連接時(shí),它最終可以正確分類甚至沒見過的圖像。

但由于網(wǎng)絡(luò)結(jié)構(gòu)的原因,感知機(jī)并不總是有效,有的時(shí)候無論怎么設(shè)置連接強(qiáng)度都沒有辦法完成給定的分類任務(wù)。van Hemmen 說,“一旦碰到這種情況,你可能調(diào)一輩子參數(shù)但算法就是不收斂,這對感知機(jī)是一個(gè)很大的打擊”。由于沒有明確的底層機(jī)理去指導(dǎo)研究方向,這個(gè)領(lǐng)域一度停滯不前。

尋求共同語言

辛頓并沒有物理學(xué)背景,但他的合作者 Terrence Sejnowski 1978年正是在霍普菲爾德的指導(dǎo)下獲得物理學(xué)博士學(xué)位。他們一起將霍普菲爾德網(wǎng)絡(luò)模型擴(kuò)展成了一種被稱為玻爾茲曼機(jī)(Boltzmann machine) 的新模型,通過借鑒統(tǒng)計(jì)物理學(xué)概念,大大增強(qiáng)了模型能力。[2]

在霍普菲爾德1982年的模擬中,他其實(shí)思考的是一個(gè)零溫度時(shí)的自旋玻璃網(wǎng)絡(luò):他只允許系統(tǒng)以總能量單調(diào)下降的方式去演化狀態(tài)。因此,無論系統(tǒng)最初的狀態(tài)是什么,它都會逐漸達(dá)到附近的局部能量最低點(diǎn)并停在那里。

辛頓說:“Terry 和我立即開始思考隨機(jī)下降的版本,即非零溫度的情況。”他們沒有使用確定性的能量降低規(guī)則,而是采用了蒙特卡羅算法,允許系統(tǒng)偶爾跳到能量更高的狀態(tài)。給定足夠的時(shí)間,網(wǎng)絡(luò)的隨機(jī)模擬遍歷整個(gè)能量景觀,并最終達(dá)到玻爾茲曼概率分布,這樣一來,能量低的狀態(tài)無論是不是局部能量最低點(diǎn),他們都會以較高的概率出現(xiàn)。

辛頓還說:“1983年,我們發(fā)現(xiàn)了一種非常優(yōu)美的學(xué)習(xí)方法。”他們通過給神經(jīng)網(wǎng)絡(luò)提供訓(xùn)練數(shù)據(jù)去迭代更新網(wǎng)絡(luò)連接強(qiáng)度,從而使數(shù)據(jù)狀態(tài)在玻爾茲曼分布中出現(xiàn)的概率變得更高。[3]不僅如此,當(dāng)輸入數(shù)據(jù)具有共性特征時(shí),比如圖2中的數(shù)字3圖像,其他高概率的狀態(tài)也會共享同樣的共性特征

實(shí)現(xiàn)這種同步的關(guān)鍵在于:在原先僅含有編碼節(jié)點(diǎn)的網(wǎng)絡(luò)中加入了隱藏節(jié)點(diǎn) (在圖2中用灰色表示) ,從而幫助系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)之間更深層次的關(guān)聯(lián)。

理論上,玻爾茲曼機(jī)可用于機(jī)器手寫識別或異常診斷 (比如識別發(fā)電廠的緊急狀況) 。但不幸的是,玻爾茲曼機(jī)的學(xué)習(xí)算法對于大多數(shù)實(shí)際應(yīng)用來說都太慢了。所以在隨后的數(shù)十年中,盡管它仍然是一個(gè)重要的學(xué)術(shù)研究課題,但一直沒有找到太多實(shí)際應(yīng)用。直到很多年后,它才又一次出人意料地登場。


圖2.玻爾茲曼機(jī)在霍普菲爾德網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了兩方面的擴(kuò)展:首先,它增加了隱藏節(jié)點(diǎn)(圖中用灰色表示),這些節(jié)點(diǎn)不直接參與數(shù)據(jù)的編碼;其次,它在非零有效溫度下運(yùn)行,使得整個(gè)構(gòu)型空間可以通過玻爾茲曼概率分布來描述。辛頓和他的同事們開發(fā)了一種方法,可以將玻爾茲曼機(jī)訓(xùn)練成生成模型:當(dāng)輸入的數(shù)據(jù)有某些共同特征時(shí),模型能夠生成更多類似的項(xiàng)。|圖由 Freddie Pagani 繪制

網(wǎng)絡(luò)如何奏效

大約與玻爾茲曼機(jī)同一時(shí)期, 辛頓與認(rèn)知科學(xué)家 David Rumelhart 一起研究另一種名為反向傳播 (backpropagation) 的學(xué)習(xí)算法[4],這后來成為了幾乎所有神經(jīng)網(wǎng)絡(luò)的秘密武器。這個(gè)算法當(dāng)時(shí)是為一種不同的網(wǎng)絡(luò)架構(gòu)開發(fā)的,稱為“前饋網(wǎng)絡(luò)” (feedforward network) 。如圖3所示,與節(jié)點(diǎn)間雙向連接的霍普菲爾德網(wǎng)絡(luò)和玻爾茲曼機(jī)不同,在前饋網(wǎng)絡(luò)中,信號只沿一個(gè)方向流動:從輸入層的神經(jīng)元開始,經(jīng)過若干隱藏層,最終到達(dá)輸出層。多層感知器 (multilayer perceptron) 使用過類似的結(jié)構(gòu)。

假設(shè)你想訓(xùn)練一個(gè)前饋網(wǎng)絡(luò)來做圖像分類。你給它一張兔子的圖片,期望它輸出“這是一只兔子”。但是不知道什么地方出了問題,輸出結(jié)果變成了“這是一只烏龜”。那么,怎么才能讓結(jié)果重回正軌?要知道,這個(gè)網(wǎng)絡(luò)可能有幾十個(gè)、幾百個(gè),今天的網(wǎng)絡(luò)可能有上萬億個(gè)節(jié)點(diǎn)連接,每個(gè)連接都有自己的數(shù)值權(quán)重。有無數(shù)的方法可以去改變這些參數(shù),但是哪一種才能得到想要的結(jié)果呢?

反向傳播算法通過梯度下降解決了這個(gè)問題。首先,你定義一個(gè)誤差函數(shù)來量化網(wǎng)絡(luò)輸出和期望輸出之間的差距。然后,通過反復(fù)使用微積分中的鏈?zhǔn)角髮?dǎo)法則,來計(jì)算這個(gè)誤差函數(shù)對每個(gè)連接權(quán)重的偏導(dǎo)數(shù) (也就是梯度) 。最后,利用這些導(dǎo)數(shù),以降低誤差函數(shù)為方向來調(diào)整網(wǎng)絡(luò)中的權(quán)重。

網(wǎng)絡(luò)學(xué)習(xí)的過程可能需要多次重復(fù)才能把誤差降低到零附近,特別是你還得確保網(wǎng)絡(luò)對于多種輸入都能給出正確的輸出,而不僅僅是對某一個(gè)特定的輸入。但這些簡單的步驟已經(jīng)成為訓(xùn)練各類神經(jīng)網(wǎng)絡(luò)的標(biāo)配,包括概念驗(yàn)證的圖像分類器,和大語言模型比如 ChatGPT。

梯度下降方法在直觀上非常美妙,但它并不是一個(gè)新的概念。正如 McClelland 所說,“要讓反向傳播 (中的梯度下降) 發(fā)揮作用,還需要幾個(gè)條件。首先,如果某個(gè)東西不可微分,那么就沒法計(jì)算它的導(dǎo)數(shù)。” 真實(shí)的神經(jīng)元或多或少是以離散的“開”和“關(guān)”狀態(tài)工作,最初的霍普菲爾德網(wǎng)絡(luò)、玻爾茲曼機(jī)和感知機(jī)也都是離散模型。為了讓反向傳播奏效,我們需要一種狀態(tài)連續(xù)變化的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)模型。但是,連續(xù)值神經(jīng)網(wǎng)絡(luò)早已準(zhǔn)備就緒,霍普菲爾德1984年的論文也提到了這點(diǎn)。[5]

下一個(gè)必要的突破則花費(fèi)了更長的時(shí)間。當(dāng)時(shí),反向傳播對只有幾層的網(wǎng)絡(luò)效果很好,但當(dāng)網(wǎng)絡(luò)層數(shù)達(dá)到五層或更多時(shí) (按照今天的標(biāo)準(zhǔn),這個(gè)層數(shù)算是小的) ,一些偏導(dǎo)數(shù)會變得非常小,導(dǎo)致訓(xùn)練過程慢到爆炸。

直到21世紀(jì)初,辛頓才為他的玻爾茲曼機(jī)找到一個(gè)解決方案。更確切地說,是為受限版本的玻爾茲曼機(jī) (Restricted Boltzmann Machine,RBMs) 。所謂受限,是指這個(gè)版本的網(wǎng)絡(luò)存在隱藏神經(jīng)元和可見(非隱藏)神經(jīng)元之間連接。[6] 受限玻爾茲曼機(jī)在計(jì)算建模上非常簡便,因?yàn)槊繉与[藏的和可見的神經(jīng)元可以一次性更新,連接權(quán)重可以在同一步中全部調(diào)整。辛頓最初的想法是將前饋網(wǎng)絡(luò)中的連續(xù)層對孤立出來,先將它們作為受限玻爾茲曼機(jī)訓(xùn)練,使權(quán)重大致正確,然后使用反向傳播微調(diào)整個(gè)網(wǎng)絡(luò)。

加拿大圭爾夫大學(xué) (University of Guelph in Canada) 的 Graham Taylor (2009年在辛頓門下獲得博士學(xué)位) 評價(jià)說,“這種方法看著有點(diǎn)糙,但它確實(shí)有效,大家一下子就激動了,我們甚至可以訓(xùn)練五層、六層甚至七層的網(wǎng)絡(luò)了。人們稱它們?yōu)椤疃取W(wǎng)絡(luò),并開始使用‘深度學(xué)習(xí)’這個(gè)術(shù)語。”

受限玻爾茲曼機(jī)的技巧并沒有持續(xù)太久。隨著計(jì)算能力的暴漲,特別是GPU (圖形處理單元) 的引入,僅僅幾年后,即使沒有受限玻爾茲曼機(jī)的幫助,人們也可以直接對更大的網(wǎng)絡(luò)做反向傳播訓(xùn)練了。

Taylor 評論說,“如果沒有受限玻爾茲曼機(jī)學(xué)習(xí)方法,GPU會不會還被引入?這個(gè)問題不好說。但可以肯定的是,受限玻爾茲曼機(jī)的熱潮扭轉(zhuǎn)了神經(jīng)網(wǎng)絡(luò)的頹勢:它吸引了新的學(xué)生,激發(fā)了新的思路。不管怎么說,我認(rèn)為受限玻爾茲曼機(jī)改變了歷史的進(jìn)程。”


圖3.前饋網(wǎng)絡(luò),是目前神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),它通過反向傳播算法來訓(xùn)練。這個(gè)網(wǎng)絡(luò)將數(shù)字信號從輸入層傳遞到隱藏層,再到輸出層,完成像圖像分類和文本生成這樣的任務(wù)。|圖由Freddie Pagani繪制;兔子照片由JM Ligero Loarte/Wikimedia Commons/CC BY 3.0提供;俳句由GPT-4生成,OpenAI,2024年10月22日。



舊瓶裝的新酒

今天的神經(jīng)網(wǎng)絡(luò)使用數(shù)百或數(shù)千層神經(jīng)元,但它們的形式與辛頓當(dāng)初的版本幾乎沒有變化。瑞典哥德堡大學(xué)(University of Gothenburg in Sweden)的 Bernhard Mehlig 說:“我從20世紀(jì)80年代的書學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),多年以后當(dāng)我開始教這門課時(shí),我發(fā)現(xiàn)其實(shí)沒什么新的東西,本質(zhì)上都跟以前的一樣。”Mehlig 還提到,他2021年新出版的教科書一共就三個(gè)部分,第一部分講的是霍普菲爾德,第二部分講的就是辛頓。

現(xiàn)如今,神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛影響了人類社會,包括數(shù)據(jù)分析、網(wǎng)絡(luò)搜索和圖像創(chuàng)作。那它們具備智能嗎?很多人不假思索地否定這一點(diǎn)。恰如馬里蘭大學(xué) (University of Maryland) Sankar Das Sarma說:“機(jī)器一直都有很多比人類做得更好的事情,但這與具備人類的智能無關(guān)。ChatGPT在某些方面極其出色,但在許多其他方面,它甚至不如兩歲的嬰兒。”

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)和人類在數(shù)據(jù)掌握方面有巨大的差距。一個(gè)受過基本教育的人,生活20年可能只讀過和聽過幾億個(gè)單詞。相比之下,今天的大語言模型接受了數(shù)千億個(gè)單詞的訓(xùn)練,這個(gè)數(shù)字還隨著每個(gè)新版本的發(fā)布而增長。一旦想到ChatGPT比普通人多一千倍的生活經(jīng)驗(yàn),它的表現(xiàn)看起來就不是那么智能了。但可能這也不重要,也許人工智能在某些任務(wù)上有失誤,但它仍然可以處理好其他合適的任務(wù)組合。

辛頓和霍普菲爾德都討論過不受控制的人工智能的危險(xiǎn)。他們的觀點(diǎn)是,機(jī)器一旦能夠?qū)⒛繕?biāo)拆解為子目標(biāo),就會很快推斷出:只要不斷地給他們自己擴(kuò)展權(quán)限,它們幾乎可以勝任一切任務(wù)。糟糕的是,因?yàn)槿斯ぶ悄芙?jīng)常被要求為其他計(jì)算機(jī)編寫代碼 (從而獲得其他計(jì)算機(jī)的控制權(quán)限) ,一旦神經(jīng)網(wǎng)絡(luò)失控,拔掉一個(gè)電源插頭并不能阻止它們。

Mehlig 補(bǔ)充說:“我們現(xiàn)在面臨著迫在眉睫的風(fēng)險(xiǎn)。有計(jì)算機(jī)生成的文本和虛假圖像正在被用來欺騙公眾,甚至影響選舉。我認(rèn)為,大家常常漫談計(jì)算機(jī)未來接管世界的事情,這反而讓人們忽視了眼下的危機(jī)。”



物理學(xué)家能做些什么?

不安主要是源于我們對神經(jīng)網(wǎng)絡(luò)實(shí)際運(yùn)作機(jī)制知之甚少:數(shù)十億次的矩陣乘法運(yùn)算如何最終形成預(yù)測蛋白質(zhì)結(jié)構(gòu)或創(chuàng)作詩歌的能力?Das Sarma說:“大公司更關(guān)注營收,而不追求理解。獲得理解需要更長的時(shí)間。理論研究者的工作就是理解現(xiàn)象,而這 (人工智能) 正是一個(gè)有待理解的重大物理現(xiàn)象。物理學(xué)家應(yīng)該對此感興趣。”

Bialek 說:“面對人工智能領(lǐng)域正在發(fā)生的種種突破,我們很難不感到興奮,同時(shí)也很難回避一個(gè)事實(shí)——我們并不理解底層的機(jī)制。如果說這些算是涌現(xiàn),那么:涌現(xiàn)過程的序參量(order parameter)是什么?涌現(xiàn)出來的到底是什么?物理學(xué)有一種量化解析問題的思考方式,這種方式能夠帶來洞見嗎?我們拭目以待。”

作為目前最大的問題,神經(jīng)網(wǎng)絡(luò)的底層機(jī)制仍然讓人無從下手。霍普菲爾德說:“如果有什么明顯的可行思路,就一定會有人蜂擁而上。但現(xiàn)在沒什么人研究這個(gè)問題,因?yàn)闆]人知道從哪里開始。”

但一些小問題更容易解決。例如,為什么反向傳播如此可靠地將網(wǎng)絡(luò)誤差降低到接近零,而不會像霍普菲爾德網(wǎng)絡(luò)那樣在高位陷入局部最小值?來自西北大學(xué) (Northwestern University) 的 Sara Solla 表示:“幾年前,斯坦福大學(xué)的 Surya Ganguli 做了一項(xiàng)非常精彩的研究。他發(fā)現(xiàn),大多數(shù)高位的‘最小值’實(shí)際上是鞍點(diǎn),即這個(gè)點(diǎn)在許多維度上是局部最低點(diǎn),但總有一個(gè)維度不是。所以,如果我們繼續(xù)訓(xùn)練,最終一定把誤差繼續(xù)降低。”

當(dāng)物理學(xué)背景的學(xué)者研究這些神經(jīng)網(wǎng)絡(luò)的問題時(shí),他們還算在做物理嗎?如果我們把“物理學(xué)”定義為對自然世界的研究,那么按照這個(gè)定義,人工神經(jīng)網(wǎng)絡(luò)就不再屬于物理學(xué)的范疇,因?yàn)樗鼈兪峭耆扇祟悇?chuàng)造的抽象系統(tǒng),與生物神經(jīng)元幾乎沒有相似之處。恰如 Solla 指出:“我們沒有仿照鳥拍翅膀飛行去設(shè)計(jì)我們的飛機(jī),而反向傳播之于真實(shí)大腦也是如此。工程的目標(biāo)是創(chuàng)造出能夠工作的機(jī)器。大自然確實(shí)為我們提供了一些啟示,但最優(yōu)解未必是照搬大自然。

但物理學(xué)只能是對自然世界的研究嗎?普林斯頓大學(xué)的 Francesca Mignacco 說:“無論是數(shù)學(xué)、計(jì)算機(jī)科學(xué)還是物理學(xué),在多學(xué)科領(lǐng)域中,不同學(xué)科之間的區(qū)別在于它們的方法和思維方式。它們互補(bǔ)但又各不相同。神經(jīng)網(wǎng)絡(luò)建模太過復(fù)雜,難以實(shí)現(xiàn)嚴(yán)格的數(shù)學(xué)描述。但統(tǒng)計(jì)物理恰好有處理高維系統(tǒng)復(fù)雜性所需的工具。就我個(gè)人而言,我從未因?yàn)檫@個(gè)問題可能不屬于物理學(xué)而停止思考追問。”

霍普菲爾德說:“能夠限制我們把物理學(xué)思維應(yīng)用到現(xiàn)實(shí)世界系統(tǒng)中的,只有我們的創(chuàng)造力。對于這樣的應(yīng)用物理學(xué),你可以保留狹隘的看法,也可以歡迎更多,我選擇后者。”

參考文獻(xiàn)

[1]J. J. Hopfield, Proc. Natl. Acad. Sci. USA 79, 2554 (1982).

[2]S. E. Fahlman, G. E. Hinton, T. J. Sejnowski, in Proceedings of the AAAI Conference on Artificial Intelligence, 3, Association for the Advancement of Artificial Intelligence (1983), p. 109.

[3]D. H. Ackley , G. E. Hinton, T. J. Sejnowski, Cogn. Sci. 9, 147 (1985).

[4]D. E. Rumelhart, G. E. Hinton, R. J. Williams, Nature 323, 533 (1986).

[5]J. J. Hopfield, Proc. Natl. Acad. Sci. USA 81, 3088 (1984).

[6]G. E. Hinton, Neural Comput. 14, 1771 (2002); G. E. Hinton, S. Osindero, Y.-W. zzTeh, Neural Comput. 18, 1527 (2006).

[7]M. C. Frank, Trends Cogn. Sci. 27, 990 (2023).

本文轉(zhuǎn)載自《集智俱樂部》微信公眾號

《物理》50年精選文章

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
“高鐵站臺乘客不要打傘!”成都東站工作人員反復(fù)提醒,專業(yè)人士解析緣由

“高鐵站臺乘客不要打傘!”成都東站工作人員反復(fù)提醒,專業(yè)人士解析緣由

極目新聞
2025-07-03 23:31:00
《紐約時(shí)報(bào)》丨托馬斯·弗里德曼:特朗普“大美麗法案”將如何讓中國再次偉大

《紐約時(shí)報(bào)》丨托馬斯·弗里德曼:特朗普“大美麗法案”將如何讓中國再次偉大

邸報(bào)
2025-07-04 09:14:28
39歲博士失業(yè)送外賣?馬化騰:什么都沒錯,唯一的錯是我們老了!

39歲博士失業(yè)送外賣?馬化騰:什么都沒錯,唯一的錯是我們老了!

風(fēng)起講堂
2025-06-22 08:33:55
令人心碎...利物浦官網(wǎng)目前只留若塔、希爾斯堡慘案和海瑟爾慘案

令人心碎...利物浦官網(wǎng)目前只留若塔、希爾斯堡慘案和海瑟爾慘案

懂球帝
2025-07-03 18:20:16
朝鮮女博士來上海后整整15年未出門,民警破門后,當(dāng)場愣住

朝鮮女博士來上海后整整15年未出門,民警破門后,當(dāng)場愣住

獅拓一葉知秋
2025-05-08 20:43:57
別再不舍得開空調(diào)!Nature和子刊:溫度調(diào)低,不僅能抑制多種癌癥生長,還能燃脂減肥,改善代謝和心血管健康

別再不舍得開空調(diào)!Nature和子刊:溫度調(diào)低,不僅能抑制多種癌癥生長,還能燃脂減肥,改善代謝和心血管健康

梅斯醫(yī)學(xué)
2025-07-02 08:49:47
張紀(jì)中家保姆闖禍了,燙傷9個(gè)月孩子故意隱瞞,夫妻倆非常生氣

張紀(jì)中家保姆闖禍了,燙傷9個(gè)月孩子故意隱瞞,夫妻倆非常生氣

TVB的四小花
2025-07-04 02:22:57
比亞迪被打倒,將是中國汽車最大悲哀!王傳福三次哽咽

比亞迪被打倒,將是中國汽車最大悲哀!王傳福三次哽咽

芭比衣櫥
2025-06-15 14:07:14
小米倍思綠聯(lián)集體淪陷!國產(chǎn)充電寶墜入至暗時(shí)刻

小米倍思綠聯(lián)集體淪陷!國產(chǎn)充電寶墜入至暗時(shí)刻

藍(lán)字計(jì)劃
2025-07-01 17:20:49
洛陽一景區(qū)有游客被洪水沖走失聯(lián)3天,家屬急尋稱孩子哭著找爸爸,應(yīng)急局:正搜救核實(shí)

洛陽一景區(qū)有游客被洪水沖走失聯(lián)3天,家屬急尋稱孩子哭著找爸爸,應(yīng)急局:正搜救核實(shí)

極目新聞
2025-07-03 21:11:47
32歲主播童錦程被3億違約金鎖死,被問是否跳槽:我拿頭解約啊

32歲主播童錦程被3億違約金鎖死,被問是否跳槽:我拿頭解約啊

書咚咚
2025-07-03 19:44:27
江西兩個(gè)5A景區(qū)宣布:免票!

江西兩個(gè)5A景區(qū)宣布:免票!

洪觀新聞
2025-07-03 11:32:14
陶琳:特斯拉音響系統(tǒng)采用全自研設(shè)計(jì) 還有神秘黑科技

陶琳:特斯拉音響系統(tǒng)采用全自研設(shè)計(jì) 還有神秘黑科技

手機(jī)中國
2025-07-03 16:24:11
“美國解除對華C919發(fā)動機(jī)出口禁令”

“美國解除對華C919發(fā)動機(jī)出口禁令”

觀察者網(wǎng)
2025-07-04 08:17:07
名記:獨(dú)行俠僅在詹姆斯被買斷的情況下才會對他感興趣

名記:獨(dú)行俠僅在詹姆斯被買斷的情況下才會對他感興趣

直播吧
2025-07-04 00:55:13
女籃李夢最好的3個(gè)朋友:先后表態(tài)力挺,三巨頭就差王思雨了

女籃李夢最好的3個(gè)朋友:先后表態(tài)力挺,三巨頭就差王思雨了

二月侃事
2025-07-03 17:27:29
李澤鉅突遭港府“精準(zhǔn)除名”!李嘉誠家族痛失最后政壇門票?

李澤鉅突遭港府“精準(zhǔn)除名”!李嘉誠家族痛失最后政壇門票?

古事尋蹤記
2025-07-04 08:14:15
美媒:NBA聯(lián)盟已移除波波維奇本賽季缺席的77場比賽戰(zhàn)績

美媒:NBA聯(lián)盟已移除波波維奇本賽季缺席的77場比賽戰(zhàn)績

雷速體育
2025-07-03 14:38:12
僅播6集就口碑大爆,評分高達(dá)9.2,這才是國產(chǎn)黑馬劇該有的樣子

僅播6集就口碑大爆,評分高達(dá)9.2,這才是國產(chǎn)黑馬劇該有的樣子

夢涵說體育
2025-07-03 08:53:57
2025-07-04 10:07:00
中國物理學(xué)會期刊網(wǎng) incentive-icons
中國物理學(xué)會期刊網(wǎng)
最權(quán)威的物理學(xué)綜合信息網(wǎng)站
3777文章數(shù) 21847關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)再創(chuàng)新高,市值已逼近4萬億美元

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰(zhàn)報(bào)泄露天機(jī)

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰(zhàn)報(bào)泄露天機(jī)

體育要聞

你永不獨(dú)行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財(cái)經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強(qiáng)2.0T

態(tài)度原創(chuàng)

家居
游戲
健康
公開課
軍事航空

家居要聞

溫潤質(zhì)感 生活如此明亮動人

海外網(wǎng)友熱議BLG擊敗MKOI:BLG沒那么強(qiáng)大!MKOI輸?shù)姆绞教珌G人了

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄海軍副司令在庫爾斯克州遇襲身亡

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 阿拉尔市| 阿坝| 休宁县| 怀安县| 大埔区| 达尔| 墨竹工卡县| 上蔡县| 台北县| 香河县| 永泰县| 辉县市| 上思县| 定安县| 华池县| 称多县| 杂多县| 西畴县| 汉中市| 定安县| 凤阳县| 新平| 宽甸| 苍溪县| 景德镇市| 金门县| 永康市| 突泉县| 定兴县| 南和县| 黄陵县| 嘉鱼县| 青岛市| 焉耆| 历史| 澄江县| 海丰县| 余江县| 达尔| 商河县| 富蕴县|