導語
2024年諾貝爾物理學獎授予“通過人工神經網絡實現機器學習的基礎性發現和發明”,引發人們對統計物理與機器學習之間深刻聯系的關注和廣泛討論。機器學習能為物理學做些什么?物理學又能為機器學習做些什么?近期 PNAS 雜志發表「物理學遇見機器學習」(Physics Meets Machine Learning)主題特刊,展現了物理學與機器學習兩個領域之間的活躍對話,論文主題涵蓋生物物理與機器學習、動態學習系統、生成模型、表征與泛化、神經標度律等各個方向。本文翻譯自美國東北大學物理系與生物工程系杰出教授 Herbert Levine 與IBM 沃森研究中心研究員涂豫海撰寫的特刊引言,文章認為,人工神經網絡受益于統計物理學和神經科學這兩個自然科學學科,深度學習的下一個突破可能來自基于統計物理學概念和方法建立的堅實理論基礎,而探索真實大腦計算與深度學習神經網絡之間的差異,可能會產生新的腦啟發算法。
為了深入探索統計物理前沿進展,集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰、紐約州立大學石溪分校化學和物理學系教授汪勁、德累斯頓系統生物學中心博士后研究員梁師翎、香港浸會大學物理系助理教授唐乾元,以及多位國內外知名學者共同發起。讀書會旨在探討統計物理學的最新理論突破,統計物理在復雜系統和生命科學中的應用,以及與機器學習等前沿領域的交叉研究。讀書會從12月12日開始,每周四晚20:00-22:00進行,持續時間預計12周。我們誠摯邀請各位朋友參與討論交流,一起探索愛因斯坦眼中的普適理論!
關鍵詞:統計物理,機器學習,深度學習神經網絡,隨機學習動力學,損失景觀,泛化,神經科學
Herbert Levine,Yuhai Tu(涂豫海)| 作者
吳晨陽| 譯者
梁金 | 審校
論文題目: Machine learning meets physics: A two-way street 論文地址: https://www.pnas.org/doi/10.1073/pnas.2403580121
目錄
1. 機器學習與蛋白質折疊問題
2. 機器學習的拓展
3. 物理能為機器學習做什么?
3.1 機器學習的中心法則
3.2 隨機學習動力學:從漲落的損失景觀上滾落
3.3 泛化:高維的祝福與詛咒
本文介紹了一期特刊,這期特刊關注迅速發展的機器學習 (machine learning, ML) 領域與物理學研究之間的互動。特刊上半部分論文討論了機器學習能為物理學做些什么,下半部分論文則探討了物理學能為機器學習做些什么。正如我們將看到的,這兩個方向都在活躍地發展。
物理學是一個非常廣闊的學科,幾乎每個分支都在探索機器學習的潛在應用。我們顯然無法系統地涵蓋所有這些發展。相反,我們將呈現各種示例,并嘗試提出一些初步的總體見解。鑒于研究活動的巨大熱潮,我們確信這些觀點需要隨著經驗的積累不斷修正。盡管如此,我們仍將繼續。
1. 機器學習與蛋白質折疊問題
在根據序列確定蛋白質結構方面,AlphaFold [1]及其后續版本的表現堪稱機器學習解決重要物理問題的典范。這是一個在生物物理學領域研究了多年的問題 [2-4],該領域的研究者積極參與了一個被稱為結構預測關鍵評估 (the Critical Assessment of Structural Prediction, CASP) 的兩年一度的競賽,其中各種方法都會與已知但尚未公布的數據進行對比評估。一個重要的里程碑是 AlphaFold 在2018年競賽的總排名中位列第一,并在2020年再次重復了這一成就。到2022年第十五屆 CASP 競賽時,大多數參賽者都在其方法中采用了某種基于 AlphaFold 的理念。該方法已經變得如此普遍,以至于這個詞已經開始被用作動詞,例如“Can we AlphaFold our way out of the next pandemic?” (我們能否用 AlphaFold 擺脫下一次大流行?) [5]。本期特刊中 Park 等人[6]的論文為如何在現代計算系統上有效地使用 AlphaFold2 提供了一個實用指南。
從蛋白質折疊應用的歷史中可以獲得一些有趣的啟示。我和 Terry Sejnowski 兩人在20世紀80年代末都在加州大學圣地亞哥分校 (UCSD) ,當時他做了一個論文報告,是關于使用神經網絡研究球狀蛋白的二級結構[7]。他的算法性能相當平庸,我們中的許多人在離開那次講座時都在想,為什么有人會放棄傳統的生物化學方法,而青睞我們現在稱之為機器學習的方法。那么,從那時到2018年這30年間發生了什么?似乎有四個因素在起作用。
首先,用于解決這個問題的計算能力以幾乎難以想象的速度增長。例如,1985年左右的 Cray 2 超級計算機作為那個時代最快的計算機,運算速度達到1.9千兆浮點運算每秒 (gigaflops) ;而現在這大約相當于 iPhone 4 的計算能力。當下最先進的超級計算機運算能力已達到109千兆浮點運算每秒。在當時完全無法實現的計算,現在已變得輕而易舉。關于內存容量也可以舉出類似的數據。可以說,如果相關研究人員未能獲得這些計算能力,那么研究進展將會受到極大阻礙。
硬件改進是必要的,但還不夠。第二個因素是各種機器學習技術的發明,從而能夠從現有數據中學習預測模型。由于未能認識到 Minsky 和 Papert 在感知機研究中提出的著名的“否定性” (no-go) 結論[8]的嚴重局限性,神經網絡領域在20世紀80年代仍處于低迷期。那時,人們才剛剛意識到帶有隱藏層的“深度網絡”可能開創新局面,這一進展始于玻爾茲曼機 (Boltzmann machine) [9]等結構的出現,并在隨后發展出了反向傳播訓練算法[10]。如今,transformer 架構[11]、自編碼器[12]和對抗網絡[13]等理念已經徹底改變了人們對機器學習過程的理解。就 AlphaFold 的例子而言,transformer 理念似乎是絕對必要的。Martin 等人[15]的論文討論了 transformer 如何與更一般的機器學習概念相結合,這些概念可以追溯到 Hopfield 聯想記憶模型[14]。
下一個因素是訓練所需的數據可用性。蛋白質數據庫 (PDB) 成立于1971年,用于存儲蛋白質結構信息 [16]。同樣,可供所有研究人員使用的結構數據量出現了爆炸性增長。結構數量大約每6到8年翻一番;到2024年初,PDB 數據庫已超過20萬個結構,相比之下1990年僅有約1000個結構;參見圖1。但這并不是唯一重要的數據來源。正如 Martin 等人 [15] 的文章所述,蛋白質折疊領域的許多進展源于這樣一個認識:通過比較不同生物體中同一蛋白質的序列,可以獲得有關接觸圖譜 (contact map) 的重要信息。接觸圖譜是一種矩陣表示,顯示了沿主鏈相距較遠的殘基在折疊結構中可能在三維空間中靠近的概率。這里的核心思想源于直接耦合分析 (direct coupling analysis,DCA) [17, 18] 等算法的研究,即,從一個物種到另一個物種的演化過程中,一對接觸的殘基必須共同進化以維持這種接觸。因此,對相關進化的觀察可以幫助識別這些接觸。得益于測序領域令人驚嘆的技術進步,過去十年中比較基因組學數據呈現出海嘯般的增長。
圖1. 2019年蛋白質數據庫(PDB)核心檔案庫增長報告。每個柱狀圖的總高度表示累計發布的結構總數,柱狀圖中不同顏色代表不同的實驗技術(MX(大分子晶體學)-綠色、3DEM(三維電子顯微鏡)-黃色、NMR(核磁共振)-藍色)。引自參考文獻[16]。
最后一個,可能也是最有趣的因素,這個問題對機器學習研究的未來發展有著重要影響。問題是:過去三十年使用傳統技術對蛋白質折疊進行的大量理論研究,到底有多重要?更簡單地說,如果在一個平行宇宙中,在 AlphaFold 時代之前沒有人關注蛋白質折疊計算,我們現在的研究進展會落后多少?當然,這個問題不可能有確切答案,但我們認為理論研究確實是當前進展得以實現的重要推手。我們已經提到,使用比較基因組學數據的想法就源于理論研究群體。一個同樣重要的想法是將結構數據編碼到標準生物物理模型中[19],這種方法既利用了物理洞見又運用了測量信息。此外,由氨基酸序列預測蛋白質結構作為蛋白質折疊在工程應用方面的進步,不應與最小阻挫 (minimal frustration) [20]、折疊漏斗 (folding funnel) [21] 等概念所帶來的蛋白質折疊理論進步混為一談。這些概念的重要性是全局的,在其他的背景下也有應用,包括分子水平 [22, 23] 和細胞水平 [24]。而且,即使從純實用的角度來看并非必需,擁有“人類可理解的”方法有時也是很好的。
這一研究方向當前面臨哪些挑戰?首先是那些不存在唯一結構的系統,在這些系統中,折疊問題轉化為尋找一個結構集合以及與之相伴隨的結構之間轉換的動力學。這類系統包括內在無序蛋白質 (intrinsically disordered proteins) [25] 以及基因組折疊 [26, 27]。另一個方向涉及生物分子相互作用的研究,其中 Alpha-Multimer 的純機器學習方法在許多應用中尚未被證明足夠可靠。Lupo 等人的論文 [28] 試圖通過應用語言模型來更好地對齊蛋白質-蛋白質界面處相關的相互作用序列,以解決這個問題。此外還應當注意到T細胞受體對抗原的識別問題,這種抗原識別是適應性免疫系統的關鍵組成部分。在這方面,最近的研究[29, 30]則通過使用語言模型來解決這個問題,與之競爭的還有混合方法[31],這類方法整合了結構數據但也因此會受到結構數據缺乏的限制。
2. 機器學習的擴展
生物物理學是探索機器學習應用的一個自然途徑。與物理學的其他許多領域不同,大多數與生命世界相關的實驗系統都極其復雜,因此從第一性原理建立模型的能力相當有限。以分子尺度之上的一個例子來說,不可能有任何第一性原理模型能夠恰如其分地處理細胞集體運動 [32] 所涉細胞機制的全部復雜性。這里沒有納維-斯托克斯 (Navier–Stokes) 方程可以來救場,因此人們自然會思考,是否可以用純數據驅動的模型來有效替代手工構建的模型[33, 34]。研究者們正在多個細胞運動實驗系統 [35, 36] 中積極研究該問題,當然,許多生物醫藥領域的工作也在深入研究該問題,例如數字病理學方面的工作 [37]。值得注意的是,我們可以嘗試通過機器學習來推導出更好的手工模型 (參見文獻38) ;但目前尚不清楚為什么這樣做會比直接使用學習到的神經網絡預測結果更好。
比起上述情況,或許更令人驚訝的是,機器學習方法正在滲透到那些名義上具有可靠計算框架的物理系統研究中。Yu 和 Wang 的論文 [39] 很好地總結了這些系統。一種觀點認為,即使在有第一性原理模型可用的情況下,機器學習也可以加速計算。Kochkov 等人 [40] 就持有這種觀點,他們明確關注前面提到的用于流體動力學的納維-斯托克斯方程。也許在那些原則上可知但可能過于復雜而難以實現的物理問題中,這種方法會更有說服力;氣候模擬器中的云模型可能就是這樣一個例子。總體上看,在結合傳統建模的可解釋性與機器學習的泛化能力方面,似乎還有很大的進步空間。
如果我們關注于某個非常具體的物理系統的模型,為獲得有意義的結果,通常必要的大規模計算是可以承受的;并且,隨著計算能力持續指數增長,這變得越來越容易。然而,正如 King 等人 [41] 在本期關于材料組裝的論文中所強調的那樣,當任務是設計新事物時,這會變得困難得多。這個挑戰需要一個迭代過程,即在微觀尺度上選擇相互作用,并最終在更大尺度上產生某種功能性行為。這個迭代過程通常涉及某種功能性度量 (measure) 的梯度下降,但作為收斂過程的一部分,“正向”問題必須被計算多次。正如該論文所討論的,這個問題可以通過機器學習的思想得到極大改善,包括自動微分[42]的概念,它能夠將大尺度誤差“反向傳播”到微觀自由度的必要改變中。當然,這個思想原本是神經網絡模型中訓練隱藏層的算法核心,但現在,這個理念可以自動應用于任何大規模計算。
當人們思考機器學習及其在物理學中的應用時,弦論可能不會立即浮現在腦海中。然而,弦論研究者們正在積極探索機器學習方法是否有用[43]。當然,弦論試圖構建一個“萬物理論”,通過存在于11維空間中的“弦” (一維延展的量子對象) 來解釋所有基本粒子及其相互作用。機器學習被用來尋找方法將這個11維空間壓縮到我們體驗的4維世界。尋找合理的緊致化是一個非常困難的計算問題,而這可以通過機器學習的理念得到改善。誰知道呢?
在機器學習與物理學 (ML-Physics) 交叉領域,還有最后一個正在研究的方向。一些研究組正在嘗試使用機器學習方法從數據中自動發現新方程;想象一下,利用行星數據來嘗試同時學習牛頓運動定律和引力的平方反比定律。這個想法在Yu[39]的論文中有簡要概述,并提供了相關參考文獻。我們可以將這項努力視為試圖最終將理論物理學家用其人工智能版本取代。不過在機器能夠觀察天體物理數據并發現正確的理解框架是四維時空中的黎曼幾何之前,我們對自己的工作還不用擔心。
3. 物理能為機器學習做什么?
當然,機器學習的影響遠不止于推進物理科學。深度學習神經網絡 (Deep learning neural network, DLNN) 模型 [44, 45] 在圖像識別[46]、機器翻譯[47]、游戲[48]等領域取得了一連串快速而巨大的成功,而且正如我們已經討論過的,甚至解決了蛋白質折疊[1]這樣長期存在的重大科學挑戰。無論好壞,像ChatGPT這樣的最新生成模型正從根本上改變著我們這個時代的社會、經濟和政治格局。
然而,最近深度學習神經網絡令人難以置信的成功產生了一個副作用,即人們為了追求快速、狹隘的應用驅動型發展,而忽視了其理論動機和基礎。這正在逐漸導致越來越多的次優實踐,包括在缺乏理論指導的優化和正則化步驟 (optimization and regularization procedure) 所涉及的大量超參數上耗費大量計算和時間進行調優,對高精度編碼參數的低效利用,對昂貴標記數據的低效利用,最終結果缺乏可重復性,以及濫用這項強大技術的可能性。發展過參數化連接主義機器學習模型 (如深度學習神經網絡) 的理論基礎,將有助于避免此類問題,從而簡化其優化過程,并實現用更少數據訓練出穩健模型。同時,規范性理論提供的預測可以指導改進未來的架構和訓練范式。
人工神經網絡 (Artificial neural network,ANN) 模型源于統計物理學和神經科學這兩個自然科學學科的結合。從本質上講,人工神經網絡描述了一組高度抽象的“神經元”在網絡中通過自適應方式相互作用而產生的涌現 (集體) 行為,這種網絡與大腦中的真實神經網絡有某些相似之處。模型動力學使人工神經網絡能夠進行關聯和學習。從歷史上看,統計物理學和神經科學在人工神經網絡的創立和早期發展中都發揮了開創性作用。McCulloch 和 Pitts 在1943年為生物神經網絡建模首次引入線性-非線性人工神經元以及神經元之間的突觸權重[49],這至今仍是現代深度學習神經網絡的基本構建塊。統計物理學在80年代末和90年代人工神經網絡的初期發展和理論理解中也發揮了重要作用,推動了諸多關鍵發展,包括 Hopfield 模型 [14]、玻爾茲曼機 [9] 以及自旋玻璃 (spin-glass) 理論的神經網絡應用[50]等。
現在有什么不同?在基本層面上,沒有太大變化,McCulloch–Pitts 神經元仍然是所有深度學習算法的基本構建塊,線性求和與非線性激活仍然是單個神經元層面的基本計算過程。然而,規模卻有著巨大的差異。正如在前面蛋白質折疊背景中所討論的,我們現在擁有海量數據來訓練大型人工神經網絡模型;反過來,這些模型可以通過使用大量參數來吸收大型數據集中的信息。這些大模型的架構比 Rosenblatt 的原始感知器模型[51]復雜得多,例如,對現代大語言模型 (large language model, LLM) 來說 transformer 架構至關重要。當然,這些大型人工神經網絡的性能遠遠超出了我們基于觀察單個神經元所形成的預期。
這讓我們想起 P. W. 安德森 (Anderson) 的著名論斷:“多者異也” (More is different) [52],他提出整個系統不僅僅是其各個部分的總和,系統中各個部分的相互作用可以產生涌現 (不同的) 行為。安德森這句名言激勵了幾代物理學家研究復雜多體系統的涌現行為,我們也想用它作為口號,號召物理學家們來研究出現在 (有時) 龐大但始終具有良好結構的人工神經網絡中的迷人涌現行為——學習(learning) 。這些研究需要回答一些普遍性問題:學習如何從神經元相互作用中產生,深度學習神經網絡究竟學到了什么,以及它們是否能夠泛化所學到的知識。
確實,我們認為深度學習的下一個突破可能來自于基于統計物理學概念和方法建立的堅實理論基礎。這將與不斷推出的更先進的深度學習神經網絡算法相輔相成,這些算法將加快物理和生物世界的科學發現步伐。這兩個相互關聯的新興研究主題——基礎理論和復雜應用——將極大地推進科學和人工智能技術的發展。在下文中,我們將在深入探討幾個可能取得進展的有前景的方向之前,先介紹描述機器學習過程的一般框架。我們的討論將簡要概述本特刊中與這些方向相關的已發表論文。
3.1 機器學習的中心法則
在 Ambrose 等人[53]所著的《學習如何運作?》 (How learning works?) 一書中,學習被定義為“一個導致變化的過程,這種變化源于經驗,并增加了提高未來表現和學習能力的潛力”。雖然這本書是在人類 (學生) 學習的背景下寫成的,但這個簡明的學習定義同樣可以用來描述機器學習。在圖2中,我們展示了機器學習 (如基于神經網絡的深度學習) 的關鍵組成部分和工作流程,我們稱之為機器學習的“中心法則”。機器學習過程的目標是學習一個能夠捕捉觀測數據所代表的外部世界內在屬性的模型。該模型具有特定的結構,即函數形式,并由其參數 (在神經網絡模型中稱為權重) 來參數化。遵循 Ambrose 等人給出的定義,在學習過程的訓練階段,模型中的參數會發生變化,這種變化源于對經驗 (或者機器學習所說的訓練數據) 的訓練。一旦經過訓練,我們可以通過訓練后模型在未見過的測試數據上的表現,以及訓練后模型是否為未來學習形成了良好的基礎 (起點) 來評估其學習質量。
圖2. 機器學習中主要步驟和工作流程的說明。用紅色突出顯示的是可能通過基于物理的方法解決的三個方向。
圖2所示的機器學習工作流程立即提示了機器學習中的兩個重要問題。第一個問題關注學習動力學(learning dynamics) 。具體來說,給定訓練數據時,模型的參數如何變化?通常的學習過程是通過最小化損失函數來進行的,損失函數刻畫了模型對訓練數據的擬合程度。從一組初始參數值開始,參數在損失函數的指導下在高維參數空間中迭代更新,直到達到最小值。模型在這樣的最小值處的參數構成了問題的一個解。優化過程,即參數更新序列,可以被視為以更新步為時間的學習動力學。第二個問題處理泛化問題。通常,深度學習神經網絡是過參數化的。因此,擬合訓練數據這一問題有許多可能的解 (最小值) 。問題在于哪個解具有更好的泛化性,即在訓練過程未使用的測試數據上表現更好。如果我們知道什么類型的解具有更好的泛化能力,一個相關的問題是我們可以使用什么正則化項 (除了損失函數之外) 來推動系統朝著那些更具可泛化性的解發展。在接下來的兩節中,我們將更詳細地深入探討這兩個一般性問題,并強調這些方向上的一些最新發展。
3.2 隨機學習動力學:從漲落的損失景觀上滾落
人工神經網絡中的一般優化策略包括通過跟隨損失函數的梯度來更新權重,這種方法稱為梯度下降 (gradient descent,GD) 。鑒于深度學習神經網絡的前饋架構,梯度下降可以通過反向傳播 (backpropagation) 高效實現。然而,如果使用在所有訓練數據上取平均的損失函數,梯度下降對大型數據集來說在計算上將是不可行的。為了規避大數據集問題,可利用隨機梯度下降(stochastic gradient descent,SGD) 方法代替梯度下降,該方法在每次迭代時會隨機選擇一個樣本子集 (小批量) ,并用其更新權重 [54, 55]。值得注意的是,隨后人們發現隨機梯度下降對于在深度學習神經網絡中找到更具泛化能力的解同樣至關重要。
然而,盡管深度學習取得了巨大成功,但我們仍未充分理解,隨機梯度下降為什么能在高維非凸損失函數 (能量) 景觀中有效地學到好的解決方案。隨機性似乎是隨機梯度下降的關鍵,但這也使其更難理解。幸運的是,許多物理和生物系統都包含這樣的隨機元素,例如布朗運動和隨機生化反應。并且我們已經開發出了強大的工具,來理解具有多個自由度的隨機系統中的集體行為。事實上,統計物理學和隨機動力系統理論中的概念和方法最近已被用于研究深度學習神經網絡中的隨機梯度下降動力學、損失函數景觀及它們之間的關系。
為了展示這種基于物理學的方法在理解深度學習神經網絡方面的實用性,我們簡要描述一個研究隨機梯度下降學習動力學的理論框架,及從中獲得的一些有趣見解。我們首先將基于隨機梯度下降的學習過程視為一個隨機動力系統。像神經網絡 (neural network,NN) 特別是深度神經網絡 (deep neural network,DNN) 這樣的學習系統具有大量(N)的權重參數wi(1, 2, …, N)。對于監督學習 (supervised learning) ,我們有M個訓練樣本,每個樣本都有一個輸入和一個正確輸出,其中k = 1, 2, ..., M。對于每個輸入,學習系統會預測一個輸出,其中輸出函數G取決于神經網絡的架構和其權重。學習的目標是找到權重參數以最小化預測輸出和正確輸出之間的差異,這種差異由整體損失函數 (或能量函數) 刻畫:
其中d(, )是和之間的距離度量。這里,一個典型的距離度量是交叉熵。
具體來說,隨機梯度下降中第t次迭代的權重wi(1, 2, ..., N)的變化由下式給出:
其中 α 是學習率,μ(t)表示第t次迭代使用的隨機小批量。大小為B的小批量μ的小批量損失函數 (minibatch loss function, MLF) 定義為:
其中μl標記隨機選擇的B個樣本。
在這里,我們引入小批量損失函數系綜 (ensemble) 這個關鍵概念,即一個能量景觀的系綜,每個景觀來自于一個隨機小批量。整體損失函數只是小批量損失函數的系綜平均:。隨機梯度下降噪聲來自小批量損失函數與其系綜平均之間的變化:。通過采用連續時間近似并保留方程(2)中的一階時間導數項,我們得到隨機梯度下降的隨機偏微分方程如下:
其中時間t和本研究中的所有時間尺度都以小批量迭代時間Δt=1為單位來度量。連續時間極限相當于考慮遠大于Δ的時間尺度,例如,一輪 (epoch) 的時間是M/B(>>1)。方程(4)類似于統計物理學中的朗之萬方程 (Langevin equation) 。第一項是由整體損失函數L支配的確定性梯度下降,類似于物理學中的能量函數。第二項是隨機梯度下降噪聲項,其均值為零,等時協方差矩陣為
該矩陣明確依賴于,其給出了一種復雜形式的乘性噪聲。對于給定的網絡架構,學習動力學因此可以映射為一個“學習粒子”的隨機運動,該粒子的坐標是網絡的權重。特別地,隨機梯度下降學習算法對應于學習粒子在漲落的能量景觀中的下降過程,其由朗之萬方程 (方程2) 支配,包含一個確定性梯度下降項和一個噪聲項,其中噪聲項的協方差矩陣由方程5給出。
隨機梯度下降學習動力學中最不尋常和最有趣的部分來自噪聲項。正如 Chaudhauri 和 Soatto [56]首次指出的,與平衡物理系統中噪聲強度由熱溫度給定的情況不同,隨機梯度下降動力學是高度非平衡的,因為隨機梯度下降噪聲既不是各向同性的也不是均勻的。從其定義來看,隨機梯度下降噪聲依賴于損失景觀本身。其中最有趣的一個發現是隨機梯度下降噪聲的協方差矩陣與損失函數的 Hessian 矩陣高度相關:它們的特征方向高度對齊,且相應的特征值高度相關 [57, 58]。特別是,在損失景觀中較陡峭的方向上 (Hessian 矩陣中較大的特征值) ,隨機梯度下降噪聲也更大。這導致在所有方向上權重方差與損失景觀平坦度之間存在穩健的反比關系,這與平衡統計物理學中的漲落-響應關系 (fluctuation–response relation,又稱愛因斯坦關系) 相反。
越來越多的經驗證據支持這樣一個觀點:“好的” (可泛化的) 解存在于損失函數的平坦 (淺) 極小值處 [59-65];然而,對于基于隨機梯度下降的算法如何在高維權重空間中找到這些平坦極小值,我們仍然知之甚少。在隨機學習動力學框架內獲得的“反愛因斯坦關系”[57]表明,隨機梯度下降充當了一個依賴于景觀的退火算法。隨機梯度下降的有效溫度隨著景觀平坦度而降低,因此系統傾向于尋找平坦的極小值而非尖銳的極小值。正如最近一篇使用福克-普朗克方程 (Fokker-Planck equation) 研究隨機梯度下降學習動力學權重分布的論文[58]所示,隨機梯度下降在有效損失函數中引入了一個依賴于平坦度的項,該項使系統傾向于更平坦的極小值。
人工神經網絡模型中的一個重要類別是生成模型,它們能夠通過對現有樣本的訓練來生成新的樣本。一個著名的早期例子是生成對抗網絡 (generative adversarial network,GAN) 模型 [66],已經有工作使用隨機動力系統方法對其學習動力學進行了研究 [67]。事實上,一些最成功的生成模型,如基于擴散的模型[68],都起源于物理學,并因此為基于物理學的研究提供了廣闊空間。在本特刊中,Zdeborova 等人[69]從自旋玻璃的視角對不同生成模型進行了全面比較,這為理解這些強大生成模型的能力和局限性提供了理論見解。
3.3 泛化:高維的祝福與詛咒
物理學中的大多數問題都是過度約束的(或欠參數化的)。例如,在一個具有N個氨基酸的蛋白質折疊問題中,即使我們只考慮成對的相互作用能量,也有~N2個約束,遠高于~2N個自由度 (即一維鏈上氨基酸的獨立坐標) 。通常,一個過度約束的問題具有唯一解。這種情況如圖3A所示,其中能量景觀具有唯一的最小值,對應于折疊蛋白質的天然結構。通過最小化整體能量函數來解決過度約束的問題,例如從頭算起的蛋白質折疊問題是一個眾所周知的難題。另一方面,深度學習神經網絡是過參數化的。參數 (權重) 的數量遠大于數據中的內部自由度。深度學習神經網絡中擁有大量參數的優勢在于它使找到解 (損失景觀中的最小值) 相對容易。然而,參數空間高維性的詛咒在于存在許多解 (損失函數的最小值) ,如圖3B所示。因此,重要的問題變成了哪一個解對測試數據表現更好,即哪個解具有更好的泛化能力。
圖3. 過度約束和約束不足問題中景觀和解的差異。(A)蛋白質折疊(一個過度約束的問題)中的自由能景觀,其中存在一個唯一的全局最小值,這通常很難找到。該圖片采用自 Dill 和 Maccallum [70]。(B)過參數化(約束不足)深度學習模型中的損失景觀,其可以具有多個全局最小值。挑戰在于找出哪個解具有更好的泛化能力。
確實,泛化是機器學習中最重要的問題之一。考慮到深度學習神經網絡中使用的龐大參數 (權重) 數量,這個問題變得更加緊迫。已經有很多工作基于各種理論和實證驅動的復雜度度量 (VC維、參數范數、銳度(sharpness)、路徑范數等) 對深度學習神經網絡的泛化性進行了研究。正如 Jiang 等 [71] 在最近的綜述中總結的那樣,經驗證據表明基于銳度的度量與泛化之間存在強相關性 [72],而許多其他 (理論驅動的) 度量,如基于范數的度量,并不能作為泛化的可靠指標 [71]。即使對于基于銳度的度量,我們也不理解它們為什么以及如何在預測泛化方面有效。此外,基于 Dinh 等人 [73] 指出的深度學習神經網絡中的一般標度不變性,最近有研究工作對僅使用損失景觀銳度來確定泛化的有效性提出了質疑。確實,對深度學習神經網絡中泛化的全面理解仍然難以捉摸。
泛化中的一個關鍵問題是確定解的哪些性質決定了其泛化能力。回答這個問題的困難在于,雖然學習是由訓練損失引導的,但泛化性能是由測試損失評估的,而在無法獲取測試損失景觀的情況下很難取得理論進展。最近,有工作通過使用數據變化和權重參數變化之間的等價性 (對偶性) 來解決這個問題 [74]。一般思路是,如果訓練數據(x)和測試數據(x')之間的輸入變化等價于從解的權重(W)到新權重(W')的變化,我們就可以使用這種對偶關系將輸入空間中的分布映射到權重空間中,在那里我們可以評估泛化損失。值得注意的是,在任意密集連接層 (densely connected layer) 中都能找到這種精確對偶關系的無限族。通過使用具有最小權重變化的“最小”對偶關系,泛化損失可以被分解為權重空間中解的損失函數 Hessian 矩陣的不同特征方向上的貢獻。這些貢獻的形式揭示了泛化的兩個不同決定因素——一個由損失景觀的銳度支配,另一個對應于由訓練數據和測試數據之間相對差異的協方差加權的解范數。從這項研究獲得的主要見解之一是,泛化由這兩個決定因素的乘積決定,這解決了 Dinh 等人[73]提出的關于平坦度的困惑。
在約束不足 (或過參數化) 的學習系統 (如深度學習神經網絡) 中,正則化(regularization) 是添加到損失函數中的一個重要組成部分,目的是將系統推向具有更高泛化能力的解。然而,盡管正則化很重要,但它們通常是基于對更具泛化能力的解應具有什么特性的一些直覺。從影響泛化損失的兩個貢獻因素 (銳度和大小) 的角度來看,隨機梯度下降和權重衰減作為兩種有效正則化方案的能力背后的機制變得清晰。顯然,基于底層系統的特性 (例如物理系統中的對稱性和守恒定律) 和/或影響解的泛化能力的某些一般因素來設計正則化方案,將成為一個有趣的未來研究方向。
作為過擬合的極端情況,深度學習神經網絡甚至可以“記憶”所有訓練樣本,即使它們的標簽被替換為純噪聲[75]。這種過擬合 (記憶化) 解沒有泛化能力。值得注意的是,深度學習神經網絡避免了過擬合,其測試誤差遵循所謂的“雙下降” (double descent) 曲線[76]。隨著模型容量 (復雜度) 的增加,測試誤差在開始時遵循常規的 U 形曲線,先下降,然后在模型達到零訓練誤差時的插值閾值附近達到峰值。然而,當模型容量超過這個插值閾值時,它再次下降,測試誤差在過參數化區域 (參數數量遠大于樣本數量) 達到其 (全局) 最小值。通過使用簡單模型,人們在理解這種雙下降行為方面取得了快速進展。例如,對于過參數化的簡單兩層網絡,在線性可分數據上使用帶泄漏的 ReLU 激活函數時,已有工作證明了優化和泛化性得以確保 [77]。這一結果隨后被擴展到使用 ReLU 激活函數的2層網絡 [78] 和使用平滑激活函數的2&3層網絡[79]。神經正切核 (Neural Tangent Kernel,NTK) [80] 將大型 (寬) 神經網絡與核方法聯系了起來,使用 NTK 的方法表明,在過參數化區域,泛化誤差以冪律方式 (其中Np為參數數量) 向平臺值下降 [81]。在簡單的合成學習模型 (synthetic learning models) 中,如具有嶺回歸 (ridge regression) 損失函數的隨機特征模型,雙下降行為已經得到解析證明 [82]。這一解析結果已經通過使用副本方法 (replica method) 擴展到其他合成學習模型 (例如隨機流形模型) 和更一般的損失函數 [83]。
事實上,在大語言模型等大模型中,最令人興奮的實證發現之一是,當模型規模和數據規模按比例一起增加時,泛化損失會隨著它們的增加而持續下降,呈現出明顯的冪律依賴關系。物理學家很自然地被冪律所描述的行為吸引,并開發出重整化群理論等強大工具來解釋臨界現象中的標度律 (scaling law) 。因此,我們認為理解大型復雜學習系統中泛化對數據規模和模型規模的“冪律”依賴關系,是對物理學家最具吸引力且極其重要的研究方向之一。在本特刊中,Bahri 等人 [84] 研究了這種“標度律”背后可能的起源,并為不同的標度區域提供了一個分類法。
3.4 真實神經網絡和真實神經元的啟發
如我們上述所言,人工神經網絡受益于兩個自然科學學科,即神經科學和統計物理學。然而,除了體現在 McCulloch–Pitts 神經元和分層前饋神經網絡 (感知器) 架構中的最初神經科學啟發之外,深度學習神經網絡并沒有包含太多神經科學的見解。盡管本特刊主要關注物理學和機器學習之間的交叉對話,但我們對神經科學產生的新概念的需求比以往任何時候都更大。深度學習神經網絡的幾個具體架構限制方面可能會從更深入的神經科學原理中受益。例如,深度學習的成功主要局限于具有靜態數據集的靜態任務,而且還需要大量明確標記的數據。由于許多研究人員已經注意到生物大腦極其適應動態環境中的動態任務,我們認為更好地理解大腦如何執行動態任務將帶來新的概念,從而推動機器學習在此類任務上性能的提高。通過探索真實大腦計算與深度學習神經網絡算法和架構之間的主要差異,可能會產生新的腦啟發的算法。在本特刊中, Haim Sompolinksy 等人[85] 從表征和泛化的角度對人工神經網絡和大腦神經網絡進行了新穎的觀點闡述和深入比較。
除了表征和泛化之外,我們列出人工網絡和大腦網絡的另外兩個差異,希望能夠激發未來的工作,因為它們都可以用前面章節概述的基于物理學的方法進行研究:
大腦使用局部學習規則并且很少受監督。首先,深度學習神經網絡主要關注監督學習,即對給定輸入模式有明確標注正確輸出的情況,而大腦似乎很少進行監督學習。相反,理論和實驗數據表明,神經學習主要采用無監督學習(unsupervised learning)、時間預測性學習(temporal-predictive learning)和強化學習(reinforcement learning,RL)技術。在算法層面,深度學習神經網絡的學習通過反向傳播實現,這是一個全局學習規則,而大腦中的學習是通過赫布規則(Hebbian rule)等局部學習規則實現的。
大腦具有高度動態性并持續與環境互動。大多數深度學習神經網絡使用靜態前饋架構,或者具有導向穩態的弛豫特性。相比之下,大腦表現出復雜的動態行為 (例如,不同的大腦節律/振蕩) ,這是由大量循環連接實現的。此外,當前的深度學習神經網絡幾乎完全致力于靜態的純感知任務,而大腦的首要目的是在與環境的持續感知-行動循環中產生行為。
如本特刊中 Chklovskii 等人[86]所述,從神經科學獲得的新啟發也可以來自單個神經元層面。作者們引入概念將神經元作為其環境反饋的控制器,這是遠超傳統 McCulloch–Pitts 神經元的功能。這種創新方法不僅解釋了此前看似無關的各種實驗發現,還可能為創建更復雜的、受生物啟發的人工智能系統指明方向。
參考文獻
J. Jumper et al., Highly accurate protein structure prediction with alphafold. Nature 596, 583–589 (2021).
K. A. Dill, J. L. MacCallum, The protein-folding problem, 50 years on. Science 338, 1042–1046 (2012).
C. M. Dobson, Protein folding and misfolding. Nature 426, 884–890 (2003).
J. N. Onuchic, P. G. Wolynes, Theory of protein folding. Curr. Opin. Struct. Biol. 14, 70–75 (2004).
M. K. Higgins, Can we alphafold our way out of the next pandemic? J. Mol. Biol. 433, 167093 (2021).
H. Park, P. Patel, R. Haas, E. Huerta, APACE: Alphafold2 and advanced computing as a service for accelerated discovery in biophysics. Proc. Natl. Acad. Sci. U.S.A. 121, e2311888121 (2024).
N. Qian, T. J. Sejnowski, Predicting the secondary structure of globular proteins using neural network models. J. Mol. Biol. 202, 865–884 (1988).
M. Minsky, S. A. Papert, Perceptrons, Reissue of the 1988 Expanded Edition with a New Foreword by Léon Bottou: An Introduction to Computational Geometry (MIT Press, 2017).
D. H. Ackley, G. E. Hinton, T. J. Sejnowski, A learning algorithm for Boltzmann machines. Cognit. Sci. 9, 147–169 (1985).
D. E. Rumelhart, J. L. McClelland, Corporate PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations (MIT Press, 1986).
Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based learning applied to document recognition. Proc. IEEE 86, 2278–2324 (1998).
P. Baldi, “Autoencoders, unsupervised learning, and deep architectures” in Proceedings of ICML Workshop on Unsupervised and Transfer Learning (JMLR Workshop and Conference Proceedings, 2012), pp. 37–49.
J. Gui, Z. Sun, Y. Wen, D. Tao, J. Ye, A review on generative adversarial networks: Algorithms, theory, and applications. IEEE Trans. Knowl. Data Eng. 35, 3313–3332 (2021).
J. J. Hopfield, Neural networks and physical systems with emergent collective computational abilities. Proc. Natl. Acad. Sci. U.S.A. 79, 2554–2558 (1982).
J. Martin, M. Lequerica-Mateos, J. Onuchic, I. Coluzza, F. Morcoc, Machine learning in biological physics: From biomolecular prediction to design. Proc. Natl. Acad. Sci. U.S.A. 121, e2311807121 (2024).
Protein data bank, The single global archive for 3D macromolecular structure data. Nucleic Acids Res. 47, D520–D528 (2019).
J. I. Su?kowska, F. Morcos, M. Weigt, T. Hwa, J. N. Onuchic, Genomics-aided structure prediction. Proc. Natl. Acad. Sci. U.S.A. 109, 10340–10345 (2012).
D. De Juan, F. Pazos, A. Valencia, Emerging methods in protein co-evolution. Nat. Rev. Genet. 14, 249–261 (2013).
A. Davtyan et al., AWSEM-MD: Protein structure prediction using coarse-grained physical potentials and bioinformatically based local structure biasing. J. Phys. Chem. B 116, 8494–8503 (2012).
J. D. Bryngelson, P. G. Wolynes, Spin glasses and the statistical mechanics of protein folding. Proc. Natl. Acad. Sci. U.S.A. 84, 7524–7528 (1987).
J. D. Bryngelson, J. N. Onuchic, N. D. Socci, P. G. Wolynes, Funnels, pathways, and the energy landscape of protein folding: A synthesis. Prot.: Struct. Funct. Bioinf. 21, 167–195 (1995).
S. Yang et al., Domain swapping is a consequence of minimal frustration. Proc. Natl. Acad. Sci. U.S.A. 101, 13786–13791 (2004).
R. D. Hills Jr, C. L. Brooks III, Insights from coarse-grained g ?o models for protein folding and dynamics. Int. J. Mol. Sci. 10, 889–905 (2009).
S. Tripathi, D. A. Kessler, H. Levine, Biological networks regulating cell fate choice are minimally frustrated. Phys. Rev. Lett. 125, 088101 (2020).
K. M. Ruff, R. V. Pappu, Alphafold and implications for intrinsically disordered proteins. J. Mol. Biol. 433, 167208 (2021).
M. Di Pierro, B. Zhang, E. L. Aiden, P. G. Wolynes, J. N. Onuchic, Transferable model for chromosome architecture. Proc. Natl. Acad. Sci. U.S.A. 113, 12168–12173 (2016).
M. A. Marti-Renom, L. A. Mirny, Bridging the resolution gap in structural modeling of 3D genome organization. PLoS Comput. Biol. 7, e1002125 (2011).
U. Lupo, D. Sgarbossa, A. F. Bitbol, Pairing interacting protein sequences using masked language modeling. Proc. Natl. Acad. Sci. U.S.A. 121, e2311887121 (2024).
B. Meynard-Piganeau, C. Feinauer, M. Weigt, A. M. Walczak, T. Mora, Tulip-a transformer based unsupervised language model for interacting peptides and T-cell receptors that generalizes to unseen epitopes. bioRxiv [Preprint] (2023). https://www.biorxiv.org/content/10.1101/2023.07.19.549669v1 (Accessed 10 January 2024).
B. P. Kwee et al., STAPLER: Efficient learning of TCR-peptide specificity prediction from full-length TCR-peptide data. bioRxiv [Preprint] (2023). https://www.biorxiv.org/content/10.1101/2023.04.25.538237v1 (Accessed 10 January 2024).
A. T. Wang et al., RACER-m leverages structural features for sparse T cell specificity prediction. bioRxiv [Preprint] (2023). https://www.biorxiv.org/content/10.1101/2023.08.06.552190v1 (Accessed 3 January 2024).
B. A. Camley, W. J. Rappel, Physical models of collective cell motility: From cell to tissue. J. Phys. D: Appl. Phys. 50, 113002 (2017).
M. Basan, J. Elgeti, E. Hannezo, W. J. Rappel, H. Levine, Alignment of cellular motility forces with tissue flow as a mechanism for efficient wound healing. Proc. Natl. Acad. Sci. U.S.A. 110, 2452–2459 (2013).
V. Hakim, P. Silberzan, Collective cell migration: A physics perspective. Rep. Progr. Phys. 80, 076601 (2017).
J. LaChance, K. Suh, J. Clausen, D. J. Cohen, Learning the rules of collective cell migration using deep attention networks. PLoS Comput. Biol. 18, e1009293 (2022).
S. U. Hirway, S. H. Weinberg, A review of computational modeling, machine learning and image analysis in cancer metastasis dynamics. Comput. Syst. Oncol. 3, e1044 (2023).
S. Al-Janabi, A. Huisman, P. J. Van Diest, Digital pathology: Current status and future perspectives. Histopathology 61, 1–9 (2012).
D. B. Brückner et al., Stochastic nonlinear dynamics of confined cell migration in two-state systems. Nat. Phys. 15, 595–601 (2019).
R. Yu, R. Wang, Learning dynamical systems from data: An introduction to physics-guided deep learning. Proc. Natl. Acad. Sci. U.S.A. 121, e2311808121 (2024).
D. Kochkov et al., Machine learning-accelerated computational fluid dynamics. Proc. Natl. Acad. Sci. U.S.A. 118, e2101784118 (2021).
E. M. King, C. X. Du, Q.-Z. Zhu, S. S. Schoenholz, M. P. Brenner, Programming patchy particles for materials assembly design. Proc. Natl. Acad. Sci. U.S.A. 121, e2311891121 (2024).
R. E. Wengert, A simple automatic derivative evaluation program. Commun. ACM 7, 463–464 (1964).
F. Ruehle, Data science applications to string theory. Phys. Rep. 839, 1–117 (2020).
Y. LeCun, Y. Bengio, G. Hinton, Deep learning. Nature 521, 436 EP (2015).
I. Goodfellow, A. Courville, Y. Bengio, Deep Learning (MIT Press, 2016), vol. 1.
K. He, X. Zhang, S. Ren, J. Sun, “Deep residual learning for image recognition” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016), pp. 770–778.
Y. Wu et al., Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv [Preprint] (2016). http://arxiv.org/abs/1609.08144 (Accessed 3 January 2024).
D. Silver et al., Mastering the game of go with deep neural networks and tree search. Nature 529, 484–489 (2016).
W. Mcculloch, W. Pitts, A logical calculus of ideas immanent in nervous activity. Bull. Math. Biophys. 5, 127–147 (1943).
D. J. Amit, H. Gutfreund, H. Sompolinsky, Spin-glass models of neural networks. Phys. Rev. A 32, 1007 (1985).
F. Rosenblatt, The perceptron: A probabilistic model for information storage and organization in the brain. Psychol. Rev. 65, 386–408 (1958).
P. W. Anderson, More is different. Science 177, 393–396 (1972).
S. Ambrose, M. Bridges, M. Lovett, How Learning Works: 7 Research-Based Principles for Smart Teaching (John Wiley and Sons, San Francisco, 2010).
H. Robbins, S. Monro, A stochastic approximation method. Ann. Math. Stat. 22, 400–407 (1951).
L. Bottou, “Large-scale machine learning with stochastic gradient descent” in Proceedings of COMPSTAT 2010, Y. Lechevallier, G. Saporta Eds. (Physica-Verlag HD, Heidelberg, 2010), pp. 177–186.
P. Chaudhari, S. Soatto, “Stochastic gradient descent performs variational inference, converges to limit cycles for deep networks” in 2018 Information Theory and Applications Workshop (ITA) (2018). http://dx.doi.org/10.1109/ita.2018.8503224.
Y. Feng, Y. Tu, The inverse variance-flatness relation in stochastic gradient descent is critical for finding flat minima. Proc. Natl. Acad. Sci. U.S.A. 118 (2021).
N. Yang, C. Tang, Y. Tu, Stochastic gradient descent introduces an effective landscape-dependent regularization favoring flat solutions. Phys. Rev. Lett. 130, 237101 (2023).
G. E. Hinton, D. van Camp, “Keeping the neural networks simple by minimizing the description length of the weights” in Proceedings of the Sixth Annual Conference on Computational Learning Theory, COLT 1993 (ACM, New York, NY, USA, 1993), pp. 5–13.
S. Hochreiter, J. Schmidhuber, Flat minima. Neural Comput. 9, 1–42 (1997).
C. Baldassi et al., Unreasonable effectiveness of learning neural networks: From accessible states and robust ensembles to basic algorithmic schemes. Proc. Natl. Acad. Sci. U.S.A. 113, E7655–E7662 (2016).
P. Chaudhari et al., Entropy-SGD: Biasing Gradient Descent into Wide Valleys (ICLR, 2017).
Y. Zhang, A. M. Saxe, M. S. Advani, A. A. Lee, Energy-entropy competition and the effectiveness of stochastic gradient descent in machine learning. Mol. Phys. 116, 3214–3223 (2018).
S. Mei, A. Montanari, P. M. Nguyen, A mean field view of the landscape of two-layer neural networks. Proc. Natl. Acad. Sci. U.S.A. 115, E7665–E7671 (2018).
C. Baldassi, F. Pittorino, R. Zecchina, Shaping the learning landscape in neural networks around wide flat minima. Proc. Natl. Acad. Sci. U.S.A. 117, 161–170 (2020).
I. Goodfellow et al., “Generative adversarial nets” in Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, K. Weinberger, Eds. (Curran Associates, Inc., 2014), vol. 27.
S. Durr, Y. Mroueh, Y. Tu, S. Wang, Effective dynamics of generative adversarial networks. Phys. Rev. X 13, 041004 (2023).
J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, S. Ganguli, “Deep unsupervised learning using nonequilibrium thermodynamics” in Proceedings of the 32nd International Conference on Machine Learning, Proceedings of Machine Learning Research, F. Bach, D. Blei, Eds. (PMLR, Lille, France, 2015), vol. 37, pp. 2256–2265.
D. Ghioa, Y. Dandi, F. Krzakala, L. Zdeborova, Sampling with flows, diffusion and autoregressive neural networks from a spin-glass perspective. Proc. Natl. Acad. Sci. U.S.A. 121, e2311810121 (2024).
K. Dill, J. Maccallum, The Protein-Folding Problem, 50 Years on (Science New York, N.Y., 2012), vol. 338, pp. 1042–1046.
Y. Jiang, B. Neyshabur, H. Mobahi, D. Krishnan, S. Bengio, Fantastic generalization measures and where to find them. ICLR (2020).
N. S. Keskar, D. Mudigere, J. Nocedal, M. Smelyanskiy , P. T. P. Tang , On large-batch training for deep learning: Generalization gap and sharp minima. ICLR (2017).
L. Dinh, R. Pascanu, S. Bengio, Y. Bengio, “Sharp minima can generalize for deep nets” in Proceedings of 34th International Conference Machine Learning (2017), vol. 70, pp. 1019–1028.
Y. Feng, W. Zhang, Y. Tu, Activity-weight duality in feed-forward neural networks reveals two co-determinants for generalization. Nat. Mach. Intell. 5, 908–918 (2023).
C. Zhang, S. Bengio, M. Hardt, B. Recht, O. Vinyals, Understanding deep learning requires rethinking generalization. ICLR (2017).
M. Belkin, D. Hsu, S. Ma, S. Mandal, Reconciling modern machine-learning practice and the classical bias–variance trade-off. Proc. Natl. Acad. Sci. U.S.A. 116, 15849–15854 (2019).
A. Brutzkus, A. Globerson, E. Malach , S. Shalev-Shwartz , SGD learns over-parameterized networks that provably generalize on linearly separable data. ICLR (2018).
Y. Li, Y. Liang, Learning overparameterized neural networks via stochastic gradient descent on structured data. Adv. Neural Inf. Process. Syst. 31, 8157–8166 (2018).
Z. Allen-Zhu, Y. Li, Z. Song, “A convergence theory for deep learning via over-parameterization” in International Conference Machine Learning (2019), pp. 242–252.
A. Jacot, F. Gabriel, C. Hongler, Neural tangent kernel: Convergence and generalization in neural networks. Adv. Neural Inf. Process. Syst. 31, 8571–8580 (2018).
M. Geiger et al., Scaling description of generalization with number of parameters in deep learning. J. Stat. Mech.: Theory Exp. 2020, 023401 (2020).
S. Mei, A. Montanari, The generalization error of random features regression: Precise asymptotics and the double descent curve. Commun. Pure Appl. Math. 75, 667–766 (2022).
F. Gerace, B. Loureiro, F. Krzakala, M. Mézard, L. Zdeborová, Generalisation error in learning with random features and the hidden manifold model (ICML, 2020), pp. 3452–3462.
Y. Bahri, E. Dyer, J. Kaplan, J. Lee, U. Sharma, Explaining neural scaling laws. Proc. Natl. Acad. Sci. 121, e2311878121 (2024).
Q. Li, B. Sorscher, H. Sompolinsky, Representations and generalization in artificial and brain neural networks. Proc. Natl. Acad. Sci. U.S.A. 121, e2311805121 (2024).
J. Moore et al., The neuron as a direct data-driven controller. Proc. Natl. Acad. Sci. U.S.A. 2023–11893 (2024).
(參考文獻可上下滑動查看)
作者簡介
涂豫海,IBM沃森研究中心研究員,并于2003-2015年擔任理論組組長。1987年畢業于中國科學技術大學,1991年在加州大學圣地亞哥分校獲得物理學博士學位。 由于在理論統計物理方面的工作,他與John Toner和Tamas Vicsek一起被美國物理學會授予2020年Lars Onsager獎:“因為他在集群理論方面的開創性工作,這標志著活性物質領域的誕生,并對其發展做出了巨大貢獻。”
他在多個領域做出了開創性貢獻,包括活性系統(集群動力學),高通量轉錄組數據(微陣列分析)的算法開發和統計分析,細菌趨化性中信號轉導和運動的定量建模,以及非平衡生化網絡的熱力學。最近的工作集中在三個方向:(1)生物網絡的動力學,用于信號轉導的生化網絡和用于編碼與計算的神經網絡;(2)生物系統信息處理的熱力學;(3)大腦和人工神經網絡中學習的統計物理。
學者主頁:https://research.ibm.com/people/yuhai-tu
非平衡統計物理讀書會啟動!
2024年諾貝爾物理學獎授予人工神經網絡,這是一場統計物理引發的機器學習革命。統計物理學不僅能解釋熱學現象,還能幫助我們理解從微觀粒子到宏觀宇宙的各個層級如何聯系起來,復雜現象如何涌現。它通過研究大量粒子的集體行為,成功地將微觀世界的隨機性與宏觀世界的確定性聯系起來,為我們理解自然界提供了強大的工具,也為機器學習和人工智能領域的發展提供了重要推動力。
為了深入探索統計物理前沿進展,集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰、紐約州立大學石溪分校化學和物理學系教授汪勁、德累斯頓系統生物學中心博士后研究員梁師翎、香港浸會大學物理系助理教授唐乾元,以及多位國內外知名學者共同發起。讀書會旨在探討統計物理學的最新理論突破,統計物理在復雜系統和生命科學中的應用,以及與機器學習等前沿領域的交叉研究。讀書會從12月12日開始,每周四晚20:00-22:00進行,持續時間預計12周。我們誠摯邀請各位朋友參與討論交流,一起探索愛因斯坦眼中的普適理論!
詳情請見:
1.
2.
3.
4.
5.
6.
7.
8.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.