12.2
知識分子
The Intellectual
圖源:pixabay
撰文 |吳思
這篇短文不是要討論今年諾貝爾物理學(xué)獎是否不恰當(dāng)?shù)厥谟枇巳斯ぶ悄軐<遥且吻迨讵剬ο笫欠癯霈F(xiàn)了重大遺漏。
John Hopfield和Geoffrey Hinton兩位教授獲得了今年的諾貝爾物理學(xué)獎,其中Hopfield教授的獲獎原因是因為發(fā)展了著名的Hopfield吸引子網(wǎng)絡(luò)模型。由于我長期在做有點冷門的吸引子網(wǎng)絡(luò)的理論研究(見微信公眾號文章【學(xué)術(shù)思想】連續(xù)吸引子神經(jīng)網(wǎng)絡(luò):神經(jīng)信息表達的正則化網(wǎng)絡(luò)模型),因此不少同事祝賀我,有種終于“苦盡甘來”,可以“與榮有焉”了的感覺。但我內(nèi)心卻是五味雜陳,因為我深知道Hopfield模型背后真實的故事。有朋友鼓勵我說,為計算神經(jīng)科學(xué)領(lǐng)域外的讀者以及年輕學(xué)者計,我應(yīng)該寫下這段公案,給歷史留一段記錄。
簡單說就是,日本著名科學(xué)家Shun-ichi Amari(甘利俊一)教授在1972年就已經(jīng)提出了Hopfield教授在1982年發(fā)表的Hopfield模型,前者比后者整整早了十年。兩個數(shù)學(xué)模型幾乎一模一樣,而且Amari教授的文章還做了更深入細致的數(shù)學(xué)分析。圖1簡單對比了兩個模型的最關(guān)鍵相同之處,包括神經(jīng)元的閾值動力學(xué)(threshold dynamics)和神經(jīng)元連接的Hebbian 學(xué)習(xí)律。基于該數(shù)學(xué)模型,兩篇文章都分析了網(wǎng)絡(luò)動力學(xué)的穩(wěn)定狀態(tài),即吸引子,并由此引申到了大腦的聯(lián)想式記憶。讀者可以仔細對比Amari1972年[1]和Hopfield 1982年[2]的文章。有科研經(jīng)驗的讀者都知道,在模型如此相似的情況下,有了Amari 1972年的文章,Hopfield 1982年的文章其實很難能發(fā)表在重要雜志上了。當(dāng)然在當(dāng)時資訊條件下,有可能Hopfield教授并不知道Amari教授的工作。
圖1:Amari原始模型和Hopfield原始模型的對比。兩者的數(shù)學(xué)形式幾乎是一模一樣的,都采用了神經(jīng)元的閾值動力學(xué)和神經(jīng)元之間連接的Hebbian學(xué)習(xí)律。
在計算神經(jīng)科學(xué)及相關(guān)領(lǐng)域,Amari教授比Hopfield教授早十年提出Hopfield模型并不是一個鮮為人知的秘密,而是一個很多人都知道的事實。計算神經(jīng)科學(xué)領(lǐng)域的著名學(xué)者Haim Sompolinsky教授(2023年Brain Prize大獎的獲得者)在一篇文章中曾評論到:“雖然Amari更早提出了一樣的模型,但因為Hopfield貢獻很大,所以我們叫它Hopfield模型“,英文參見[3]。計算神經(jīng)科學(xué)領(lǐng)域另一位已過世的著名學(xué)者Daniel Amit(《Modelling Brain Function: The World of Attractor Neural Networks》書的作者)曾經(jīng)當(dāng)面給Amari教授道歉,表示這是學(xué)術(shù)界的一個錯誤,該模型應(yīng)該叫Amari-Hopfield模型,并贈予了Amari教授一條紅色領(lǐng)帶作為歉意。
誠如Amit教授所言,在當(dāng)年資訊遠遠落后于今天的時代,即便是Hopfield教授獨立發(fā)展了該模型,出于科學(xué)慣例,這個模型也應(yīng)該叫Amari-Hopfield模型更合適。但讓人費解的是,諾貝爾獎評審委員會在明知Amari教授早期工作的情況下(諾獎的科學(xué)背景介紹還列出了Amari1972年的文章),依然忽視了Amari教授的貢獻,實在是讓人難以理解。
需要申明的是,我介紹這段歷史并不全因為我是Amari教授的弟子,有為老師發(fā)聲之嫌。其實在外網(wǎng)的一些論壇上,對此爭論更激烈。著名的德國科學(xué)家Jurgen Schmidhurber教授(LSTM模型的發(fā)明人)就在一個有悠久歷史的郵件群connectionist里為Amari教授的不公發(fā)聲。摘錄部分如下:
圖2:Schmidhurber教授對Amari模型早于Hopfield工作10年的評論。
可能有讀者知道,Schmidhurber教授在其它場合也為另一段公案發(fā)聲,其涉及到了Amari教授在人工神經(jīng)網(wǎng)絡(luò)最基礎(chǔ)的訓(xùn)練算法-反傳算法(BackProp)上的重要貢獻,我這里也介紹一下。簡單說就是,Amari教授在1967年就提出了stochastic gradient descent(SGD)(但由于當(dāng)時計算機算力受限,只在淺層神經(jīng)網(wǎng)絡(luò)上做了演示)[4],比Hinton教授等人提出的有相似思想的BackProp(1986)[5]早了19年。當(dāng)然我本人特別崇敬Hinton教授,尤其佩服他鍥而不舍地把基于深度學(xué)習(xí)的人工智能技術(shù)推廣到了今天的高度,但在BackProp的優(yōu)先權(quán)上還是應(yīng)該一碼歸一碼。有好事者在connectionist群里發(fā)布了一張Hinton教授在1997年ICNN會議上介紹BackProp的照片,演講題目是“What’s wrong with Backprop?”, 其中Hinton教授本人寫下了“Amari thought it first”(見下)。
圖3:Hinton教授在ICNN1997會議的演講稿,其中寫下了Amari第一個想到BackProp。
在諾貝爾物理學(xué)發(fā)布之后,Amari教授很快就在日本理化學(xué)所的官網(wǎng)上發(fā)表了公開聲明(見圖4),其間只字未提自己的不公,反而真誠地祝賀了兩位獲獎?wù)撸w現(xiàn)了Amari教授一貫淡泊名利、與世無爭的風(fēng)格。但作為知情者,我認為不能因為Amari教授的高風(fēng)亮節(jié),我們就默認這種行為是無所謂的,其后果只會破壞科學(xué)共同體賴以健康發(fā)展的基石。
Amari教授一生在科學(xué)上建樹太多,有興趣的讀者可以參見Amari教授回顧其在計算神經(jīng)科學(xué)領(lǐng)域半個世紀工作的文章[3]。除了上面提到的吸引子網(wǎng)絡(luò)、BackProp,還有一項在我看來理論上更漂亮的工作是信息幾何(information geometry)。該工作用微分幾何方法分析了數(shù)據(jù)驅(qū)動的模型學(xué)習(xí)的本質(zhì),是對模型學(xué)習(xí)機理最深刻的認識。因此,我雖心有悵然,但我堅信,沒有諾獎或圖靈獎的加持,Amari教授在科學(xué)上的巨大貢獻也一樣流芳百世!
圖4:Amari教授在諾獎結(jié)果公布后,很快就在日本理化學(xué)研究所官網(wǎng)上發(fā)表的公開聲明(中文翻譯稿)。
ZHISHI
后記
最后我也向感興趣的讀者簡單介紹一下吸引子網(wǎng)絡(luò)的后續(xù)發(fā)展。在AI領(lǐng)域,Amari-Hopfield模型近年來被推廣為了modern Hopfield模型[6]。在神經(jīng)科學(xué)領(lǐng)域,Amari-Hopfield模型逐漸被其它生物學(xué)更合理的吸引子模型代替。當(dāng)前最熱的吸引子網(wǎng)絡(luò)模型是連續(xù)吸引子網(wǎng)絡(luò)(CANN)(參見微信公眾號介紹文章【學(xué)術(shù)思想】連續(xù)吸引子神經(jīng)網(wǎng)絡(luò):神經(jīng)信息表達的正則化網(wǎng)絡(luò)模型)。特別值得指出的是,Amari教授在1977年就發(fā)表一篇純粹基于數(shù)學(xué)性質(zhì)考慮的CANN模型[7],遠遠走在了實驗證據(jù)的前面[8-9],也是領(lǐng)域內(nèi)的一篇經(jīng)典工作。作者在Amari教授實驗室做博士后期間,和Amari教授一起發(fā)展了一個理論可解的CANN模型[10],并在隨后的二十多年里圍繞該模型開展研究。近年來,作者課題組進一步推廣了該模型,在動力學(xué)方程中引入了適應(yīng)性反應(yīng)(adaptation),以解決吸引子網(wǎng)絡(luò)面臨的一個根本性難題:一方面,吸引子使得大腦可以穩(wěn)定表征信息;但另一方面,其也不可避免地帶來了副作用,即一旦神經(jīng)系統(tǒng)進入了一個吸引子狀態(tài),就很難脫離該狀態(tài),使得大腦難以實現(xiàn)信息的快速迭代或搜索。通過在吸引子網(wǎng)絡(luò)中引入時程相對較慢的適應(yīng)性動力學(xué)(其可以被神經(jīng)系統(tǒng)中廣泛存在的副反饋作用實現(xiàn)),就能使神經(jīng)系統(tǒng)既可以穩(wěn)定地表征信息,同時又能快速搜索或迭代信息。我們系統(tǒng)分析該模型的計算性質(zhì)[11-12],并用該模型成功了解釋大量的神經(jīng)生物學(xué)現(xiàn)象[13-14]。
本文作者吳思系北京大學(xué)心理與認知科學(xué)學(xué)院教授,麥戈文腦科學(xué)所常務(wù)副所長
參考文獻:(上下滑動可瀏覽)
[1]Amari, S. (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements. IEEE Transactions on Computers, C-21(11), 1197–1206.
[2]Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America, 79, 2554–2558.
[3]Amari, S. (2013). Dreaming of mathematical neuroscience for half a century. Neural Networks, 37, 48–51.
[4]Amari, S. (1967). Theory of adaptive pattern classifiers. IEEE Transactions, EC-16, 299–307.
[5]Rumelhart, D., McClelland, J., & Hinton, J. (1986). Learning internal representations by error propagation. In D. E. Rumelhart, & J. L. McClelland (Eds.), Parallel distributed processing: explorations in the microstructure of cognition, vol. 1. MIT Press.
[6]Krotov, Dmitry, and J.J. Hopfield (2016). Dense associative memory for pattern recognition. NeurIPS.
[7]Amari, S. (1977). Neural theory of association and concept-formation. Biological Cybernetics, 26, 175–185.
[8]Kim, S., Rouault, H., Druckmann, S. & Vivek Jayaraman (2017) Ring attractor dynamics in the Drosophila central brain. Science 356, 849–853.
[9]Gardner, R., Hermansen, E., Pachitariu, M., Burak, Y., Baas, N., Dunn, B., May-Britt Moser, & Moser, E. (2022). Toroidal topology of population activity in grid cells. Nature 602, 123-128.
[10]Wu, S., Amari, S. & Nakahara. H. (2002). Population Coding and Decoding in a Neural Field: A Computational Study. Neural Computation, v14, no.5, p.999-1026.
[11]Dong, X.#, Chu, T.#, Huang, T., Ji, Z.*, & Wu S* (2021). Noisy Adaptation Generates Levy Flights in Attractor Neural Networks. NeurIPS.
[12]Dong, X., Ji, Z., Chu, T., Huang, T., Zhang, W., Wu S* (2022). Adaptation Accelerating Sampling-based Bayesian Inference in Attractor Neural Networks. NeurIPS.
[13]Chu, T.#, Ji, Z.#, Zuo, J., Mi, Y., Zhang, W., Huang, T., ... & Wu, S.* (2023). Firing rate adaptation affords place cell theta sweeps, phase precession and procession. eLife.
[14]Ji, Z. L. #, Chu, T.#, Wu, S.* & Burgess, N.* (2024). A systems model of alternating theta sweepsvia firing rate adaptation. Current Biology.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.