2024年圖靈獎(jiǎng)得主安德魯·巴托(Andrew Barto)和理查德·薩頓(Richard Sutton)。
編者按:
今年3月揭曉的2024年圖靈獎(jiǎng),授予了強(qiáng)化學(xué)習(xí)領(lǐng)域的兩位奠基人——安德魯·巴托(Andrew Barto)和理查德·薩頓(Richard Sutton)。這對(duì)師徒在 20 世紀(jì) 80 年代提出并系統(tǒng)構(gòu)建了強(qiáng)化學(xué)習(xí)的核心思想、數(shù)學(xué)基礎(chǔ)與關(guān)鍵算法,推動(dòng)了人工智能研究從感知走向決策。從自動(dòng)駕駛、機(jī)器人,到圍棋 AI、自然語(yǔ)言處理乃至大模型訓(xùn)練,強(qiáng)化學(xué)習(xí)已成為現(xiàn)代人工智能的關(guān)鍵支柱之一。
尼克是巴托的學(xué)生、薩頓的師弟,他正在撰寫(xiě)關(guān)于強(qiáng)化學(xué)習(xí)的系列文章,《賽先生》將陸續(xù)發(fā)布,敬請(qǐng)期待。今天這篇文章是第一篇,其中,他回顧了兩位獲獎(jiǎng)人的合作與強(qiáng)化學(xué)習(xí)的崛起。
尼克| 撰文
今年的圖靈獎(jiǎng)?lì)C給我的老師巴托和大師兄薩頓,實(shí)至名歸。他們兩位是強(qiáng)化學(xué)習(xí)的代表人物。現(xiàn)代強(qiáng)化學(xué)習(xí)是他們領(lǐng)導(dǎo)的群體在1980年代開(kāi)創(chuàng)的。2016年谷歌的圍棋程序AlphaGo擊敗李世石后,其背后的強(qiáng)化學(xué)習(xí)變?yōu)轱@學(xué),我每年都預(yù)測(cè)巴托和薩頓該得圖靈獎(jiǎng),此番終于應(yīng)驗(yàn)。
2016年,AlphaGo使得一直沒(méi)得重視的強(qiáng)化學(xué)習(xí)發(fā)出亮光。把強(qiáng)化學(xué)習(xí)用到AlphaGo中,主要?dú)w功于其開(kāi)發(fā)者、DeepMind曾經(jīng)的首席科學(xué)家席爾瓦(David Silver)。我曾戲言,如果圖靈獎(jiǎng)同時(shí)頒給他們爺孫仨,那倒是一段老中青三代同時(shí)得獎(jiǎng)的佳話——薩頓是巴托在麻省大學(xué)的第一個(gè)博士生,而席爾瓦又是薩頓在加拿大阿爾伯塔大學(xué)的第一個(gè)博士生。曾任阿爾伯塔大學(xué)教務(wù)長(zhǎng)和理學(xué)院院長(zhǎng)的喬納森·舍弗(Jonathan Schaeffer)是計(jì)算機(jī)系教授,他開(kāi)創(chuàng)了阿爾伯塔計(jì)算機(jī)下棋和博弈的研究傳統(tǒng),席爾瓦把強(qiáng)化學(xué)習(xí)用到圍棋,并非偶然。
2018年的圖靈獎(jiǎng)?lì)C給了深度學(xué)習(xí)的三位人物,辛頓(Geoffrey Hinton)、班喬(Yoshua Bengio)以及楊立昆(Yann LeCun)。辛頓老兵不老,當(dāng)之無(wú)愧。但班喬和楊立昆還年輕,沒(méi)吃過(guò)什么苦,當(dāng)時(shí)他們兩位在深度學(xué)習(xí)圈子以外鮮為人知,大概是因?yàn)?015年曾經(jīng)和辛頓一起寫(xiě)過(guò)篇綜述性文章,登在Nature上,使得人們認(rèn)為他們都是這個(gè)領(lǐng)域的領(lǐng)軍人物。某些圈內(nèi)人對(duì)大嘴巴的楊立昆頗為不屑。其實(shí)2018年那次如果頒給辛頓、巴托和薩頓,爭(zhēng)議會(huì)更少。
很多朋友早就說(shuō)我該為巴托和薩頓寫(xiě)些東西備著,因?yàn)樗麄冎锚?jiǎng)是必然的。我原想他們的故事我太熟了,其中一些已被我寫(xiě)到《人工智能簡(jiǎn)史》中,隨手拈來(lái)。但真臨提筆,卻思緒萬(wàn)千,竟不知從何說(shuō)起,應(yīng)該更多寫(xiě)他們的故事,還是更多寫(xiě)他們的學(xué)問(wèn)和環(huán)境。
想來(lái)這一切源于巴托1975年從密執(zhí)安大學(xué)博士畢業(yè)后被神人阿比卜(Michael Arbib)招到麻省大學(xué)計(jì)算機(jī)系。就從那兒說(shuō)起吧。
邁克爾·阿比卜(Michael Arbib,1940— )
SAIXIANSHENG
阿比卜與麻省大學(xué)計(jì)算機(jī)系
美國(guó)最早的一批計(jì)算機(jī)相關(guān)的系科都創(chuàng)辦于1960年代中期,那時(shí)有些系直接叫“計(jì)算機(jī)科學(xué)系”,而有些則叫“計(jì)算機(jī)與信息科學(xué)系”,或“計(jì)算機(jī)與通訊系”,帶“信息”或“通訊”的都有些“控制論”的背景,如麻省大學(xué)計(jì)算機(jī)與信息科學(xué)系(Computer and Information Science,簡(jiǎn)稱(chēng)COINS)的創(chuàng)辦人是維納的最后一個(gè)學(xué)生阿比卜(Michael Arbib)。而密歇根大學(xué)則叫計(jì)算機(jī)與通信科學(xué)系。這些系后來(lái)都改名叫計(jì)算機(jī)系了。原來(lái)的圖書(shū)館系現(xiàn)在紛紛改名叫信息科學(xué)系,而加州大學(xué)伯克利分校和華盛頓大學(xué)的圖書(shū)館學(xué)院都改名叫信息學(xué)院(School of Information,簡(jiǎn)稱(chēng)ischool),連“科學(xué)”都省了。
得維納真?zhèn)鞯娜瞬欢唷0⒈炔?3歲就在維納手下得了博士。阿比卜本是英國(guó)猶太人,他爸“二戰(zhàn)”時(shí)當(dāng)兵被俘,戰(zhàn)后舉家遷到澳大利亞。他在悉尼大學(xué)讀數(shù)學(xué),大學(xué)時(shí)博覽群書(shū),而對(duì)他影響最大的是維納的《控制論》、麥卡洛克和皮茨的神經(jīng)網(wǎng)絡(luò)、拉賓和斯考特的有限自動(dòng)機(jī),以及麥卡錫和香農(nóng)編輯的文集《自動(dòng)機(jī)研究》(Automata Studies)。他認(rèn)真研讀過(guò)圖靈1936年的經(jīng)典論文《論可計(jì)算的數(shù)》,自稱(chēng)曾挑出過(guò)31個(gè)錯(cuò),還翻譯了哥德?tīng)?931年那篇改天換地的文章(該文的正式譯文被收入邏輯學(xué)家海因諾特編輯的文集《從弗里格到哥德?tīng)枴罚Kx擇到麻省理工學(xué)院讀博士,因?yàn)槟抢锍司S納、麥卡洛克、皮茨之外,還有年輕而野心勃勃的麥卡錫和明斯基。阿比卜到麻省理工學(xué)院時(shí),維納和麥卡洛克已經(jīng)失和。盡管阿比卜名義上的導(dǎo)師是維納,但后者很少提供指導(dǎo),因此他實(shí)際上花了更多時(shí)間和維納的對(duì)頭麥卡洛克在一起。他在博士學(xué)位的工作都做完后才告訴維納,維納大怒。阿比卜曾如此評(píng)論維納:“偉人,但有人格缺陷。”
麥卡錫當(dāng)年選擇用“人工智能”(盡管這個(gè)詞并不是他原創(chuàng))這一新詞來(lái)標(biāo)識(shí)他和香農(nóng)、明斯基等開(kāi)創(chuàng)的新學(xué)科,本意是作為“控制論”的反動(dòng)而不是同流。阿比卜也沒(méi)有把自己局限于控制論的狹隘圈子里。和出身于控制或者其他工程類(lèi)專(zhuān)業(yè)的人工智能從業(yè)者不同,他精通計(jì)算理論,創(chuàng)建麻省大學(xué)計(jì)算機(jī)系時(shí),一直吸引計(jì)算理論的人才。他本人是全才,出版過(guò)計(jì)算理論、人工智能、腦科學(xué)等多種專(zhuān)著,甚至還一度玩過(guò)高深莫測(cè)的范疇論。“控制”在計(jì)算機(jī)科學(xué)的萌芽期并不完全是個(gè)糟糕的詞兒,畢竟計(jì)算理論最權(quán)威的雜志之一《信息與計(jì)算》(
Information and Computation)的前身就叫《信息與控制》(
Information and Control) ,其創(chuàng)辦者是物理學(xué)家兼信息論學(xué)者布里淵( Léon Brillouin ),直到 1987 年才由“控制”改為“計(jì)算”。阿比卜的本科畢業(yè)論文發(fā)表在美國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊
JACM上,題為 “ Turing Machines, Finite Automata, and Neural Nets ”,其“雜駁”在這篇文章中已初露端倪。他 1964 年就出版了科普書(shū)《大腦、機(jī)器和數(shù)學(xué)》,該書(shū) 1982 年由朱熹豪、金觀濤譯成中文。我正是看了這本書(shū)動(dòng)了到麻省大學(xué)投奔阿比卜的念頭。
1980年代末我到麻省大學(xué)時(shí),阿比卜剛結(jié)束在南加州大學(xué)一年的學(xué)術(shù)休假,決定離開(kāi)麻省大學(xué),正式加盟南加州大學(xué),擔(dān)任南加大一堆系(包括計(jì)算機(jī)、生物、生物醫(yī)學(xué)工程、電氣工程、神經(jīng)科學(xué),還有心理)的教授。但阿比卜最終并未成為開(kāi)天辟地的宗師,有愧于他的天分和才華。南加州大學(xué)沒(méi)有因?yàn)樗牡絹?lái)而添彩,而麻省大學(xué)計(jì)算機(jī)系卻因?yàn)樗某鲎叨チ俗约旱奶厣椭餍墓恰_z傳算法的祖師爺霍蘭德說(shuō)過(guò):老師的影響力很大程度上要看有沒(méi)有出息的學(xué)生,學(xué)生是學(xué)術(shù)圈生態(tài)環(huán)境的一個(gè)環(huán)節(jié)。麻省大學(xué)有阿比卜需要的生態(tài)環(huán)境,南加州大學(xué)則有名無(wú)實(shí)。阿比卜晚年為自己日漸衰落的學(xué)術(shù)影響力找過(guò)借口,他認(rèn)為原因之一是馬爾(David Marr,計(jì)算機(jī)視覺(jué)的大佬,在1980~1990年代頗具影響力)學(xué)派的當(dāng)?shù)馈qR爾和那一小撮把他當(dāng)神一樣供奉的學(xué)生曾經(jīng)一度統(tǒng)治了視覺(jué)研究領(lǐng)域,馬爾的早逝加劇了馬爾神話,他的書(shū)
Vision(《視覺(jué)》)也成為學(xué)生們的 “圣經(jīng)”。阿比卜認(rèn)為馬爾的工作源于自己的工作,但“圣經(jīng)”里并沒(méi)提及,仿佛一切都是馬爾自己一夜之間發(fā)明的。
1975年麻省大學(xué)的萊斯曼(Ed Riseman)在美國(guó)計(jì)算機(jī)學(xué)會(huì)的《人工智能分會(huì)快報(bào)》(
SIGART Newsletter) 上發(fā)表過(guò)一篇文章,介紹麻省大學(xué)計(jì)算機(jī)與信息科學(xué)系( COINS )的人工智能研究,當(dāng)時(shí)的 COINS 開(kāi)始分為理論、系統(tǒng)(包括軟件和硬件)和控制論三個(gè)方向,而控制論后來(lái)成為人工智能。這種分法也是后來(lái)所有計(jì)算機(jī)系的標(biāo)配。 COINS 當(dāng)時(shí)一共有 13 位教授,其中 5 位從事人工智能和控制論。阿比卜一開(kāi)始堅(jiān)持“控制論”而拒絕用“人工智能”,有兩方面原因:其一,他畢竟是維納的學(xué)生,且他終身的學(xué)術(shù)興趣是為大腦建模( brain modeling );其二,“人工智能”這個(gè)詞兒的流行是在 1970 年代中期。按照阿比卜的一家之言,人工智能是控制論的替代品。至少?gòu)臅r(shí)間軸上看,這也不能算錯(cuò)。維納的控制論自問(wèn)世從沒(méi)進(jìn)入過(guò)人工智能的主流,現(xiàn)在更無(wú)人問(wèn)津。大概只有強(qiáng)化學(xué)習(xí)還留有些許控制論的影子。
COINS的人工智能研究分為兩條線,一條以萊斯曼為首的人工智能路線,另一條是阿比卜親自掛帥的腦理論(Brain Theory)路線,阿比卜的組內(nèi)還有在哺乳動(dòng)物視覺(jué)系統(tǒng)做過(guò)重要工作的意大利神經(jīng)生理學(xué)家斯賓尼利(Nico Spinelli),當(dāng)時(shí)有傳他被提名過(guò)生理諾獎(jiǎng)。阿比卜還成立了“系統(tǒng)神經(jīng)科學(xué)中心”(Center for Systems Neuroscience),聯(lián)合心理、生理以及醫(yī)學(xué)的資源。因?yàn)榘⒈炔繁救松娅C極廣,人工智能和自然智能這兩條路線互有借鑒。
1980年代末的某一學(xué)期,麻省大學(xué)的一學(xué)期人工智能課程獨(dú)樹(shù)一幟,由計(jì)算機(jī)系的所有人工智能教授聯(lián)合開(kāi),每人負(fù)責(zé)一個(gè)主題(如下表),主要參考書(shū)目是費(fèi)根保姆和寇恩等主編的《人工智能手冊(cè)》,每個(gè)老師也會(huì)有自己的教輔材料。計(jì)算機(jī)系如此開(kāi)課只此一回,但讓我趕上了。
以上課表證明在阿比卜離開(kāi)時(shí),麻省大學(xué)的計(jì)算機(jī)和人工智能的教師團(tuán)隊(duì)確是頂流。
SAIXIANSHENG
強(qiáng)化學(xué)習(xí)的誕生:巴托和薩頓
和萊斯曼于1975年發(fā)表文章的同期,《人工智能分會(huì)快報(bào)》(
SIGART Newsletter)還刊登了另一篇題為“自然智能與人工智能之比較”( A comparison of natural and artificial intelligence )的文章 , 作者是主管美國(guó)空軍人工智能資助的克勞普夫( Harry Klopf )。阿比卜和 斯賓尼利( Nico Spinelli )聯(lián)合向 克勞普夫申請(qǐng)課題經(jīng)費(fèi),申請(qǐng)成功后,阿比卜和 斯賓尼利招了一個(gè)博士后做具體工作,他就是安德魯 ·巴托。巴托到任時(shí),阿比卜 去學(xué)術(shù)度假了 。
安德魯·巴托(1948—)
萊斯曼文章中沒(méi)有提到巴托。巴托在密歇根大學(xué)的博士論文研究的是細(xì)胞自動(dòng)機(jī),他在那里的兩位老師也都是做細(xì)胞自動(dòng)機(jī)出身,其中霍蘭德(John Holland)發(fā)明了遺傳算法,也是“涌現(xiàn)”(emergence)概念的提出者。
克勞普夫資助阿比卜和斯賓尼利的條件之一是,課題組必須招收一個(gè)他的熟人——一位從斯坦福大學(xué)剛畢業(yè)的“極聰明的本科生”理查德·薩頓。薩頓本科學(xué)的是心理學(xué),研究動(dòng)物怎么適應(yīng)環(huán)境一直是他的興趣。由于克勞普夫的安排,薩頓到了了麻省大學(xué)并成為巴托的第一個(gè)博士生。
理查德·薩頓(1957-)
巴托加入麻省大學(xué)時(shí),正是神經(jīng)網(wǎng)絡(luò)的低潮,于是他學(xué)老師,把自己的實(shí)驗(yàn)室命名為“可適應(yīng)系統(tǒng)”(Adaptive Systems),這個(gè)名字聽(tīng)起來(lái)和神經(jīng)網(wǎng)絡(luò)保持一定距離。1980年代中期,隨著Hopfield網(wǎng)絡(luò)的流行和通用逼近定理的出現(xiàn),人們逐漸改變對(duì)神經(jīng)網(wǎng)絡(luò)的看法。在加州大學(xué)圣地亞哥分校由幾位認(rèn)知心理學(xué)家領(lǐng)導(dǎo)的PDP(平行分布處理)運(yùn)動(dòng)標(biāo)志著神經(jīng)網(wǎng)絡(luò)的一次短暫的復(fù)興。辛頓和巴托都是這次PDP運(yùn)動(dòng)的干將。
但此時(shí)巴托和薩頓已經(jīng)形成了他們自己關(guān)于學(xué)習(xí)的第一性原理,那就是強(qiáng)化學(xué)習(xí)。他們有時(shí)也把強(qiáng)化學(xué)習(xí)中的目標(biāo)制導(dǎo)(goal-seeking)稱(chēng)為“享樂(lè)主義”(hedonistic),即學(xué)習(xí)系統(tǒng)想最大化環(huán)境對(duì)自己的某種獎(jiǎng)勵(lì)。“享樂(lè)主義”這個(gè)說(shuō)法源自他們的資助人克勞普夫1982年的一本書(shū),書(shū)名即《享樂(lè)主義的神經(jīng)元》(
Hedonistic Neuron)。關(guān)于個(gè)體的策略和集體的行為之間的關(guān)系,道金斯有所謂“自私的基因”的說(shuō)法,這和“享樂(lè)主義的神經(jīng)元”異曲同工,兩種說(shuō)法都旨在為類(lèi)生物( biology-inspired )系統(tǒng)建立基本公理。
作為空軍項(xiàng)目的結(jié)項(xiàng),巴托和薩頓聯(lián)合撰寫(xiě)了報(bào)告(見(jiàn)Barto & Sutton-1981),在結(jié)項(xiàng)報(bào)告上簽字的PI是斯賓尼利。此報(bào)告的題目“goal-seeking”就是“享樂(lè)主義”的意思,后來(lái)巴托和薩頓將這一概念稱(chēng)為“獎(jiǎng)勵(lì)假設(shè)”(Reward Hypothesis),也就是“獎(jiǎng)勵(lì)就夠了”(Reward is enough)。
克勞普夫1997年56歲時(shí)英年早逝,他事實(shí)上也是強(qiáng)化學(xué)習(xí)的奠基者之一,如果現(xiàn)在還活著,今年圖靈獎(jiǎng)的名單上應(yīng)該有他的名字。
SAIXIANSHENG
強(qiáng)化學(xué)習(xí)的本質(zhì)
強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)之一是馬爾可夫決策過(guò)程。強(qiáng)化學(xué)習(xí)的主體是Agent,Agent和環(huán)境互動(dòng)。在一個(gè)時(shí)間點(diǎn),環(huán)境的表示是當(dāng)前的狀態(tài),Agent對(duì)環(huán)境實(shí)施一個(gè)動(dòng)作,環(huán)境回饋給Agent一個(gè)獎(jiǎng)勵(lì),并導(dǎo)致環(huán)境進(jìn)入一個(gè)新?tīng)顟B(tài)。強(qiáng)化學(xué)習(xí)就是Agent根據(jù)經(jīng)驗(yàn)改變策略以期達(dá)到長(zhǎng)期最大獎(jiǎng)勵(lì)的過(guò)程。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)的另一個(gè)理論基礎(chǔ)是動(dòng)態(tài)規(guī)劃。貝爾曼(Richard E. Bellman)在20世紀(jì)50年代就發(fā)明了動(dòng)態(tài)規(guī)劃。巴托一度在他的強(qiáng)化學(xué)習(xí)討論班上讓研究生分工研讀貝爾曼的經(jīng)典著作《動(dòng)態(tài)規(guī)劃》(
Dynamic Programming)( Bellman , 1957 )。班上數(shù)學(xué)好的學(xué)生不知所云,算法課里不都有一章講動(dòng)態(tài)規(guī)劃嘛,如果強(qiáng)化學(xué)習(xí)就是動(dòng)態(tài)規(guī)劃,那還有啥意思?近 30 年后,當(dāng)強(qiáng)化學(xué)習(xí)被用來(lái)解決圍棋這樣復(fù)雜的問(wèn)題之后,當(dāng)年班上的學(xué)生們才體會(huì)到巴托的初衷。但“三十年太久,只爭(zhēng)朝夕”,這幾乎是一個(gè)人學(xué)術(shù)生涯的全部。當(dāng)年的學(xué)生們也到了人生的強(qiáng)弩之末。愚公移山,現(xiàn)在是當(dāng)時(shí)學(xué)生的孩子們的天下,他們趕上好時(shí)候了。
在早期算力有限的約束下,要想使強(qiáng)化學(xué)習(xí)有效,所應(yīng)用的環(huán)境不宜太復(fù)雜。萌芽期的強(qiáng)化學(xué)習(xí)的例子都是游戲,如貝爾曼的“老虎機(jī)”(這成了所有強(qiáng)化學(xué)習(xí)的入門(mén)例子)和塞繆爾(Arthur Samuel)的跳棋。游戲的環(huán)境相對(duì)容易定義,在棋類(lèi)比賽中,環(huán)境就是對(duì)手和規(guī)則。因此,強(qiáng)化學(xué)習(xí)被用來(lái)下圍棋不是偶然的。
事實(shí)上,強(qiáng)化學(xué)習(xí)的思想在人工智能誕生之初便已出現(xiàn)。人工智能的一種起源,可以回溯到圖靈1950年在Mind上的文章“計(jì)算機(jī)與智能”。而在更早的1948年,圖靈就寫(xiě)過(guò)一篇內(nèi)部報(bào)告“智能機(jī)器”,其中圖靈定義了可學(xué)習(xí)的機(jī)器P–型機(jī),它可以只接受“快樂(lè)”和“痛苦”刺激,這實(shí)際就是強(qiáng)化學(xué)習(xí)算法的“獎(jiǎng)勵(lì)”和“懲罰”。圖靈指出人身上的任何小部件都可以用機(jī)器來(lái)模仿,他還提到基因、進(jìn)化和選擇。這個(gè)報(bào)告也是巴托和薩頓在其經(jīng)典教材《Reinforcement Learning: An Introduction》中引用的唯一一篇圖靈的文章。
強(qiáng)化學(xué)習(xí)中有所謂exploration (“抬頭看路”,也譯為“探索”)和exploitation (“低頭拉車(chē)”,也有苦干,被剝削,被壓榨之意)階段之分。探索就是看看有沒(méi)有別的選擇,苦干就是專(zhuān)注于當(dāng)前的選擇。在強(qiáng)化學(xué)習(xí)中,用希臘字母ε表示學(xué)習(xí)率(learning rate),值越小,能用于探索的時(shí)間就越少,絕大部分時(shí)間是在苦干。就像人生,大部分時(shí)間被壓榨,極少時(shí)間可以探索“詩(shī)和遠(yuǎn)方”。如果我們?cè)偬子酶ダ锫ご魃摹按篪B(niǎo)”和“青蛙”的比喻:“大鳥(niǎo)”是那些高瞻遠(yuǎn)矚的科學(xué)家,例如希爾伯特、愛(ài)因斯坦、楊振寧等,而“青蛙”是那些埋頭苦干解決問(wèn)題的科學(xué)家,例如馮諾伊曼、費(fèi)曼等。“大鳥(niǎo)”們負(fù)責(zé)探索,而“青蛙”們負(fù)責(zé)苦干。
有人論起遺傳算法和強(qiáng)化學(xué)習(xí)的異同。首先它們有一個(gè)共同點(diǎn):效果要等到多步以后才能看到,這是和監(jiān)督式學(xué)習(xí)的主要不同。這需要盡可能多地訪問(wèn)所有的狀態(tài),這樣效率就會(huì)受到影響。蒙特卡洛模擬是一種減少狀態(tài)空間搜索的有效辦法。最近也有人利用深度學(xué)習(xí)來(lái)壓縮需要表示的狀態(tài)空間數(shù)目。本來(lái)強(qiáng)化學(xué)習(xí)初衷是探索生物體學(xué)習(xí)的模型,現(xiàn)在神經(jīng)網(wǎng)絡(luò)又成了強(qiáng)化學(xué)習(xí)的工具。當(dāng)狀態(tài)空間很大時(shí),強(qiáng)化學(xué)習(xí)可以和蒙特卡洛方法或深度神經(jīng)網(wǎng)絡(luò)結(jié)合。
我很早曾隨意評(píng)論過(guò):遺傳算法是有性繁殖,而強(qiáng)化學(xué)習(xí)是無(wú)性繁殖。直到某一天我看到理論計(jì)算機(jī)科學(xué)家Livnat和Papadimitriou 2016年在CACM上的文章,證明了無(wú)性繁殖在特定條件下的效率要遠(yuǎn)高于有性繁殖,這個(gè)結(jié)果令我一驚,促使我思考:對(duì)算力要求的大小,也許可以解釋為什么強(qiáng)化學(xué)習(xí)比遺傳算法效率更高。道金斯的“自私”適合描述有性繁殖,而克勞普夫的“享樂(lè)主義(hedonist)”適合描述無(wú)性繁殖。
薩頓在麻省大學(xué)博士畢業(yè)后去了不遠(yuǎn)處的GTE實(shí)驗(yàn)室,GTE是當(dāng)年貝爾系統(tǒng)之外最大的電話公司。貝爾有個(gè)實(shí)驗(yàn)室,GTE當(dāng)然也得有。薩頓待在GTE實(shí)驗(yàn)室的主要原因是方便和巴托合作。巴托的“可適應(yīng)系統(tǒng)”實(shí)驗(yàn)室,在神經(jīng)網(wǎng)絡(luò)不景氣時(shí),曾經(jīng)收留過(guò)一批無(wú)家可歸的學(xué)術(shù)“浪人”,其中就有吳恩達(dá)的老師喬丹。事實(shí)上,吳恩達(dá)的成名作就是用強(qiáng)化學(xué)習(xí)來(lái)控制無(wú)人機(jī)。巴托和薩頓定期互訪。印象中,GTE實(shí)驗(yàn)室的辦公和會(huì)議場(chǎng)所非常豪華。每次去GTE,都是巴托開(kāi)著他那輛老舊的SAAB,載著幾位學(xué)生一起當(dāng)天往返。
為了和巴托合作寫(xiě)他們那本強(qiáng)化學(xué)習(xí)的經(jīng)典教科書(shū),薩頓一度回到母校擔(dān)任“研究科學(xué)家”(一種沒(méi)有編制的研究性職位)。之后,他前往加拿大阿爾伯塔大學(xué)(Alberta)計(jì)算機(jī)系,迅速把那里建成了強(qiáng)化學(xué)習(xí)的大本營(yíng)。有意思的是,辛頓也差不多同時(shí)遷往加拿大多倫多大學(xué),那恰是在神經(jīng)網(wǎng)絡(luò)研究剛剛復(fù)活但仍不太招人待見(jiàn)的時(shí)期。
谷歌收購(gòu)DeepMind時(shí),團(tuán)隊(duì)中最核心的幾個(gè)人都是薩頓的學(xué)生,而自稱(chēng)“AlphaGo之手”的黃士杰也曾在薩頓手下做過(guò)兩年博士后。2017年7月7日,DeepMind宣布在薩頓所在的阿爾伯塔大學(xué)開(kāi)辦聯(lián)合實(shí)驗(yàn)室,這是DeepMind第一次在英國(guó)以外設(shè)立研究機(jī)構(gòu)。經(jīng)過(guò)多年耕耘,薩頓已經(jīng)把阿爾伯塔大學(xué)建成了強(qiáng)化學(xué)習(xí)的基地,和計(jì)算機(jī)系里崇尚游戲的幾個(gè)教授天作之合,使強(qiáng)化學(xué)習(xí)在圍棋、德州撲克、電玩等領(lǐng)域勢(shì)不可擋。但2022谷歌在一次內(nèi)部調(diào)整中又撤銷(xiāo)了對(duì)阿爾伯塔大學(xué)的支持。
一旦一個(gè)算法被天才發(fā)明,成功地在一個(gè)領(lǐng)域里得到應(yīng)用,是算法重要性展示的必要條件。一旦一個(gè)算法被認(rèn)定成功,自然會(huì)有二流人才前赴后繼把這個(gè)算法在其他領(lǐng)域發(fā)揚(yáng)光大。20世紀(jì)80年代的神經(jīng)網(wǎng)絡(luò)如此,當(dāng)下的強(qiáng)化學(xué)習(xí)也如此。
目前已經(jīng)看到這幾派的融合,例如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合形成了深度強(qiáng)化學(xué)習(xí),甚至還有人利用強(qiáng)化學(xué)習(xí)來(lái)做定理證明的工作。谷歌2017年用強(qiáng)化學(xué)習(xí)來(lái)尋求NP-hard問(wèn)題的近似解。早年有人質(zhì)疑遺傳算法算不算機(jī)器學(xué)習(xí),他們認(rèn)為遺傳算法是一種近似優(yōu)化算法,不能算機(jī)器學(xué)習(xí)。但從某種意義上,任何機(jī)器學(xué)習(xí)算法都是一種優(yōu)化算法。現(xiàn)在強(qiáng)化學(xué)習(xí)都被用來(lái)求解優(yōu)化問(wèn)題了。
SAIXIANSHENG
學(xué)習(xí)的第一性原理
我到麻省大學(xué)后,因?yàn)榘⒈炔芬呀?jīng)決定不回麻省大學(xué),導(dǎo)師第二選擇就是巴托了。第一次和巴托見(jiàn)面,我?guī)е趪?guó)內(nèi)寫(xiě)好的一篇關(guān)于利用Hopfield網(wǎng)絡(luò)近似求解TSP的文章給他看,他翻了翻文章,只說(shuō)了一句:“嗷,好多數(shù)學(xué)啊”。我當(dāng)時(shí)還頗自得,多年之后才知道巴托本科讀的是數(shù)學(xué),不禁汗顏。老實(shí)講,初識(shí)強(qiáng)化學(xué)習(xí)時(shí),我覺(jué)得這個(gè)東西離實(shí)用還遠(yuǎn)著呢。當(dāng)時(shí)巴托有個(gè)學(xué)生Steve Judd剛畢業(yè),他博士論文證明了三層以上機(jī)器學(xué)習(xí)是NP完全的。差不多同時(shí),Ron Rivest(RSA的R)的團(tuán)隊(duì)中也有人證明了類(lèi)似的結(jié)果,但Judd應(yīng)是第一個(gè)。于是我的興趣也轉(zhuǎn)向我的優(yōu)勢(shì):計(jì)算理論。菲爾茨獎(jiǎng)得主、數(shù)學(xué)大家斯梅爾(Steve Smale)那時(shí)也轉(zhuǎn)向計(jì)算理論,他與Lenore Blum(圖靈獎(jiǎng)Manuel Blum的太太)和Michael Shub在1989年提出了實(shí)數(shù)的BSS模型,其特色是計(jì)算性質(zhì)不同于圖靈機(jī),因?yàn)锽SS假設(shè)無(wú)限精度的實(shí)數(shù)的基本運(yùn)算可以在單位時(shí)間內(nèi)完成。我很快證明了BSS模型上有些神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)問(wèn)題等價(jià)于線性規(guī)劃,而有些問(wèn)題則可歸約到TSP。有意思的是線性規(guī)劃在圖靈機(jī)上是多項(xiàng)式的,而在BSS上的性質(zhì)至今未知。這些理論的東西,巴托本無(wú)興趣,我只好找年輕的理論家Barrington審查我的結(jié)果。那時(shí)我對(duì)強(qiáng)化學(xué)習(xí)作為最通用的學(xué)習(xí)并沒(méi)有深刻認(rèn)識(shí),甚至還有些抵觸。
我重新哲學(xué)地審視強(qiáng)化學(xué)習(xí)大概是在2012年,那時(shí)開(kāi)始寫(xiě)人工智能歷史的系列文章。這些文章后來(lái)又整理成書(shū)《人工智能簡(jiǎn)史》。我很早就讀過(guò)所羅門(mén)諾夫的工作,并且直覺(jué)強(qiáng)化學(xué)習(xí)大概是和所羅門(mén)諾夫類(lèi)似或者等價(jià)的。我在寫(xiě)達(dá)特茅斯會(huì)議那一段歷史時(shí)重新看了麥卡錫和香農(nóng)合編的文集《自動(dòng)機(jī)研究》(
Automata Studies),其中麥卡錫的一篇關(guān)于圖靈機(jī)求逆的文章使我豁然開(kāi)朗,如果所羅門(mén)諾夫歸納是學(xué)習(xí)的第一性原理,那么強(qiáng)化學(xué)習(xí)至少可以看作是其實(shí)現(xiàn)方式之一。強(qiáng)化學(xué)習(xí)學(xué)不會(huì)的東西,所羅門(mén)諾夫歸納也沒(méi)招。如果外部世界是完全隨機(jī)的,那么強(qiáng)化學(xué)習(xí)也不管用。 DeepMind 成立時(shí)間不長(zhǎng)就被谷歌收購(gòu)( 2014 年),強(qiáng)化學(xué)習(xí)是他們的強(qiáng)項(xiàng), 2016 年 DeepMind 下圍棋戰(zhàn)勝了李世石。那時(shí)我變成帶著企業(yè)家面具的作家,早已喪失了學(xué)術(shù)所需的智力鋒芒,但我知道強(qiáng)化學(xué)習(xí)的時(shí)代來(lái)了。
能夠使自己信服(conviction,無(wú)論何種方式)所從事的事業(yè)是第一性原理需要各種機(jī)緣巧合。這種信服會(huì)讓人堅(jiān)持自己的事業(yè)。人工智能事業(yè)的例子有辛頓(Hinton)和他的學(xué)生蘇茨克佛(Ilya Sutskever,OpenAI聯(lián)合創(chuàng)始人),以及今天的巴托和薩頓。不入流的企業(yè)家喜歡給年輕人灌輸“閉環(huán)”思維,就是能不能賺快錢(qián)。辛頓和蘇茨克佛,巴托和薩頓都不閉環(huán),他們按照第一性原理的信念一直走下去。
羅素(Stuart Russell)和諾維格(Peter Norvig)合著的那本權(quán)威且無(wú)所不包的人工智能大部頭教科書(shū)《人工智能:一種現(xiàn)代方法》,全書(shū)由7篇組成,“強(qiáng)化學(xué)習(xí)”是“學(xué)習(xí)”篇里的最后一章;而“強(qiáng)化學(xué)習(xí)”也是周志華的《機(jī)器學(xué)習(xí)》的最后一章。這大概說(shuō)明強(qiáng)化學(xué)習(xí)比較“新”,或者“火”得比較晚吧。就像動(dòng)態(tài)規(guī)劃是在找不到其他更有效算法的情況下,一種沒(méi)辦法的辦法;強(qiáng)化學(xué)習(xí)是最廣泛的學(xué)習(xí)算法。當(dāng)目前我們面臨人類(lèi)數(shù)據(jù)將被用盡的情況下,大家把目光投向強(qiáng)化學(xué)習(xí)一點(diǎn)也不吃驚。薩頓一直認(rèn)為強(qiáng)化學(xué)習(xí)是理解智能的關(guān)鍵。羅素和諾維格也說(shuō)“可以認(rèn)為強(qiáng)化學(xué)習(xí)包含了全部人工智能”(Reinforcement learning might be considered to encompass all of AI)。薩頓和弟子席爾瓦(David Silver)等在《Reward is Enough》一文中提出了一個(gè)核心觀點(diǎn):強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)機(jī)制足以驅(qū)動(dòng)智能行為的產(chǎn)生,無(wú)需預(yù)設(shè)復(fù)雜的先驗(yàn)知識(shí)或特定目標(biāo)。
人工智能領(lǐng)域派系紛雜,其歷史是幾條路線斗爭(zhēng)的歷史。就像美國(guó)心理學(xué)家威廉·詹姆斯把哲學(xué)體系簡(jiǎn)單地分為理性主義、經(jīng)驗(yàn)主義和實(shí)用主義那樣,我也把人工智能做了個(gè)三分法:邏輯主義(或規(guī)則派,對(duì)應(yīng)哲學(xué)中的理性主義)、連接主義(或統(tǒng)計(jì)派,對(duì)應(yīng)經(jīng)驗(yàn)主義)和自然主義(自然派,對(duì)應(yīng)實(shí)用主義)。我也曾把所羅門(mén)諾夫歸納對(duì)應(yīng)于實(shí)用主義—實(shí)用主義是理性主義和經(jīng)驗(yàn)主義的辯證法。直覺(jué)上,所羅門(mén)諾夫歸納和強(qiáng)化學(xué)習(xí)類(lèi)似,如果我們能給出一個(gè)數(shù)學(xué)證明那就更令人放心了(見(jiàn)Hutter-2005)。
SAIXIANSHENG
總結(jié)
薩頓和弟子席爾瓦合作寫(xiě)了一篇題為“Welcome to the Era of Experience”的文章。他們把學(xué)習(xí)的發(fā)展分為三個(gè)階段,首先是“模擬時(shí)代”,在一個(gè)封閉環(huán)境中,數(shù)據(jù)可由多個(gè)agents互相博弈而自動(dòng)生成,其代表是AlphaZero;第二階段是人類(lèi)數(shù)據(jù)時(shí)代,代表是ChatGPT,但目前大語(yǔ)言模型已經(jīng)幾乎用盡了所有數(shù)據(jù);第三階段是“經(jīng)驗(yàn)時(shí)代”,代表是AlphaProof,AlphaProof發(fā)現(xiàn)了人沒(méi)有發(fā)現(xiàn)過(guò)的定理證明方法,經(jīng)驗(yàn)時(shí)代迫使人們重新思考獎(jiǎng)勵(lì)函數(shù)和價(jià)值函數(shù)。
薩頓2019年的兩頁(yè)紙短文The Bitter Lesson是他幾十年研究的哲學(xué)思考。他的結(jié)論是長(zhǎng)期來(lái)看通用方法總可以戰(zhàn)勝專(zhuān)用方法(所謂專(zhuān)用就是注入人類(lèi)理解和知識(shí)的智能體(agent)),以通用算法(例如強(qiáng)化學(xué)習(xí))為基礎(chǔ),輔以不斷增長(zhǎng)的算力,智能自然會(huì)提升。AlphaGO的成功使他認(rèn)為強(qiáng)化學(xué)習(xí)可以作為達(dá)到超人類(lèi)智能的路徑。這個(gè)論斷的基礎(chǔ)是摩爾定律。正是基于薩頓的這篇短文,有了當(dāng)下掛在工程師嘴邊的所謂Scaling Law(縮放定律),即智能會(huì)隨算力和數(shù)據(jù)不斷加大地投入而自然增長(zhǎng)。
巴托和薩頓的長(zhǎng)期合作,在科學(xué)史上是罕見(jiàn)的。可能最接近的例子是司馬賀和紐厄爾(Herb Simon,計(jì)算機(jī)科學(xué)家、經(jīng)濟(jì)學(xué)家、諾貝爾獎(jiǎng)和圖靈獎(jiǎng)得主,Alan Newell,計(jì)算機(jī)科學(xué)家、圖靈獎(jiǎng)得主)。紐厄爾是司馬賀的學(xué)生,他們年齡相差也不算大。薩頓曾說(shuō)他和巴托的觀點(diǎn)也不盡全同,但他們這種互相幫助且獨(dú)立的關(guān)系是他們成功的秘方之一。他們是幸運(yùn)的,在他們沒(méi)有退出舞臺(tái)時(shí),他們的學(xué)生在學(xué)界和產(chǎn)業(yè)界開(kāi)始活躍。相較之下,為大語(yǔ)言模型奠定理論基礎(chǔ)的所羅門(mén)諾夫去世后,他的學(xué)問(wèn)幾成絕學(xué)。
我們從機(jī)器學(xué)習(xí)中學(xué)到的,還可以被用來(lái)理解和解釋人的學(xué)習(xí)。Schultz, Dayan和Montague的工作證明靈長(zhǎng)類(lèi)動(dòng)物多巴胺能神經(jīng)元(dopaminergic neurons)就是在執(zhí)行強(qiáng)化學(xué)習(xí)。近來(lái),諾獎(jiǎng)偏愛(ài)人工智能,辛頓和霍普菲爾德仗神經(jīng)網(wǎng)絡(luò)獲得諾貝爾物理獎(jiǎng),而哈撒比斯等則憑強(qiáng)化學(xué)習(xí)在蛋白質(zhì)折疊中的應(yīng)用獲得化學(xué)獎(jiǎng)。我賭巴托和薩頓有希望得生理學(xué)或醫(yī)學(xué)獎(jiǎng)。
鳴謝:本文寫(xiě)作得到麻省大學(xué)同學(xué)洪濤、毛德操和趙偉等指正。
作者簡(jiǎn)介:尼克,烏鎮(zhèn)智庫(kù)理事長(zhǎng)。曾獲吳文俊人工智能科技進(jìn)步獎(jiǎng)。中文著作包括《人工智能簡(jiǎn)史》《理解圖靈》《UNIX內(nèi)核剖析》和《哲學(xué)評(píng)書(shū)》等。
參考文獻(xiàn):(上下滑動(dòng)可瀏覽)
Arbib, M. (1964),Brains, Machines and Mathematics
Arbib, M. (2011), ETHW Oral History, https://ethw.org/Oral-History:Michael_Arbib
Barto, A. & R. Sutton (1981), Goal-seeking components for adaptive intelligence: An initial assessment, Technical Report AFWAL-TR-81-1070
Hutter, M. (2005), Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability
Klopf, Harry (1975), A comparison of natural and artificial intelligence,SIGART Newsletter No. 52 June 1975
Livnat, Adi & Christos Papadimitriou (2016), Sex as an Algorithm: The Theory of Evolution Under the Lens of Computation,CACM
Riseman, Ed.(1975), AI and Brain TheoryatThe University of Massachusetts, SIGART Newsletter No. 52 June 1975
Schultz, Wolfram, Peter Dayan, P. Read Montague (1997), A Neural Substrate of Prediction and Reward, SCIENCE VOL. 275 14 MARCH 1997
Silver, D. & R. Sutton, (2025),Welcome to the Era of Experience
Sutton, R. & A. Barto(2018), Reinforcement Learning: An Introduction, 是強(qiáng)化學(xué)習(xí)的圣經(jīng),該書(shū)2018年出了第二版,第一版和第二版的初稿(2017)在可免費(fèi)獲取。
Sutton, R. (2019), The Bitter Lesson
Turing, A. (1948), Intelligent Machinery, NPL Report
Zhang, N. (1992), Complexity of Neural Network Learning in Real Number Model. Proceedings of 2nd IEEE Workshop on Physics and Computation.
尼克 (2014),哲學(xué)評(píng)書(shū)
尼克 (2021),人工智能簡(jiǎn)史,第二版
尼克 (2024),理解圖靈
《物理》50年精選文章
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.