新智元報道
編輯:LRS
【新智元導讀】80年代,當強化學習被冷落,這對師徒沒有放棄;如今,重看來時路,他們給出的建議仍然是,「堅持」住自己的科研思想。
3月5日,計算機學會(ACM)宣布Andrew Barto和Richard Sutton獲得圖靈獎,以表彰其在強化學習領域做出的奠基性貢獻。
自從9年前AlphaGo圍棋大勝,引爆全民RL狂歡,再到如今Deepseek-R1等推理模型的火熱,足以證明強化學習在人工智能領域的長久影響力。
最近,Communications of the ACM發布了一段對師徒二人的采訪,從強化學習的研究經歷,聊到對人工智能的未來預測。
Barto側重于多智能體協作學習,Sutton則認為AGI還需要至少幾十年,但最終一定能實現,二人對AI的未來以及強化學習的應用前景都充滿希望!
關于兩人共同獲得的100萬美元圖靈獎獎金,目前尚未確定具體用途。
Sutton表示可能將其份額捐贈給共同創立的Openmind研究所,給青年科學家提供「奢侈」的科研自由,讓他們像自己當年那樣專注探索基礎性問題。
Barto則計劃用獎金在馬薩諸塞大學(UMass)設立研究生獎學金。
強化學習萌芽
1975年的斯坦福校園里,當時還是心理學專業的本科生Richard Sutton,翻遍了圖書館里所有關于機器智能的文獻,認知受到了巨大沖擊。
他對主流的「模式識別」和「示例學習」觀點感到失望,認為動物并不是這么學習的,而是通過某種獎勵反饋機制(They do things to get rewards.)。
當時,唯一將獎勵與學習聯系起來的研究人員是美國空軍實驗室的A. Harry Klopf,認為腦細胞會主動尋求獎勵。
Sutton立即決定給Klopf寫信,并在1978年心理學畢業后,在馬薩諸塞大學阿默斯特分校從事研究,主要工作就是測試Klopf的觀點。
團隊當時有一位博士后Andrew Barto,在接受空軍和國家科學基金會長達五年的資助后,除了一份報告,并沒有交付出任何成果。
Barto于1970年獲得密歇根大學數學學士學位,1975年獲得計算機科學博士學位,最終成為UMass自適應網絡實驗室(現為自主學習實驗室)的聯合主任,2012年退休。
Sutton加入實驗室后,成為了Barto的第一位博士生,二人最終發展出了現代強化學習技術,獎勵也是其中的核心,通過設計獎勵信號來訓練神經網絡,讓神經元順著預期方向發展。
1984年,Sutton在馬薩諸塞大學安姆斯特分校(University of Massachusetts at Amherst)獲得了博士學位,直到1994年,Sutton都是GTE Laboratories的計算機和智能系統實驗室的技術組的主要成員,隨后又以資深研究科學家的身份回到了馬薩諸塞大學安姆斯特分校。
任職期間,Barto和Sutton共同出版了《強化學習導論》,獲得了超8萬次引用,2018年又發行了第二版,至今仍是全球AI學子的圣經。
同時,Sutton加入AT&T Shannon Laboratory擔任人工智能部門的主要技術組成員,研究方向圍繞著決策者與其環境交互時所面臨的學習問題,持續改進自己對世界的表征和模型的系統。
2003年之后,Sutton成了阿爾伯塔大學計算機科學系的教授和 iCORE Chair,領導著強化學習與人工智能實驗室(RLAI)。
不過,說起強化學習的歷史,Barto也提到,他們的思路并不新鮮。
早在1954年,人工智能先驅馬文明斯基(Marvin Minsky)的博士學位論文主題就是模擬神經的強化學習系統,也是IBM計算機科學家Arthur Samuel用來訓練計算機下棋的方法。
然而,到了20世紀70年代,這個想法已經過時,大多數AI研究員都在設計專家系統,Barto也慶幸自己能夠保持「不合時宜」。
Barto和Sutton提出的一個關鍵技術是「時間差分學習」(temporal difference learning)。
比如,想教一臺計算機學習下棋,獎勵信號如果是贏得游戲,那中間哪些動作步驟是正確的,仍然無法確定;即時獎勵可以在計算機預測一步后,反饋出離最終獎勵仍然有多少距離,比如勝率是否增加。
預測隨時間的變化(時間差)提供強化信號,那么在下次計算機下棋時,就可以采取那些能增加勝率的動作。
破圈
2016年,一場圍棋人機大戰,讓強化學習廣為人知,連學術圈之外的人都能聊兩句「阿爾法狗」。
Google DeepMind開發的AlphaGo,最終以四勝一敗擊敗李世乭,賽后韓國棋院授予AlphaGo為榮譽九段。
2017年,AlphaGo Master以3:0的戰績,擊敗了世界排名第一的圍棋棋手柯潔,從此人類棋手再無一人是機器的對手。
可以說,強化學習讓「圍棋」死了一半。
之前的機器學習方法主要是有監督學習和無監督學習,在有監督設置下,人工標注樣本給機器進行學習,樣本量有限,無法適應「圍棋」這種特征空間很大的情況;而無監督學習則是自動提取出有效特征,以在數據中找到結構。
這兩種方法在計算中都已被證明是有用的,但都不是生物大腦的學習方式。
強化學習的思路是,當神經網絡實現了一個指定目標(比如贏得棋局)時,就會獲得一定數值的獎勵;如果失敗了,會得到一個負值獎勵。
機器可以通過不斷試錯來學習,嘗試不同的移動,最終學到了在不同場景下應該使用哪種移動方式。
此后,強化學習一路高歌猛進,不僅攻克了各種電子競技游戲,還引發了大型語言模型的推理革命,比如OpenAI o系列、DeepSeek-R1等推理模型,已成為新的研究主流。
人工智能的未來
Barto預測人工智能領域將向多智能體強化學習(multi-agent RL)方向演進,由神經網絡社群及其個體獎勵系統將形成互動,這種機制可能進一步催生出協作網絡,多個模型為實現共同目標而互相獎勵,也可能引發持有不同目標的智能體之間的利益沖突。
此類交互將對經濟學與博弈論等復雜領域產生深遠影響。
Sutton則認為人工智能發展仍處于初級階段,包括向通用人工智能(AGI)的探索,即機器能理解人類認知范圍內的所有事物,Sutton堅信強化學習將在這一進程中發揮關鍵作用。
談到給年輕計算機研究人員的建議,Barton倡導效仿二人的科研路,勇敢追隨自己的研究興趣,不必在意領域內其他人的看法。雖然這很困難,但你必須找到內在驅動力,并盡你最大的能力堅持下去。
Sutton則給出更具體的建議,「堅持寫作」,通過文字記錄來錘煉思想。
一說起計算機科學的未來,Sutton就充滿信心:未來幾十年內,人類將徹底破解人工智能的奧秘!這有可能是史上最偉大的智力飛躍,能為其貢獻綿薄之力是我們的榮幸。
參考資料:
https://cacm.acm.org/news/a-rewarding-line-of-work/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.