99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

100萬美元圖靈獎獎金,強化學習師徒想獻給科研自由

0
分享至


新智元報道

編輯:LRS

【新智元導讀】80年代,當強化學習被冷落,這對師徒沒有放棄;如今,重看來時路,他們給出的建議仍然是,「堅持」住自己的科研思想。

3月5日,計算機學會(ACM)宣布Andrew Barto和Richard Sutton獲得圖靈獎,以表彰其在強化學習領域做出的奠基性貢獻。

自從9年前AlphaGo圍棋大勝,引爆全民RL狂歡,再到如今Deepseek-R1等推理模型的火熱,足以證明強化學習在人工智能領域的長久影響力。


最近,Communications of the ACM發布了一段對師徒二人的采訪,從強化學習的研究經歷,聊到對人工智能的未來預測。

Barto側重于多智能體協作學習,Sutton則認為AGI還需要至少幾十年,但最終一定能實現,二人對AI的未來以及強化學習的應用前景都充滿希望!

關于兩人共同獲得的100萬美元圖靈獎獎金,目前尚未確定具體用途。

Sutton表示可能將其份額捐贈給共同創立的Openmind研究所,給青年科學家提供「奢侈」的科研自由,讓他們像自己當年那樣專注探索基礎性問題。

Barto則計劃用獎金在馬薩諸塞大學(UMass)設立研究生獎學金。

強化學習萌芽

1975年的斯坦福校園里,當時還是心理學專業的本科生Richard Sutton,翻遍了圖書館里所有關于機器智能的文獻,認知受到了巨大沖擊。

他對主流的「模式識別」和「示例學習」觀點感到失望,認為動物并不是這么學習的,而是通過某種獎勵反饋機制(They do things to get rewards.)。

當時,唯一將獎勵與學習聯系起來的研究人員是美國空軍實驗室的A. Harry Klopf,認為腦細胞會主動尋求獎勵。

Sutton立即決定給Klopf寫信,并在1978年心理學畢業后,在馬薩諸塞大學阿默斯特分校從事研究,主要工作就是測試Klopf的觀點。


團隊當時有一位博士后Andrew Barto,在接受空軍和國家科學基金會長達五年的資助后,除了一份報告,并沒有交付出任何成果。

Barto于1970年獲得密歇根大學數學學士學位,1975年獲得計算機科學博士學位,最終成為UMass自適應網絡實驗室(現為自主學習實驗室)的聯合主任,2012年退休。


Sutton加入實驗室后,成為了Barto的第一位博士生,二人最終發展出了現代強化學習技術,獎勵也是其中的核心,通過設計獎勵信號來訓練神經網絡,讓神經元順著預期方向發展。


1984年,Sutton在馬薩諸塞大學安姆斯特分校(University of Massachusetts at Amherst)獲得了博士學位,直到1994年,Sutton都是GTE Laboratories的計算機和智能系統實驗室的技術組的主要成員,隨后又以資深研究科學家的身份回到了馬薩諸塞大學安姆斯特分校。

任職期間,Barto和Sutton共同出版了《強化學習導論》,獲得了超8萬次引用,2018年又發行了第二版,至今仍是全球AI學子的圣經。


同時,Sutton加入AT&T Shannon Laboratory擔任人工智能部門的主要技術組成員,研究方向圍繞著決策者與其環境交互時所面臨的學習問題,持續改進自己對世界的表征和模型的系統。

2003年之后,Sutton成了阿爾伯塔大學計算機科學系的教授和 iCORE Chair,領導著強化學習與人工智能實驗室(RLAI)。

不過,說起強化學習的歷史,Barto也提到,他們的思路并不新鮮。

早在1954年,人工智能先驅馬文明斯基(Marvin Minsky)的博士學位論文主題就是模擬神經的強化學習系統,也是IBM計算機科學家Arthur Samuel用來訓練計算機下棋的方法。


然而,到了20世紀70年代,這個想法已經過時,大多數AI研究員都在設計專家系統,Barto也慶幸自己能夠保持「不合時宜」。

Barto和Sutton提出的一個關鍵技術是「時間差分學習」(temporal difference learning)。


比如,想教一臺計算機學習下棋,獎勵信號如果是贏得游戲,那中間哪些動作步驟是正確的,仍然無法確定;即時獎勵可以在計算機預測一步后,反饋出離最終獎勵仍然有多少距離,比如勝率是否增加。

預測隨時間的變化(時間差)提供強化信號,那么在下次計算機下棋時,就可以采取那些能增加勝率的動作。

破圈

2016年,一場圍棋人機大戰,讓強化學習廣為人知,連學術圈之外的人都能聊兩句「阿爾法狗」。

Google DeepMind開發的AlphaGo,最終以四勝一敗擊敗李世乭,賽后韓國棋院授予AlphaGo為榮譽九段。


2017年,AlphaGo Master以3:0的戰績,擊敗了世界排名第一的圍棋棋手柯潔,從此人類棋手再無一人是機器的對手。

可以說,強化學習讓「圍棋」死了一半。

之前的機器學習方法主要是有監督學習和無監督學習,在有監督設置下,人工標注樣本給機器進行學習,樣本量有限,無法適應「圍棋」這種特征空間很大的情況;而無監督學習則是自動提取出有效特征,以在數據中找到結構。


這兩種方法在計算中都已被證明是有用的,但都不是生物大腦的學習方式。

強化學習的思路是,當神經網絡實現了一個指定目標(比如贏得棋局)時,就會獲得一定數值的獎勵;如果失敗了,會得到一個負值獎勵。

機器可以通過不斷試錯來學習,嘗試不同的移動,最終學到了在不同場景下應該使用哪種移動方式。

此后,強化學習一路高歌猛進,不僅攻克了各種電子競技游戲,還引發了大型語言模型的推理革命,比如OpenAI o系列、DeepSeek-R1等推理模型,已成為新的研究主流。

人工智能的未來

Barto預測人工智能領域將向多智能體強化學習(multi-agent RL)方向演進,由神經網絡社群及其個體獎勵系統將形成互動,這種機制可能進一步催生出協作網絡,多個模型為實現共同目標而互相獎勵,也可能引發持有不同目標的智能體之間的利益沖突。

此類交互將對經濟學與博弈論等復雜領域產生深遠影響。

Sutton則認為人工智能發展仍處于初級階段,包括向通用人工智能(AGI)的探索,即機器能理解人類認知范圍內的所有事物,Sutton堅信強化學習將在這一進程中發揮關鍵作用。


談到給年輕計算機研究人員的建議,Barton倡導效仿二人的科研路,勇敢追隨自己的研究興趣,不必在意領域內其他人的看法。雖然這很困難,但你必須找到內在驅動力,并盡你最大的能力堅持下去。

Sutton則給出更具體的建議,「堅持寫作」,通過文字記錄來錘煉思想。

一說起計算機科學的未來,Sutton就充滿信心:未來幾十年內,人類將徹底破解人工智能的奧秘!這有可能是史上最偉大的智力飛躍,能為其貢獻綿薄之力是我們的榮幸。

參考資料:

https://cacm.acm.org/news/a-rewarding-line-of-work/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今日2部新劇空降開播,2部新劇定檔,陣容強大實力派領銜

今日2部新劇空降開播,2部新劇定檔,陣容強大實力派領銜

東方不敗然多多
2025-05-13 14:07:50
美國4月海關關稅收入創歷史新高

美國4月海關關稅收入創歷史新高

證券時報
2025-05-13 08:22:09
十龍八不順,屬龍人最命苦的四個出生月份,你在其中嗎?

十龍八不順,屬龍人最命苦的四個出生月份,你在其中嗎?

老六師傅
2025-02-05 10:36:43
巴鐵用中國防空系統,擊落77架印軍無人機,或打破以色列武器神話

巴鐵用中國防空系統,擊落77架印軍無人機,或打破以色列武器神話

阿芒娛樂說
2025-05-13 17:48:03
90后直播雞屁股拔毛萬人觀看,每天拔30多斤,已用壞5把鑷子,專門買有毛雞屁股被說“太無禮”

90后直播雞屁股拔毛萬人觀看,每天拔30多斤,已用壞5把鑷子,專門買有毛雞屁股被說“太無禮”

觀威海
2025-05-12 19:03:02
血液科醫生:6種食物是甲醛大戶,常吃會讓白血病找上門

血液科醫生:6種食物是甲醛大戶,常吃會讓白血病找上門

菁媽育兒
2025-04-27 13:26:36
廣州冷空氣到貨!天氣要“變臉”,新一輪降雨就在…

廣州冷空氣到貨!天氣要“變臉”,新一輪降雨就在…

廣州生活美食圈
2025-05-13 11:50:54
安切洛蒂執教巴西國家隊,知名解說員詹俊排出巴西隊目前最強首發

安切洛蒂執教巴西國家隊,知名解說員詹俊排出巴西隊目前最強首發

生活新鮮市
2025-05-13 04:04:37
太陽報:如果切爾西拿歐協并聯賽前五,自行選擇踢歐冠還是歐聯

太陽報:如果切爾西拿歐協并聯賽前五,自行選擇踢歐冠還是歐聯

直播吧
2025-05-13 11:26:13
好不容易當個官,卻賠了6000億,馬斯克不干了,向中國提出一請求

好不容易當個官,卻賠了6000億,馬斯克不干了,向中國提出一請求

再遇歷史
2025-04-25 14:52:27
在舊社會被當做“肉屏風”的家妓,吃老人痰,泡陰棗,比娼妓還慘

在舊社會被當做“肉屏風”的家妓,吃老人痰,泡陰棗,比娼妓還慘

午夜故事會
2025-05-08 11:52:29
生活中的小常識,你知道嗎?一物降一物

生活中的小常識,你知道嗎?一物降一物

悠閑葡萄
2025-04-15 15:36:25
人民網發文評“小米汽車風波”,言辭犀利,句句說到消費者心坎里

人民網發文評“小米汽車風波”,言辭犀利,句句說到消費者心坎里

泠泠說史
2025-05-12 18:10:38
“一碼難求”Manus開放注冊,迎來用戶口碑大考,贊美與吐槽“齊飛”

“一碼難求”Manus開放注冊,迎來用戶口碑大考,贊美與吐槽“齊飛”

華爾街見聞官方
2025-05-13 09:51:15
中國網紅模仿馬東錫,活動上追星成功,本人看到他來簽名都愣住了

中國網紅模仿馬東錫,活動上追星成功,本人看到他來簽名都愣住了

新游戲大妹子
2025-05-12 11:10:36
明確!這些“個人抬頭發票”不僅能報銷,還能抵扣所得稅!

明確!這些“個人抬頭發票”不僅能報銷,還能抵扣所得稅!

稅海拾真
2025-05-13 13:44:36
中美剛談完關稅,李嘉誠半夜搞大動作,突然回應賣港口:合法合規

中美剛談完關稅,李嘉誠半夜搞大動作,突然回應賣港口:合法合規

八斗小先生
2025-05-13 11:37:54
大媽一天訂購大量潤滑劑,物業發現不對勁報警,民警破門發現實情

大媽一天訂購大量潤滑劑,物業發現不對勁報警,民警破門發現實情

溫情郵局
2025-05-13 17:00:17
韓國總統候選人李在明回應“親中爭議”

韓國總統候選人李在明回應“親中爭議”

奮斗在韓國
2025-05-13 15:58:10
世體:拉菲尼亞非常接近與巴薩續約至2029年,續約后將成頂薪梯隊

世體:拉菲尼亞非常接近與巴薩續約至2029年,續約后將成頂薪梯隊

直播吧
2025-05-12 19:53:19
2025-05-13 19:04:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12694文章數 66033關注度
往期回顧 全部

科技要聞

美國數十萬顆AI芯片即將涌入中東

頭條要聞

學者:中美經貿聯合聲明之后 印度又傻眼了

頭條要聞

學者:中美經貿聯合聲明之后 印度又傻眼了

體育要聞

離開曼聯,他在馬拉多納的城市成為明星

娛樂要聞

張柏芝母親節上熱搜!3個兒子引熱議

財經要聞

匯源澄清破產傳聞背后:債臺高筑對賭承壓

汽車要聞

或2027年發布 全新寶馬1系假想圖曝光

態度原創

房產
藝術
親子
手機
軍事航空

房產要聞

58 萬人等哭了!老黃埔高端商圈為何難產20年?!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

Nature | 抗生素影響下,寶寶疫苗反應與腸道菌群的“小秘密”

手機要聞

魅族22系列將于今年夏季發布 機身寬度為71mm

軍事要聞

印巴停火后莫迪講話:只是"暫停"軍事行動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高雄县| 阿坝县| 綦江县| 新绛县| 乐平市| 兰考县| 台南市| 辉县市| 浦北县| 广元市| 波密县| 马鞍山市| 资中县| 竹北市| 思茅市| 镇坪县| 仪陇县| 丰城市| 鲁山县| 平乡县| 三河市| 河曲县| 太和县| 大安市| 榆树市| 宁城县| 商都县| 海口市| 文登市| 荆门市| 长汀县| 垦利县| 睢宁县| 闻喜县| 咸丰县| 吉林省| 绥滨县| 阳高县| 会宁县| 喜德县| 偃师市|