99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<pre id="ccwta"><fieldset id="ccwta"></fieldset></pre>

<cite id="ccwta"></cite>

<style id="ccwta"></style>

<legend id="ccwta"><track id="ccwta"></track></legend>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

100萬美元圖靈獎獎金，強化學習師徒想獻給科研自由

2025-05-13 12:19:17　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：LRS

【新智元導讀】80年代，當強化學習被冷落，這對師徒沒有放棄；如今，重看來時路，他們給出的建議仍然是，「堅持」住自己的科研思想。

3月5日，計算機學會（ACM）宣布Andrew Barto和Richard Sutton獲得圖靈獎，以表彰其在強化學習領域做出的奠基性貢獻。

自從9年前AlphaGo圍棋大勝，引爆全民RL狂歡，再到如今Deepseek-R1等推理模型的火熱，足以證明強化學習在人工智能領域的長久影響力。

最近，Communications of the ACM發布了一段對師徒二人的采訪，從強化學習的研究經歷，聊到對人工智能的未來預測。

Barto側重于多智能體協作學習，Sutton則認為AGI還需要至少幾十年，但最終一定能實現，二人對AI的未來以及強化學習的應用前景都充滿希望！

關于兩人共同獲得的100萬美元圖靈獎獎金，目前尚未確定具體用途。

Sutton表示可能將其份額捐贈給共同創立的Openmind研究所，給青年科學家提供「奢侈」的科研自由，讓他們像自己當年那樣專注探索基礎性問題。

Barto則計劃用獎金在馬薩諸塞大學（UMass）設立研究生獎學金。

強化學習萌芽

1975年的斯坦福校園里，當時還是心理學專業的本科生Richard Sutton，翻遍了圖書館里所有關于機器智能的文獻，認知受到了巨大沖擊。

他對主流的「模式識別」和「示例學習」觀點感到失望，認為動物并不是這么學習的，而是通過某種獎勵反饋機制（They do things to get rewards.）。

當時，唯一將獎勵與學習聯系起來的研究人員是美國空軍實驗室的A. Harry Klopf，認為腦細胞會主動尋求獎勵。

Sutton立即決定給Klopf寫信，并在1978年心理學畢業后，在馬薩諸塞大學阿默斯特分校從事研究，主要工作就是測試Klopf的觀點。

團隊當時有一位博士后Andrew Barto，在接受空軍和國家科學基金會長達五年的資助后，除了一份報告，并沒有交付出任何成果。

Barto于1970年獲得密歇根大學數學學士學位，1975年獲得計算機科學博士學位，最終成為UMass自適應網絡實驗室（現為自主學習實驗室）的聯合主任，2012年退休。

Sutton加入實驗室后，成為了Barto的第一位博士生，二人最終發展出了現代強化學習技術，獎勵也是其中的核心，通過設計獎勵信號來訓練神經網絡，讓神經元順著預期方向發展。

1984年，Sutton在馬薩諸塞大學安姆斯特分校（University of Massachusetts at Amherst）獲得了博士學位，直到1994年，Sutton都是GTE Laboratories的計算機和智能系統實驗室的技術組的主要成員，隨后又以資深研究科學家的身份回到了馬薩諸塞大學安姆斯特分校。

任職期間，Barto和Sutton共同出版了《強化學習導論》，獲得了超8萬次引用，2018年又發行了第二版，至今仍是全球AI學子的圣經。

同時，Sutton加入AT&T Shannon Laboratory擔任人工智能部門的主要技術組成員，研究方向圍繞著決策者與其環境交互時所面臨的學習問題，持續改進自己對世界的表征和模型的系統。

2003年之后，Sutton成了阿爾伯塔大學計算機科學系的教授和 iCORE Chair，領導著強化學習與人工智能實驗室（RLAI）。

不過，說起強化學習的歷史，Barto也提到，他們的思路并不新鮮。

早在1954年，人工智能先驅馬文明斯基（Marvin Minsky）的博士學位論文主題就是模擬神經的強化學習系統，也是IBM計算機科學家Arthur Samuel用來訓練計算機下棋的方法。

然而，到了20世紀70年代，這個想法已經過時，大多數AI研究員都在設計專家系統，Barto也慶幸自己能夠保持「不合時宜」。

Barto和Sutton提出的一個關鍵技術是「時間差分學習」（temporal difference learning）。

比如，想教一臺計算機學習下棋，獎勵信號如果是贏得游戲，那中間哪些動作步驟是正確的，仍然無法確定；即時獎勵可以在計算機預測一步后，反饋出離最終獎勵仍然有多少距離，比如勝率是否增加。

預測隨時間的變化（時間差）提供強化信號，那么在下次計算機下棋時，就可以采取那些能增加勝率的動作。

破圈

2016年，一場圍棋人機大戰，讓強化學習廣為人知，連學術圈之外的人都能聊兩句「阿爾法狗」。

Google DeepMind開發的AlphaGo，最終以四勝一敗擊敗李世乭，賽后韓國棋院授予AlphaGo為榮譽九段。

2017年，AlphaGo Master以3：0的戰績，擊敗了世界排名第一的圍棋棋手柯潔，從此人類棋手再無一人是機器的對手。

可以說，強化學習讓「圍棋」死了一半。

之前的機器學習方法主要是有監督學習和無監督學習，在有監督設置下，人工標注樣本給機器進行學習，樣本量有限，無法適應「圍棋」這種特征空間很大的情況；而無監督學習則是自動提取出有效特征，以在數據中找到結構。

這兩種方法在計算中都已被證明是有用的，但都不是生物大腦的學習方式。

強化學習的思路是，當神經網絡實現了一個指定目標（比如贏得棋局）時，就會獲得一定數值的獎勵；如果失敗了，會得到一個負值獎勵。

機器可以通過不斷試錯來學習，嘗試不同的移動，最終學到了在不同場景下應該使用哪種移動方式。

此后，強化學習一路高歌猛進，不僅攻克了各種電子競技游戲，還引發了大型語言模型的推理革命，比如OpenAI o系列、DeepSeek-R1等推理模型，已成為新的研究主流。

人工智能的未來

Barto預測人工智能領域將向多智能體強化學習（multi-agent RL）方向演進，由神經網絡社群及其個體獎勵系統將形成互動，這種機制可能進一步催生出協作網絡，多個模型為實現共同目標而互相獎勵，也可能引發持有不同目標的智能體之間的利益沖突。

此類交互將對經濟學與博弈論等復雜領域產生深遠影響。

Sutton則認為人工智能發展仍處于初級階段，包括向通用人工智能（AGI）的探索，即機器能理解人類認知范圍內的所有事物，Sutton堅信強化學習將在這一進程中發揮關鍵作用。

談到給年輕計算機研究人員的建議，Barton倡導效仿二人的科研路，勇敢追隨自己的研究興趣，不必在意領域內其他人的看法。雖然這很困難，但你必須找到內在驅動力，并盡你最大的能力堅持下去。

Sutton則給出更具體的建議，「堅持寫作」，通過文字記錄來錘煉思想。

一說起計算機科學的未來，Sutton就充滿信心：未來幾十年內，人類將徹底破解人工智能的奧秘！這有可能是史上最偉大的智力飛躍，能為其貢獻綿薄之力是我們的榮幸。

參考資料：

https://cacm.acm.org/news/a-rewarding-line-of-work/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

流匹配模型引入GRPO，GenEval幾近滿分，組合生圖能力遠超GPT-4o

機器之心Pro 2025-05-13 17:13:09
0 跟貼 0
模型越復雜，離真理越遠？我們還需要奧卡姆剃刀嗎？

鈦媒體APP 2025-03-07 16:36:35
0 跟貼 0

想要實驗結果更漂亮，「試試」就知道

生物學霸 2025-05-13 17:18:24
0 跟貼 0

中國人工智能市場規模可能會達到500億美元

每日經濟新聞 2025-05-08 22:13:42
54 跟貼 54
本科生推翻圖靈獎得主猜想：40年前的論文是錯的

量子位 2025-03-27 11:37:28
0 跟貼 0

NASA科學家發現“超級地球”，距離地球137光年，有可能存在生命

六六冷知識 2025-05-11 11:42:44
49 跟貼 49

教育部：將人工智能教育與信息科技、科學等課程有機銜接

上觀新聞 2025-05-13 15:01:10
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0

AI是理解人類智能的鑰匙，Sutton學生萬一博士分享強化學習應用

機器之心Pro 2025-04-08 12:43:15
0 跟貼 0
福建520，想學計算機，張雪峰老師解答

熊動漫 2025-05-09 09:46:25
0 跟貼 0
比爾·蓋茨：美對華技術封鎖起到反作用

大象新聞 2025-05-13 09:18:15
364 跟貼 364
數字果蠅登上Nature，能自主飛行、行走

量子位 2025-04-28 16:32:04
0 跟貼 0
《贏在AI+》AI助理小主持技術大揭秘，機器人都有MBTI了？

量子位 2025-05-09 18:08:14
0 跟貼 0
我到底是誰？科學與佛法聯手指向一個真相！

佛道殊途同歸 2025-05-13 11:19:39
0 跟貼 0
十幾萬人圍觀的AI課：打造全自動Web Agent

量子位 2025-04-21 22:37:59
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
百萬年薪的AI崗位，2年就徹底涼透了？

量子位 2025-05-04 12:34:36
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
生成式AI的架構設計需確保支撐十萬至千萬級DAU

量子位 2025-04-23 17:09:24
0 跟貼 0
重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
8 跟貼 8
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
0 跟貼 0
136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0
程序員把鴿子接入互聯網，帶寬爆表

量子位 2025-04-01 11:27:40
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
張雪峰：專科計算機有必要報嗎？就業怎么樣？全程太精彩了

櫻桃小嘴思 2025-05-10 06:29:05
6 跟貼 6
NYU教授公布2025機器學習課程大綱：高校為何死磕基礎理論？

機器之心Pro 2025-05-13 10:53:42
0 跟貼 0
突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
3D打印機造人形機器人，制作成本不到5000美元

量子位 2025-05-03 13:09:08
0 跟貼 0
qwen3快思考vs慢思考

盧菁老師 2025-05-10 19:28:45
0 跟貼 0
o3完爆人類醫生，OpenAI基準直擊AGI！

新智元 2025-05-13 15:06:06
0 跟貼 0
科學解釋不了的，就交給愛吧！

影視火鍋 2025-05-12 07:59:39
0 跟貼 0
用物理學改進深度學習，AI大模型的新突破

量子位 2025-05-05 13:12:31
0 跟貼 0
單圖生成14秒吉卜力動畫，分享制作過程

量子位 2025-04-08 18:23:02
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
央視再攜手阿里云打造AI創投節目

量子位 2025-05-09 10:20:34
0 跟貼 0
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
人人都能做開發者！0代碼開發平臺響指來了

量子位 2025-04-15 12:19:32
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
指速之王！星動紀元XHAND電競手，行業首創全直驅OG

量子位 2025-04-09 19:36:24
0 跟貼 0

今日2部新劇空降開播，2部新劇定檔，陣容強大實力派領銜

今日2部新劇空降開播，2部新劇定檔，陣容強大實力派領銜

東方不敗然多多

2025-05-13 14:07:50

美國4月海關關稅收入創歷史新高

美國4月海關關稅收入創歷史新高

證券時報

2025-05-13 08:22:09

十龍八不順，屬龍人最命苦的四個出生月份，你在其中嗎？

十龍八不順，屬龍人最命苦的四個出生月份，你在其中嗎？

老六師傅

2025-02-05 10:36:43

巴鐵用中國防空系統，擊落77架印軍無人機，或打破以色列武器神話

巴鐵用中國防空系統，擊落77架印軍無人機，或打破以色列武器神話

阿芒娛樂說

2025-05-13 17:48:03

90后直播雞屁股拔毛萬人觀看，每天拔30多斤，已用壞5把鑷子，專門買有毛雞屁股被說“太無禮”

90后直播雞屁股拔毛萬人觀看，每天拔30多斤，已用壞5把鑷子，專門買有毛雞屁股被說“太無禮”

觀威海

2025-05-12 19:03:02

血液科醫生：6種食物是甲醛大戶，常吃會讓白血病找上門

血液科醫生：6種食物是甲醛大戶，常吃會讓白血病找上門

菁媽育兒

2025-04-27 13:26:36

廣州冷空氣到貨！天氣要“變臉”，新一輪降雨就在…

廣州冷空氣到貨！天氣要“變臉”，新一輪降雨就在…

廣州生活美食圈

2025-05-13 11:50:54

安切洛蒂執教巴西國家隊，知名解說員詹俊排出巴西隊目前最強首發

安切洛蒂執教巴西國家隊，知名解說員詹俊排出巴西隊目前最強首發

生活新鮮市

2025-05-13 04:04:37

太陽報：如果切爾西拿歐協并聯賽前五，自行選擇踢歐冠還是歐聯

太陽報：如果切爾西拿歐協并聯賽前五，自行選擇踢歐冠還是歐聯

直播吧

2025-05-13 11:26:13

好不容易當個官，卻賠了6000億，馬斯克不干了，向中國提出一請求

好不容易當個官，卻賠了6000億，馬斯克不干了，向中國提出一請求

再遇歷史

2025-04-25 14:52:27

在舊社會被當做“肉屏風”的家妓，吃老人痰，泡陰棗，比娼妓還慘

在舊社會被當做“肉屏風”的家妓，吃老人痰，泡陰棗，比娼妓還慘

午夜故事會

2025-05-08 11:52:29

生活中的小常識，你知道嗎？一物降一物

生活中的小常識，你知道嗎？一物降一物

悠閑葡萄

2025-04-15 15:36:25

人民網發文評“小米汽車風波”，言辭犀利，句句說到消費者心坎里

人民網發文評“小米汽車風波”，言辭犀利，句句說到消費者心坎里

泠泠說史

2025-05-12 18:10:38

“一碼難求”Manus開放注冊，迎來用戶口碑大考，贊美與吐槽“齊飛”

“一碼難求”Manus開放注冊，迎來用戶口碑大考，贊美與吐槽“齊飛”

華爾街見聞官方

2025-05-13 09:51:15

中國網紅模仿馬東錫，活動上追星成功，本人看到他來簽名都愣住了

中國網紅模仿馬東錫，活動上追星成功，本人看到他來簽名都愣住了

新游戲大妹子

2025-05-12 11:10:36

明確！這些“個人抬頭發票”不僅能報銷，還能抵扣所得稅！

明確！這些“個人抬頭發票”不僅能報銷，還能抵扣所得稅！

稅海拾真

2025-05-13 13:44:36

中美剛談完關稅，李嘉誠半夜搞大動作，突然回應賣港口：合法合規

中美剛談完關稅，李嘉誠半夜搞大動作，突然回應賣港口：合法合規

八斗小先生

2025-05-13 11:37:54

大媽一天訂購大量潤滑劑，物業發現不對勁報警，民警破門發現實情

大媽一天訂購大量潤滑劑，物業發現不對勁報警，民警破門發現實情

溫情郵局

2025-05-13 17:00:17

韓國總統候選人李在明回應“親中爭議”

韓國總統候選人李在明回應“親中爭議”

奮斗在韓國

2025-05-13 15:58:10

世體：拉菲尼亞非常接近與巴薩續約至2029年，續約后將成頂薪梯隊

世體：拉菲尼亞非常接近與巴薩續約至2029年，續約后將成頂薪梯隊

直播吧

2025-05-12 19:53:19

AI產業主平臺領航智能+時代

12694文章數 66033關注度

往期回顧全部

科技要聞

美國數十萬顆AI芯片即將涌入中東

頭條要聞

學者：中美經貿聯合聲明之后印度又傻眼了

頭條要聞

學者：中美經貿聯合聲明之后印度又傻眼了

體育要聞

離開曼聯，他在馬拉多納的城市成為明星

娛樂要聞

張柏芝母親節上熱搜！3個兒子引熱議

財經要聞

匯源澄清破產傳聞背后：債臺高筑對賭承壓

汽車要聞

或2027年發布全新寶馬1系假想圖曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

親子

手機

軍事航空

房產要聞

58 萬人等哭了！老黃埔高端商圈為何難產20年？！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

親子要聞

Nature | 抗生素影響下，寶寶疫苗反應與腸道菌群的“小秘密”

手機要聞

魅族22系列將于今年夏季發布機身寬度為71mm

軍事要聞

印巴停火后莫迪講話：只是"暫停"軍事行動

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：高雄县| 阿坝县| 綦江县| 新绛县| 乐平市| 兰考县| 台南市| 辉县市| 浦北县| 广元市| 波密县| 马鞍山市| 资中县| 竹北市| 思茅市| 镇坪县| 仪陇县| 丰城市| 鲁山县| 平乡县| 三河市| 河曲县| 太和县| 大安市| 榆树市| 宁城县| 商都县| 海口市| 文登市| 荆门市| 长汀县| 垦利县| 睢宁县| 闻喜县| 咸丰县| 吉林省| 绥滨县| 阳高县| 会宁县| 喜德县| 偃师市|

<sub id="xb8xk"></sub>

<sub id="xb8xk"></sub>

^{<blockquote id="xb8xk"></blockquote>}