99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

強化學習先驅薩頓:數據時代終將過時,AI將踏入社會,像人一樣去體驗世界

0
分享至

設置星標 關注,從此你的世界多點科學~

從大語言模型(LLMs)到圖像生成,甚至再到視覺語言模型,人工智能現已取得非凡成就,眼下又站在AI演進新篇章的起點處。

根據大衛·席爾瓦(David Silver)和理查德·薩頓(Richard S. Sutton) 這兩位強化學習領域先驅的最新論文,AI正向所謂的“體驗時代”(The Era of Experience)轉變。

本文會以淺顯的語言解析他們的觀點,闡述這一轉變的意義、形態及其將如何重塑未來。


大衛·席爾瓦(左)和理查德·薩頓(右)

現在,仍為人類數據時代

當前的AI系統,例如LLMs,其驅動力源于海量的人類生成數據,包括書籍、網頁、社交媒體帖子……這些模型通過研究人類的案例與偏好進行學習,從而勝任寫作、編程甚至醫療診斷等任務。這就好比,將一縱奇才丟入一座人類知識的巨型圖書館學習,然后奇才學會了一切。

這種模式非常成功。如今單一AI模型便能應對從歸納法律文檔到求解物理問題的各式任務。但問題在于,僅依賴人類數據存有局限性

席爾瓦和薩頓的論文指出:可用于訓練模型的高質量人類數據即將枯竭。更重要的是,人類數據只能讓AI學會已知知識。若希望它探索新領域,例如突破性科學理論或創新技術,必須讓AI超越現有圖書館的邊界。

在未來的體驗時代,機器像人類一樣學習

那么,下一步要做什么?作者提出,AI應當像人類和動物一樣從經驗中學習。具有主動思考和行動能力的AI,即所謂的“人工智能體”/“人工智能代理”(AI Agent)將走上舞臺,它們不再被動接受現存數據,而是與環境互動,采取行動,觀察結果,持續優化進步。這種體驗式學習正是AI體驗時代的核心。

不妨試想我們學習騎自行車的過程:你并非通過閱讀手冊來掌握技巧,而是不斷嘗試、跌倒、調整、再嘗試。每一次實踐都帶來新領悟。同理,AI代理的學習過程也是“實干”——在數字環境(如計算機系統)或現實世界(借助傳感器或機械臂)中自主生成數據。

席爾瓦和薩頓的論文以AlphaProof為例:這款由谷歌DeepMind開發的基于強化學習的形式化數學推理AI系統,在國際數學奧林匹克競賽中拿下銀牌。它最開始依靠的基礎是少量由人類創造的數學證明;但通過強化學習(一種體驗式學習),在與數學系統的交互中,AlphaProof自主生成了數以百萬計的新證明。這讓我們看到了AI代理在人類知識邊界以外解決難題的潛力,也領略到體驗式學習的巨大潛力。


上圖所示為主流AI范式發展歷史的簡圖。縱軸表示該領域用于強化學習的總體工作量和計算量的比例

體驗時代有何特點?

席爾瓦與薩頓闡述了定義AI體驗時代的四大關鍵特征:

1.持續體驗流

當前AI的運作模式通常是你一言我一句,用戶提問,AI應答,答案給出,交互結束。系統既不存檔交互記憶,也不具有長期目標。而在體驗時代,AI代理將于持續的體驗流(streams of experience)中運行,在數月甚至數年時間里不斷學習與適應。

以AI健康助手為例:只要連接上智能手表,此助手便能追蹤用戶的睡眠、運動和飲食情況,日積月累,逐步洞悉怎么做才最有利于用戶。AI可能建議微調作息時間,并根據用戶的身體反饋持續優化方案。這種長期視角使AI能追求更宏大的目標,比如改善用戶整體健康狀況,幫助用戶學一門新語言。

2. 各種行動,各種觀察

現階段AI主要通過文本來交互——讀取指令或輸出回答。而到了新時代,AI會更像動物更像人類,通過豐富的動作(如操控機械臂或運行代碼)和觀察(如讀取傳感器數據或監測電腦界面)來運作。這樣的AI更具自主性,能以人類想不到的方式探索世界。

例如,一個科研AI能操控實驗設備以測試新材料,能觀察測試結果,也能在無需人類指令的情況下自行調整實驗。它在現實世界里直接行動,有機會發現超乎人類想象的策略。

3. 基于現實的獎勵

目前AI的表現評價主要基于人類反饋,比如人類給AI的回答打分,或是從AI提供的選項里挑出最佳方案。但這種模式把人工智能限制于人類已有認知的框架內。進入體驗時代,AI將采用基于現實的獎勵機制——直接從環境獲取反饋。

例如,健身專用AI可通過監測用戶心率或步數來自行評價自己的建議有用與否,而無需人類評分。又例如,科研AI則可以通過檢測二氧化碳濃度來評判自己的氣候解決方案成效如何。來自真實世界的反饋信號使AI能針對實際效果做優化,不限于人類的主觀評價,進而拓展知識的邊界。

4. 非人式推理與規劃

現在的大多數AI系統仍然模仿人類思維模式,例如用文字表述推理鏈條。這樣的方式效果不錯,但正如席爾瓦和薩頓所言:人類語言并非人工智能最高效的思考方式。新時代AI將發展出非人類式的推理方法,采用符號或計算等可能無法被人類理解的表達形式。

此外,AI將利用所謂“世界模型”來預測自身行為對世界的影響,從而進行規劃。例如,健康專用AI或可預測新飲食方案對用戶體能的影響,再根據實際效果調整計劃。這種錨定現實的行事風格,有助于AI規避人類的偏見,探索全新的思維方式。

為何是此刻?

體驗式學習并非全新概念。AI早前已于受控環境下體驗過它,比如棋盤游戲(以精通國際象棋的AlphaZero為代表),或是針對數據中心冷卻的優化工作。但這些都屬于規則清楚、回報明確的細分任務。體驗時代的突破在于將這種方法拓展至復雜開放的真實世界。

技術進步是一切可能的前提。眼下AI已能駕馭計算機控制、實驗設備操作等復雜情境;強化學習算法的進展使AI能處理開放式問題。席爾瓦與薩頓指出,我們正站在臨界點上——這些工具即將釋放超人類的智能,推動科學、數學、工程等領域的創新突破。

前景與挑戰

體驗時代或將重塑人類生活。試想:

  • 個性化定制”的AI助手始終圍繞用戶需求,經年累月地調整與適應,幫助用戶保持健康,學習新技能;

  • AI能自主實驗,比人類研究者更快速地發現新材料或新藥物,進而驅動科學突破

  • AI憑借現實經驗優化制造、物流等流程,助力產業效能提升

當然,能力越大,責任越大。席爾瓦和薩頓的論文也點明了三大挑戰:

  • 機替人崗:AI承擔復雜任務可能砸掉一部分人類的飯碗;

  • 安全風險:長期自主運作的AI可能做出難以被人類監管的決策;

  • 解讀難題:具有非人類的思維模式,使得AI更難以理解。

不過體驗式學習也有其安全優勢。能適應環境的人工智能在面對諸如系統故障或社會變遷之類的變化時,會有之策應對。它還可以根據人類的反饋調整目標,以降低出現意外后果的風險——關于這類意外后果,一個經典猜想來自哲學家尼克·博斯特羅姆(Nick Bostrom)提出的“回形針最大化”理論,即人工智能深陷于對單一目標的執著追求,可能因此引發極端后果?。

走向體驗式未來

體驗時代是人工智能的宏偉愿景。AI跳出人類數據的局限,在與現實世界的交互中學習,然后達到超乎想象的智能水平?這樣的變革太激動人心了,而它的基石是強化學習領域數十年的研究積累及其與超強AI系統的結合,我們終將看到兼具自主性、適應性與真正智能的人工智能體。

在這步入新時代的關鍵節點上,人類需在挖掘潛力與審慎監管間尋求平衡。席爾瓦和薩頓呼吁持續開展研究,確保AI發展始終安全可控且符合人類價值觀。若能實現理想的平衡,體驗時代有望引領人類進入探索發現的黃金時代,AI或將助力我們攻克一些重大挑戰。

此刻,方向是明晰的:AI的下一場飛躍不再由人類數據驅動,而會通過機器,如人類般,從實踐中學習。

本文基于大衛·席爾瓦(David Silver) 和理查德·薩頓(Richard S. Sutton) 的論文《歡迎來到體驗時代》(Welcome to the Era of Experience)。該文章是由麻省理工學院出版社出版的《設計智能》(Designing an Intelligence)一書中的一個章節。

資料來源:

《世界科學》雜志版在售中 歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發代號:4-263

方式三

機構訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
港警頭巾著裝引爭議:入鄉隨俗,規矩至上

港警頭巾著裝引爭議:入鄉隨俗,規矩至上

大道微言
2025-07-17 06:51:55
陳賡介紹敵軍將領:這是我兄弟,主席笑道:你可知他是我什么人?

陳賡介紹敵軍將領:這是我兄弟,主席笑道:你可知他是我什么人?

鐘裹雜談歷史
2023-11-25 15:52:16
哪個是真的?維尼修斯曬與自己的蠟像合影:小維尼修斯

哪個是真的?維尼修斯曬與自己的蠟像合影:小維尼修斯

雷速體育
2025-07-18 09:19:41
2場轟30分12籃板0失誤!火箭隊28歲替補崛起,斯通不必再簽后衛?

2場轟30分12籃板0失誤!火箭隊28歲替補崛起,斯通不必再簽后衛?

熊哥愛籃球
2025-07-18 16:05:20
中國女籃亞洲杯決戰日本隊,宮魯鳴宣布重要決定,日本要提前認輸

中國女籃亞洲杯決戰日本隊,宮魯鳴宣布重要決定,日本要提前認輸

宗介說體育
2025-07-18 13:07:05
將14歲女孩別入機動車道!北京警方:李某某(男,42歲)行拘

將14歲女孩別入機動車道!北京警方:李某某(男,42歲)行拘

BRTV新聞
2025-07-17 12:46:24
身價2800億背20元的包,一條褲子穿20年,揭秘香格里拉掌門人幕后

身價2800億背20元的包,一條褲子穿20年,揭秘香格里拉掌門人幕后

毒sir財經
2025-06-14 20:16:24
性生活的頻率急劇下降

性生活的頻率急劇下降

七叔東山再起
2025-07-06 21:36:47
烏克蘭允許在對俄前線實測外國新武器,現場測試并提供性能報告

烏克蘭允許在對俄前線實測外國新武器,現場測試并提供性能報告

桂系007
2025-07-18 16:53:48
楊議回應遺產分割:老爺子留了4個億,兄弟4人剛好一人一個億

楊議回應遺產分割:老爺子留了4個億,兄弟4人剛好一人一個億

心靜物娛
2025-07-18 14:22:27
看了宗慶后遺產家族內戰,你就能明白任正非有多光明磊落和清醒

看了宗慶后遺產家族內戰,你就能明白任正非有多光明磊落和清醒

遠山行客
2025-07-16 11:10:34
抗日名將衛立煌妻子有多美?貨真價實的罕見照片,鼻梁高挺有韻味

抗日名將衛立煌妻子有多美?貨真價實的罕見照片,鼻梁高挺有韻味

大壯實驗室
2025-07-18 11:52:17
記者長問題讓小楊翻譯撓頭楊瀚森:這個問題好 給他上了一課

記者長問題讓小楊翻譯撓頭楊瀚森:這個問題好 給他上了一課

直播吧
2025-07-18 11:38:25
為啥說印度人是人形蟑螂?網友:論免疫力和抗過敏,印度是第一

為啥說印度人是人形蟑螂?網友:論免疫力和抗過敏,印度是第一

帶你感受人間冷暖
2025-07-17 00:10:07
越南人吐槽:上學第一天開始,“中國”就占據了我們歷史課的80%

越南人吐槽:上學第一天開始,“中國”就占據了我們歷史課的80%

諾言卿史錄
2025-07-03 11:56:09
醒醒吧!一臉痘痘演“毒梟千金”,矯揉造作的樣子,內娛沒人了嗎

醒醒吧!一臉痘痘演“毒梟千金”,矯揉造作的樣子,內娛沒人了嗎

娛樂圈筆娛君
2025-07-17 16:02:29
從關家垴戰斗看劉伯承和彭德懷的差別 這是戰術家和戰略家的差距

從關家垴戰斗看劉伯承和彭德懷的差別 這是戰術家和戰略家的差距

顧史
2025-01-20 12:51:08
已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了!

已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了!

阿纂看事
2025-07-16 21:30:01
網媒:中國媒體稱楊瀚森得到了籃網隊19順位選中他的承諾

網媒:中國媒體稱楊瀚森得到了籃網隊19順位選中他的承諾

懂球帝
2025-07-18 13:04:07
外交部回應美議員涉華報告:充斥“冷戰思維”,鼓噪“大國對抗”,中方堅決反對

外交部回應美議員涉華報告:充斥“冷戰思維”,鼓噪“大國對抗”,中方堅決反對

環球網資訊
2025-07-18 15:37:08
2025-07-18 18:51:00
世界科學 incentive-icons
世界科學
《世界科學》編輯部運營賬號
1738文章數 26866關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

頭條要聞

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

體育要聞

楊瀚森4戰43+20+15+9帽:開拓者4戰3勝

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

游戲
健康
教育
時尚
公開課

《天龍八部·歸來》先鋒服開了,鳩摩智都來了?

呼吸科專家破解呼吸道九大謠言!

教育要聞

“寧可撿垃圾,也不學師范”,女生被父親改志愿,直言未來全毀了

上了年紀的女人,千萬別盲目跟風模仿,這些穿衣思路實用優雅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洛扎县| 林口县| 东丽区| 电白县| 岳阳市| 城口县| 鄂伦春自治旗| 南丰县| 东方市| 库车县| 三亚市| 仙桃市| 马关县| 闸北区| 抚州市| 长海县| 平山县| 四子王旗| 通榆县| 南康市| 郑州市| 宜章县| 洪湖市| 莒南县| 南京市| 锡林浩特市| 宽城| 江华| 云龙县| 汨罗市| 游戏| 错那县| 肇东市| 西城区| 武陟县| 富川| 百色市| 绍兴市| 策勒县| 德保县| 裕民县|