網易首頁 > 網易號 > 正文申請入駐

強化學習先驅薩頓：數據時代終將過時，AI將踏入社會，像人一樣去體驗世界

2025-06-13 20:41:52　來源: 世界科學

上海舉報

分享至

設置星標關注，從此你的世界多點科學~

從大語言模型(LLMs)到圖像生成，甚至再到視覺語言模型，人工智能現已取得非凡成就，眼下又站在AI演進新篇章的起點處。

根據大衛·席爾瓦(David Silver)和理查德·薩頓(Richard S. Sutton) 這兩位強化學習領域先驅的最新論文，AI正向所謂的“體驗時代”(The Era of Experience)轉變。

本文會以淺顯的語言解析他們的觀點，闡述這一轉變的意義、形態及其將如何重塑未來。

大衛·席爾瓦(左)和理查德·薩頓(右)

現在，仍為人類數據時代

當前的AI系統，例如LLMs，其驅動力源于海量的人類生成數據，包括書籍、網頁、社交媒體帖子……這些模型通過研究人類的案例與偏好進行學習，從而勝任寫作、編程甚至醫療診斷等任務。這就好比，將一縱奇才丟入一座人類知識的巨型圖書館學習，然后奇才學會了一切。

這種模式非常成功。如今單一AI模型便能應對從歸納法律文檔到求解物理問題的各式任務。但問題在于，僅依賴人類數據存有局限性。

席爾瓦和薩頓的論文指出：可用于訓練模型的高質量人類數據即將枯竭。更重要的是，人類數據只能讓AI學會已知知識。若希望它探索新領域，例如突破性科學理論或創新技術，必須讓AI超越現有圖書館的邊界。

在未來的體驗時代，機器像人類一樣學習

那么，下一步要做什么？作者提出，AI應當像人類和動物一樣從經驗中學習。具有主動思考和行動能力的AI，即所謂的“人工智能體”/“人工智能代理”(AI Agent)將走上舞臺，它們不再被動接受現存數據，而是與環境互動，采取行動，觀察結果，持續優化進步。這種體驗式學習正是AI體驗時代的核心。

不妨試想我們學習騎自行車的過程：你并非通過閱讀手冊來掌握技巧，而是不斷嘗試、跌倒、調整、再嘗試。每一次實踐都帶來新領悟。同理，AI代理的學習過程也是“實干”——在數字環境(如計算機系統)或現實世界(借助傳感器或機械臂)中自主生成數據。

席爾瓦和薩頓的論文以AlphaProof為例：這款由谷歌DeepMind開發的基于強化學習的形式化數學推理AI系統，在國際數學奧林匹克競賽中拿下銀牌。它最開始依靠的基礎是少量由人類創造的數學證明；但通過強化學習(一種體驗式學習)，在與數學系統的交互中，AlphaProof自主生成了數以百萬計的新證明。這讓我們看到了AI代理在人類知識邊界以外解決難題的潛力，也領略到體驗式學習的巨大潛力。

上圖所示為主流AI范式發展歷史的簡圖。縱軸表示該領域用于強化學習的總體工作量和計算量的比例

體驗時代有何特點？

席爾瓦與薩頓闡述了定義AI體驗時代的四大關鍵特征：

1.持續體驗流

當前AI的運作模式通常是你一言我一句，用戶提問，AI應答，答案給出，交互結束。系統既不存檔交互記憶，也不具有長期目標。而在體驗時代，AI代理將于持續的體驗流(streams of experience)中運行，在數月甚至數年時間里不斷學習與適應。

以AI健康助手為例：只要連接上智能手表，此助手便能追蹤用戶的睡眠、運動和飲食情況，日積月累，逐步洞悉怎么做才最有利于用戶。AI可能建議微調作息時間，并根據用戶的身體反饋持續優化方案。這種長期視角使AI能追求更宏大的目標，比如改善用戶整體健康狀況，幫助用戶學一門新語言。

2. 各種行動，各種觀察

現階段AI主要通過文本來交互——讀取指令或輸出回答。而到了新時代，AI會更像動物更像人類，通過豐富的動作(如操控機械臂或運行代碼)和觀察(如讀取傳感器數據或監測電腦界面)來運作。這樣的AI更具自主性，能以人類想不到的方式探索世界。

例如，一個科研AI能操控實驗設備以測試新材料，能觀察測試結果，也能在無需人類指令的情況下自行調整實驗。它在現實世界里直接行動，有機會發現超乎人類想象的策略。

3. 基于現實的獎勵

目前AI的表現評價主要基于人類反饋，比如人類給AI的回答打分，或是從AI提供的選項里挑出最佳方案。但這種模式把人工智能限制于人類已有認知的框架內。進入體驗時代，AI將采用基于現實的獎勵機制——直接從環境獲取反饋。

例如，健身專用AI可通過監測用戶心率或步數來自行評價自己的建議有用與否，而無需人類評分。又例如，科研AI則可以通過檢測二氧化碳濃度來評判自己的氣候解決方案成效如何。來自真實世界的反饋信號使AI能針對實際效果做優化，不限于人類的主觀評價，進而拓展知識的邊界。

4. 非人式推理與規劃

現在的大多數AI系統仍然模仿人類思維模式，例如用文字表述推理鏈條。這樣的方式效果不錯，但正如席爾瓦和薩頓所言：人類語言并非人工智能最高效的思考方式。新時代AI將發展出非人類式的推理方法，采用符號或計算等可能無法被人類理解的表達形式。

此外，AI將利用所謂“世界模型”來預測自身行為對世界的影響，從而進行規劃。例如，健康專用AI或可預測新飲食方案對用戶體能的影響，再根據實際效果調整計劃。這種錨定現實的行事風格，有助于AI規避人類的偏見，探索全新的思維方式。

為何是此刻？

體驗式學習并非全新概念。AI早前已于受控環境下體驗過它，比如棋盤游戲(以精通國際象棋的AlphaZero為代表)，或是針對數據中心冷卻的優化工作。但這些都屬于規則清楚、回報明確的細分任務。體驗時代的突破在于將這種方法拓展至復雜開放的真實世界。

技術進步是一切可能的前提。眼下AI已能駕馭計算機控制、實驗設備操作等復雜情境；強化學習算法的進展使AI能處理開放式問題。席爾瓦與薩頓指出，我們正站在臨界點上——這些工具即將釋放超人類的智能，推動科學、數學、工程等領域的創新突破。

前景與挑戰

體驗時代或將重塑人類生活。試想：

“個性化定制”的AI助手始終圍繞用戶需求，經年累月地調整與適應，幫助用戶保持健康，學習新技能；
AI能自主實驗，比人類研究者更快速地發現新材料或新藥物，進而驅動科學突破；
AI憑借現實經驗優化制造、物流等流程，助力產業效能提升。

當然，能力越大，責任越大。席爾瓦和薩頓的論文也點明了三大挑戰：

機替人崗：AI承擔復雜任務可能砸掉一部分人類的飯碗；
安全風險：長期自主運作的AI可能做出難以被人類監管的決策；
解讀難題：具有非人類的思維模式，使得AI更難以理解。

不過體驗式學習也有其安全優勢。能適應環境的人工智能在面對諸如系統故障或社會變遷之類的變化時，會有之策應對。它還可以根據人類的反饋調整目標，以降低出現意外后果的風險——關于這類意外后果，一個經典猜想來自哲學家尼克·博斯特羅姆(Nick Bostrom)提出的“回形針最大化”理論，即人工智能深陷于對單一目標的執著追求，可能因此引發極端后果?。

走向體驗式未來

體驗時代是人工智能的宏偉愿景。AI跳出人類數據的局限，在與現實世界的交互中學習，然后達到超乎想象的智能水平？這樣的變革太激動人心了，而它的基石是強化學習領域數十年的研究積累及其與超強AI系統的結合，我們終將看到兼具自主性、適應性與真正智能的人工智能體。

在這步入新時代的關鍵節點上，人類需在挖掘潛力與審慎監管間尋求平衡。席爾瓦和薩頓呼吁持續開展研究，確保AI發展始終安全可控且符合人類價值觀。若能實現理想的平衡，體驗時代有望引領人類進入探索發現的黃金時代，AI或將助力我們攻克一些重大挑戰。

此刻，方向是明晰的：AI的下一場飛躍不再由人類數據驅動，而會通過機器，如人類般，從實踐中學習。

本文基于大衛·席爾瓦(David Silver) 和理查德·薩頓(Richard S. Sutton) 的論文《歡迎來到體驗時代》（Welcome to the Era of Experience）。該文章是由麻省理工學院出版社出版的《設計智能》(Designing an Intelligence)一書中的一個章節。

資料來源：

《世界科學》雜志版在售中歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一：

掃描二維碼，“雜志鋪”訂閱有折扣～

方式二：

全國各地郵局訂閱郵發代號：4-263

方式三：

機構訂閱，請撥打

021-53300839；

021-53300838

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.