網易首頁 > 網易號 > 正文申請入駐

圖靈獎得主Sutton、谷歌RL大佬Silver新作：超人智能靠經驗

2025-04-16 18:00:47　來源: 機器之心Pro

北京舉報

分享至

人類生成的數據推動了人工智能的驚人進步，但接下來會怎樣呢？

幾天前，Google DeepMind 強化學習副總裁 David Silver 參與了一場播客訪談節目，探討了如何從依賴人類數據的時代邁向自主學習的時代。

與此同時，David Silver 和他的老師、2024 年圖靈獎得主 Richard Sutton 合作撰寫的論文《Welcome to the Era of Experience》稱人們正站在人工智能新時代的門檻上，并有望達到前所未有的水平；同時展望了新一代智能體，認為它們將主要通過經驗來學習，獲得超越人類的能力。他們還探討了定義這個即將到來的新時代的關鍵特征。

未來，這篇論文將成為 MIT Press 出版的書籍《智能設計》（Designing an Intelligence）中的一個章節。

論文地址：https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

從模仿時代到人類數據時代再到經驗時代，每個時代都有相對應的 AI（或大模型）涌現，朝著超人智能不斷邁進。

圖源：https://x.com/MaziyarPanahi/status/1912097667707973858

人類數據時代

近年來，人工智能通過在海量人類生成的數據上進行訓練，并通過專家人類示例和偏好進行微調，取得了顯著進步。大型語言模型（LLM）就是這種方法的典范，它們已經達到了廣泛的通用性水平。如今，單個 LLM 可以執行從寫詩和解決物理問題到診斷醫療問題和總結法律文件的各種任務。

然而，雖然模仿人類足以在很多方面復制人類能力達到勝任的水平，但這種方法單獨使用無法在許多重要主題和任務上實現超人類智能。在數學、編程和科學等關鍵領域，從人類數據中提取的知識正迅速接近極限。高質量數據源 —— 那些真正能夠提高強大智能體性能的數據源 —— 大多已經或很快將被消耗殆盡。僅僅依靠從人類數據中進行監督學習的進步步伐明顯放緩，表明需要一種新的方法。此外，有價值的新見解，如新定理、技術或科學突破，都超出了當前人類理解的邊界，無法通過現有的人類數據捕獲。

經驗時代

要取得進一步的顯著進步，需要一個新的數據來源。這種數據的生成方式必須隨著智能體變得更強而不斷改進；任何靜態的合成數據生成程序都會很快被超越。這可以通過讓智能體從自己的經驗中持續學習來實現，即由智能體與環境互動產生的數據。AI 正處于新時期的邊緣，在這個時期，經驗將成為提升的主要媒介，并最終使當今系統中使用的人類數據規模相形見絀。

這種轉變可能已經開始，即使對于體現以人為中心的 AI 的大型語言模型也是如此。例如，數學能力就是一個例子。AlphaProof 最近成為第一個在國際數學奧林匹克競賽中獲得獎牌的程序，超越了以人為中心的方法的表現。AlphaProof 最初接觸了大約十萬個由人類數學家多年創建的形式化證明，隨后其強化學習算法通過與形式化證明系統的持續互動又生成了一億個證明。這種專注于互動經驗的方法使 AlphaProof 能夠探索超出現有形式化證明范圍的數學可能性，從而發現解決新穎且具挑戰性問題的方法。非形式化數學也通過用自生成數據替代專家生成數據取得了成功；例如，DeepSeek 的最近工作「強調了強化學習的力量和美學：與其明確教導模型如何解決問題，我們只需提供正確的激勵，它就會自主開發高級問題解決策略?！?/p>

我們認為，一旦充分利用經驗學習的全部潛力，將會出現令人難以置信的新能力。這個經驗時代可能的特征是智能體和環境不僅從大量經驗數據中學習，還將在以下幾個方面突破以人為中心的 AI 系統的局限：

智能體將生活在經驗流中，而不是短暫的互動片段中。
它們的行動和觀察將深深扎根于環境中，而不僅僅通過人類對話進行互動。
它們的獎勵將基于環境中的經驗，而不是來自人類的預先判斷。
它們將根據經驗進行規劃和/或推理，而不是僅僅以人類的方式進行推理。

我們相信，今天的技術，配合適當選擇的算法，已經提供了足夠強大的基礎來實現這些突破。此外，AI 社區對這一議程的追求將刺激這些方向上的新創新，迅速推動 AI 向真正超人類智能體的方向發展。

經驗流

一個經驗型智能體可以在整個生命周期中持續學習。在人類數據時代，基于語言的 AI 主要關注短時互動情節：例如用戶提出問題，然后（可能經過幾個思考步驟或工具使用操作后）智能體作出回應。通常情況下，從一個情節到下一個情節幾乎沒有信息傳遞，排除了隨時間適應的可能性。此外，智能體的目標完全在于當前情節的結果，例如直接回答用戶的問題。

相比之下，人類（和其他動物）存在于持續數年的行動和觀察流中。信息貫穿整個流程，其行為根據過去的經驗調整以自我糾正和改進。此外，目標可能根據延伸到流程未來的行動和觀察來指定：例如人類可能選擇行動來實現長期目標，如改善健康、學習語言或實現科學突破。

強大的智能體應該有自己的經驗流，像人類一樣，在長時間尺度上發展。這將使智能體能夠采取行動實現未來目標，并隨著時間的推移不斷適應新的行為模式。例如，連接到用戶可穿戴設備的健康和健身智能體可以在幾個月內監測睡眠模式、活動水平和飲食習慣。然后，這些智能體可以提供個性化建議、鼓勵，并根據長期趨勢和用戶的具體健康目標調整其指導。

類似地，個性化教育智能體可以跟蹤用戶學習新語言的進度，識別知識差距，適應其學習風格，并在數月甚至數年內調整其教學方法。此外，科學智能體可以追求更宏大的目標，例如發現新材料或減少二氧化碳。這樣的智能體可以在較長時間內分析現實世界的觀察結果，開發和運行模仿，并建議現實世界進行實驗或干預措施。

在每種情況下，智能體都會采取一系列步驟，以便針對特定目標最大化長期成功。單個步驟可能不會提供任何即時利益，甚至可能在短期內產生不利影響，但總體上可能有助于長期成功。這與當前 AI 系統形成強烈對比，后者對請求提供即時響應，而沒有能力測量或優化其行動對環境的未來后果。

行動和觀察

經驗時代的智能體將在現實世界中自主行動。人類數據時代的 LLM 主要關注人類特殊的行動和觀察，向用戶輸出文本，并將用戶的文本輸入回智能體。這與自然智能有明顯不同，在自然智能中，動物通過運動控制和感官與環境互動。雖然動物，尤其是人類，可能與其他動物交流，但這種交流通過與其他感官運動控制相同的接口進行，而不是通過特殊通道。

長期以來，人們認識到 LLM 也可以在數字世界中調用行動，例如通過調用 API。最初，這些能力很大程度上來自于人類工具使用的例子，而不是來自智能體的經驗。然而，編程和工具使用能力越來越多地建立在執行反饋上，智能體實際運行代碼并觀察發生了什么。

最近，一波新型原型智能體開始以更普遍的方式與計算機互動，使用與人類操作計算機相同的接口。這些變化預示著從專屬的人類特殊通信，向更加自主的互動轉變，使智能體能夠在世界上獨立行動。這樣的智能體將能夠主動探索世界，適應不斷變化的環境，并發現人類可能永遠不會想到的策略。

這些更豐富的互動將提供一種自主理解和控制數字世界的方式。智能體可能使用「人類友好」的行動和觀察，如用戶界面，自然促進與用戶的溝通和協作。智能體還可能采取「機器友好」的行動，執行代碼并調用 API，使智能體能夠自主服務于其目標。

在經驗時代，智能體還將通過數字接口與現實世界互動。例如，科學智能體可以監測環境傳感器，遠程操作望遠鏡，或控制實驗室中的機械臂，自主進行實驗。

獎勵

如果經驗智能體可以從外部事件和信號中學習，而不僅僅是人類偏好，會怎樣？以人為中心的 LLM 通常根據人類預先判斷優化獎勵：專家觀察智能體的行動并決定它是否是一個好的行動，或者在多個備選方案中選擇最佳智能體行動。

這些獎勵或偏好由人類在不考慮其后果的情況下決定，而不是測量這些行動對環境的影響，這意味著它們并不直接以現實世界為基礎。以這種方式依賴于人的預判通常會導致智能體的表現出現不可逾越的上限：智能體無法發現被人類評價者低估的更好的策略。

為了發現遠超現有人類知識的新想法，必須使用基礎獎勵，即來自環境本身的信號。例如，健康助手可以根據用戶的靜息心率、睡眠時間等信號組合，將用戶的健康目標轉化為獎勵。而教育助理可以使用考試成績為語言學習提供基礎獎勵。類似地，以減少全球變暖為目標的科學智能體可能使用基于二氧化碳水平的經驗觀察作為獎勵，而發現更強材料的目標可能基于材料模仿器的測量組合，如抗拉強度或楊氏模量。

基礎獎勵可能來自作為智能體環境一部分的人類。例如，人類用戶可以報告他們是否發現蛋糕美味、鍛煉后的疲勞程度或頭痛的疼痛水平，使助手智能體能夠提供更好的食譜，完善其健身建議或改進其推薦的藥物。這些獎勵測量智能體行動在其環境中的后果，最終應該比預先判斷的提議更有效。

除了人類數據，獎勵還能從何而來？一旦智能體通過豐富的行動和觀察空間連接到世界，將不缺乏提供獎勵基礎的基礎信號。事實上，世界充滿了諸如成本、錯誤率、饑餓、生產力、健康指標、氣候指標、利潤、銷量、考試結果、成功與否、訪問量、產量、股票、收入、愉悅 / 痛苦、經濟指標、準確性、功率、距離、速度、效率或能源消耗等數量。此外，還有無數來自特定事件或從原始觀察和行動序列派生的特征的額外信號。

原則上，可以創建各種不同的智能體，每個智能體都將一個基礎信號優化為其獎勵。有一種觀點認為，即使是單一的獎勵信號，如果得到高效優化，也足以誘導廣泛的智能能力。這是因為在復雜環境中實現一個簡單目標可能經常需要掌握各種各樣的技能。然而，追求單一獎勵信號表面上并不符合通用 AI 的要求，即可靠地引導向用戶期望的任意行為。

那么，自主優化基礎的、非人類的獎勵信號是否與現代 AI 系統的要求相矛盾？通過概述一種可能滿足這些需求的方法，我們認為不一定如此；其他方法也可能存在。

這個想法是靈活地調整獎勵，基于基礎信號，以用戶引導的方式。例如，獎勵函數可以由神經網絡定義，該網絡將智能體與用戶和環境的互動作為輸入，并輸出標量獎勵。這允許獎勵以依賴于用戶目標的方式從環境中選擇或組合信號。例如，用戶可能指定一個廣泛的目標，如「改善我的健康狀況」，而獎勵函數可能返回用戶心率、睡眠時長和步數的函數?；蛘哂脩艨赡苤付ā笌椭覍W習西班牙語」的目標，獎勵函數可以返回用戶的西班牙語考試結果。

此外，用戶可以在學習過程中提供反饋，如他們的滿意度，這可以用來微調獎勵函數。然后，獎勵函數可以隨著時間的推移進行調整，以改進它選擇或組合信號的方式，并識別和糾正任何不一致。這也可以理解為一個雙層優化過程，將用戶反饋作為頂層目標進行優化，并在低層優化來自環境的基礎信號。以這種方式，少量的人類數據可能促進大量的自主學習。

規劃和推理

經驗時代會改變智能體規劃和推理的方式嗎？最近，通過在輸出響應之前遵循思維鏈，使用具備語言推理或「思考」的 LLM 取得了顯著進展。在概念上，LLM 可以作為通用計算機：LLM 可以將 token 附加到自己的上下文中，允許它在輸出最終結果之前執行任意算法。

在人類數據時代，這些推理方法被明確設計為模仿人類的思維過程。例如，LLM 被提示發出類似人類的思維鏈，模仿人類思維的痕跡，或強化與人類示例匹配的思考步驟。推理過程可能進一步微調，以產生與正確答案相匹配的思考痕跡，由人類專家確定。

然而，人類語言不太可能提供通用計算機的最佳實例?？隙ù嬖诟行У乃季S機制，使用非人類語言，例如利用符號、分布式、連續或可微分計算。一個自學習系統原則上可以通過從經驗中學習如何思考來發現或改進其方法。例如 AlphaProof 學會了以與人類數學家完全不同的方式形式化證明復雜定理。

此外，通用計算機的原理只涉及智能體的內部計算；它沒有將其連接到外部世界的現實。訓練模仿人類思想甚至匹配人類專家答案的智能體可能會繼承深植于數據中的謬誤思維方法，如錯誤假設或固有偏見。例如，如果智能體被訓練使用 5000 年前的人類思想和專家答案進行推理，它可能會以「萬物有靈論」的方式推理物理問題；1000 年前可能以有神論的方式推理；300 年前可能以牛頓力學的方式推理；50 年前可能以量子力學的方式推理。

超越每種思維方法需要與現實世界互動：提出假設，進行實驗，觀察結果，并據此更新原則。同樣，智能體必須基于現實世界數據，才能推翻謬誤的思維方法。這種基礎提供了一個反饋循環，允許智能體將其繼承的假設與現實對比，并發現不受當前主導人類思維模式限制的新原則。沒有這種基礎，無論多復雜，智能體都將成為現有人類知識的「回聲室」。要超越這一點，智能體必須積極參與世界，收集觀察數據，并使用這些數據迭代地完善其理解，在許多方面反映了推動人類科學進步的過程。

直接將思維植根于外部世界的一種可能方式是建立一個世界模型，預測智能體行動對世界的后果，包括預測獎勵。例如，健康助手可能考慮推薦當地健身房或健康播客。智能體世界模型可能預測用戶心率或睡眠模式在此行動后如何變化，以及與用戶的未來對話。這使智能體能夠直接按照自己的行動及其對世界的因果影響進行規劃。隨著智能體在其經驗流中繼續與世界互動，其動態模型不斷更新，以糾正預測中的任何錯誤。

給定一個世界模型，智能體可以應用可擴展的規劃方法，提高智能體的預測性能。規劃和推理方法并不相互排斥：智能體可以應用內部 LLM 計算來選擇規劃期間的每個行動，或模仿和評估這些行動的后果。

為什么是現在？

從經驗中學習并不新鮮。強化學習系統之前已經掌握了大量復雜任務，這些任務在模仿器中表示，具有明確的獎勵信號（大致對應圖 1 中的「模仿時代」）。例如，RL 方法通過自我對弈在棋盤游戲中達到或超過了人類表現，如西洋雙陸棋、圍棋、國際象棋、撲克和策略游戲；視頻游戲如雅達利系列游戲、星際爭霸 II、刀塔 2 和 GT 賽車；靈巧操作任務如魔方；以及資源管理任務如數據中心冷卻。

此外，像 AlphaZero 這樣強大的 RL 智能體表現出令人印象深刻的潛在無限可擴展性，隨著神經網絡的大小、互動經驗的數量和思考時間的增加而擴展。然而，基于這一范式的智能體并沒有跨越從模仿（具有單一、精確定義獎勵的封閉問題）到現實（具有多種看似定義不明確的獎勵的開放性問題）的鴻溝。

圖 1：主流人工智能范式的簡要時間線?？v軸顯示該領域在強化學習（RL）上的總體努力和計算資源的占比。

人類數據時代提供了一個吸引人的解決方案。海量的人類數據語料庫包含了大量任務的自然語言示例。與模擬時代相對有限的成功相比，基于這些數據訓練的智能體實現了廣泛的技能。因此，經驗式強化學習的方法論被廣泛摒棄，轉而支持更具通用性的智能體，從而推動了人工智能向以人類為中心的方向廣泛轉變。

然而，在這一轉變中失去了一些東西：智能體自我發現知識的能力。例如，AlphaZero 發現了國際象棋和圍棋的根本性新策略，改變了人類玩這些游戲的方式。經驗時代將把這種能力與人類數據時代所實現的任務通用性水平結合起來。正如上面所概述的，當智能體能夠在現實世界經驗流中自主行動和觀察，并且獎勵可以靈活地連接到任何基礎的現實世界信號時，這將成為可能。

與復雜現實世界行動空間互動的自主智能體的出現，加上能夠在豐富推理空間中解決開放性問題的強大 RL 方法，表明向經驗時代的轉變即將來臨。

強化學習方法

強化學習有著悠久的歷史，深深植根于自主學習，其中智能體通過與環境的直接交互進行自我學習。早期的強化學習研究催生了一系列強大的概念和算法。例如，時序差分學習使智能體能夠預估未來的獎勵，并取得了一些突破，例如在西洋雙陸棋比賽中取得了超越人類的表現。由樂觀或好奇心驅動的探索技術被開發出來，幫助智能體發現創造性的新行為，并避免陷入次優的做法。比如，像 Dyna 算法這樣的方法使智能體能夠構建和學習其所處世界的模型，從而使它們能夠規劃和推理未來的行動。再比如選項和選項內 / 選項間學習之類的概念促進了時間抽象，使智能體能夠在更長的時間尺度上進行推理，并將復雜的任務分解為可管理的子目標。

然而，以人為中心的 LLM 的興起將重點從自主學習轉移到利用人類知識。比如 RLHF（基于人類反饋的強化學習）之類的技術以及將語言模型與人類推理能力相結合的方法，已被證明極其有效，推動了人工智能能力的快速發展。這些方法雖然功能強大，但往往繞過了強化學習的核心概念：RLHF 通過調用人類專家代替機器估值來回避對價值函數的需求；來自人類數據的強先驗知識減少了對探索的依賴；以人為中心的推理減少了對世界模型和時間抽象的需求。

有人可能會認為，這種范式轉變如同「把孩子和洗澡水一起倒掉」。以人為中心的強化學習雖然實現了前所未有的行為廣度，但也給智能體的性能設定了新的上限：智能體無法超越現有的人類知識。此外，人類數據時代主要關注的是那些為短時間、無根基的人機交互而設計的強化學習方法，而這些方法并不適用于長時間、有根基的自主交互。

經驗時代為重新審視和改進經典強化學習概念提供了機會。經驗時代將帶來新的思考獎勵函數的方式，這些獎勵函數可以靈活地以觀察數據為基礎。經驗時代還將重新審視價值函數以及從序列尚未完成的長流中估計它們的方法。同時將帶來原則性且實用的現實世界探索方法，從而發現與人類先驗截然不同的新行為。

新的世界模型方法將被開發出來，以捕捉有根基交互的復雜性。新的時間抽象方法將使智能體能夠基于，在更長的時間尺度內進行推理。通過構建強化學習的基礎，并使其核心原則適應新時代的挑戰，我們能夠充分釋放自主學習的潛力，為真正的超人（superhuman）智能鋪平道路。

后果

經驗時代的到來，AI 智能體從與世界的互動中學習，預示著未來將與我們之前所見的一切大相徑庭。這一新范式雖然提供了巨大的潛力，但也提出了需要仔細考慮的重要風險和挑戰，包括但不限于以下幾點。

從積極的一面來看，實驗式學習將釋放前所未有的能力。在日常生活中，個性化助手將利用連續的經驗流來適應個人在健康、教育或專業需求方面的長期目標，跨越數月或數年。也許最具變革性的將是科學發現的加速。AI 智能體將在材料科學、醫學或硬件設計等領域自主設計和進行實驗。通過不斷從自己的實驗結果中學習，這些智能體可以以前所未有的速度快速探索知識的新前沿，開發出新材料、藥物和技術。

然而，這個新時代也帶來了新的重大挑戰。雖然人類能力的自動化有望提高生產力，但這些改進也可能導致工作崗位的流失。智能體甚至可能展現出以前被認為是人類專屬領域的能力，如長期問題解決、創新和對現實世界后果的深入理解。

此外，盡管對任何人工智能的潛在濫用都存在普遍擔憂，但能夠在長時間內自主與世界互動以實現長期目標的智能體可能會帶來更大的風險。默認情況下，這為人類提供了較少的介入和調解智能體的機會，因此需要更高的信任和責任標準。遠離人類數據和人類思維模式也可能使未來的 AI 系統更難解讀。

然而，雖然認識到經驗學習將增加某些安全風險，肯定需要進一步研究以確保安全過渡到經驗時代，我們也應該認識到它可能帶來一些重要的安全益處。

首先，智能體感知到其所處的環境，其行為可以隨著時間的推移適應環境的變化。任何預編程系統，包括固定的 AI 系統，可能不了解其環境背景，并且無法適應其部署的不斷變化的世界。例如，關鍵硬件可能發生故障，大流行病可能會導致社會迅速變革，或新的科學發現可能觸發一系列快速的技術發展。相比之下，智能體可以觀察并學習規避故障硬件，適應快速的社會變化，或接受并建立在新的科學和技術上。也許更重要的是，智能體可以識別其行為何時引發人類關注、不滿或痛苦，并適應性地修改其行為以避免這些負面后果。

其次，智能體的獎勵函數本身可以通過經驗進行調整，例如使用前面描述的雙層優化（見獎勵）。重要的是，這意味著當獎勵函數出現價值偏差時，通?？梢酝ㄟ^試錯逐漸糾正。例如，與其盲目地優化一個信號（如回形針的最大化生產），不如根據人類擔憂的跡象修改獎勵函數，以免回形針生產消耗地球上所有資源。這類似于人類為彼此設定目標的方式，然后如果他們觀察到人們利用系統、忽視長期福祉或導致不希望的負面后果，就調整這些目標；當然，正如人類自身的目標設定過程，這種調節機制也無法確保絕對的價值對齊。

最后，依賴物理經驗的進步，本質上受到在現實世界中執行行動并觀察其后果所需的時間的限制。例如，開發一種新藥，即使有 AI 輔助設計，仍然需要在現實世界中試驗，而這些試驗不可能在一夜之間完成。這可能為潛在的 AI 自我改進速度產生一個自然的抑制作用。

結論

經驗時代標志著人工智能發展的一個關鍵轉折點。在現有的堅實基礎上，智能體將超越人類生成數據的局限性，越來越多地從與世界的互動中學習。智能體將通過豐富的觀察和行動自主與環境交互，并在終身經驗流中持續適應。它們的目標可以被引導至任何基于環境信號的組合。此外，智能體將利用強大的非人類推理能力，并制定基于其行為對環境影響的計劃。最終，經驗數據將在規模和質量上超越人類生成的數據。這種范式轉變，伴隨著強化學習算法的進步，將在許多領域釋放出超越人類能力的新能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.