網易首頁 > 網易號 > 正文申請入駐

擴展計算/經驗學習與人機環境系統智能

2025-06-09 06:08:36　來源: 白駒談人機

北京舉報

分享至

理查德·薩頓（Richard Sutton）作為強化學習領域的奠基人，提出的擴展計算與經驗學習理念，強調通過大規模計算和智能體與環境的直接交互來獲取經驗，從而推動智能的發展。這一理念意味著未來智能系統的發展將從單純依賴人類數據和指令的人機交互模式，逐漸轉向更加自主、動態的機環交互模式。在機環交互中，智能體通過與環境的持續互動來學習和適應，這種模式與人機環境系統智能的核心思想高度契合，即智能系統需要在真實環境中通過與人類和環境的交互來不斷優化自身行為，實現更高效、更智能的決策和行動。因此，薩頓的觀點不僅為AI的未來發展指明了方向，也為構建更加自然、高效的人機環境系統智能提供了理論支持。

一、薩頓認為擴展計算與經驗學習才是未來

薩頓對大模型和擴展計算的看法具有一定的獨特性，他對當前大模型的發展方向提出了質疑，認為未來的AI發展需要更多地依賴擴展計算和經驗驅動的學習，而不是單純依賴人類數據和語言大模型。

薩頓認為，通過語言大模型方向來實現智能沒有前途。他指出，盡管大語言模型展示了計算、網絡和學習的潛力，但它們在某些方面讓人失望，因為它們缺乏行動、目標以及對真實性的判斷能力。薩頓強調，人類數據已經接近極限，繼續依賴人類數據來推動AI發展是不可持續的。他認為，AI需要從“人類數據時代”轉向“經驗時代”，即通過與環境的交互來獲取經驗，而不是依賴預設的人類數據。

薩頓在2019年的文章《The Bitter Lesson》中強調，AI研究的一大教訓是過于依賴人類經驗和知識，而忽視了可擴展計算的力量。他認為，利用大規模算力是推動AI發展的關鍵。薩頓進一步指出，擴展計算需要與“經驗”相結合，而不是單純依賴人類數據。他提出，未來的AI系統應該能夠通過與環境的交互來學習和適應，這種經驗驅動的學習方式將更好地發揮擴展計算的優勢。

理查德·薩頓認為大模型可能會在五年內被拋棄，而擴展計算才是未來，目前的大模型主要依賴于不斷增加的計算資源和數據量來提升性能，但薩頓指出，這種方法并不是解決所有問題的萬能鑰匙。隨著模型規模的不斷擴大，其帶來的性能提升逐漸趨于平緩，投入與回報不成正比。例如，GPT-5遲遲未能問世，可能就說明規模擴張的效果已經不太明顯。大模型主要通過學習大量的預處理數據來生成內容，但這種學習方式缺乏對真實世界的理解和適應能力。它們無法像人類一樣通過與環境的交互和經驗積累來學習，因此難以實現真正的智能。

強化學習的核心在于讓智能體通過與環境的交互來學習，通過試錯和獎勵機制來優化決策。這種方法更接近人類的學習方式，能夠使AI系統具備更強的適應性和靈活性。強化學習可以幫助AI系統更好地進行長期規劃和抽象思考。例如，通過強化學習，AI可以學會將復雜任務分解為多個小步驟，從而更高效地解決問題。薩頓認為，未來的AI系統應該是去中心化的，由多個具有不同目標和能力的智能體組成。這些智能體可以通過強化學習獨立地追求自己的目標，同時通過協作來實現更復雜的任務。

薩頓在《苦澀的教訓》中指出，通用的計算方法（如搜索和學習）能夠隨著計算資源的增加而不斷擴展。這意味著，未來AI的發展應該更多地依賴于這些能夠靈活擴展的方法，而不是單純地追求模型規模。擴展計算可以幫助AI系統更好地應對復雜多變的現實環境。通過不斷擴展計算能力和優化算法，AI可以更有效地學習和適應新的情境。

薩頓認為，未來的AI系統應該能夠像人類一樣自主地學習和適應。這意味著AI需要具備更強的探索能力和對未知的適應能力，而不是依賴于預設的知識和數據。實現真正的智能還需要跨學科的研究和創新。薩頓本人也進行了大量跨學科的研究，試圖從心理學等其他領域汲取靈感。

二、薩頓的思想與人機環境系統智能

薩頓認為，經驗是AI的終極數據，智能體通過與環境的交互獲得經驗，從而實現自主學習和適應。這種經驗驅動的學習方式與人機環境系統智能的理念高度契合，即智能系統需要在真實環境中通過與人類和環境的交互來不斷優化自身行為。如具身智能（Embodied Intelligence）強調智能體通過身體與環境的互動來學習，這與薩頓的觀點一致。對人機環境系統智能的啟示包括強調交互性，人機環境系統智能強調智能體與環境的動態交互，而薩頓的經驗學習理念也強調通過與環境的互動來獲取經驗。這意味著未來的AI系統需要更多地在真實環境中進行訓練，而不是僅僅依賴靜態數據。同時，注重去中心化與多樣性，薩頓提到，不同的智能體可以有不同的目標和獎勵信號，這種去中心化的現象有助于智能體在復雜環境中更好地運作，這就為構建多智能體的人機環境系統提供了理論支持，強調系統中各智能體的獨立性和多樣性。

薩頓認為AI的發展是一場馬拉松，而不是短跑，人機環境系統智能的構建也需要長期的規劃和持續的優化，而不是追求短期的突破。概括而言，薩頓關于擴展計算與經驗學習的思想，為未來人機環境系統智能的發展提供了重要的理論基礎和應用趨勢。

三、智能的拓撲：從人機交互到機環交互

從人機交互（Human-Computer Interaction, HCI）和機環交互（Machine-Environment Interaction, MEI）涉及到智能系統中各個組成部分之間的連接、交互和協同方式，以及這些拓撲結構對系統性能和智能水平的影響。

1、人機交互中的拓撲結構

人機交互中的拓撲結構可以分為多個層次，包括物理拓撲、邏輯拓撲、認知拓撲和價值拓撲：物理拓撲指的是人與機器之間通過物理設備（如鍵盤、鼠標、屏幕等）進行交互的網絡結構，如智能家居系統中傳感器與控制設備之間的連接關系；邏輯拓撲涉及數據和信息在人機系統中的流動和處理方式，如互聯網和局域網的拓撲結構會影響人機交互的效率；認知拓撲關注人與機器之間的知識共享和理解方式，如通過自然語言處理和機器學習技術，機器能夠理解人類的意圖并做出響應；價值拓撲強調人與機器之間共享的價值觀念和決策準則，在醫療診斷等系統中，機器的決策需要符合人類的倫理和道德標準。

2、機環交互中的拓撲結構

機環交互中的拓撲結構則更側重于機器與環境之間的連接和交互方式：環境感知拓撲，機器通過傳感器網絡感知環境信息，如溫度、濕度、光照等，這些傳感器的分布和連接方式構成了機環交互的感知拓撲；行動執行拓撲，機器通過執行器（如機械臂、電機等）對環境進行操作。執行器的布局和協同方式決定了機環交互的行動拓撲；動態適應拓撲，機器需要根據環境的變化動態調整其行為和拓撲結構，無人機編隊在飛行過程中會根據環境障礙物調整隊形，形成動態的環拓撲結構。

3、從人機交互到機環交互的演變

隨著技術的發展，智能系統的拓撲結構正在從單純的人機交互向機環交互擴展。傳統的人機交互主要關注人與機器之間的直接交互，忽略了機器與環境之間的復雜關系，所以在處理復雜任務時常常會受到限制。機環交互強調機器與環境的深度融合，使機器能夠在動態環境中自主學習和適應，如自動駕駛汽車中，車輛不僅需要與駕駛者交互，還需要與道路、交通信號和其他車輛等環境因素進行交互。從人機交互到機環交互的演變，意味著智能系統的拓撲結構需要更加復雜和動態，從簡單的星形拓撲（人機交互）向復雜的網狀拓撲（機環交互、人機環境交互）轉變。

4、智能的拓撲與未來發展方向

智能的拓撲結構在未來的發展中將更加注重以下幾個方面：

（1）多模態交互：未來的智能系統將整合多種交互方式，包括視覺、聽覺、觸覺等，以實現更自然和高效的人機交互。

（2）動態拓撲調整：智能系統需要能夠根據任務需求和環境變化動態調整其拓撲結構。例如，多智能體系統可以根據任務的復雜性動態調整其通信和協作拓撲。

（3）環境融合：智能系統將更加深入地融入環境，通過與環境的持續交互來學習和優化自身行為。

綜上所述，智能的拓撲從人機交互向機環交互的演變，反映了智能系統在復雜環境中的適應性和自主性需求。未來智能系統的發展將更加注重多模態交互、動態拓撲調整和環境融合，以實現更高效、更智能、更多樣的人-機-環境系統交互方式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.