文 | 鄭麗媛
出品丨AI 科技大本營(ID:rgznai100)
過去這一年,AI 世界風云再起。
從 DeepSeek R1、OpenAI o3 的激烈競逐,到 AI 智能體頻頻登上技術熱榜;從“推理能力”成為衡量大模型的新標準,到人形機器人、具身智能(Embodied Intelligence)被寄予厚望……我們正站在 AI 技術快速演進的關鍵時刻。然而,在這些熱鬧表象的背后,一場更深層的技術討論也正在悄然發生:我們真的了解智能嗎?我們構建的 AI 真的在“學習”嗎?
在這樣一個值得深思的節點,加拿大阿爾伯塔大學計算科學系教授、圖靈獎得主 Richard Sutton 在 6 月 6 日舉行的北京智源大會上,帶來了一場名為《歡迎來到經驗時代(Welcome to the Era of Experience)》的主題演講。
在整場演講中,Richard Sutton 沒有談模型架構、參數量,沒有講熱門的大語言模型,也沒有討論多模態系統的未來路線圖——他選擇回到 AI 的第一性原理,提出了一個顛覆直覺、卻極具穿透力的主張:真正的智能,應該來源于經驗,而不是人類預設的數據與知識。
Richard Sutton 演講的精彩觀點預覽:
1、真正的 AI,必須擁有一個能隨著它自身變強而不斷成長和豐富的數據源,任何靜態的數據集都將后繼無力。 2、一個智能體的智能程度,取決于它能否有效預測與控制感官輸入,也就是能否準確地預判環境反饋,并采取相應策略——這一能力,才是 AI 和智能的本質。 3、創造出超級智能體或被超級智能增強的人類,對世界而言將是一件純粹的好事。我并不擔心所謂的“AI 安全問題”或“技術失業”問題——在我看來,這些都只是世界發展轉型過程中的階段性陣痛。 4、那些呼吁控制 AI 的論調,與呼吁控制人的論調,是何其相似。 5、人類的繁榮,以及未來 AI 的繁榮,都應當建立在“去中心化合作”的基礎之上。
以下為Richard Sutton演講全文翻譯:
當下,正值人工智能(AI)發展史上的一個關鍵節點,也是最令人激動的時代之一。我今天想傳達幾個觀點,這些內容與 息息相關,但我將提供一個截然不同的視角——這一點將在我演講的第二部分中突出。
首先,我今天的演講主題是:“歡迎來到經驗時代”。
為了引出本次演講的兩個核心觀點,我想先引用兩句富有啟發性的名言:
“智能,是宇宙中最強大的現象” ——出自美國作家、發明家和未來學家 Ray Kurzweil。這句話讓我們感受到,在 AI 這場變革中,我們所面對的賭注有多大。而智能,確實是宇宙間最為強大的力量。
“我們想要的,是一臺能從‘經驗’中學習的機器”——出自計算機科學之父、人工智能之父 Alan Turing 在 1947 年的一次演講,那可能是人類歷史上首次關于人工智能的公開演講。在那個年代,“人工智能”這個領域尚未真正誕生,Alan Turing 就已精準預言了未來方向:我們真正想要的機器,必須能從它自己的第一人稱體驗中學習。這正是我們今天要討論的核心,而我們,正邁入這個全新的“經驗時代”。
我們正在進入“經驗時代”
此時此刻,我們所處的時代,可以稱之為“人類數據時代”。當前幾乎所有的 AI,都依賴于從互聯網上抓取的海量文本和圖像進行訓練,再由人類專家通過偏好和示例進行微調。整個系統的目標,并非真正地去預測或理解這個世界本身,而是模擬人類的語言生成模式,學習如何預測下一個詞或模仿人類的判斷。
但我認為,我們正在觸及“人類數據”這一發展路徑的極限。目前幾乎所有高質量的人類數據源,都已被我們“榨干”了。更重要的是,若我們希望 AI 能生成真正原創、前所未有的知識,僅僅模仿人類是遠遠不夠的,AI 必須主動與世界發生交互。
如今,我們正踏入“經驗時代”。真正的AI,必須擁有一個能隨著它自身變強而不斷成長和豐富的數據源,任何靜態的數據集都將后繼無力。而這種源源不斷的新數據,只能從“經驗”中來——即從 AI 與世界之間的互動中來。
所謂“經驗”,本質上就是來自傳感器的輸入信號,以及通過執行器對外界做出的反饋動作。這也是人類和其他動物學習最本真的方式。
以下面這個人類嬰兒為例。他會主動與世界進行互動,輪流擺弄眼前的各種玩具,試圖搞明白這些東西能用來干嘛。請注意,是嬰兒自己選擇了注意力焦點,從而決定了他接下來會得到什么信息。他會專注于一個玩具或一根繩子,直到感覺學得差不多了,再轉向下一個。隨著他心智的成長,它能從每個物體上學到的東西會變多,互動的行為也會變得更復雜。換句話說,他自身的行為決定了他的輸入、經驗和數據。而這,正是我們希望 AI 能夠做到的。
再看看人類和動物在自然情境中的學習過程,例如踢足球、射門得分。想象一下,在射門的那一瞬間,數據流如洪水般涌入足球運動員的眼睛、耳朵以及身體里的各種傳感器。周圍的一切都在快速變化,信息量巨大。他不可能察覺到每一個細節,但必須快速決策,才能射門得分。
這就是一個足球運動員的世界,也同樣適用于一只飛越森林的鳥、一頭逃避天敵的野獸、一個揮棒擊球的選手,甚至是一場實時對話……在這些情境中,我們面臨的是一種以高帶寬信號為基礎的感知與行動機制,它構成了技能和智慧的核心——而這,就是“經驗”。當我說“經驗”時,我并不是在談論什么“感質”(qualia)之類玄乎的哲學概念,我指的就是那些實實在在流經心智的輸入信號與輸出行為。
請記住,只有這樣,數據源才能隨著心智能力的提升而變化。就像一個下棋的 AI,隨著它棋力精進,它所面對和生成的棋局數據也會越來越高級、越來越復雜。AlphaGo 正是在這種與自己反復對弈的“經驗”中,才誕生了那被稱為“神之一手”的第 37 手。因此我說,從經驗中學習至關重要,因為“經驗”就是通過模擬各種可能的走法及其后果而產生的。
在游戲中實現這一過程相對容易,因為游戲規則是清晰已知的。同樣的邏輯也適用于贏得國際數學奧林匹克獎牌的 AlphaProof 系統——在數學世界中,每一步推理的后果都可以被精確預見,就如同在圍棋中預測每一步落子的后果一樣。
說到這里,我們來總結一下這種“經驗主義”在 AI 中的思維模式。在這種模式下,智能體(Agent)通過與世界的持續交互獲取經驗,而學習,就是從這些經驗中提煉出模式與策略。我有一個更深層的觀點:智能體所擁有的一切知識,歸根結底都必須建立在經驗基礎上。即使某些知識是事先灌輸的,最終也必須在智能體與環境的交互中才具有實際意義。知識的本質,不是關于“文本”的簡單陳述,而是“如果我采取某個行動,世界將如何響應”的因果認知。既然本質上來說知識源于經驗,那么它就可以通過經驗被習得。
一個智能體的智能程度,取決于它能否有效預測與控制感官輸入,也就是能否準確地預判環境反饋,并采取相應策略——這一能力,才是 AI 和智能的本質。而“經驗”正是這一機制的基礎。事實上,越來越多算法正基于這種思維模式構建:它們擁有第一人稱視角,具備感知、決策、目標導向與環境互動能力,也正是我們所說的 AI 智能體(Agentic AI)系統。
我們可以用一條時間線來描述 AI 技術的演進路徑,并定位我們當前所處的位置:
模擬時代:以 AlphaGo 和 Atari 游戲為代表。強化學習的智能體在模擬環境中訓練,通過大量試錯獲得策略突破,最終誕生了 AlphaZero 等革命性成果。
人類數據時代:以 GPT-3 和 ChatGPT 等大語言模型為標志。這一階段,模型主要從人類生成的海量文本與圖像中學習,而我們或許正接近這個時代的尾聲。
經驗時代:我們正在步入這個新時代。在這個時代,AI 將通過與真實世界的交互來生成數據并提升能力,AlphaProof 就是這個趨勢的早期體現。當大語言模型一旦被賦予操作計算機和 API 的能力,實際上它就已經開始在世界中“采取行動”了。
以上,就是我關于 AI 未來的第一個核心觀點:我們正在進入“經驗時代”。
而我的第二個觀點是:創造出超級智能體或被超級智能增強的人類,對世界而言將是一件純粹的好事。
坦白說,我并不擔心所謂的“AI 安全問題”或“技術失業”問題——在我看來,這些都只是世界發展轉型過程中的階段性陣痛。這需要時間,可能幾十年、甚至更久,這是一場需要耐心的馬拉松,而非一蹴而就的沖刺。但正因其深遠影響,我們必須現在就開始做準備。
真正意義上的智能體,必須能夠在自身經驗的基礎上實現“持續學習(Continual Learning)”。這要求它具備在記憶體系之上不斷更新知識和技能的能力。雖然目前的大語言模型作為一種強大的“世界知識接口”已經非常出色,但只有具備持續學習的能力,才能真正釋放“經驗時代”的全部潛力。
“去中心化合作”
接下來,我們來探討一個更宏觀的話題:政治。這個話題也呼應了 Yoshua Bengio 教授在其演講中提出的一些重要思考。
我們必須先提出一個最基本的問題——社會的目標到底是什么?這是一個哲學性極強的問題:社會是否存在一個所有人都共享的終極目標?還是說,社會中的個體擁有各自不同的目標?
作為一名強化學習研究者,我常用的一種思考方式是:觀察我所訓練的那些 AI 智能體是如何運作的。在強化學習框架下,每一個智能體都有其獨立的目標函數。這個目標函數定義了它想要最大化的獎勵信號(Reward Signal)。智能體通過感知環境輸入信號,并據此采取行動,從而嘗試最大化獲得的獎勵。但沒有任何理論要求不同智能體的獎勵信號必須一致。
那我們再看看大自然,每一種動物的大腦中也都有類似機制。例如下丘腦中計算的神經信號、還有痛覺和快感等——這種機制,與AI系統中獎勵函數的概念非常接近。因此在 AI 系統和自然界中,有一個共同的事實是:每個個體都有自己的目標。
當然,我們也可以說這些目標在某種層面上存在相似性。例如,所有動物都需要食物。但我們也必須認識到:一只動物所需的“食物”并不一定適合另一只動物。它們的目標在結構上或許是“對稱的”(symmetrical),但在具體內容上卻是“不同的”(non-identical)。
對于人類來說,這種差異性更為明顯。我們關心的是自己的家庭、自己的食物和自己的安全,因此人類并不存在一個統一、共享的終極目標。
這也引出了一個值得深思的問題:我們的經濟體系是如何以最佳方式運作的?我認為,當人們擁有不同目標和不同能力時,經濟才能實現最優運行。這些目標并不一定要彼此沖突,但它們可以是多樣的,這種差異性反而構成了整個社會協作的基礎。我們的經濟并不是建立在統一目標之上,而是依賴于每個人追求的自身目標,通過交易、協作與互動形成分工,從而構建出一個復雜而高效的系統。
這是一個簡單卻深刻的真理:即使我們想要的東西各不相同,我們依然可以和平共存。
為了更深入地討論這個問題,無論你是否認同上述觀點,我都想先給出幾個定義。
“去中心化”(Decentralization):一個系統中包含許多個智能體,每個智能體都在追求自己的目標。這與“中心化”(Centralization)形成了鮮明對比,后者是指系統中也有多個智能體,但它們都被約束著去追求同一個目標。舉例來說,蜂群是一種中心化的社會形態,一個蜂巢里有很多工蜂,但它們都在為“蜂巢的繁榮”這一個目標而服務。所以,去中心化,就是允許多個智能體擁有并追求各自不同的目標。
“合作”(Cooperation):擁有不同目標的智能體,為了互惠互利而進行互動。通過這種互動,每個智能體都能更好地實現自身的目標。這是一種交換,也是一種雙贏。
因此,請大家記住這兩個關鍵概念:“去中心化”與“合作”。
我認為,合作是人類在演化中發展出的超能力,人類的合作程度遠超其他任何動物。語言和貨幣這兩項人類獨有的發明,極大地促進了合作。人類最偉大的成功,都是合作的產物,例如經濟體系、市場機制與政府組織;而最苦澀的失敗,多是合作機制失效的結果,例如戰爭、盜竊和腐敗。
這種“去中心化合作”的觀念,是一種理解社會組織方式的全新視角。在我看來,它比傳統的中心化視角更為優雅。去中心化合作更加具有韌性、更可持續、更靈活,也更能夠抵御欺詐者與害群之馬。
人類雖然是合作大師,但我也必須承認,我們在這方面依然做得很糟糕:戰爭、盜竊、腐敗與欺詐仍頻繁發生。所以,合作從來都不是唾手可得的,它至少需要兩個值得信任的參與方,而世界上總會有一些不可信賴的人,比如騙子、小偷和獨裁者等。
合作固然偉大,但它仍需要制度來保駕護航,以懲治那些破壞合作機制的行為。中心化的權力機構可以通過制定制度、規范行為來促進合作,但從長遠來看,當這些權力機構變得專制或僵化時,它們反而可能會毒害合作。因此,我認為“中心化控制”與“去中心化合作”之間的張力,正是我們這個時代最核心的政治議題。
如果你細致觀察,就會發現:那些呼吁控制 AI 的論調,與呼吁控制人的論調,是何其相似。
現在,有很多人呼吁要控制 AI,包括剛才演講的 Yoshua Bengio 教授,他明確呼吁要控制 AI 的目標,甚至控制它們擁有目標的能力;有人呼吁暫停或停止 AI 研究,減慢它的發展速度;有人呼吁限制用于制造 AI 的算力;還有人呼吁必須確保 AI“安全”并要求信息披露。
這些主張,本質上與許多政治爭議類似,例如:我們是否應保障言論自由?是否允許公眾聽到不同意見?應支持自由貿易,還是必須干預就業市場?金融資本應如何監管?這些爭論,與那些關于控制 AI 的呼吁,相似得令人不安。這本質上是一個社會性問題:我們打算如何面對“多個個體擁有多個目標”這一現實?是應當鼓勵去中心化,還是趨向中心化控制?
所有主張中心化控制的聲音,聽起來都差不多,本質都建立在“恐懼”之上,并采用“我們 vs 他們”的對立邏輯。不論在何種社會,這類論調總會出現:在美國,“我們”是美國人,“他們”是俄羅斯人;在中國,則“我們”是中國人,“他們”是美國人。中心化的控制論總是將“他者”妖魔化,聲稱對方不可信。但我認為,在任何社會中,總會有少數人不可信,但絕大多數人都是可信的。
總體來說,我堅信:人類的繁榮,以及未來 AI 的繁榮,都應當建立在“去中心化合作”的基礎之上。雖然人類擅長合作,卻也常常搞砸合作。合作并非唾手可得,但它卻是世間一切美好的源泉。我們必須去尋找合作、支持合作,并致力于將其制度化。
在此,我誠摯地邀請各位,運用自身與世界互動的真實經驗,用清醒的雙眼觀察世界。我相信,只要你愿意去看,就能識別出那些正在鼓吹不信任、不合作與中心化控制的論調。我認為,我們應當堅定地抵制這些聲音。
最后,我想說一句:嘗試用“去中心化合作 vs 中心化控制”的視角,去重新審視人類與 AI 之間的所有互動,將會是一個極具啟發性的視角。
對話與問答
在 Richard Sutton 的精彩演講之后,清華人工智能研究院副院長,生數科技創始人兼首席科學家,智源首席科學家朱軍與他進行了一番精彩問答。
以下為問答實錄:
朱軍:Yoshua Bengio教授在剛才的演講中提到,應構建一種無心智的“非智能體 AI”(non-agentic AI);而與他相反,你則強調要發展“智能體 AI”(agentic AI)。
因此,我的第一個問題正是圍繞這個分歧展開的:在中國,包括北京智源人工智能研究院在內的眾多機構,都非常重視為社會福祉而開發安全、可靠、負責任的 AI。從強化學習的視角來看,既然智能體會自主優化其目標,如果我們不對其施加合理的控制,你是否認為存在潛在風險?
Richard Sutton:當大家消化我和 Yoshua Bengio教授的演講時,首先要明白一點:我們倆的初衷都是好的,都希望創造一個美好的世界,讓 AI 造福人類,讓人們社會更加成功而友善。
但我們之間存在一個根本性分歧:包括Yoshua Bengio 在內的許多人,他們呼吁的是改變 AI 本身——限制它們、控制它們——以此來確保安全。而我呼吁的,是改變 AI 所處的社會環境,改變這個世界,從而讓那些智能體出于理性,自然而然地選擇去做有益的、合作的事情。
這就是關鍵的區別。我們究竟應該依靠篩選和控制 AI 來防止它們傷害人類,還是應該努力建設一個能夠容納所有參與者、激勵他們合作與貢獻的世界?
如果以此為基本分歧,我們就可以看到一些問題。比如,試圖去改變 AI 本身,是一個有些危險的策略,因為它防不住“作弊者”。即便我們把自己研發的 AI 都設計得“足夠安全”,但只要有一個人造出了“不安全”的 AI,我們就會有大麻煩。
相反,如果我們把重點放在改善 AI 所處的環境上,讓每一個參與者都能在其中貢獻和共存,那么我們就能更好地防范作弊者——這種方式更像是一種“逐漸演化的穩定策略”。而寄希望于控制AI本身的做法,其實反而是一種高風險策略。
朱軍:你曾強調,強化學習是一個非常強大的范式,目前我們廣泛使用它來構建大語言模型和 AlphaGo 這樣的系統。但如果展望未來,我們希望構建一種“超人級別智能”的 AI,對于強化學習這一范式本身,你認為我們需要引入哪些最核心的新元素或假設,來開發出更好的算法?
Richard Sutton:如果我們從大語言模型出發,顯而易見,我們需要目標、行動,以及一種對“真實”的感知能力。我有一個核心觀點:“不要要求一個智能體知道它無法親自驗證的事情。”換句話說,這就需要“經驗”來為我們提供一個“真理”的來源。
針對你的問題——強化學習還需要增加什么才能更加強大?我認為,雖然強化學習本身已經非常強調“經驗”,但仍存在一些問題:
(1)當前的強化學習不具備持續學習的能力,而這正是現代深度學習算法的一大軟肋。
(2)我們尚未掌握如何有效利用學習到的“世界模型”(World Model)來進行規劃(Planning)。在圍棋或數學這種不需要學習世界模型的任務中,我們可以做出很棒的規劃;可一旦進入充滿不確定性的現實世界環境,我們仍然束手無策。
也正因為如此,我認為 AGI(通用人工智能)不會在兩年內實現。如果我們運氣好,可能需要五年,但也很可能還需要十五年。
朱軍:基于此,我還有一個后續問題。你曾寫過一篇廣為流傳的文章——《苦澀的教訓》(The Bitter Lesson),你在文中強調,相比人類知識或人為設計的規則而言,可擴展的計算能力更為重要。那么,這一觀點同樣適用于強化學習嗎?從長遠來看,我們是否也應該避免在強化學習中引入過多的人為設計?
Richard Sutton:關于《苦澀的教訓》和現代 AI,我首先要說的是,“經驗時代”與“人類數據時代”之間的這種沖突,恰恰就是這篇文章的一個完美例證。
“人類數據時代”,指的是我們試圖通過利用人類已有的數據,讓一個系統運行得更好。但這條路最終會走到盡頭,就像我們在構建大語言模型時已經觸及了人類數據的極限一樣。我們必須用某種可擴展、可增長的東西來取代人類數據,以真正發揮可擴展計算的優勢——而這個東西,就是“經驗”。
從依賴“人類數據”逐步轉向依賴“經驗”的過程,本身就是《苦澀的教訓》的一次真實寫照。
2025 全球產品經理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.