網易首頁 > 網易號 > 正文申請入駐

又一篇“苦澀的教訓”，讓AI覺得人間有不值，發現無窮盡 | 筆記

2025-04-21 23:35:37　來源: 未盡研究

上海舉報

分享至

“我們正站在人工智能新時代的門檻上。”

“新一代智能體將主要通過自身經驗學習，獲得超越人類的能力?！?/p>

短短兩句話，足以說明《歡迎來到體驗世界》絕對是近兩三年來最重要的AI論文。

作者是DeepMind的強化學習副總裁席爾瓦( David Silver）和圖靈獎得主薩頓（Richard Sutton）。

1 體驗式學習通向超人智能（ASI）

“我們認為，一旦充分釋放體驗式學習（experiential learning）的潛力，人工智能將獲得驚人的新能力。這個“體驗時代”將以這樣一類智能體及其環境為特征：它們不僅能從海量的經驗數據中學習，還將在多個層面上突破以人為中心的 AI 系統的限制：

智能體將生活在持續不斷的經驗流中，而非僅僅經歷片段式的交互；
它們的行動與觀察將深深扎根于環境之中，而不僅僅通過人類語言進行互動；
它們的獎勵將來源于與環境的實際互動，而不是基于人類的主觀判斷；
它們將圍繞自身經驗進行規劃與推理，而不是僅按照人類語言或思維方式來推理。

我們相信，當前的技術水平，配合適當的算法，已具備實現這些突破的強大基礎。同時，AI 社區在這一方向上的持續探索，將激發一系列創新，推動 AI 快速邁向真正具備超人能力的智能體。”

2 再次咀嚼苦澀的教訓

薩頓是強化學習之父，人類知識與認知結構的局限性，他已經在中說得很清楚：

人類試圖注入知識與結構性設計的努力，終將被計算與學習能力所取代。真正有效的 AI 方法，是那些能夠利用計算進行廣泛訓練、學習以取得成果的方法。

這里他再次提醒的，顯然是機器在自我學習中的經驗，而主要不是人類的經驗。

3 Ilya Sutzkever的超級智能

看到這篇文章，不禁想起OpenAI前首席科學家Ilya Sutzkever。

他在離開 OpenAI 后創辦了公司 Safe Superintelligence Inc.（SSI）。

Ilya去年底已經公開。他把互聯網上的數據，比作AI的“化石能源”，總有一天要開采完。他指出了將來三個數據來源：AI可以產生新的數據，AI自己可以決定從大量可能的答案中選取最好的那個，人類可以從真實世界獲取數據。

Ilya預言，我們將會向著超級智能前行，這將與之前的智能有著本質的不同。“AI系統的本質和特征即將劇變?！?/p>

關于超級智能的推理能力，Ilya這樣描述：“它想得越深，就會越不可測。（The more it reasons, the more unpredictable it becomes。）。我們現有的AI是可測的，因為它是對人類直覺的模仿重現，想想人類大腦如果你讓它在0.1秒內給出答案，它只能是直覺反應?！?/p>

所以（機器的）推理將會是不可預測的。就像2016年AlphaGo對弈李世石時，在第二番棋中下出的第37“神之一手”。

“AI只有變得不可預測，才能戰勝人類。”

4LLM在走出低谷

去年9月份，我們發表了一篇文章，《》，提醒西爾瓦在MIT的一個演講，提出超級規模的強化學習展開了一條通向超人智能的明確路徑，而這一切“僅僅是開始”?，F在，他正式提出了AI的新范式。

我們可以對比下，8個月之前，他在當時正在走出谷底的曲線上，只是打出了3個問號；現在，出現了AlphaProof和Computer Use這兩個智能體。

（主流人工智能范式的簡要時間軸草圖。縱軸表示該領域在強化學習（RL）上的總體研究投入與計算資源所占比例。）

5AI肯定會有自我意識

可以肯定，機器會有自我意識。對于人類個體來說，終極的獎勵機制，就是人類的意識，以及從中產生的意義。當機器會為自己設定獎勵函數后，肯定會產生自我意識。這已經不再是個哲學問題，或者說不是存在意義上的哲學問題，而是一個在倫理意義上的哲學問題，也是個工程問題。

Ilya認為超級智能將會產生自我意識?！盀槭裁床荒?？自我意識是有用的，就像我們人類，意識是自我的一部分，自我意識是我們世界模型的一部分?！?/p>

6 東方的頓悟

論文中提到了DeepSeek的推理模型進行強化學習訓練時，所出現的“頓悟時刻”。

一個有趣的“頓悟時刻”出現在DeepSeek-R1-Zero的中間版本中。該模型學會了以擬人化的語氣重新思考。這對我們來說也是一個頓悟時刻，讓我們見證了強化學習的力量與美感。

（來源：DeepSeek R1論文）

7 人類需要獨立于自己的智能

論文表達了這樣一個意思，如果說AI產生了garbage in, garbage out的結果，那也可能是因為人類自己在科學與迷信、真實與謬誤上還分不清：

一個被訓練來模仿人類思想甚至匹配人類專家答案的智能體，可能會繼承深深嵌入在數據中的謬誤思維方法，例如有缺陷的假設或內在的偏見。

想想看，當互聯網上的語言已經被虛假的信息和垃圾內容污染后，而烏合之眾又以此為自己的精神食糧，可能以后AI的價值，在于幫助人們獲得最起碼的知識營養。

人類要為自己的認知備份，那就是讓機器更加科學地思考，從體驗中產生更真實的數據，更真誠的獎勵機制。我們需要一個與人類對照的智能。

8 真正的智能體

它有長期記憶，有短期目標與長期目標，它可能在即時的獎勵機制中犯下錯誤，但是會根據長期獎勵機制進行糾錯。這才是真正的智能體，持續糾錯，終身學習。

9 科學大發現

論文中提到最多的，是下一代智能體對科學探索的價值。一旦擺脫以人為中心的強化學習，下一代智能體將會超越人類已有的知識。體驗式學習把知識扎根于真實的世界中，并且從世界模型中預測和產生獎勵機制，在與環境的互動過程中，不斷試錯，這非常類似于人類的科學探索過程：

也許最具變革意義的將是科學發現的加速。人工智能智能體將在材料科學、醫學或硬件設計等領域自主設計和進行實驗。通過不斷從自身實驗的結果中學習，這些智能體可以迅速探索新的知識前沿，從而以前所未有的速度開發出新型材料、藥物和技術。

10 后果

人類自負。

論文來源：

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.