“我們正站在人工智能新時代的門檻上。”
“新一代智能體將主要通過自身經驗學習,獲得超越人類的能力?!?/p>
短短兩句話,足以說明《歡迎來到體驗世界》絕對是近兩三年來最重要的AI論文。
作者是DeepMind的強化學習副總裁席爾瓦( David Silver)和圖靈獎得主薩頓(Richard Sutton)。
1 體驗式學習通向超人智能(ASI)
“我們認為,一旦充分釋放體驗式學習(experiential learning)的潛力,人工智能將獲得驚人的新能力。這個“體驗時代”將以這樣一類智能體及其環境為特征:它們不僅能從海量的經驗數據中學習,還將在多個層面上突破以人為中心的 AI 系統的限制:
智能體將生活在持續不斷的經驗流中,而非僅僅經歷片段式的交互;
它們的行動與觀察將深深扎根于環境之中,而不僅僅通過人類語言進行互動;
它們的獎勵將來源于與環境的實際互動,而不是基于人類的主觀判斷;
它們將圍繞自身經驗進行規劃與推理,而不是僅按照人類語言或思維方式來推理。
我們相信,當前的技術水平,配合適當的算法,已具備實現這些突破的強大基礎。同時,AI 社區在這一方向上的持續探索,將激發一系列創新,推動 AI 快速邁向真正具備超人能力的智能體。”
2 再次咀嚼苦澀的教訓
薩頓是強化學習之父,人類知識與認知結構的局限性,他已經在中說得很清楚:
人類試圖注入知識與結構性設計的努力,終將被計算與學習能力所取代。 真正有效的 AI 方法,是那些能夠利用計算進行廣泛訓練、學習以取得成果的方法。
這里他再次提醒的,顯然是機器在自我學習中的經驗,而主要不是人類的經驗。
3 Ilya Sutzkever的超級智能
看到這篇文章,不禁想起OpenAI前首席科學家Ilya Sutzkever。
他在離開 OpenAI 后創辦了公司 Safe Superintelligence Inc.(SSI)。
Ilya去年底已經公開。他把互聯網上的數據,比作AI的“化石能源”,總有一天要開采完。他指出了將來三個數據來源:AI可以產生新的數據,AI自己可以決定從大量可能的答案中選取最好的那個,人類可以從真實世界獲取數據。
Ilya預言,我們將會向著超級智能前行,這將與之前的智能有著本質的不同 。“AI系統的本質和特征即將劇變?!?/p>
關于超級智能的推理能力,Ilya這樣描述:“它想得越深,就會越不可測。(The more it reasons, the more unpredictable it becomes。)。我們現有的AI是可測的,因為它是對人類直覺的模仿重現,想想人類大腦如果你讓它在0.1秒內給出答案,它只能是直覺反應?!?/p>
所以(機器的)推理將會是不可預測的。就像2016年AlphaGo對弈李世石時,在第二番棋中下出的第37“神之一手”。
“AI只有變得不可預測,才能戰勝人類。”
4LLM在走出低谷
去年9月份,我們發表了一篇文章,《》,提醒西爾瓦在MIT的一個演講,提出超級規模的強化學習展開了一條通向超人智能的明確路徑,而這一切“僅僅是開始”?,F在,他正式提出了AI的新范式。
我們可以對比下,8個月之前,他在當時正在走出谷底的曲線上,只是打出了3個問號;現在,出現了AlphaProof和Computer Use這兩個智能體。
(主流人工智能范式的簡要時間軸草圖。縱軸表示該領域在強化學習(RL)上的總體研究投入與計算資源所占比例。)
5AI肯定會有自我意識
可以肯定,機器會有自我意識。對于人類個體來說,終極的獎勵機制,就是人類的意識,以及從中產生的意義。當機器會為自己設定獎勵函數后,肯定會產生自我意識。這已經不再是個哲學問題,或者說不是存在意義上的哲學問題,而是一個在倫理意義上的哲學問題,也是個工程問題。
Ilya認為超級智能將會產生自我意識?!盀槭裁床荒??自我意識是有用的,就像我們人類,意識是自我的一部分,自我意識是我們世界模型的一部分?!?/p>
6 東方的頓悟
論文中提到了DeepSeek的推理模型進行強化學習訓練時,所出現的“頓悟時刻”。
一個有趣的“頓悟時刻”出現在DeepSeek-R1-Zero的中間版本中。該模型學會了以擬人化的語氣重新思考。這對我們來說也是一個頓悟時刻,讓我們見證了強化學習的力量與美感。
(來源:DeepSeek R1論文)
7 人類需要獨立于自己的智能
論文表達了這樣一個意思,如果說AI產生了garbage in, garbage out的結果,那也可能是因為人類自己在科學與迷信、真實與謬誤上還分不清:
一個被訓練來模仿人類思想甚至匹配人類專家答案的智能體,可能會繼承深深嵌入在數據中的謬誤思維方法,例如有缺陷的假設或內在的偏見。
想想看,當互聯網上的語言已經被虛假的信息和垃圾內容污染后,而烏合之眾又以此為自己的精神食糧,可能以后AI的價值,在于幫助人們獲得最起碼的知識營養。
人類要為自己的認知備份,那就是讓機器更加科學地思考,從體驗中產生更真實的數據,更真誠的獎勵機制。我們需要一個與人類對照的智能。
8 真正的智能體
它有長期記憶,有短期目標與長期目標,它可能在即時的獎勵機制中犯下錯誤 ,但是會根據長期獎勵機制進行糾錯。這才是真正的智能體,持續糾錯,終身學習。
9 科學大發現
論文中提到最多的,是下一代智能體對科學探索的價值。一旦擺脫以人為中心的強化學習,下一代智能體將會超越人類已有的知識。體驗式學習把知識扎根于真實的世界中,并且從世界模型中預測和產生獎勵機制,在與環境的互動過程中,不斷試錯,這非常類似于人類的科學探索過程:
也許最具變革意義的將是科學發現的加速。人工智能智能體將在材料科學、醫學或硬件設計等領域自主設計和進行實驗。通過不斷從自身實驗的結果中學習,這些智能體可以迅速探索新的知識前沿,從而以前所未有的速度開發出新型材料、藥物和技術。
10 后果
人類自負。
論文來源:
https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.