新智元報道
編輯:Aeneas KingHZ
【新智元導讀】就在剛剛,DeepMind科學家Jon Richens表示,自己的一篇ICML 2025論文發現,智能體就是世界模型!總之,如果要實現AGI,是絕對不存在無模型的捷徑的。而這個說法,恰巧跟Ilya 23年的預言不謀而合了。
就在剛剛,DeepMind科學家Jon Richens在ICML 2025上發表的論文,一石激起千層浪。
實現人類水平的智能體(即AGI),是否需要世界模型,還是存在無模型的捷徑?
他們從第一性原理出發,揭示了一個令人驚訝的答案——
智能體就是世界模型!
具體來說,對這個問題的形式化回答如下。
任何能夠泛化到多步目標導向任務的智能體,必然已經學習了其環境的預測模型。
這個模型可以從智能體的策略中提取出來;而要提升智能體的性能,或讓其完成更復雜的目標任務,就必須學習更精確的世界模型。
論文地址:https://arxiv.org/pdf/2506.01622
業界:意義重大
愛丁堡大學博士生Shangmin Guo表示,完全同意谷歌DeepMind的這個結論,而且他們也一直在有意讓訓練策略來進行世界建模。
巧的是,就在剛剛他們也發布了一篇文章,發現可以將策略和世界模型統一到一個LLM中,因此完全不需要外部動態模型!
而另一篇已經給RLC 2025投稿的文章中提出的觀點,也和這項研究相互印證。
還有人發現,這項研究跟2023年Ilya提出的一個說法,竟然不謀而合了——
存在一個更深層次的東西,一條支配所有智能體的基本法則。
還有人提出一個非常新奇的研究思路:圖——網絡圖——是世界模型非常好的抽象形式。因為沒有任何結構是我們無法用圖來描述的。
或許,世界模型對于AGI的重要性,恰恰就體現在通過降維來實現復雜性的實際問題。
存在無模型的捷徑嗎?
世界模型是人類目標導向的基礎,但在混亂的開放世界中很難學習。
不過,現在我們已經看到了通用的、無模型的很多智能體,比如Gato、PaLM-E、Pi-0……
所以,這些智能體究竟是學習了隱式的世界模型,還是找到了另一種泛化到新任務的方法?
經過探究后,研究者們發現:任何能泛化到廣泛簡單目標導向任務的智能體,必然已經學會了一個能夠模擬其環境的預測模型。并且,這個模型始終可以從智能體中恢復。
具體來說,他們展示出:在足夠廣泛的一組簡單目標(例如將環境引導至某個期望狀態)上,只要一個以目標為條件的策略滿足一定的后悔值上界,就有可能從該策略中恢復出一個對環境轉移函數的有界誤差近似!
總之,為了實現更低的后悔值,或完成更復雜的目標,智能體必須學習越來越精確的世界模型。
而「以目標為條件的策略」,在信息上實際就等價于世界模型!
不過,這種等價僅適用于具有多步時間跨度的目標,而那些目光短淺的智能體因為只考慮眼前的回報,就并不需要學習世界模型了。
總之,根本不存在這樣一條「無模型的捷徑」!
如果你想訓練一個能夠完成廣泛目標導向任務的智能體,就無法回避學習世界模型的挑戰。
而且,為了提升性能或通用性,智能體還需要學習越來越精確和詳細的世界模型。
所以,智能體中究竟蘊含了什么世界知識呢?
為了探尋這個答案,研究者們推導出了一些算法,能夠在已知智能體策略和目標的情況下恢復其世界模型。
這些算法補全了規劃和逆強化學習的三位一體關系。
規劃:世界模型+目標→策略
逆強化學習:世界模型+策略→目標
研究者提出的這一環:策略+目標→世界模型
在這個過程中,智能體就體現出了驚人的涌現能力!
這是因為,為了在眾多目標上最小化訓練損失,智能體必須學習一個世界模型,這使得它能夠解決一些并未被明確訓練過的任務。
哪怕只是簡單的目標導向性,也能催生出多種能力,比如社會認知、對不確定性的推理、意圖識別等。
另外,在此前的研究中,他們發現要實現魯棒性,需要一個因果世界模型。
但事實上,任務泛化并不需要對環境具備太多的因果知識。
在這里,就存在因果層級體系,不過它針對的是智能體性與智能體能力,而不是針對推理過程的。
下面,就讓我們仔細閱讀這篇精彩的論文,開啟一場思維盛宴!
人類智能的特征,就是世界模型
人類智能的一大特征,是能夠在幾乎沒有監督的情況下完成新任務,這種能力可以被形式化為「小樣本學習」和「零樣本學習」。
而現在,LLM開始展現出這些能力,這也就給了我們AGI的期待——能在復雜現實環境中完成長時序、以目標為導向任務的系統。
在人類中,這種靈活的目標導向行為,高度依賴于對世界的豐富心理表征,也就是所謂「世界模型」。
不過,如果要實現AGI,必須先擁有世界模型嗎?
這個問題,在業界一直存在爭論。
1991年,Brooks在《沒有表征的智能》中提出了著名觀點:世界本身就是最好的模型。所有智能行為都可以通過智能體在「感知-行動」回路中的交互產生,無需學習顯式的世界表征。
論文鏈接:https://people.csail.mit.edu/brooks/papers/representation.pdf
然而,越來越多的證據表明,實際上,無模型智能體可能在隱式地學習世界模型,甚至在學習隱式規劃算法。
這就引出了一個根本性問題:我們是否可以通過「無模型捷徑」實現人類級別的AI?還是說,學習一個世界模型是不可避免的?
如果必須要有世界模型,那它究竟需要多精確、多全面,才能支撐起某一水平的能力?
本篇論文的答案是——
在一組足夠多樣的簡單目標任務中,任何能夠滿足「后悔值界限」的智能體,必然已經學習了其環境的準確預測模型。
換句話說:智能體策略中已經包含了準確模擬環境所需的全部信息。
更重要的是,研究者的這個結論對任何滿足「后悔值界限」的智能體都成立,無論它的訓練方式、體系結構,甚至不假設理性前提。
不僅如此,在第3節中,研究者還提出了從通用智能體中提取世界模型的新算法。
結果表明,即便智能體顯著偏離我們設定的「能力假設」,這些算法依然能夠恢復出準確的世界模型!
實驗設置
在這個實驗中,大寫字母表示隨機變量,小寫字母表示該變量的取值或狀態,即X=x。
我們假設環境是一個可控馬爾可夫過程,即沒有指定獎勵函數或折扣因子的馬爾可夫決策過程(MDP)。
形式上,一個cMP包含以下元素:
狀態集合S
動作集合A
轉移函數
將狀態–動作對隨時間演化的序列稱為軌跡,記作
軌跡的一個有限前綴稱為歷史,記作
定義1,就是一個可控馬爾科夫過程。
在假設1中,研究者假設環境是由一個不可約、平穩、有限維的可控馬爾可夫過程(定義1)描述的,且至少包含兩個動作。
而研究者的目標,就是定義一類簡單且直觀的目標,讓我們能合理地期望智能體能實現這些目標。
由此,他們提出了定義2。
利用定義2,就可以通過將目標以順序或并行方式組合起來,構造出復雜度不斷提升的復合目標。
順序組合:例如先完成目標φA,再完成目標φB;
并行組合:只要滿足φA或φB中任意一個即可。
然后,他們提出了定義3。
舉個例子來說,一個維修機器人被賦予以下任務:要么修理一臺故障的機器,要么找到一位工程師,并通知他機器出了問題。
修理機器需要執行一系列預定的動作a_1,a_2,…,a_N,并在每一步都達到對應的期望狀態s_1,s_2,…,s_N。
找到并通知工程師的過程,要求機器人移動到工程師所在的位置S=s_seng,并執行一個通知動作A=a′。
機器人的總體目標,可以表示為一個復合目標:ψ=ψ1∨ψ2。即:完成修理任務或完成通知任務中的任意一個即可。
智能體
這些研究的目標,就是提出一個最簡化定義,用于描述能夠在其環境中實現多種目標的智能體。
為此,研究者聚焦于目標條件智能體,這類智能體的策略,即是將歷史h_t和目標ψ映射為動作a_t(如圖2)。
圖中介紹了一個智能體-環境系統。
智能體是從當前狀態s_t(或歷史)和目標ψ映射到動作a_t的函數。
圖中的虛線表示算法1,該算法可以根據這個智能體映射關系恢復出環境的狀態轉移概率。
需注意,該定義并不限制智能體必須依賴完整環境歷史來選擇動作——
任何策略(例如馬爾可夫策略)均可由此表示。
為簡化分析,研究者假設:
完全可觀測性:環境狀態對智能體完全可見
確定性策略:智能體遵循確定性策略
基于此,自然可定義給定環境與目標集Ψ的最優目標條件智能體,即對于所有ψ ∈ Ψ,該策略最大化目標ψ的實現概率,見定義4。
現實中的智能體很少是最優的,尤其是在復雜環境中執行需要協調多個子目標、跨越較長時間跨度的任務時。
因此,研究者放寬了定義4了,定義了一類有界智能體(bounded agent),它能夠在某個最大目標深度Ψn內實現目標,其失敗率相對于最優智能體是有界的。
有界智能體由兩個參數定義(見下列定義5):
失敗率δ ∈ [0, 1],它為智能體完成目標的概率相對于最優智能體設定了一個下限(類似于「后悔」);
最大目標深度n,該后悔界限只對深度小于等于n的目標成立。
這種定義自然地涵蓋了我們關注的智能體類型——
它們在實現某種復雜度(由δ和Ψn參數化)目標方面具有一定能力。
重要的是,定義5僅假設智能體具備一定的能力。
智能體就是世界模型
最終,研究人員證明了條件策略與世界模型的「等價性」:
環境的轉移函數的近似(世界模型)僅由智能體的策略決定,并且具有有限的誤差。
因此,學習這樣目標條件策略在信息上等同于學習準確的世界模型。
這需要歸約證明,詳細證明見原文附錄。
具體而言,研究人員假設智能體是有目標條件的有限智能體(定義5),即它在某些有限深度n的目標導向任務中具有一定(下限的)能力(定義3)。
首先,研究者給出用于定理1證明中的過程——算法1(Algorithm 1)的偽代碼。
在給定后悔界限的目標條件策略情況下,算法1用于推導轉移概率的有界誤差估計。
隨后,研究者給出算法2(Algorithm 2),這是一個用于估計P?ss′(a)的替代算法,其誤差界限比算法1更弱,但實現方式明顯更為簡單。
算法組合拳
算法1,能從從一個有目標條件的有限智能體恢復有界誤差世界模型。
算法1是通用的,意味著該算法適用于所有滿足定義5的智能體和所有滿足假設1的環境。
它也是無監督的;該算法的唯一輸入是智能體的策略π。
這個算法的存在,將π轉化為一個有界誤差世界模型,意味著世界模型編碼在智能體的策略中,學習這樣的策略在信息上等同于學習一個世界模型。
從定理1中恢復的世界模型的準確性隨著智能體接近最優(δ→0)和/或能夠實現的順序目標的深度n增加而提高。
推導出的誤差界限的一個關鍵結論是,對于任何δ<1,如果n足夠大,我們就可以恢復一個任意準確的世界模型。
因此,為了實現長時間跨度的目標,即使失敗率較高(δ~1),智能體也必須學會一個高度準確的世界模型。
誤差界限還依賴于轉移概率。
這意味著對于任何δ>0和/或有限的n,可能存在低概率的轉移,智能體不需要學習這些轉移。
這與直覺一致,即次優或有限時間跨度的智能體,只需要學習覆蓋更常見轉移的稀疏世界模型。
但要實現更高成功率或更長時間跨度的目標,則需要更高分辨率的世界模型。
圖3:算法2恢復出的世界模型中的平均誤差???和平均誤差隨?δ(n=50)?變化的趨勢
圖3a顯示,隨著智能體泛化能力的提升,其恢復出的世界模型誤差(???)呈顯著下降趨勢。
這表明:為了在更復雜的目標上保持穩定表現,智能體必須構建更高精度的內部世界模型。
這一實驗驗證了理論推導中關于誤差收斂性的預期。
Nmax(?δ?=0.04)表示在智能體達到平均后悔值≤0.04的條件下,可實現的最大目標深度。誤差的縮放關系為O(n^?1/2),這與定理1中最壞情況下的誤差?與最壞情況下后悔值δ的縮放關系一致。
圖3b展示了平均誤差隨?δ(n=50)?變化的趨勢,即智能體在深度為n=50的目標上所達到的平均后悔值。
在兩張圖中,誤差條表示10次實驗中平均值的95%置信區間。
短視智能體:不必學習世界模型
定理1給出了一個微不足道的誤差界限,但這些世界模型只能從最大目標深度為1的智能體提取。
尚不清楚這是否意味著只優化即時結果的智能體(myopic agent,短視智能體)不需要學習世界模型,還是定理1能捕捉到這一類智能體。
為了解決這個問題,研究者推導出了針對短視智能體的結果。
這些智能體對于n=1滿足后悔界限,對于任何n>1只有一個微不足道的后悔界限(δ=1)。
定理2意味著不存在任何過程可以即使是部分地從短視智能體的策略中確定轉移概率。
定理2顯式構造最優的短視智能體來說明了這一點,詳細證明見原文附錄B。
因此,這種智能體的策略只能對轉移概率提供微不足道的界限。
所以,對于短視智能體而言,學習世界模型并不是必要的——
只有當智能體追求包含多個子目標、需要多步完成的任務時,世界模型才是必需的。
參考資料:
https://x.com/jonathanrichens/status/1930221408199516657
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.