網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

走向通用人工智能之路，世界模型為何不可或缺？

2025-07-02 09:37:41　來源: 集智俱樂部

北京舉報(bào)

分享至

摘要

世界模型是靈活的目標(biāo)導(dǎo)向行為的必要因素，還是無模型學(xué)習(xí)就足夠了？我們對(duì)這個(gè)問題給出了正式的答案，表明任何能夠泛化到多步目標(biāo)導(dǎo)向任務(wù)的智能體都必須已經(jīng)學(xué)習(xí)到了其環(huán)境的預(yù)測(cè)模型。我們證明了可以從智能體的策略中提取出這個(gè)模型，并且提高智能體的性能或其能夠達(dá)成的目標(biāo)的復(fù)雜性需要學(xué)習(xí)越來越精確的世界模型。這帶來了諸多影響：從開發(fā)安全且通用的智能體，到界定復(fù)雜環(huán)境中智能體的能力，以及提供從智能體中獲取世界模型的新算法。

關(guān)鍵詞：世界模型 (world model)、模型無關(guān)學(xué)習(xí) (model-free learning)、目標(biāo)條件策略 (goal-conditioned policy)、后悔界 (regret bound)、環(huán)境預(yù)測(cè) (predictive model)、線性時(shí)序邏輯 (Linear Temporal Logic)

彭晨丨作者

論文題目：General agents need world models 發(fā)表時(shí)間：2025年6月2日論文地址：https://arxiv.org/abs/2506.01622 論文會(huì)議：ICML 2025

背景

近年來，隨著少樣本（few-shot）與零樣本（zero-shot）學(xué)習(xí)在大語言模型中的突破，人們對(duì)通用智能體（general agents）是否必須構(gòu)建“世界模型”展開了激烈爭(zhēng)論。一方面，純粹的無模型學(xué)習(xí)（model-free learning）已在諸多任務(wù)中展現(xiàn)出驚人泛化能力；另一方面，心理學(xué)與認(rèn)知科學(xué)則強(qiáng)調(diào)人類在進(jìn)行多步規(guī)劃時(shí)依賴豐富的環(huán)境表征（world models）。本文由Richens等人正式回答了這一問題：任何能夠在多步目標(biāo)導(dǎo)向任務(wù)上保持較低后悔（regret）的智能體，都必然學(xué)會(huì)了環(huán)境的預(yù)測(cè)模型。

人類智能與世界模型

人類可以憑借心智表征預(yù)演未來、設(shè)定抽象目標(biāo)，進(jìn)而在從未見過的場(chǎng)景中靈活行動(dòng)。這些“世界模型（world models）”早在1983年就被提出[1]，用以解釋我們?nèi)绾螐母泄佥斎胫刑摮鰜恚M(jìn)行主動(dòng)規(guī)劃。然而，在機(jī)器學(xué)習(xí)領(lǐng)域，Brooks等人曾宣稱“世界即模型”，純粹依賴感知-動(dòng)作循環(huán)的模型無關(guān)智能體同樣能夠涌現(xiàn)出智能行為。本文在此爭(zhēng)論框架下出發(fā)，給出了一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)答案。

圖 1. 本文的結(jié)果補(bǔ)充了之前關(guān)于規(guī)劃和逆向RL的見解。規(guī)劃使用世界模型和目標(biāo)來確定策略，逆向RL和逆規(guī)劃使用智能體的策略和世界模型來確定其目標(biāo)，而本文使用智能體的策略和目標(biāo)來確定世界模型。

問題描述：受控馬爾可夫過程與目標(biāo)條件策略

研究者將環(huán)境形式化為受控馬爾可夫過程（controlled Markov process），只包含狀態(tài)空間 S、動(dòng)作空間 A 以及轉(zhuǎn)移函數(shù)Pss'(a)，未指定獎(jiǎng)勵(lì)或折扣。智能體被定義為一類“目標(biāo)條件策略”（goal-conditioned policy），即策略π(at|ht;Ψ)同時(shí)依賴歷史ht和用戶指定的復(fù)合目標(biāo)Ψ。為了對(duì)比不同目標(biāo)復(fù)雜度，對(duì)“復(fù)合目標(biāo)”引入線性時(shí)序邏輯（Linear Temporal Logic, LTL），將單步目標(biāo)（Now/Next/Eventually）和子目標(biāo)序列（sequential goals）、或并組合（disjunction）納入統(tǒng)一框架。

圖 2.智能體-環(huán)境系統(tǒng)。智能體是從狀態(tài)st（或歷史）和目標(biāo)ψ到動(dòng)作at的映射。

核心理論：后悔界與世界模型的等價(jià)性

對(duì)任何一個(gè)有限深度n 的復(fù)合目標(biāo)集合 Ψ?，若一個(gè)策略 π 能夠在所有 ψ∈Ψ? 上滿足

即保持最大策略的 1–δ 成績(jī)（δ為后悔界），則可以從該策略本身精確地“回收”出一個(gè)轉(zhuǎn)移函數(shù)近似。研究證明：隨著目標(biāo)深度 n 增大、或后悔界 δ→0，近似誤差以 O(δ/√n)+O(1/n) 速度收斂于 0。這一結(jié)果表明，若智能體能在多步長(zhǎng)進(jìn)程目標(biāo)上保持較低后悔水平，就必然學(xué)到了環(huán)境的預(yù)測(cè)模型，二者在信息論上等價(jià)。

算法實(shí)踐：從策略抽取環(huán)境模型

基于上述定理，作者進(jìn)一步設(shè)計(jì)了一個(gè)無監(jiān)督且通用的世界模型回收算法。該算法僅與策略 π 和目標(biāo)生成器交互，不依賴智能體內(nèi)部網(wǎng)絡(luò)激活或?qū)Νh(huán)境的額外訪問。它構(gòu)造一系列“互斥子目標(biāo)”ψ?∨ψ?，統(tǒng)計(jì)策略 π 在不同時(shí)刻對(duì)兩者的選擇概率，通過二項(xiàng)分布中位數(shù)的猜測(cè)反演出轉(zhuǎn)移函數(shù)Pss'(a)的估計(jì)值，并以理論界限保證估計(jì)誤差。

實(shí)驗(yàn)驗(yàn)證：模型精度隨任務(wù)深度演進(jìn)

在一組隨機(jī)生成的 20 狀態(tài)、5 動(dòng)作受控馬氏過程環(huán)境中，研究訓(xùn)練了多批智能體，并測(cè)量它們對(duì)不同目標(biāo)深度 ψ 的平均后悔?δ?。結(jié)果顯示，即使這些智能體在某些目標(biāo)上后悔達(dá) 1（完全失效），只要它們對(duì)深度 n 目標(biāo)在平均后悔 ?δ? 水平較低，算法依然能以～O(n?1?2) 速率回收高精度環(huán)境模型。這一實(shí)證驗(yàn)證了定理的魯棒性：即便嚴(yán)格假設(shè)不完全滿足，策略中隱含的“世界模型”依然可提取。

圖 3. a) 根據(jù)算法重建的世界模型中的平均誤差， ?λ?，隨著智能體學(xué)習(xí)推廣到更高深度的目標(biāo)而減少。B)?δ(n= 50)?的平均誤差縮放，智能體為深度n= 50個(gè)目標(biāo)實(shí)現(xiàn)的平均后悔。

深度討論：模型學(xué)習(xí)的多重意義

本文的理論與實(shí)證結(jié)果帶來多重啟示：首先，無模型通向通用智能之路并不存在——任何長(zhǎng)期目標(biāo)泛化都要求模型學(xué)習(xí)，否則后悔將不可避免；其次，隱式世界模型或許正是大規(guī)模語言模型等“基礎(chǔ)模型”（foundation models）中涌現(xiàn)能力的根本機(jī)制；再次，對(duì)安全與可解釋性的需求也因而得到理論保障：我們可從“黑箱”策略中提煉出預(yù)測(cè)模型，用于計(jì)劃驗(yàn)證與風(fēng)險(xiǎn)評(píng)估；最后，定理反轉(zhuǎn)了“好調(diào)節(jié)者定理”（Good Regulator Theorem），不僅展示劑對(duì)環(huán)境的最優(yōu)控制暗示模型存在，也給出了可構(gòu)造回收映射。

擁抱世界模型，邁向通用智能

研究從信息論視角正式回答了“通用智能體是否需要世界模型”的基礎(chǔ)問題：要想在多步復(fù)雜目標(biāo)中保持低后悔，就必須學(xué)會(huì)環(huán)境轉(zhuǎn)移函數(shù)的近似，二者在本質(zhì)上等價(jià)。未來，通用人工智能研究應(yīng)正視世界模型學(xué)習(xí)的挑戰(zhàn)與價(jià)值，不再將其視作可選項(xiàng)，而是通向可靠性、效率與可解釋性的核心路徑。

如果你對(duì)大模型可解釋性的話題感興趣，歡迎你報(bào)名集智最近策劃的「」，詳情見文末。

參考文獻(xiàn)：

1. Johnson-Laird, P. N. Mental models: Towards a cognitive science of language, inference, and consciousness. Number 6. Harvard University Press, 1983.

大模型可解釋性讀書會(huì)

集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會(huì)旨在突破大模型“黑箱”困境，嘗試從以下四個(gè)視角梳理大語言模型可解釋性的科學(xué)方法論：

自下而上：Transformer circuit 為什么有效？

自上而下：神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚？

復(fù)雜科學(xué)：滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力？

系統(tǒng)工程：如何擁抱不確定性，在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值？

五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文，現(xiàn)誠邀對(duì)此話題感興趣的朋友，一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū)，通過互相的交流與碰撞，促進(jìn)我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者，探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者，還是追求模型安全可信的工程實(shí)踐者，誠邀您共同參與這場(chǎng)揭開大模型“黑箱”的思想盛宴。

讀書會(huì)計(jì)劃于2025年6月19日啟動(dòng)，每周四晚19:30-21:30，預(yù)計(jì)持續(xù)分享10周左右。

詳情請(qǐng)見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.