摘要
世界模型是靈活的目標(biāo)導(dǎo)向行為的必要因素,還是無模型學(xué)習(xí)就足夠了?我們對(duì)這個(gè)問題給出了正式的答案,表明任何能夠泛化到多步目標(biāo)導(dǎo)向任務(wù)的智能體都必須已經(jīng)學(xué)習(xí)到了其環(huán)境的預(yù)測(cè)模型。我們證明了可以從智能體的策略中提取出這個(gè)模型,并且提高智能體的性能或其能夠達(dá)成的目標(biāo)的復(fù)雜性需要學(xué)習(xí)越來越精確的世界模型。這帶來了諸多影響:從開發(fā)安全且通用的智能體,到界定復(fù)雜環(huán)境中智能體的能力,以及提供從智能體中獲取世界模型的新算法。
關(guān)鍵詞:世界模型 (world model)、模型無關(guān)學(xué)習(xí) (model-free learning)、目標(biāo)條件策略 (goal-conditioned policy)、后悔界 (regret bound)、環(huán)境預(yù)測(cè) (predictive model)、線性時(shí)序邏輯 (Linear Temporal Logic)
彭晨丨作者
論文題目:General agents need world models 發(fā)表時(shí)間:2025年6月2日 論文地址:https://arxiv.org/abs/2506.01622 論文會(huì)議:ICML 2025
背景
近年來,隨著少樣本(few-shot)與零樣本(zero-shot)學(xué)習(xí)在大語言模型中的突破,人們對(duì)通用智能體(general agents)是否必須構(gòu)建“世界模型”展開了激烈爭(zhēng)論。一方面,純粹的無模型學(xué)習(xí)(model-free learning)已在諸多任務(wù)中展現(xiàn)出驚人泛化能力;另一方面,心理學(xué)與認(rèn)知科學(xué)則強(qiáng)調(diào)人類在進(jìn)行多步規(guī)劃時(shí)依賴豐富的環(huán)境表征(world models)。本文由Richens等人正式回答了這一問題:任何能夠在多步目標(biāo)導(dǎo)向任務(wù)上保持較低后悔(regret)的智能體,都必然學(xué)會(huì)了環(huán)境的預(yù)測(cè)模型。
人類智能與世界模型
人類可以憑借心智表征預(yù)演未來、設(shè)定抽象目標(biāo),進(jìn)而在從未見過的場(chǎng)景中靈活行動(dòng)。這些“世界模型(world models)”早在1983年就被提出[1],用以解釋我們?nèi)绾螐母泄佥斎胫刑摮鰜恚M(jìn)行主動(dòng)規(guī)劃。然而,在機(jī)器學(xué)習(xí)領(lǐng)域,Brooks等人曾宣稱“世界即模型”,純粹依賴感知-動(dòng)作循環(huán)的模型無關(guān)智能體同樣能夠涌現(xiàn)出智能行為。本文在此爭(zhēng)論框架下出發(fā),給出了一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)答案。
圖 1. 本文的結(jié)果補(bǔ)充了之前關(guān)于規(guī)劃和逆向RL的見解。規(guī)劃使用世界模型和目標(biāo)來確定策略,逆向RL和逆規(guī)劃使用智能體的策略和世界模型來確定其目標(biāo),而本文使用智能體的策略和目標(biāo)來確定世界模型。
問題描述:受控馬爾可夫過程與目標(biāo)條件策略
研究者將環(huán)境形式化為受控馬爾可夫過程(controlled Markov process),只包含狀態(tài)空間 S、動(dòng)作空間 A 以及轉(zhuǎn)移函數(shù)Pss'(a),未指定獎(jiǎng)勵(lì)或折扣。智能體被定義為一類“目標(biāo)條件策略”(goal-conditioned policy),即策略π(at|ht;Ψ)同時(shí)依賴歷史ht和用戶指定的復(fù)合目標(biāo)Ψ。為了對(duì)比不同目標(biāo)復(fù)雜度,對(duì)“復(fù)合目標(biāo)”引入線性時(shí)序邏輯(Linear Temporal Logic, LTL),將單步目標(biāo)(Now/Next/Eventually)和子目標(biāo)序列(sequential goals)、或并組合(disjunction)納入統(tǒng)一框架。
圖 2.智能體-環(huán)境系統(tǒng)。智能體是從狀態(tài)st(或歷史)和目標(biāo)ψ到動(dòng)作at的映射。
核心理論:后悔界與世界模型的等價(jià)性
對(duì)任何一個(gè)有限深度n 的復(fù)合目標(biāo)集合 Ψ?,若一個(gè)策略 π 能夠在所有 ψ∈Ψ? 上滿足
即保持最大策略的 1–δ 成績(jī)(δ為后悔界 ),則可以從該策略本身精確地“回收”出一個(gè)轉(zhuǎn)移函數(shù)近似。研究證明:隨著目標(biāo)深度 n 增大、或后悔界 δ→0,近似誤差以 O(δ/√n)+O(1/n) 速度收斂于 0。這一結(jié)果表明,若智能體能在多步長(zhǎng)進(jìn)程目標(biāo)上保持較低后悔水平,就必然學(xué)到了環(huán)境的預(yù)測(cè)模型,二者在信息論上等價(jià)。
算法實(shí)踐:從策略抽取環(huán)境模型
基于上述定理,作者進(jìn)一步設(shè)計(jì)了一個(gè)無監(jiān)督且通用的世界模型回收算法。該算法僅與策略 π 和目標(biāo)生成器交互,不依賴智能體內(nèi)部網(wǎng)絡(luò)激活或?qū)Νh(huán)境的額外訪問。它構(gòu)造一系列“互斥子目標(biāo)”ψ?∨ψ?,統(tǒng)計(jì)策略 π 在不同時(shí)刻對(duì)兩者的選擇概率,通過二項(xiàng)分布中位數(shù)的猜測(cè)反演出轉(zhuǎn)移函數(shù)Pss'(a)的估計(jì)值,并以理論界限保證估計(jì)誤差。
實(shí)驗(yàn)驗(yàn)證:模型精度隨任務(wù)深度演進(jìn)
在一組隨機(jī)生成的 20 狀態(tài)、5 動(dòng)作受控馬氏過程環(huán)境中,研究訓(xùn)練了多批智能體,并測(cè)量它們對(duì)不同目標(biāo)深度 ψ 的平均后悔?δ?。結(jié)果顯示,即使這些智能體在某些目標(biāo)上后悔達(dá) 1(完全失效),只要它們對(duì)深度 n 目標(biāo)在平均后悔 ?δ? 水平較低,算法依然能以 ~O(n?1?2) 速率回收高精度環(huán)境模型。這一實(shí)證驗(yàn)證了定理的魯棒性:即便嚴(yán)格假設(shè)不完全滿足,策略中隱含的“世界模型”依然可提取。
圖 3. a) 根據(jù)算法重建的世界模型中的平均誤差, ?λ?,隨著智能體學(xué)習(xí)推廣到更高深度的目標(biāo)而減少。B)?δ(n= 50)?的平均誤差縮放,智能體為深度n= 50個(gè)目標(biāo)實(shí)現(xiàn)的平均后悔。
深度討論:模型學(xué)習(xí)的多重意義
本文的理論與實(shí)證結(jié)果帶來多重啟示:首先,無模型通向通用智能之路并不存在——任何長(zhǎng)期目標(biāo)泛化都要求模型學(xué)習(xí),否則后悔將不可避免;其次,隱式世界模型或許正是大規(guī)模語言模型等“基礎(chǔ)模型”(foundation models)中涌現(xiàn)能力的根本機(jī)制;再次,對(duì)安全與可解釋性的需求也因而得到理論保障:我們可從“黑箱”策略中提煉出預(yù)測(cè)模型,用于計(jì)劃驗(yàn)證與風(fēng)險(xiǎn)評(píng)估;最后,定理反轉(zhuǎn)了“好調(diào)節(jié)者定理”(Good Regulator Theorem),不僅展示劑對(duì)環(huán)境的最優(yōu)控制暗示模型存在,也給出了可構(gòu)造回收映射。
擁抱世界模型,邁向通用智能
研究從信息論視角正式回答了“通用智能體是否需要世界模型”的基礎(chǔ)問題:要想在多步復(fù)雜目標(biāo)中保持低后悔,就必須學(xué)會(huì)環(huán)境轉(zhuǎn)移函數(shù)的近似,二者在本質(zhì)上等價(jià)。未來,通用人工智能研究應(yīng)正視世界模型學(xué)習(xí)的挑戰(zhàn)與價(jià)值,不再將其視作可選項(xiàng),而是通向可靠性、效率與可解釋性的核心路徑。
如果你對(duì)大模型可解釋性的話題感興趣,歡迎你報(bào)名集智最近策劃的「」,詳情見文末。
參考文獻(xiàn):
1. Johnson-Laird, P. N. Mental models: Towards a cognitive science of language, inference, and consciousness. Number 6. Harvard University Press, 1983.
大模型可解釋性讀書會(huì)
集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會(huì)旨在突破大模型“黑箱”困境,嘗試從以下四個(gè)視角梳理大語言模型可解釋性的科學(xué)方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?
復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?
系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值?
五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠邀對(duì)此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過互相的交流與碰撞,促進(jìn)我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實(shí)踐者,誠邀您共同參與這場(chǎng)揭開大模型“黑箱”的思想盛宴。
讀書會(huì)計(jì)劃于2025年6月19日啟動(dòng),每周四晚19:30-21:30,預(yù)計(jì)持續(xù)分享10周左右。
詳情請(qǐng)見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.