99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

走向通用人工智能之路,世界模型為何不可或缺?

0
分享至


摘要

世界模型是靈活的目標(biāo)導(dǎo)向行為的必要因素,還是無模型學(xué)習(xí)就足夠了?我們對(duì)這個(gè)問題給出了正式的答案,表明任何能夠泛化到多步目標(biāo)導(dǎo)向任務(wù)的智能體都必須已經(jīng)學(xué)習(xí)到了其環(huán)境的預(yù)測(cè)模型。我們證明了可以從智能體的策略中提取出這個(gè)模型,并且提高智能體的性能或其能夠達(dá)成的目標(biāo)的復(fù)雜性需要學(xué)習(xí)越來越精確的世界模型。這帶來了諸多影響:從開發(fā)安全且通用的智能體,到界定復(fù)雜環(huán)境中智能體的能力,以及提供從智能體中獲取世界模型的新算法。

關(guān)鍵詞:世界模型 (world model)、模型無關(guān)學(xué)習(xí) (model-free learning)、目標(biāo)條件策略 (goal-conditioned policy)、后悔界 (regret bound)、環(huán)境預(yù)測(cè) (predictive model)、線性時(shí)序邏輯 (Linear Temporal Logic)

彭晨丨作者


論文題目:General agents need world models 發(fā)表時(shí)間:2025年6月2日 論文地址:https://arxiv.org/abs/2506.01622 論文會(huì)議:ICML 2025

背景

近年來,隨著少樣本(few-shot)與零樣本(zero-shot)學(xué)習(xí)在大語言模型中的突破,人們對(duì)通用智能體(general agents)是否必須構(gòu)建“世界模型”展開了激烈爭(zhēng)論。一方面,純粹的無模型學(xué)習(xí)(model-free learning)已在諸多任務(wù)中展現(xiàn)出驚人泛化能力;另一方面,心理學(xué)與認(rèn)知科學(xué)則強(qiáng)調(diào)人類在進(jìn)行多步規(guī)劃時(shí)依賴豐富的環(huán)境表征(world models)。本文由Richens等人正式回答了這一問題:任何能夠在多步目標(biāo)導(dǎo)向任務(wù)上保持較低后悔(regret)的智能體,都必然學(xué)會(huì)了環(huán)境的預(yù)測(cè)模型。

人類智能與世界模型

人類可以憑借心智表征預(yù)演未來、設(shè)定抽象目標(biāo),進(jìn)而在從未見過的場(chǎng)景中靈活行動(dòng)。這些“世界模型(world models)”早在1983年就被提出[1],用以解釋我們?nèi)绾螐母泄佥斎胫刑摮鰜恚M(jìn)行主動(dòng)規(guī)劃。然而,在機(jī)器學(xué)習(xí)領(lǐng)域,Brooks等人曾宣稱“世界即模型”,純粹依賴感知-動(dòng)作循環(huán)的模型無關(guān)智能體同樣能夠涌現(xiàn)出智能行為。本文在此爭(zhēng)論框架下出發(fā),給出了一個(gè)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)答案。


圖 1. 本文的結(jié)果補(bǔ)充了之前關(guān)于規(guī)劃和逆向RL的見解。規(guī)劃使用世界模型和目標(biāo)來確定策略,逆向RL和逆規(guī)劃使用智能體的策略和世界模型來確定其目標(biāo),而本文使用智能體的策略和目標(biāo)來確定世界模型。

問題描述:受控馬爾可夫過程與目標(biāo)條件策略

研究者將環(huán)境形式化為受控馬爾可夫過程(controlled Markov process),只包含狀態(tài)空間 S、動(dòng)作空間 A 以及轉(zhuǎn)移函數(shù)Pss'(a),未指定獎(jiǎng)勵(lì)或折扣。智能體被定義為一類“目標(biāo)條件策略”(goal-conditioned policy),即策略π(at|ht;Ψ)同時(shí)依賴歷史ht和用戶指定的復(fù)合目標(biāo)Ψ。為了對(duì)比不同目標(biāo)復(fù)雜度,對(duì)“復(fù)合目標(biāo)”引入線性時(shí)序邏輯(Linear Temporal Logic, LTL),將單步目標(biāo)(Now/Next/Eventually)和子目標(biāo)序列(sequential goals)、或并組合(disjunction)納入統(tǒng)一框架。


圖 2.智能體-環(huán)境系統(tǒng)。智能體是從狀態(tài)st(或歷史)和目標(biāo)ψ到動(dòng)作at的映射。

核心理論:后悔界與世界模型的等價(jià)性

對(duì)任何一個(gè)有限深度n 的復(fù)合目標(biāo)集合 Ψ?,若一個(gè)策略 π 能夠在所有 ψ∈Ψ? 上滿足

即保持最大策略的 1–δ 成績(jī)(δ為后悔界 ),則可以從該策略本身精確地“回收”出一個(gè)轉(zhuǎn)移函數(shù)近似。研究證明:隨著目標(biāo)深度 n 增大、或后悔界 δ→0,近似誤差以 O(δ/√n)+O(1/n) 速度收斂于 0。這一結(jié)果表明,若智能體能在多步長(zhǎng)進(jìn)程目標(biāo)上保持較低后悔水平,就必然學(xué)到了環(huán)境的預(yù)測(cè)模型,二者在信息論上等價(jià)。

算法實(shí)踐:從策略抽取環(huán)境模型

基于上述定理,作者進(jìn)一步設(shè)計(jì)了一個(gè)無監(jiān)督通用的世界模型回收算法。該算法僅與策略 π 和目標(biāo)生成器交互,不依賴智能體內(nèi)部網(wǎng)絡(luò)激活或?qū)Νh(huán)境的額外訪問。它構(gòu)造一系列“互斥子目標(biāo)”ψ?∨ψ?,統(tǒng)計(jì)策略 π 在不同時(shí)刻對(duì)兩者的選擇概率,通過二項(xiàng)分布中位數(shù)的猜測(cè)反演出轉(zhuǎn)移函數(shù)Pss'(a)的估計(jì)值,并以理論界限保證估計(jì)誤差。

實(shí)驗(yàn)驗(yàn)證:模型精度隨任務(wù)深度演進(jìn)

在一組隨機(jī)生成的 20 狀態(tài)、5 動(dòng)作受控馬氏過程環(huán)境中,研究訓(xùn)練了多批智能體,并測(cè)量它們對(duì)不同目標(biāo)深度 ψ 的平均后悔?δ?。結(jié)果顯示,即使這些智能體在某些目標(biāo)上后悔達(dá) 1(完全失效),只要它們對(duì)深度 n 目標(biāo)在平均后悔 ?δ? 水平較低,算法依然能以 ~O(n?1?2) 速率回收高精度環(huán)境模型。這一實(shí)證驗(yàn)證了定理的魯棒性:即便嚴(yán)格假設(shè)不完全滿足,策略中隱含的“世界模型”依然可提取。


圖 3. a) 根據(jù)算法重建的世界模型中的平均誤差, ?λ?,隨著智能體學(xué)習(xí)推廣到更高深度的目標(biāo)而減少。B)?δ(n= 50)?的平均誤差縮放,智能體為深度n= 50個(gè)目標(biāo)實(shí)現(xiàn)的平均后悔。

深度討論:模型學(xué)習(xí)的多重意義

本文的理論與實(shí)證結(jié)果帶來多重啟示:首先,無模型通向通用智能之路并不存在——任何長(zhǎng)期目標(biāo)泛化都要求模型學(xué)習(xí),否則后悔將不可避免;其次,隱式世界模型或許正是大規(guī)模語言模型等“基礎(chǔ)模型”(foundation models)中涌現(xiàn)能力的根本機(jī)制;再次,對(duì)安全與可解釋性的需求也因而得到理論保障:我們可從“黑箱”策略中提煉出預(yù)測(cè)模型,用于計(jì)劃驗(yàn)證與風(fēng)險(xiǎn)評(píng)估;最后,定理反轉(zhuǎn)了“好調(diào)節(jié)者定理”(Good Regulator Theorem),不僅展示劑對(duì)環(huán)境的最優(yōu)控制暗示模型存在,也給出了可構(gòu)造回收映射

擁抱世界模型,邁向通用智能

研究從信息論視角正式回答了“通用智能體是否需要世界模型”的基礎(chǔ)問題:要想在多步復(fù)雜目標(biāo)中保持低后悔,就必須學(xué)會(huì)環(huán)境轉(zhuǎn)移函數(shù)的近似,二者在本質(zhì)上等價(jià)。未來,通用人工智能研究應(yīng)正視世界模型學(xué)習(xí)的挑戰(zhàn)與價(jià)值,不再將其視作可選項(xiàng),而是通向可靠性、效率與可解釋性的核心路徑。

如果你對(duì)大模型可解釋性的話題感興趣,歡迎你報(bào)名集智最近策劃的「」,詳情見文末。

參考文獻(xiàn):

1. Johnson-Laird, P. N. Mental models: Towards a cognitive science of language, inference, and consciousness. Number 6. Harvard University Press, 1983.

大模型可解釋性讀書會(huì)

集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會(huì)旨在突破大模型“黑箱”困境,嘗試從以下四個(gè)視角梳理大語言模型可解釋性的科學(xué)方法論:

自下而上:Transformer circuit 為什么有效?

自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?

復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?

系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值?

五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠邀對(duì)此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過互相的交流與碰撞,促進(jìn)我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實(shí)踐者,誠邀您共同參與這場(chǎng)揭開大模型“黑箱”的思想盛宴。

讀書會(huì)計(jì)劃于2025年6月19日啟動(dòng),每周四晚19:30-21:30,預(yù)計(jì)持續(xù)分享10周左右。

詳情請(qǐng)見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京軍區(qū)司令空缺,林彪趁機(jī)點(diǎn)將,毛主席反問:是你四野的人吧?

北京軍區(qū)司令空缺,林彪趁機(jī)點(diǎn)將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機(jī)壞了!官方緊急回應(yīng)

突然崩了!很多人以為手機(jī)壞了!官方緊急回應(yīng)

浙江之聲
2025-07-21 11:06:07
宗澤后對(duì)親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險(xiǎn)了

宗澤后對(duì)親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險(xiǎn)了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時(shí)我看起來沮喪只因?yàn)槲蚁胨X

楊瀚森:不在乎別人看法,有時(shí)我看起來沮喪只因?yàn)槲蚁胨X

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財(cái)長(zhǎng):中國“垃圾產(chǎn)品”,誓言清零中國制造

歐盟向我國出手后,德財(cái)長(zhǎng):中國“垃圾產(chǎn)品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛(wèi)生間男女標(biāo)識(shí)亂象叢生,抽象粗俗、不良暗示,人民日?qǐng)?bào)下場(chǎng)怒批

衛(wèi)生間男女標(biāo)識(shí)亂象叢生,抽象粗俗、不良暗示,人民日?qǐng)?bào)下場(chǎng)怒批

大魚簡(jiǎn)科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調(diào)查

LV近42萬香港客戶資料外泄,香港隱私公署展開調(diào)查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊(duì)記列新援優(yōu)缺點(diǎn)

湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊(duì)記列新援優(yōu)缺點(diǎn)

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊(duì)了!布倫森:我感覺每一年步行者都在賣特納

終于離隊(duì)了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

患者心跳未停就被開胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

中產(chǎn)生活指南針
2025-07-21 12:51:22
1962年對(duì)印反擊前夕,各元帥仍在爭(zhēng)論打不打,毛主席一錘定音:打

1962年對(duì)印反擊前夕,各元帥仍在爭(zhēng)論打不打,毛主席一錘定音:打

天夢(mèng)見證
2025-07-14 22:02:22
25歲男子在登山時(shí)凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時(shí)凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對(duì)象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對(duì)象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產(chǎn)證上的人去世了,家人一直住著,不辦過戶行不行?

房產(chǎn)證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5234文章數(shù) 4646關(guān)注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰(zhàn)術(shù)

娛樂要聞

周渝民談大S離開,F(xiàn)4會(huì)努力再合體

財(cái)經(jīng)要聞

宗馥莉?yàn)楹我獙?duì)"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設(shè)計(jì)師全新力作 榮威M7正式亮相

態(tài)度原創(chuàng)

教育
數(shù)碼
藝術(shù)
旅游
手機(jī)

教育要聞

南陽市中心城區(qū)2025年普通高中提前批分?jǐn)?shù)線公布!

數(shù)碼要聞

華為MatePad Pro 12.2英寸新平板定檔 標(biāo)準(zhǔn)/柔光雙版本

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

余承東自曝:華為Pura 80標(biāo)準(zhǔn)版7月23日開啟預(yù)售

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 西城区| 石柱| 仙桃市| 会宁县| 同德县| 吉水县| 永昌县| 洛南县| 宕昌县| 册亨县| 浠水县| 巴青县| 丽江市| 巴东县| 湘阴县| 揭西县| 石景山区| 宣城市| 繁昌县| 长岛县| 青浦区| 尚志市| 玉屏| 普兰县| 浦县| 平和县| 多伦县| 吴忠市| 黔江区| 尤溪县| 永年县| 雷波县| 文成县| 湾仔区| 应城市| 和林格尔县| 皋兰县| 呼玛县| 太保市| 耒阳市| 侯马市|