99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

「世界模型」也被潑冷水了?邢波等人揭開五大「硬傷」,提出新范式

0
分享至


來源:機器之心報道

編輯:澤南、+0

現(xiàn)在的世界模型,值得批判。

我們知道,大語言模型(LLM)是通過預測對話的下一個單詞的形式產(chǎn)生輸出的。由此產(chǎn)生的對話、推理甚至創(chuàng)作能力已經(jīng)接近人類智力水平。

但目前看起來,ChatGPT 等大模型與真正的 AGI 還有肉眼可見的差距。如果我們能夠完美地模擬環(huán)境中每一個可能的未來,是否就可以創(chuàng)造出強大的 AI 了?回想一下人類:與 ChatGPT 不同,人類的能力組成有具體技能、深度復雜能力的區(qū)分。



模擬推理的案例:一個人(可能是自私的)通過心理模擬多個可能結(jié)果來幫助一個哭泣的人。

人類可以執(zhí)行廣泛的復雜任務,所有這些任務都基于相同的人類大腦認知架構(gòu)。是否存在一個人工智能系統(tǒng)也能完成所有這些任務呢?

近日,來自卡耐基梅隆大學(CMU)、阿聯(lián)酋穆罕默德?本?扎耶德人工智能大學(MBZUAI)、加州大學圣迭戈分校(UCSD)的研究者們探討了當前 AI 領域最前沿方向 —— 世界模型(World Models)的局限性。


  • 論文:Critiques of World Models

  • 論文鏈接:https://arxiv.org/abs/2507.05169

研究人員指出了構(gòu)建、訓練世界模型的五個重點方面:1)識別并準備包含目標世界信息的訓練數(shù)據(jù);2)采用一種通用表征空間來表示潛在世界狀態(tài),其含義可能比直接觀察到的數(shù)據(jù)更為豐富;3)設計能夠有效對表征進行推理的架構(gòu);4)選擇能正確指導模型訓練的目標函數(shù);5)確定如何在決策系統(tǒng)中運用世界模型。

基于此,作者提出了一種全新的世界模型架構(gòu) PAN(Physical, Agentic, and Nested AGI System),基于分層、多級和混合連續(xù) / 離散表示,并采用了生成式和自監(jiān)督學習框架。

研究者表示,PAN 世界模型的詳細信息及結(jié)果會很快在另一篇論文中展示。MBZUAI 校長、CMU 教授邢波在論文提交后轉(zhuǎn)推了這篇論文,并表示PAN 模型即將發(fā)布 27B 的第一版,這將是第一個可運行的通用世界模器。


對世界模型的批判

一個以 Yann LeCun 為代表的學派在構(gòu)建世界模型的五個維度 ——數(shù)據(jù)、表征、架構(gòu)、目標和用途。

該學派還為世界模型提出了如圖 4 所示的替代框架,其核心思想可以概括為「預測下一個表征」,而非「預測下一個數(shù)據(jù)」:


無文本預訓練該框架完全摒棄了文本數(shù)據(jù),轉(zhuǎn)而采用如視頻、音頻、嗅覺等連續(xù)的感官數(shù)據(jù)。

固定維度的連續(xù)狀態(tài)嵌入給定感官輸入 o,一個編碼器 h 將世界狀態(tài)估計為一個具有固定維度的抽象連續(xù)嵌入(例如,)。

編碼器 - 編碼器架構(gòu)世界模型 f 基于動作輸入 a,以一種確定性的方式預測下一個狀態(tài)嵌入。值得注意的是,該架構(gòu)不使用解碼器 g 來重構(gòu)下一個觀測 ,而是再次應用編碼器 h 處理真實的下一觀測 ,從而生成作為監(jiān)督學習的真實目標。

潛在空間中的重構(gòu)損失該框架并非通過比較重構(gòu)的下一感官輸入 與真實數(shù)據(jù) 來進行監(jiān)督,而是將學習建立在預測的下一狀態(tài) 與自舉生成的真實目標 之間的偏差之上(例如,使用 L2 損失)。

通過模型預測控制(MPC)選擇動作給定當前觀測 ,該框架傾向于先提出一個初始的動作序列,然后使用世界模型 f 模擬未來的狀態(tài),并最終基于目標進展來優(yōu)化這一動作序列。

盡管這些思路確實對當前世界模型的一些實踐提出了合理的問題,并描繪了吸引人的解決方案,但作者認為,當以實現(xiàn)智能體推理和決策為目的,去構(gòu)建通用、可擴展且魯棒的世界模型時,其每一項基本假設都會引入嚴重的局限性。

作者沿著他們構(gòu)建世界模型的五個維度,對他們提出的主張和建議逐一進行分析性批判。下面對每個觀點進行了概述,感興趣的讀者可以閱讀原文。

數(shù)據(jù):關鍵在于信息密度,而非數(shù)據(jù)量

待批判的主張:感官輸入優(yōu)于文本輸入,因為來自物理世界的數(shù)據(jù)量遠超文本(例如,一個四歲的孩子就已經(jīng)處理了 1.1×101? 字節(jié)的視覺數(shù)據(jù),而用于訓練現(xiàn)代大語言模型的所有文本數(shù)據(jù)加起來也僅僅約 0.9×101? 字節(jié))。

作者的觀點:

盡管視頻等感官數(shù)據(jù)量大,但其信息冗余度高、語義含量低。相比之下,自然語言是人類經(jīng)驗的高度壓縮和抽象形式,它不僅能描述物理現(xiàn)實,還能編碼如「正義」、「動機」等無法直接觀察的抽象概念,并承載了人類的集體知識。

因此,通往通用人工智能的道路不能偏重于任何單一模態(tài)。視頻、文本、音頻等不同模態(tài)反映了經(jīng)驗的不同層面:視頻捕捉物理動態(tài),而文本編碼抽象概念。一個成功的世界模型必須融合所有這些分層的數(shù)據(jù),才能全面理解世界并處理多樣化的任務,忽略任何一個層面都會導致關鍵信息的缺失。

表示:連續(xù)?離散?還是兩者兼有?

待批判的主張:世界狀態(tài)應由連續(xù)嵌入來表征,而非離散的詞元,以便于進行基于梯度的優(yōu)化。

作者的觀點:

僅用連續(xù)嵌入來表示世界狀態(tài)是脆弱的,因為它難以應對感官數(shù)據(jù)中固有的噪聲和高變異性 。人類認知通過將原始感知歸類為離散概念來解決此問題,而語言就是這些離散概念的載體,為抽象和推理提供了穩(wěn)定、可組合的基礎 。

理論上,離散符號序列(即「語言」)足以表達連續(xù)數(shù)據(jù)中任意精度的信息,并且如圖 5 所示,通過增加序列長度來擴展其表達能力,遠比擴大詞匯表更高效 。


因此,最佳路徑是采用混合表示。這種方法結(jié)合了離散符號的穩(wěn)健性、可解釋性和結(jié)構(gòu)化推理能力,同時利用連續(xù)嵌入來捕捉細微的感官細節(jié),從而實現(xiàn)優(yōu)勢互補 。

架構(gòu):自回歸生成并非敵人

待批判的主張:自回歸生成模型(例如 LLM)注定會失敗,因為它們最終必然會犯錯,并且無法對結(jié)果的不確定性進行建模。

作者的觀點:

如論文圖 6(左半部分)所示,這種被批判的「編碼器 - 編碼器架構(gòu)」在潛在空間中進行「確定性的下一嵌入預測」 ,但它在功能上仍是自回歸的,需要遞歸地預測未來狀態(tài),因此并未真正避免其聲稱要解決的誤差累積問題 。更關鍵的是,通過移除解碼器來避免重構(gòu)觀察數(shù)據(jù),會導致模型學習到的潛在表示與真實世界脫節(jié),難以診斷,甚至可能崩潰到無意義的解 。


更好的方案不是拋棄生成模型,而是采用分層的生成式潛在預測(GLP)架構(gòu),這在圖 6(右半部分)中得到了展示 。該架構(gòu)包含一個解碼器用于「生成式重構(gòu)」 ,其核心是一個由「增強的 LLM + 擴散模型」構(gòu)成的分層世界模型 。這種設計既能通過生成式解碼器確保模型與真實數(shù)據(jù)掛鉤,又能通過分層抽象來隔離底層噪聲,實現(xiàn)更魯棒、更強大的推理 。

目標:在數(shù)據(jù)空間還是潛在空間中學習?

待批判的主張:概率性的數(shù)據(jù)重構(gòu)目標(例如編碼器 - 解碼器方案)是行不通的,因為這類目標難以處理,并且會迫使模型去預測不相關的細節(jié)。

作者的觀點:

如圖 7(左半部分)所示,在潛在空間計算重構(gòu)損失的方法,理論上存在「平凡解崩潰」的風險 ,即模型可以輕易將所有輸入映射為常數(shù)來使損失為零,從而什么也學不到 。為了防止崩潰,這類模型不得不依賴復雜且難以調(diào)試的正則化項。


相比之下,基于數(shù)據(jù)空間的生成式重構(gòu)目標函數(shù),如圖 7(右半部分)所示,要求模型預測并重構(gòu)出真實的下一刻觀察數(shù)據(jù),并通過「生成式損失」進行監(jiān)督 。這從根本上避免了崩潰問題 ,為模型提供了穩(wěn)定、可靠且有意義的監(jiān)督信號 。


圖 8 進一步從理論上解釋了,潛在空間損失只是生成式損失的一個寬松的「上界代理」 。這意味著,即使一個模型的潛在損失很低,也不能保證它在真實世界中的預測是準確的,因為它可能遺漏了對任務至關重要的信息 。

用途:模型預測控制(MPC)還是強化學習(RL)?

待批判的主張:世界模型應該用于模型預測控制(MPC)而不是強化學習(RL)框架,因為后者需要過多的試驗次數(shù)。

作者的觀點:

如論文圖 9(左半部分)所示,MPC 在決策時需要反復進行「模擬下一個潛在狀態(tài)」和「基于目標優(yōu)化動作」的循環(huán) ,這導致其計算開銷巨大,難以應對快速變化的環(huán)境,并且通常視野有限,難以進行長時程戰(zhàn)略規(guī)劃 。


強化學習(RL)提供了一個更通用、靈活且可擴展的范式,如圖 9(右半部分)所示 。它將世界模型作為一個「模擬器」,讓一個獨立的智能體模型在其中探索并學習 。這個過程是用于「基于目標用 RL 優(yōu)化智能體模型」 ,將巨大的計算成本從「決策時」轉(zhuǎn)移到了「訓練時」 。這使智能體不僅能快速行動,還能通過學習積累長期回報,進行更具戰(zhàn)略性的長遠規(guī)劃 。

PAN 世界模型

基于對現(xiàn)有世界模型框架的批評,作者得出了關于通用世界模型設計原則。PAN 架構(gòu)基于以下設計原則:1)涵蓋所有體驗模式的數(shù)據(jù);2)結(jié)合連續(xù)與離散表示;3)基于增強的大語言模型(LLM)主干的分層生成建模,以及生成式潛在預測架構(gòu);4)以觀察數(shù)據(jù)為基礎的生成損失;5)利用世界模型通過強化學習(RL)來模擬體驗,以訓練智能體。

一個真正多功能且通用的世界模型必須基于能夠反映現(xiàn)實世界推理需求全部復雜性的任務。總體而言,PAN 通過其分層、多級和混合表示架構(gòu),以及編碼器 - 解碼器管道,將感知、行動、信念、模擬信念和模擬世界等要素串聯(lián)起來。作為通用生成模型,PAN 能夠模擬現(xiàn)實世界中可操作的可能性,使智能體能夠進行有目的的推理。PAN 并不回避原始感知輸入的多樣性,而是將其模塊化和組織化,從而實現(xiàn)對每一層體驗的更豐富內(nèi)部模擬,增強智能體的推理和規(guī)劃能力。

在訓練時,PAN 需要首先通過自我監(jiān)督(例如使用大語言模型處理文本數(shù)據(jù),使用擴散模型處理視頻數(shù)據(jù))獨立預訓練每個模塊。這些特定于模態(tài)和級別的模塊在后訓練階段通過多模態(tài)數(shù)據(jù)、級聯(lián)嵌入和梯度傳播進行對齊或整合。

PAN 架構(gòu)的一大優(yōu)勢在于其數(shù)據(jù)處理效率,這得益于其采用的多尺度和分層的世界觀。事實上,PAN 的預訓練 - 對齊 / 集成策略能夠充分利用感覺信息簡歷知識基礎,利用 LLM 促進跨模態(tài)的泛化能力。

作者概述了一種利用世界模型進行模擬推理的智能體架構(gòu)。PAN 自然地融入這一范式,不僅作為視頻生成器,更作為一個豐富的內(nèi)部沙盒,用于模擬、實驗和預見未來。

最后,作者認為,世界模型不是關于視頻或虛擬現(xiàn)實的生成,而是關于模擬現(xiàn)實世界中所有可能性,因此,目前的范式和努力仍然是原始的。作者希望,通過批判性、分析性和建設性的剖析一些關于如何構(gòu)建世界模型的流行思想,以及 PAN 架構(gòu),能夠激發(fā)理論和實施更強大世界模型的進一步發(fā)展。



由 PAN 世界模型驅(qū)動的模擬推理智能體。與依賴反應策略的傳統(tǒng)強化學習智能體,或在決策時刻昂貴地模擬未來的模型預測控制(MPC)智能體不同,其利用了 PAN 生成的預計算模擬緩存。在決策過程中,智能體根據(jù)當前的信念和預期結(jié)果選擇行動,從而實現(xiàn)更高效、靈活和有目的的規(guī)劃方式。這種方式更接近人類推理的靈活性。

更詳細內(nèi)容,請查閱論文原文。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

林子說事
2025-07-25 19:26:25
原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

歷史縱觀
2025-07-24 22:12:19
0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質(zhì)疑,不公平

0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質(zhì)疑,不公平

侃球熊弟
2025-07-25 23:44:26
知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

藍鯨新聞
2025-07-25 16:03:22
36款熱門車高危智駕場景測試,“團滅”!

36款熱門車高危智駕場景測試,“團滅”!

第一財經(jīng)資訊
2025-07-25 13:35:25
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

普覽
2025-07-17 19:04:48
考生稱被“廈大馬來分?!闭`錄取,考609分最后選擇復讀

考生稱被“廈大馬來分?!闭`錄取,考609分最后選擇復讀

大象新聞
2025-07-24 20:01:22
涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

南方都市報
2025-07-25 14:44:29
微信轉(zhuǎn)賬時,出現(xiàn)這四個字,一定要停止轉(zhuǎn)款,即便是熟人也不行

微信轉(zhuǎn)賬時,出現(xiàn)這四個字,一定要停止轉(zhuǎn)款,即便是熟人也不行

農(nóng)村情感故事
2025-07-16 13:33:48
克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

趣文說娛
2025-07-24 17:22:53
布蘭科:如果沒有拉瑪西亞,巴薩可能已經(jīng)垮掉了

布蘭科:如果沒有拉瑪西亞,巴薩可能已經(jīng)垮掉了

懂球帝
2025-07-26 00:55:07
馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

雪靈谷
2025-07-24 10:58:07
8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

趣談人物紀
2025-07-23 12:00:03
理想i8亮相首周激戰(zhàn)樂道L90:線上爭到線下,用戶群體涇渭分明

理想i8亮相首周激戰(zhàn)樂道L90:線上爭到線下,用戶群體涇渭分明

駕仕派
2025-07-23 13:35:15
火箭欲再簽強援!3屆東部全明星聯(lián)手杜蘭特,休城沖擊總冠軍

火箭欲再簽強援!3屆東部全明星聯(lián)手杜蘭特,休城沖擊總冠軍

埃文凱爾
2025-07-26 00:34:47
陪練為主!廣東2米26小將連續(xù)2戰(zhàn)遭棄用 郭士強或另有安排

陪練為主!廣東2米26小將連續(xù)2戰(zhàn)遭棄用 郭士強或另有安排

狼叔評論
2025-07-26 00:13:10
開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

80后體育大蜀黍
2025-07-25 23:55:26
丟人!郭士強關系戶全場3中0,運動戰(zhàn)0分,球迷:趕緊把他裁了

丟人!郭士強關系戶全場3中0,運動戰(zhàn)0分,球迷:趕緊把他裁了

南海浪花
2025-07-25 08:29:37
大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

奧字侃娛
2025-07-24 15:30:13
2025-07-26 01:51:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權(quán)威媒體
4046文章數(shù) 37238關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權(quán)

財經(jīng)要聞

劉煜輝:當下重要不是找確定性而是轉(zhuǎn)折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態(tài)度原創(chuàng)

藝術
教育
數(shù)碼
時尚
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

數(shù)碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

今年夏天一定要有這件衣服,好看又復古!

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 舞钢市| 霍州市| 塘沽区| 沾化县| 台前县| 富平县| 洛宁县| 芜湖县| 奎屯市| 东乡县| 恩施市| 舟山市| 济阳县| 米林县| 沈阳市| 睢宁县| 泰兴市| 天门市| 衡南县| 太谷县| 公主岭市| 牡丹江市| 开化县| 蓝田县| 大方县| 儋州市| 陆丰市| 赤壁市| 青阳县| 葫芦岛市| 游戏| 清涧县| 万盛区| 类乌齐县| 肇州县| 绿春县| 铜梁县| 怀来县| 曲麻莱县| 临湘市| 高雄县|