99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AGI真方向?谷歌:智能體在自研世界模型,世界模型is all You Need

0
分享至



機器之心報道

編輯:澤南、Panda

越通用,就越World Models。

我們知道,大模型技術爆發的原點可能在谷歌一篇名為《Attention is All You Need》的論文上。

如今,在通用人工智能(AGI)初現曙光,Scaling Laws 卻疑似接近極限的當口,又是谷歌對未來方向進行了一番思考,想來想去還是只有五個詞:



  • 論文標題:General agents need world models
  • 論文鏈接:https://arxiv.org/abs/2506.01622

該論文已被機器學習頂會 ICML 收錄。他們發現:如果一個 AI 智能體能夠處理復雜的、長期的任務,那么它一定學習過一個內部世界模型——我們甚至可以通過觀察智能體的行為來提取它。

世界模型是實現靈活、目標導向行為的必要要素,還是無需模型的學習就已足夠?Google DeepMind 研究人員為這個問題提供了一個正式的答案——任何能夠泛化到多步驟目標導向任務的智能體都必須學習其環境的預測模型

更進一步,實驗證明,這樣的模型可以從智能體的策略中提取出來,而提升智能體的性能或其可實現目標的復雜性需要學習越來越精確的世界模型。這將帶來一系列影響:從開發安全通用的智能體,到在復雜環境中限制智能體的能力,以及提供從智能體中獲取世界模型的新算法。

香港中文大學博士 Richard C. Suwandi 撰寫了一篇博客文章,詳細解讀了這篇開創性的論文及其對 AGI 未來的意義。



想象一下,如果我們能夠構建一個像人類一樣思考和計劃的人工智能,未來會是什么樣子。大語言模型(LLM)領域的最新突破使我們更接近這一目標。隨著這些模型規模不斷擴大,并接受更多數據的訓練,它們會發展出所謂的涌現。

這顯著提升了它們在各類下游任務上的表現。大模型的涌現引發了新一輪的研究,旨在創建能夠在現實世界環境中處理復雜、長期任務的通用 AI 智能體。但令人著迷的是:人類不僅對他們所見的事物做出反應,我們還建立了豐富的心智模型來建模世界的運作方式。這些世界模型可幫助我們設定雄心勃勃的目標,并制定周到的計劃。因此,基于這一觀察,我們很自然地會問:

世界模型對于實現人類水平的人工智能有用嗎?

最近,Google DeepMind 的研究人員表明,學習世界模型不僅有益,而且對于一般智能體來說也是必要的。在這篇文章中,我們將討論該論文的主要發現及其對 AI 智能體未來的影響。

我們需要世界模型嗎?

1991 年,Rodney Brooks 提出了一個著名觀點:「世界是其自身的最佳模型」。



他認為,智能行為可以自然地從無模型智能體中產生,只需通過一系列動作和感知與環境互動,無需構建世界運作方式的明確表征。無模型智能體的顯著成功有力地支持了 Brooks 的論點,這些智能體在不同任務和環境中展現出了出色的泛化能力。這種無模型方法為創建通用 AI 智能體提供了一種頗具吸引力的途徑,同時避免了學習顯式世界模型的復雜性。

然而,最近的研究提出了一個有趣的可能性:即使是這些所謂的無模型智能體也可能正在表面之下學習隱式的世界模型和規劃算法。

Ilya Sutskever 一直是對的?

這讓人們回想起 2023 年 3 月,OpenAI 聯合創始人 Ilya Sutskever 提出了一個深刻的論斷:大型神經網絡的功能遠不止預測下一個單詞,它實際上是在學習「世界模型」。他是這樣說的:



他認為,神經網絡學習的不僅僅是文本信息,而是我們這個世界的一種壓縮表征。因此,我們預測下一個詞的準確度越高,世界模型的保真度就越高。

智能體與世界模型

雖然 Ilya 的說法引人入勝,但當時尚不清楚如何將其形式化。但現在,谷歌 DeepMind 的研究人員已經證明,Ilya 的說法并非僅僅是一個假設,而是一條支配所有通用智能體的基本定律。

在論文中作者指出,「任何能夠推廣到廣泛的簡單目標導向任務的智能體都必須學習能夠模擬其環境的預測模型,并且該模型始終可以從智能體中還原出來?!?/p>



任何滿足界限的智能體都必須學習環境轉換函數,該函數可以從其目標條件策略中提取出來。對于能夠處理諸如到達特定狀態等基本任務的智能體來說也是如此。

注意,上述內容僅適用于在多步驟范圍內進行規劃的智能體,因為它們需要了解行動如何影響未來狀態。然而,只考慮即時獎勵的「短視」智能體可能會避免學習世界模型,因為它們不需要預測長期后果。

為了使上述主張更加精確,作者開發了一個基于四個關鍵組成部分的嚴格數學框架:環境、目標、智能體和世界模型。

環境

假設環境是一個受控馬爾可夫過程(cMP)本質上是一個沒有指定獎勵函數的馬爾可夫決策過程。cMP 的構成包括狀態空間 S、動作空間 A 以及過渡函數



作者假設環境是不可簡化的和固定的。

目標







從有界智能體恢復世界模型的派生算法。



與其他研究的關聯

這項工作的成果補充了人工智能研究的其他幾個領域:

所提出的算法完善了環境、目標和策略之間的「三角」。規劃在給定世界模型和目標(世界模型 + 目標 → 策略)的情況下確定最優策略,而逆向強化學習(IRL)給定世界模型和策略(世界模型 + 策略 → 目標),恢復目標。提出的算法通過給定智能體的策略和目標(策略 + 目標 → 世界模型),恢復世界模型來填補剩余的方向。正如 IRL 需要跨多個環境觀察策略才能完全確定目標一樣,算法需要觀察智能體在多個目標上的行為,才能完全恢復世界模型。



雖然規劃使用世界模型和目標來確定策略,而 IRL 和逆向規劃使用智能體的策略和世界模型來識別其目標,但所提出的算法使用智能體的策略及其目標來識別世界模型。

傳統的機械可解釋性(MI)通常依賴于分析神經網絡激活或使用監督探測另一方面,所提出的算法提供了一種新穎的方法,可以直接從智能體的策略行為中提取世界模型,即使在模型內部無法訪問的情況下也能適用。這種無監督且與架構無關的方法適用于任何滿足有限 regret 條件的智能體,無論其具體實現如何。對于 LLM,這意味著我們可以通過分析其目標導向行為來揭示其隱含的世界模型,而無需訪問其內部表征。

最近的研究《Robust agents learn causal world models》表明,適應分布變化的智能體必須學習因果世界模型。該研究通過關注任務泛化而非領域泛化來補充這一理論。有趣的是,領域泛化需要比任務泛化更深的因果理解。

例如,在一個狀態變量為 X 和 Y 是存在因果關系(X→Y),智能體只需學習轉移概率即可實現最佳任務績效,而無需了解潛在的因果關系。這暗示了 Pearl 因果層級的智能體版本其中不同的智能體能力(如領域或任務泛化)需要不同級別的因果知識。

這些發現對人工智能的發展和安全也具有著重要意義。大語言模型和其他人工智能系統中新功能的出現,可以用在針對各種訓練任務進行優化時學習到的隱式世界模型來解釋。從能力強大的智能體中提取世界模型的能力,為驗證和校準提供了一種新的工具,因為模型保真度會隨著智能體能力的提升而擴展。然而,學習復雜現實世界系統的精確世界模型本身就存在困難,這也從根本上限制了智能體的通用能力。

結論

或許,Ilya 在 2023 年的預測比我們意識到的更有前瞻性。如果上述結果屬實,那么當前通過擴展語言模型來推進超級人工智能(ASI)的競賽,或許暗地里就是一場構建更復雜世界模型的競賽。我們也有可能正在見證一些更為深刻的變革:從 David Silver 和 Richard Sutton 所說的「人類數據時代」向「經驗時代」的轉變。雖然當前的人工智能系統通過模仿人類生成的數據實現了非凡的能力,但 Silver 和 Sutton 認為,超人類智能將主要通過智能體從自身經驗中學習而誕生。

例如,隨著 Genie 2 等基礎世界模型的最新發展,我們可以從單個圖像生成無限的 3D 環境并允許智能體在豐富的環境中產生「經驗流」,并根據其能力進行適應和發展。



Genie 2,谷歌提出的一個基礎世界模型,能夠生成無限多樣、可操作、可游玩的 3D 環境,用于訓練和評估具身智能體。只需一張提示圖像,人類或 AI 智能體即可使用鍵盤和鼠標輸入來游玩。

如果說一般智能體必須學習世界模型,而超人類智能需要從經驗而非人類數據中學習,那么像 Genie 2 這樣的基礎世界模型或許就是體驗時代的終極尺度法則。我們并不是在觸及人類知識的上限,而是正在進入一個新階段:AI 智能體的質量從根本上受限于它們能夠模擬和探索的世界的保真度。

能夠做最精準的夢,并從夢中學習最多的智能體,或許才是最聰明的。

參考原文:

https://richardcsuwandi.github.io/blog/2025/agents-world-models/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

趙一鳴零食店被搶后續:縣政府介入,店主曝光全過程,官方回應

鋭娛之樂
2025-06-20 20:32:56
被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

界史
2025-06-21 11:45:00
一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

一位中產爸爸的怒吼:我寧愿我的孩子,回到傳統的應試教育時代

詩詞中國
2025-01-18 13:12:38
87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

87年老婆考研上岸跟我離婚,我晉升為師長,轉業時在單位相遇

蕭竹輕語
2025-06-18 18:31:19
破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現政府“瞎操作”

素年文史
2025-06-21 12:40:03
花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

花1000元買一塊2TB硬盤:結果收到一整箱!總價值9000+

快科技
2025-06-20 11:23:13
闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

闊太李念的Labubu,一個能換一套房?網友:送我都嫌占地方

聯友說娛
2025-06-21 14:21:52
評論“違規吃喝”,新華社更勝一籌

評論“違規吃喝”,新華社更勝一籌

海濤評論
2025-06-20 22:22:44
足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

側身凌空斬
2025-06-21 21:30:33
馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

馬英九再提“兩岸統一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

阿紿聊社會
2025-06-21 11:33:39
伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

伊朗丟制空權,以軍戰機狂炸,讓中國明白:解放軍武器布局走對路

胖福的小木屋
2025-06-20 23:48:20
特斯拉重大宣布:計劃再投資超500億元!大行警告......

特斯拉重大宣布:計劃再投資超500億元!大行警告......

每日經濟新聞
2025-06-21 14:29:07
汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

汪峰評論區淪陷,被質疑用老套路追求寧靜,本人解釋牽手原因!

古希臘掌管月桂的神
2025-06-20 13:36:25
達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

達萬壓哨絕平!足協杯兩連殺,兩次破門兩次爭議,張玉寧錯失進球

奧拜爾
2025-06-21 21:05:05
以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對決

柏銘銳談
2025-06-20 16:01:48
2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

2024年A股上市公司高管薪酬排行榜:醫藥生物行業備受矚目

時代投研
2025-06-20 21:17:03
小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

小伙子車內死亡,被曝內臟蒸熟,姐姐發出視頻,原來是幫鄰居出事

奇思妙想草葉君
2025-06-21 01:19:08
知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場

星光看娛樂
2025-06-20 10:35:27
周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

周家斌,妄議黨中央大政方針、結交政治騙子、搞權色交易

政知新媒體
2025-06-20 19:25:24
“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

“任何侵犯中國領空的外國飛機,直接擊落!”中方通報全球

科技處長
2025-06-20 22:14:57
2025-06-21 23:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

數碼
房產
親子
本地
公開課

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

親子要聞

孕期缺乏這種元素,可能發生性別逆轉?

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 岑巩县| 砚山县| 东莞市| 赤城县| 大理市| 涟水县| 马边| 左贡县| 盖州市| 庆城县| 绍兴县| 彭阳县| 平谷区| 南昌县| 当阳市| 嘉鱼县| 营口市| 山西省| 麦盖提县| 都兰县| 仁怀市| 滦平县| 赤峰市| 清水河县| 宕昌县| 土默特右旗| 竹溪县| 类乌齐县| 武安市| 普兰店市| 乐亭县| 宁乡县| 琼结县| 海晏县| 永修县| 乌海市| 阿瓦提县| 呼玛县| 大名县| 饶平县| 邳州市|