來源:機器熊貓Robot
大家好,我是機器熊貓Robot。
在生成式大模型浪潮席卷全球的當下,大部分技術路線依然建立在以語言為中心的訓練范式之上。ChatGPT、Claude、Gemini、Deepseek……這些模型以Transformer為核心,通過對海量文本數據的學習,展現出驚人的推理、問答、編程與多輪交互能力。
然而,AI教母李飛飛認為:語言模型只是智能建構的壓縮維度,真正通用的人工智能必須具備對三維空間的理解、建模與生成能力。
她創立的公司World Labs其核心愿景是構建AI的“空間操作系統”,以“世界模型(World Model)”為中心,推動人工智能從語言認知走向物理空間理解,實現對環境、行為與場景的端到端建模。
「 01 」
從語言壓縮包到空間操作系統:
World Labs的戰略起點
李飛飛在近期接受 A16Z 采訪中指出:
“語言是現實的壓縮編碼,而空間才是智能的本體。”
這一觀點本質上是對人類智能演化路徑的反思。語言的進化不過短短十萬年,而空間感知、物體識別與運動理解,早在人類祖先甚至爬行動物時代就已深度嵌入神經系統。視覺皮層、海馬體、鏡像神經元等結構共同構成了“空間認知”的生物基礎。
World Labs的目標,即是將這一智能遺產結構化、模型化,納入下一代AI系統之中。
目前其研究與產品方向涵蓋:
高精度三維重建(NeRFs, Gaussian Splatting)
多模態空間建模(圖像 + 點云 + 視頻 + 音頻 + IMU)
空間生成模型(Spatial Diffusion Models)
虛擬環境模擬與機器人交互訓練
李飛飛提出,AI不應僅僅模擬人類語言,而應具備像人類一樣在空間中感知、推理、建模和行動的能力。World Labs希望構建的,是AI時代的空間引擎(Spatial Engine)。
「 02 」
空間感知的技術臨界點:
新一代世界建模基礎設施
在技術演化層面,李飛飛判斷:構建世界模型的“空間AI技術棧”已接近臨界點。幾個關鍵技術正在交匯融合:
技術
發展趨勢
對世界模型的貢獻
NeRF / GS
實時重建、體素壓縮
提升3D場景建模精度與速度
擴散模型(Diffusion Models)
高質量圖像生成 → 三維生成擴展
空間內容的生成式建模基礎
圖形學與渲染系統
Unity、Unreal 與神經圖形深度融合
為訓練與測試提供高保真虛擬環境
空間感知硬件
RGBD、激光雷達、慣性單元小型化
支持更精細的數據采集與多模態建模
李飛飛認為,當前的多模態大模型(如GPT-4o、Gemini 1.5 Pro)雖然在語音、圖像等感知維度上取得突破,但缺乏對物理空間的建模能力,難以支持機器人或虛擬體的復雜場景泛化與實時決策。
而World Labs的路徑是在現有大模型的語言引擎之上,融合三維建模、空間理解與物理推理能力,打造下一代“世界操作系統”。
「 03 」
從規劃到生成:
世界模型的另一種理解——DeepMind的學習論路徑
與李飛飛“從空間建模出發”不同,DeepMind研究者 Jon Richens(2024年ICML)則從任務泛化與強化學習智能體的角度提出了另一種“世界模型”范式:
能夠在不同任務中泛化并成功執行復雜操作的智能體,必然隱式地學習了其所處環境的動態結構,即“世界模型”。
該理論框架下,“世界模型”并非工程搭建的顯性系統,而是在策略(policy)與目標(goal)的不斷交互中隱性演化出來的模型結構。
Richens 提出的三角世界模型結構:
State Dynamics Model(狀態動態模型):預測環境在操作后的變化
Policy Model(策略模型):定義在當前狀態下采取何種行動
Value/Goal Model(目標模型):定義當前狀態的價值或偏好方向
這三者共同形成一個可泛化的強化學習閉環結構,在多任務學習過程中,智能體逐步內隱構建出對世界的抽象預測模型。
簡言之:能進行復雜泛化的智能體,一定具備內部世界模型。
「 04 」
從“看懂世界”到“造出世界”:
世界模型的兩大主線
方向
代表人物
研究核心
核心應用
構建論(建模驅動)
李飛飛(World Labs)
空間是智能根基,應顯式建模三維世界
虛擬人、數字孿生、機器人操作系統
學習論(策略演化)
JonRichens(DeepMind)
世界模型是在目標-策略交互中隱式學習而成
通用強化學習、多任務AI系統
這兩種路徑從不同角度切入“世界模型”的構建:
構建論強調空間結構與物理規律的表達,是基礎設施導向。
學習論強調從智能體行為中反推環境建模,是行為主義導向。
二者并不對立,而可能形成建模與學習的融合循環:
構建好的三維空間 → 供智能體策略訓練 → 再反向修正世界模型 → 更好生成虛擬空間 → 形成閉環世界引擎。
寫在最后:
“世界模型”已成為通用人工智能研究中的重要范式標簽,它不再局限于圖像識別、目標檢測等感知任務,而是擴展為一種整體理解、預測與重構現實世界的智能機制。
World Labs 提出的構建式空間操作系統路徑,或許將成為機器人智能、虛擬現實、元宇宙、數字孿生系統等未來應用的基礎底座。
真正的AI,不是能說話的ChatGPT,而是能感知、建模、推理并行動的 embodied intelligence。世界模型,正是這一躍遷的邏輯核心。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.