網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Meta世界模型登場！機器人自學百萬小時視頻，零樣本秒懂物理世界，LeCun親自發(fā)布

2025-06-12 18:47:22　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘出品

機器人輕輕伸出機械臂，撿起一塊布料并折疊。

沒有人給它“示范”過。

也沒有人告訴它什么是“布”、什么是“拿起”、什么是“折疊”。

它只是在看過100萬小時的視頻之后，自己“理解”了這一切。

這是一段實驗視頻，記錄的是 Meta 最新發(fā)布的 V-JEPA 2 在機器人控制上的一次測試。它沒有依賴大量手工標注的數(shù)據(jù)，也沒有借助龐大的語言模型來“解釋世界”。它靠的，是對這個世界運行規(guī)律的理解——一種被稱為“世界模型”的理念。

是的，在世界模型這條冷門卻持久的技術路徑上，Meta 發(fā)布了 V-JEPA 2，一個 12 億參數(shù)的視頻模型，它能讓機器人在沒見過的環(huán)境中直接執(zhí)行任務。

V-JEPA 2 是 Meta 在“世界模型”方向上的第二次出擊。這個模型并不只是識別圖像，而是嘗試“理解物理世界”：它能從視頻中學習因果關系、預測未來場景，并據(jù)此規(guī)劃行為。Meta 聲稱，它已經(jīng)具備“零樣本”在機器人上的規(guī)劃與控制能力。

lecun親自出境宣發(fā)世界模型

地址：https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

其實，在 Meta 的 AI 路線圖中，LeCun 一直堅持“自監(jiān)督學習”和“世界模型”是未來關鍵。他認為，今天的 AI 模型太依賴標簽、數(shù)據(jù)和預設范式，缺乏真正的因果和空間理解能力。

相比 OpenAI、Google DeepMind 以大模型、對話能力為突破口，業(yè)內(nèi)普遍認為 Meta 選擇了相對穩(wěn)健的 embodied AI 路線：他們的 AI 不必回答問題，而是更擅長在廚房、客廳、走廊等物理世界中“看懂并預測”。

這種 AI 的應用圖景也隨之改變：不是像 ChatGPT 那樣聊天辦公，而是做家務、配送物品、輔助護理。Meta 描述的終極目標是“real-world AI agents”——現(xiàn)實世界中的智能體，能做事，而不是說話。

比快更重要的是“少數(shù)據(jù)”

來自meta，供交流學習使用，侵刪

V-JEPA 2 具備 12 億參數(shù)，采用的是 Meta 自研的 JEPA（Joint Embedding Predictive Architecture）架構。在一個無須人工標注、全程自監(jiān)督的訓練過程中，它觀看了超過 100 萬小時的視頻，并在一個短期的“動作條件訓練”階段中，僅靠 62 小時的機器人數(shù)據(jù)，學會了用預測未來的方式來選擇動作。用 Meta 的話說，它學會了“思考之后再行動”。

這一訓練流程分為兩個階段：第一階段是從人類的視頻中學習世界是怎么運行的，比如物體如何移動、人與物如何互動；第二階段是讓模型結(jié)合機器人的控制信號，去理解“如果我采取某個動作，會發(fā)生什么”。

最終，Meta 展示了它在多種機器人實驗中的能力：在實驗室里，一臺機器人面對陌生物體和新場景，依靠 V-JEPA 2 的模擬預測能力，可以完成“撿起物體并放到指定位置”的任務，成功率在 65%-80% 之間。

LeCun 的“孤勇”與 AMI 的下一步

視頻來自meta，供交流學習使用，侵刪

在 Meta 內(nèi)部，V-JEPA 項目有一個特殊的領路人：Yann LeCun——深度學習三巨頭之一。這一次，他親自出鏡解讀模型細節(jié)。在許多人向 AGI、Sora 或語音助手下注時，他堅持走世界模型這條路。

LeCun 多次提到，“世界模型”是自己研究了近 20 年的方向。他不看好自回歸預測未來視頻幀的主流方式，而是傾向 JEPA 這種嵌入空間中的預測策略，避免 LLM-style 架構在物理世界模擬上的困境。他相信真正的“高級機器智能”（Advanced Machine Intelligence, AMI）必須先有物理直覺，就像嬰兒扔網(wǎng)球知道它會掉下，而不是變成一個蘋果。

這也是 V-JEPA 與其他多模態(tài)大模型的分野：前者關注“理解世界怎么運作”，后者則更強調(diào)語言和圖像的泛化能力。世界模型，不只是描述，而是預測和規(guī)劃。

而 Meta 最近的系列動作也顯示，它沒有放棄這條非主流路線：組建“超級智能”團隊、重金挖角 Alexandr Wang、招聘 DeepMind 首席研究員 Jack Rae，以及發(fā)布全新基準測試，標志著它在 AMI 路線上全面加速。

三大新基準，補課物理常識

為驗證模型是否真的具備“世界理解”能力，Meta 還同步發(fā)布了三個視頻推理基準：IntPhys 2、MVPBench、CausalVQA——三者分別檢驗物理常識、最小干擾識別能力和因果推理水平。

IntPhys 2：靈感來自認知科學中“違反預期范式”，即給模型兩個視頻，其中一個在最后一秒出現(xiàn)物理“bug”（比如物體穿墻），模型要指出哪個視頻是“不可能的”。
MVPBench：要求模型對兩個幾乎一致的視頻回答同一個問題，答案卻相反。這種“最小變化對”避免模型通過表面特征“猜題”，而真正考驗推理能力。
CausalVQA：聚焦“物理因果性”的問答任務，問題涵蓋“反事實”、“預測未來”和“下一步計劃”三類。這些問題比單純理解“發(fā)生了什么”更難，V-JEPA 2 雖已優(yōu)于以往模型，但離人類表現(xiàn)仍有不小差距。

Meta 在 Hugging Face 上還專門上線了 Leaderboard，希望整個研究社區(qū)都能圍繞“世界理解”這一新維度展開競賽和優(yōu)化。

離通用智能，還有多遠？

V-JEPA 2 是一把“萬金油鑰匙”的雛形：它不依賴具體機器人或場景，訓練一次可以“即插即用”。這是區(qū)別于傳統(tǒng)機器人模型的重大突破。后者往往需要為每一個新場景單獨收集數(shù)據(jù)、訓練模型，而 V-JEPA 2 強調(diào)通用性。

在執(zhí)行短任務時，比如把物體從 A 點移動到 B 點，V-JEPA 2 接收兩個圖像（當前狀態(tài)和目標狀態(tài)），然后用預測器模擬各種可能的動作后果，選出最可能成功的那個。這種“模型預測控制”（model predictive control, MPC）讓機器人每一步都像“想清楚再動”。

據(jù)悉，接下來，Meta 的重點是構建能處理“多時間尺度”的世界模型：不僅做一步規(guī)劃，還能像人一樣分解長任務；以及“多模態(tài)”的世界模型：不僅看，還能聽、摸，最終形成更加完整的“世界理解系統(tǒng)”。

但真正的問題是：這種以“從視頻中理解世界”為中心的路線，能否撐起 AGI 的未來？

就在這個通往高級機器智能的岔路口，V-JEPA 2 把 Meta 推向了一條冷門、但可能最接近“常識”的路徑——但三年后，是不是所有人都還在等 LeCun 證明“世界模型”這一假說，仍是未知數(shù)。

作者長期關注 AI 產(chǎn)業(yè)落地與學術動態(tài)、以及具身智能、汽車科技等前沿領域，歡迎對這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動態(tài)與技術趨勢！

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.