網易首頁 > 網易號 > 正文申請入駐

LeCun親自官宣！Meta世界模型V-JEPA 2登場！僅用62小時機器人數據，就能實現零樣本控制！

2025-06-12 19:42:21　來源: AI科技大本營

北京舉報

分享至

整理 | 夢依丹

出品丨AI 科技大本營（ID：rgznai100）

讓 AI 像人一樣理解世界并與環境互動。

Meta 重磅發布了 V-JEPA 2（Video Joint Embedding Predictive Architecture 2）世界模型，并同時發布了三個全新的基準測試，用于評估現有模型通過視頻對物理世界進行推理的能力。

這次，Meta 首席 AI 科學家 Yann LeCun 親自出鏡，并介紹了世界模型與其他模型的不同之處。

V-JEPA 2 是一款基于視頻訓練的先進 AI 系統，旨在賦予機器更深層次的物理世界理解、預測及交互能力，向著構建更通用的AI智能體邁出關鍵一步。

一經發布，便在 X 上引發了眾多關注與討論。

目前 V-JEPA 2 在 Hugging Face 物理推理能力排行榜上排行第一，已超過 GPT-4o。

用百萬小時視頻打造「世界模型」只靠 62 小時機器人數據就能上手控制

Meta 團隊認為，未來 AI 的關鍵在于具備對現實世界進行計劃與推理的能力，而“世界模型（World Models）”正是實現這一目標的核心路徑。

此次，他們不僅開放了 V-JEPA 2 的模型代碼與權重檢查點，供研究與商業用途自由使用，也希望借此構建起更廣泛的開源社區生態，推動世界模型領域的持續進展，加速 AI 與物理世界交互方式的革新。

V-JEPA 2 相關鏈接：

論文地址：https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/ GitHub：https://github.com/facebookresearch/vjepa2 HuggingFace：https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

V-JEPA 2 基于聯合嵌入預測架構（JEPA）構建，核心由兩大組件組成：

編碼器（Encoder）：接收原始視頻輸入，并輸出嵌入表示，捕捉所觀察世界狀態中的關鍵語義信息；
預測器（Predictor）：結合視頻嵌入與具體的預測任務上下文，生成對應的預測嵌入結果。

V-JEPA 2 的訓練過程分為兩個階段：

第一階段：無動作預訓練

Meta 使用了來自多個來源的超過 100 萬小時視頻和 100 萬張圖像，為模型構建了豐富的感知語義基礎。該階段的核心目標是學習物體、人與環境之間的交互邏輯，不涉及任何控制指令。

在完成這一階段后，V-JEPA 2 就已展現出出色的理解與預測能力：

在 Something-Something v2 動作識別任務中，僅通過凍結編碼器特征并訓練輕量注意力讀出模型，V-JEPA 2 就取得了優異成績。該任務強調對運動和操作行為的理解。
在 Epic-Kitchens-100 動作預測任務中，通過凍結編碼器和預測器，再訓練注意力讀出模塊，V-JEPA 2 創造了新的 SOTA 紀錄。該任務需要模型從第一人稱視頻中預測接下來 1 秒可能的動作（包括名詞與動詞）。
此外，將 V-JEPA 2 與語言模型結合，在視頻問答基準任務上（如 Perception Test 和 TempCompass）也實現了領先的性能。

第二階段：動作條件訓練

在掌握世界如何變化的通用模式后，V-JEPA 2 進入了更貼近真實 Agent 的訓練階段——結合動作信息進行規劃學習。

Meta 使用機器人數據（包括視頻觀察和控制動作）引導預測器進行有條件推理：模型在預測未來時，會考慮當前執行的動作，從而具備可控性。令人驚訝的是，這一階段僅使用了 62 小時的機器人數據，就能訓練出一個具備控制能力的模型。

超 3000 人的「AI 產品及應用交流」社群，不錯過 AI 產品風云！誠邀所有 AI 產品及應用從業者、產品經理、開發者和創業者，掃碼加群：

進群后，您將有機會得到：

· 最新、最值得關注的 AI 產品資訊及大咖洞見

· 獨家視頻及文章解讀 AGI 時代的產品方法論及實戰經驗

· 不定期贈送熱門 AI 產品邀請碼

從理解到執行：零樣本機器人控制能力驗證

Meta 在實際環境中驗證了 V-JEPA 2 的遷移與泛化能力。團隊在開源 DROID 數據集上完成模型訓練后，直接部署到實驗室機器人，無需針對部署場景再進行微調。

在多個演示中，V-JEPA 2 展示了強大的零樣本任務規劃能力，尤其在此前從未見過的物體和環境中，完成了以下任務：

短期任務（如物體拾取與放置）：以圖像形式設定目標，模型通過對當前狀態與目標狀態的嵌入，預測一系列動作后果，并實時重規劃，執行最優動作。
長期任務（如將物體移動至指定位置）：系統會設定一系列視覺子目標，機器人按順序完成各階段目標，類似人類的模仿學習過程。
最終，在完全新環境中，V-JEPA 2 在新物體的拾取與放置任務中達成 65%~80% 的成功率，展示了“世界模型”在實現通用機器人智能方面的廣闊潛力。

什么是世界模型？

與此同時，Meta 團隊還向大家詳細介紹了什么是世界模型。

人們對于物理世界的直觀理解根深蒂固。例如，人們普遍認知到，拋向空中的網球會被重力拉回地面，若其懸停、驟然轉向或變為他物，則會令人感到詫異。這種物理直覺并非成年人教育的產物，而是幼兒在掌握語言之前，通過觀察周圍環境便已逐漸形成的本能認知。

預測世界對自身或他人行為的反應，是人類在日常生活中持續運用的一項核心能力，尤其在規劃行動路徑和應對陌生情境時至關重要。

正是這種內化的“世界模型”賦予了人類直覺，并如同一個內部模擬器，使人能夠預估假設行為的后果，從而選擇最能達成目標的行動方案。

在實際行動前，人類會運用其內在的世界模型來構想潛在結果。因此，在構建能夠“三思而后行”的AI智能體時，一個核心目標便是讓它們學習到同樣強大的世界模型。這樣的世界模型應具備以下關鍵能力：

理解（Understanding）：AI的世界模型需能透徹理解對客觀世界的觀察，包括但不限于識別視頻中的物體、行為及運動模式。
預測（Predicting）：該模型應能準確預測世界的自然演化趨勢，以及在智能體采取特定行動后世界可能發生的變化。
規劃（Planning）：基于其預測能力，世界模型必須能夠有效地規劃出一系列連貫行動，以實現預設的目標。

三大物理理解基準測試

與此同時，Meta 還發布了三項全新的物理理解基準測試： IntPhys 2、MVPBench、CausalVQA，來評估當前 AI 模型對物理世界理解的合理性、因果關系和反事實的理解能力。

雖然人類在這些任務中的準確率高達 85%~95%，但包括 V-JEPA 2 在內的領先模型仍與人類存在明顯差距，也為下一階段模型演進提供了清晰目標。

IntPhys 2：判斷“哪一段違反了物理規律”，專注于測試模型是否具備直覺物理常識。

MVPBench 識別“細微差異下的真實因果”：通過構造一對幾乎一致的視頻和問題，迫使模型跳脫表層線索，真正理解視頻中的物理因果關系。

CausalVQA：回答“如果、接下來、為了什么”，旨在測試視頻模型對物理世界因果關系的理解深度

V-JEPA 2 代表了 Meta 在實現高級機器智能（AMI）及構建能在物理世界中運行的實用 AI 智能體目標上的又一重要進展。

下一步

目前 V-JEPA 2 仍以單一時間尺度進行預測，而現實任務往往需要跨時間與空間的復雜規劃。

下一階段，Meta 團隊將重點探索分層式世界模型，讓 AI 能夠像人類一樣，將復雜任務拆解為多個步驟并進行推理與執行。

同時，還將推進多模態建模能力，融合視覺、聽覺、觸覺等多種感知信息，提升 AI 對世界的理解與預測水平。團隊也將持續開源成果，推動這一方向的發展。

參考鏈接：https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

2025 全球產品經理大會

8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人，圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃碼下方二維碼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.