網易首頁 > 網易號 > 正文申請入駐

剛剛，LeCun親自出鏡，Meta推出新世界模型！

2025-06-12 10:42:26　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

最近，Meta 大動作不斷。

前些天有外媒曝出馬克?扎克伯格正在組建一個名為「超級智能團隊」的專家團隊，以實現通用人工智能。隨后開出 9 位數的薪酬為該團隊吸納人才。

就在剛剛，Meta 又有新的動作，推出基于視頻訓練的世界模型 V-JEPA 2（全稱 Video Joint Embedding Predictive Architecture 2）。其能夠實現最先進的環境理解與預測能力，并在新環境中完成零樣本規劃與機器人控制。

Meta 表示，他們在追求高級機器智能（AMI）的目標過程中，關鍵在于開發出能像人類一樣認知世界、規劃陌生任務執行方案，并高效適應不斷變化環境的 AI 系統。

這次，Meta 首席 AI 科學家 Yann LeCun 親自出鏡，介紹世界模型與其他 AI 模型的不同。

他說，世界模型是一種現實的抽象數字孿生，AI 可以參考它來理解世界并預測其行為的后果。與理解語言不同，世界模型使機器能夠理解物理世界，并能夠規劃行動路線以完成任務，而無需進行數百萬次的試驗，因為世界模型提供了對世界運行方式的基本理解。能夠使用世界模型進行推理和規劃的 AI 將產生廣泛影響。例如，它可以用于幫助視障人士的輔助技術、在混合現實中為復雜任務提供指導、使教育更加個性化，甚至可以理解代碼對程序狀態和外部世界的影響。

此外，世界模型對于自動駕駛汽車和機器人等自主系統至關重要，它將開啟機器人技術的新紀元，使現實世界中的 AI 智能體能夠在不需要大量機器人訓練數據的情況下幫助完成家務和體力任務。

V-JEPA 2 擁有 12 億參數，基于聯合嵌入預測架構（JEPA）構建。在此之前，Meta 已經證明，JEPA 架構在處理圖像和 3D 點云等模態方面出色的表現。

此次發布的 V-JEPA 2 是在去年首個基于視頻訓練模型 V-JEPA 的基礎上，進一步提升了動作預測和世界建模能力，使機器人能夠通過與陌生物體及環境交互來完成任務。

我們先看幾個示例：

開啟對世界的理解。V-JEPA 2 與語言建模相結合，可提供卓越的運動理解以及領先的視覺推理能力。當視頻中的人跳向水面時，V-JEPA 2 給出了解讀：向前，1.5 周空翻，無轉體。

預測下一步會發生什么。V-JEPA 2 可以預測世界將如何發展。示例中，當人正在做當前事情時，V-JEPA 2 能夠預測接下來會發生什么。

下面是 V-JEPA 2 的一些性能指標：

目前，V-JEPA 2 相關論文、下載鏈接等已經放出。

論文標題：V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
論文鏈接：https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
項目鏈接：https://github.com/facebookresearch/vjepa2
HuggingFace 鏈接：https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
項目網站：https://ai.meta.com/vjepa/

V-JEPA 2 有哪些創新？

V-JEPA 2 基于 JEPA 構建，包含兩個主要組件：

編碼器，用于接收原始視頻并輸出嵌入，這些嵌入能夠捕捉世界狀態的語義信息。
預測器，用于接收視頻嵌入以及關于預測內容的附加上下文，并輸出預測后的嵌入。

在訓練過程中，Meta 使用基于視頻的自監督學習來訓練 V-JEPA 2，因而無需額外的人工注釋即可在視頻上進行訓練。

V-JEPA 2 訓練包含兩個階段：無動作預訓練，以及后續的動作條件訓練。

在第一階段 —— 預訓練階段，Meta 使用了超過 100 萬小時的視頻和 100 萬張圖像。這些豐富的視覺數據有助于模型深入了解世界的運作方式，包括人與物體的交互方式、物體在物理世界中的移動方式以及物體與其他物體的互動方式。

僅僅經過預訓練，Meta 就發現模型已經展現出與理解和預測相關的關鍵能力。例如，通過在凍結編碼器和預測器特征的基礎上訓練注意力讀出（read-out）模型，V-JEPA 2 在 Epic-Kitchens-100 動作預測任務中創造了新的最高紀錄，該任務可以根據以自我為中心的視頻預測未來 1 秒將執行的動作（由名詞和動詞組成）。最后，將 V-JEPA 2 與語言模型相結合，可以在視頻問答基準（例如感知測試和 TempCompass）上實現最先進的性能。

在第一階段之后，模型能夠預測世界狀態的可能演變。然而，這些預測并沒有直接考慮智能體將采取的具體行動。

因而，在訓練的第二階段，Meta 專注于利用機器人數據（包括視覺觀察（視頻）和機器人正在執行的控制動作）來提升模型的規劃能力。

Meta 通過向預測器提供動作信息，將這些數據整合到 JEPA 訓練流程中。在使用這些額外數據進行訓練后，預測器學會在進行預測時考慮具體動作，然后即可用于控制。

第二階段的訓練不需要大量的機器人數據 —— 僅使用 62 小時的機器人數據進行訓練就能構建出一個可用于規劃和控制的模型。

Meta 展示了 V-JEPA 2 如何用于在新環境中進行零樣本機器人的規劃，這些環境中涉及的物體在訓練階段從未見過。與其他機器人基礎模型不同 —— 這些模型通常需要部分訓練數據來自模型部署的具體機器人實例和環境 —— 他們使用開源的 DROID 數據集對模型進行訓練，然后直接將其部署到 Meta 實驗室的機器人上。他們證明了 V-JEPA 2 的預測器可以用于基礎任務，例如夠到物體、拿起物體，并將其放置到新位置。

對于短期任務，例如拿起或放置物體，Meta 以圖像的形式指定目標。他們使用 V-JEPA 2 的編碼器獲取當前狀態和目標狀態的嵌入向量。從其觀察到的當前狀態出發，機器人通過預測器來想象采取一組候選動作的后果，并根據這些動作與期望目標的接近程度對候選動作進行評分。在每個時間步，機器人通過模型預測控制重新規劃，并執行評分最高的下一個動作以接近目標。

對于長期任務，例如拿起物體并將其放置到正確的位置，他們指定了一系列視覺子目標，機器人會按順序嘗試實現這些子目標，類似于人類觀察到的視覺模仿學習。通過這些視覺子目標，V-JEPA 2 在新環境和未見環境中放置新物體的成功率達到了 65% 到 80%。

對物理理解進行基準測試

這次，Meta 還發布了三個新的基準測試，用于評估現有模型從視頻中理解和推理物理世界的能力。盡管人類在這三個基準測試中的表現都非常出色（準確率在 85% 到 95% 之間），但包括 V-JEPA 2 在內的頂級模型與人類表現之間仍存在顯著差距，這表明模型需要在這些方向上進一步改進。

第一個基準測試 ——IntPhys 2 專門設計用于衡量模型區分物理合理場景和不合理場景的能力，它是基于早期的 IntPhys 基準測試進行構建和擴展的。他們設計 IntPhys 2 的方式類似于發展認知科學家評估年幼人類何時獲得直覺物理能力的方法，即通過「違背預期」范式。他們通過游戲引擎生成視頻對來實現這一點，其中兩個視頻在某個時間點之前完全相同，然后其中一個視頻中發生了違反物理規律的事件。模型必須識別出哪個視頻中發生了違反物理規律的事件。盡管人類在各種場景和條件下幾乎都能完美完成這項任務，但他們發現當前的視頻模型表現僅接近隨機水平。

IntPhys 2 項目鏈接：https://github.com/facebookresearch/IntPhys2
HuggingFace 鏈接：https://huggingface.co/datasets/facebook/IntPhys2
論文鏈接：https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

第二個基準測試 ——MVPBench 通過多項選擇題來衡量視頻語言模型的物理理解能力。與文獻中的其他視頻問答基準測試不同，MVPBench 旨在減少視頻語言模型中常見的捷徑解決方案，例如依賴于表面的視覺或文本線索和偏見。MVPBench 中的每個示例都有一個最小變化對：一個視覺上相似的視頻，以及相同的問題，但答案相反。為了正確回答一個問題，模型還必須正確回答其對應的最小變化對。

MVPBench 項目鏈接：https://github.com/facebookresearch/minimal_video_pairs
HuggingFace 鏈接：https://huggingface.co/datasets/facebook/minimal_video_pairs
論文鏈接：https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

第三個基準測試 ——CausalVQA 旨在關注模型對物理世界視頻中因果關系的理解，包括反事實（如果…… 會發生什么）、預期（接下來可能會發生什么）和計劃（為了實現目標應該采取什么行動）。

Meta 發現，雖然大型多模態模型越來越能夠回答視頻中發生了什么的問題，但它們仍然難以回答可能發生什么和接下來可能會發生什么的問題，這表明在預測物理世界在給定動作和事件空間的情況下可能如何演變方面，它們的表現與人類存在巨大差距。

CausalVQA 項目鏈接：https://github.com/facebookresearch/CausalVQA
論文鏈接：https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

V-JEPA 2 在 Hugging Face 關于物理推理榜單上排名第一，超越 GPT-4o 等。

地址：https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard

Meta 下一步會做什么

Meta 計劃在多個領域進一步探索世界模型。目前，V-JEPA 2 能夠在單一時間尺度上進行學習和預測。然而，許多任務需要跨多個時間尺度進行規劃。想象一下，將一個高級任務分解成更小的步驟，例如裝載洗碗機或烘烤蛋糕。Meta 希望專注于訓練能夠跨多個時間和空間尺度進行學習、推理和規劃的分層 JEPA 模型。另一個重要方向是多模態 JEPA 模型，這些模型能夠利用多種感官進行預測，包括視覺、聽覺和觸覺。

期待 Meta 接下來的更多研究。

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.