網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta推出開源最新世界模型，運(yùn)行速度是英偉達(dá)Cosmos的30倍

2025-06-12 13:47:10　來源: DeepTech深科技

北京舉報(bào)

分享至

想象一下，當(dāng)你的寵物狗看到你舉起網(wǎng)球準(zhǔn)備投擲時(shí)，它會(huì)本能地預(yù)判球的落點(diǎn)并提前跑向那里，而不是傻傻地盯著你手中的球。

這種對(duì)物理世界的直覺理解，正是 AI 領(lǐng)域長期以來始終難以攻克的難題。

如今，Meta 推出了新的開源世界模型 V-JEPA 2 和三個(gè)新基準(zhǔn)測(cè)試，希望借助它們的力量來改變這一點(diǎn)。模型和測(cè)試已開源在 GitHub 和 HuggingFace 上。

（來源：Meta）

所謂世界模型，就是專門來幫助 AI 智能體理解周圍世界，預(yù)測(cè)周遭狀況如何發(fā)展，并最終通過規(guī)劃自身行動(dòng)來完成目標(biāo)的模型。

這種能力在人類身上體現(xiàn)為直覺與預(yù)判：預(yù)測(cè)世界將如何回應(yīng)我們的行為（或他人的行為），尤其是在規(guī)劃行動(dòng)以及判斷如何應(yīng)對(duì)新情況時(shí)。

世界模型已然成為 AI 領(lǐng)域聚焦的目標(biāo)。李飛飛的 World Labs 、谷歌的 DeepMind 都在開發(fā)類似的世界模型。

英偉達(dá)也開發(fā)了世界模型 Comos，而 Meta 表示，V-JEPA 2 的運(yùn)行速度是英偉達(dá) Cosmos 模型的 30 倍。

Meta 首席 AI 科學(xué)家楊立昆（Yann LeCun）表示：“我們相信世界模型將開啟機(jī)器人技術(shù)的新時(shí)代，使現(xiàn)實(shí)世界的 AI 代理能夠幫助處理家務(wù)和物理任務(wù)，而無需天文數(shù)字般龐大的機(jī)器人訓(xùn)練數(shù)據(jù)?！?/p>

V-JEPA 2 是去年發(fā)布的 V-JEPA 模型的升級(jí)版。它主要基于視頻進(jìn)行訓(xùn)練，擁有 12 億參數(shù)，采用自監(jiān)督學(xué)習(xí)方法。它的英文全名是聯(lián)合嵌入預(yù)測(cè)架構(gòu)（joint-embedding predictive architecture，縮寫即為 JEPA）。

V-JEPA 2 包含兩個(gè)主要組件：

一個(gè)是編碼器（encoder），它接收原始視頻并輸出嵌入（embeddings），以捕獲有關(guān)觀察世界狀態(tài)的有用語義信息。

另一個(gè)是預(yù)測(cè)器（predictor），它接收視頻嵌入和關(guān)于預(yù)測(cè)內(nèi)容的額外上下文，并輸出預(yù)測(cè)的嵌入。

圖 | V-JEPA 2 架構(gòu)（來源：Meta）

V-JEPA 2 的訓(xùn)練過程則分為兩個(gè)階段：

在第一個(gè)預(yù)訓(xùn)練階段，研究團(tuán)隊(duì)使用了超過 100 萬小時(shí)的視頻和 100 萬張圖像。這些豐富的視覺數(shù)據(jù)幫助模型學(xué)習(xí)了世界運(yùn)行的大量知識(shí)，包括人們?nèi)绾闻c物體互動(dòng)、物體如何在世界中運(yùn)動(dòng)，以及物體如何與其他物體互動(dòng)。

Meta 發(fā)現(xiàn)，僅在預(yù)訓(xùn)練階段后，模型就已經(jīng)展現(xiàn)出了與理解和預(yù)測(cè)相關(guān)的關(guān)鍵能力。

在訓(xùn)練的第二階段，Meta 專注于利用機(jī)器人數(shù)據(jù)來提升模型的規(guī)劃能力。他們向預(yù)測(cè)器提供動(dòng)作信息，從而將這些數(shù)據(jù)整合到 JEPA 訓(xùn)練流程中。在使用額外數(shù)據(jù)訓(xùn)練后，預(yù)測(cè)器學(xué)會(huì)了在預(yù)測(cè)時(shí)考慮具體動(dòng)作，然后可用于控制。

令人驚訝的是，這個(gè)階段并不需要大量的機(jī)器人數(shù)據(jù)。Meta 的技術(shù)報(bào)告顯示，僅使用 62 小時(shí)的機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練，就足以產(chǎn)生一個(gè)可用于規(guī)劃和控制的模型。

在性能表現(xiàn)方面，V-JEPA 2 展現(xiàn)出了令人矚目的能力。在運(yùn)動(dòng)理解方面，該模型在 Something-Something v2 數(shù)據(jù)集上實(shí)現(xiàn)了 77.3% 的 top-1 準(zhǔn)確率。

（來源：Meta）

在人類動(dòng)作預(yù)期任務(wù)中，它在 Epic-Kitchens-100 數(shù)據(jù)集上達(dá)到了 39.7% 的 recall-at-5 分?jǐn)?shù)，超越了現(xiàn)有所有任務(wù)特定模型。

（來源：Meta）

當(dāng) V-JEPA 2 與大語言模型對(duì)齊后，在多個(gè)視頻問答任務(wù)上展現(xiàn)了 80 億參數(shù)規(guī)模下的最先進(jìn)性能。例如，在 PerceptionTest 上達(dá)到 84.0 分，在 TempCompass 上達(dá)到 76.9 分。

（來源：Meta）

為了更好地評(píng)估模型從視頻理解和推理物理世界的能力，Meta 還發(fā)布了三個(gè)新的基準(zhǔn)測(cè)試：IntPhys 2、MVPBench 和 CausalVQA。

IntPhys 2 用于衡量模型區(qū)分場景是否符合物理學(xué)的能力，它是在 IntPhys 基準(zhǔn)的基礎(chǔ)上擴(kuò)展的。

（來源：Meta）

MVPBench 是通過選擇題來衡量視頻語言模型對(duì)物理（世界）的理解能力，防止模型依賴膚淺的線索“走錯(cuò)誤的捷徑”。

（來源：Meta）

CausalVQA 則是衡量模型回答與物理因果關(guān)系有關(guān)問題的能力，包括反事實(shí)問題（如果……會(huì)發(fā)生什么）、預(yù)期問題（接下來可能會(huì)發(fā)生什么）以及規(guī)劃問題（為了實(shí)現(xiàn)目標(biāo)，下一步應(yīng)該采取什么行動(dòng)）。

（來源：Meta）

三個(gè)測(cè)試對(duì)人類來說小菜一碟，在 84%-93% 之間，但 V-JEPA 2 等模型與人類表現(xiàn)之間仍存在顯著差距。

整體來看，V-JEPA 2 在 IntPhys 2 和 MVPBench 表現(xiàn)最好，Gemini 2.5 Flash 則在 CausalVQA 推理預(yù)測(cè)任務(wù)中表現(xiàn)最好。

值得注意的是，在三個(gè)測(cè)試中，阿里通義千問視覺語言模型 Qwen2.5-VL 的表現(xiàn)也比較亮眼。

（來源：Meta）

Meta 還展示了在全新環(huán)境中使用 V-JEPA 2 進(jìn)行零樣本機(jī)器人規(guī)劃。他們?cè)诓煌瑢?shí)驗(yàn)室的 Franka 機(jī)械臂上零樣本部署 V-JEPA 2-AC（動(dòng)作條件版本），實(shí)現(xiàn)了使用圖像目標(biāo)進(jìn)行規(guī)劃的物體拾取和放置。

這是在沒有從環(huán)境中的機(jī)器人收集任何數(shù)據(jù)，也沒有任何任務(wù)特定訓(xùn)練或獎(jiǎng)勵(lì)的情況下實(shí)現(xiàn)的，展示了從網(wǎng)絡(luò)數(shù)據(jù)和少量機(jī)器人交互數(shù)據(jù)中，自監(jiān)督學(xué)習(xí)如何產(chǎn)生一個(gè)能夠在物理世界中規(guī)劃的世界模型。

最后，需要看到的是，V-JEPA 2 模型也存在局限性，比如預(yù)測(cè)動(dòng)作時(shí)沒有使用攝像頭參數(shù)，依賴手動(dòng)找到效果最好的攝像頭角度；誤差累積和搜索空間爆炸導(dǎo)致無法完成長時(shí)規(guī)劃任務(wù)。

接下來，Meta 團(tuán)隊(duì)計(jì)劃探索多模態(tài) JEPA 模型，通過多種感官進(jìn)行預(yù)測(cè)，包括視覺、聽覺和觸覺等等。

參考資料：

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

https://github.com/facebookresearch/vjepa2

https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

排版：劉雅坤

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.