想象一下,當(dāng)你的寵物狗看到你舉起網(wǎng)球準(zhǔn)備投擲時(shí),它會(huì)本能地預(yù)判球的落點(diǎn)并提前跑向那里,而不是傻傻地盯著你手中的球。
這種對(duì)物理世界的直覺理解,正是 AI 領(lǐng)域長期以來始終難以攻克的難題。
如今,Meta 推出了新的開源世界模型 V-JEPA 2 和三個(gè)新基準(zhǔn)測(cè)試,希望借助它們的力量來改變這一點(diǎn)。模型和測(cè)試已開源在 GitHub 和 HuggingFace 上。
(來源:Meta)
所謂世界模型,就是專門來幫助 AI 智能體理解周圍世界,預(yù)測(cè)周遭狀況如何發(fā)展,并最終通過規(guī)劃自身行動(dòng)來完成目標(biāo)的模型。
這種能力在人類身上體現(xiàn)為直覺與預(yù)判:預(yù)測(cè)世界將如何回應(yīng)我們的行為(或他人的行為),尤其是在規(guī)劃行動(dòng)以及判斷如何應(yīng)對(duì)新情況時(shí)。
世界模型已然成為 AI 領(lǐng)域聚焦的目標(biāo)。李飛飛的 World Labs 、谷歌的 DeepMind 都在開發(fā)類似的世界模型。
英偉達(dá)也開發(fā)了世界模型 Comos,而 Meta 表示,V-JEPA 2 的運(yùn)行速度是英偉達(dá) Cosmos 模型的 30 倍。
Meta 首席 AI 科學(xué)家楊立昆(Yann LeCun)表示:“我們相信世界模型將開啟機(jī)器人技術(shù)的新時(shí)代,使現(xiàn)實(shí)世界的 AI 代理能夠幫助處理家務(wù)和物理任務(wù),而無需天文數(shù)字般龐大的機(jī)器人訓(xùn)練數(shù)據(jù)?!?/p>
V-JEPA 2 是去年發(fā)布的 V-JEPA 模型的升級(jí)版。它主要基于視頻進(jìn)行訓(xùn)練,擁有 12 億參數(shù),采用自監(jiān)督學(xué)習(xí)方法。它的英文全名是聯(lián)合嵌入預(yù)測(cè)架構(gòu)(joint-embedding predictive architecture,縮寫即為 JEPA)。
V-JEPA 2 包含兩個(gè)主要組件:
一個(gè)是編碼器(encoder),它接收原始視頻并輸出嵌入(embeddings),以捕獲有關(guān)觀察世界狀態(tài)的有用語義信息。
另一個(gè)是預(yù)測(cè)器(predictor),它接收視頻嵌入和關(guān)于預(yù)測(cè)內(nèi)容的額外上下文,并輸出預(yù)測(cè)的嵌入。
圖 | V-JEPA 2 架構(gòu)(來源:Meta)
V-JEPA 2 的訓(xùn)練過程則分為兩個(gè)階段:
在第一個(gè)預(yù)訓(xùn)練階段,研究團(tuán)隊(duì)使用了超過 100 萬小時(shí)的視頻和 100 萬張圖像。這些豐富的視覺數(shù)據(jù)幫助模型學(xué)習(xí)了世界運(yùn)行的大量知識(shí),包括人們?nèi)绾闻c物體互動(dòng)、物體如何在世界中運(yùn)動(dòng),以及物體如何與其他物體互動(dòng)。
Meta 發(fā)現(xiàn),僅在預(yù)訓(xùn)練階段后,模型就已經(jīng)展現(xiàn)出了與理解和預(yù)測(cè)相關(guān)的關(guān)鍵能力。
在訓(xùn)練的第二階段,Meta 專注于利用機(jī)器人數(shù)據(jù)來提升模型的規(guī)劃能力。他們向預(yù)測(cè)器提供動(dòng)作信息,從而將這些數(shù)據(jù)整合到 JEPA 訓(xùn)練流程中。在使用額外數(shù)據(jù)訓(xùn)練后,預(yù)測(cè)器學(xué)會(huì)了在預(yù)測(cè)時(shí)考慮具體動(dòng)作,然后可用于控制。
令人驚訝的是,這個(gè)階段并不需要大量的機(jī)器人數(shù)據(jù)。Meta 的技術(shù)報(bào)告顯示,僅使用 62 小時(shí)的機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練,就足以產(chǎn)生一個(gè)可用于規(guī)劃和控制的模型。
在性能表現(xiàn)方面,V-JEPA 2 展現(xiàn)出了令人矚目的能力。在運(yùn)動(dòng)理解方面,該模型在 Something-Something v2 數(shù)據(jù)集上實(shí)現(xiàn)了 77.3% 的 top-1 準(zhǔn)確率。
(來源:Meta)
在人類動(dòng)作預(yù)期任務(wù)中,它在 Epic-Kitchens-100 數(shù)據(jù)集上達(dá)到了 39.7% 的 recall-at-5 分?jǐn)?shù),超越了現(xiàn)有所有任務(wù)特定模型。
(來源:Meta)
當(dāng) V-JEPA 2 與大語言模型對(duì)齊后,在多個(gè)視頻問答任務(wù)上展現(xiàn)了 80 億參數(shù)規(guī)模下的最先進(jìn)性能。例如,在 PerceptionTest 上達(dá)到 84.0 分,在 TempCompass 上達(dá)到 76.9 分。
(來源:Meta)
為了更好地評(píng)估模型從視頻理解和推理物理世界的能力,Meta 還發(fā)布了三個(gè)新的基準(zhǔn)測(cè)試:IntPhys 2、MVPBench 和 CausalVQA。
IntPhys 2 用于衡量模型區(qū)分場景是否符合物理學(xué)的能力,它是在 IntPhys 基準(zhǔn)的基礎(chǔ)上擴(kuò)展的。
(來源:Meta)
MVPBench 是通過選擇題來衡量視頻語言模型對(duì)物理(世界)的理解能力,防止模型依賴膚淺的線索“走錯(cuò)誤的捷徑”。
(來源:Meta)
CausalVQA 則是衡量模型回答與物理因果關(guān)系有關(guān)問題的能力,包括反事實(shí)問題(如果……會(huì)發(fā)生什么)、預(yù)期問題(接下來可能會(huì)發(fā)生什么)以及規(guī)劃問題(為了實(shí)現(xiàn)目標(biāo),下一步應(yīng)該采取什么行動(dòng))。
(來源:Meta)
三個(gè)測(cè)試對(duì)人類來說小菜一碟,在 84%-93% 之間,但 V-JEPA 2 等模型與人類表現(xiàn)之間仍存在顯著差距。
整體來看,V-JEPA 2 在 IntPhys 2 和 MVPBench 表現(xiàn)最好,Gemini 2.5 Flash 則在 CausalVQA 推理預(yù)測(cè)任務(wù)中表現(xiàn)最好。
值得注意的是,在三個(gè)測(cè)試中,阿里通義千問視覺語言模型 Qwen2.5-VL 的表現(xiàn)也比較亮眼。
(來源:Meta)
Meta 還展示了在全新環(huán)境中使用 V-JEPA 2 進(jìn)行零樣本機(jī)器人規(guī)劃。他們?cè)诓煌瑢?shí)驗(yàn)室的 Franka 機(jī)械臂上零樣本部署 V-JEPA 2-AC(動(dòng)作條件版本),實(shí)現(xiàn)了使用圖像目標(biāo)進(jìn)行規(guī)劃的物體拾取和放置。
這是在沒有從環(huán)境中的機(jī)器人收集任何數(shù)據(jù),也沒有任何任務(wù)特定訓(xùn)練或獎(jiǎng)勵(lì)的情況下實(shí)現(xiàn)的,展示了從網(wǎng)絡(luò)數(shù)據(jù)和少量機(jī)器人交互數(shù)據(jù)中,自監(jiān)督學(xué)習(xí)如何產(chǎn)生一個(gè)能夠在物理世界中規(guī)劃的世界模型。
最后,需要看到的是,V-JEPA 2 模型也存在局限性,比如預(yù)測(cè)動(dòng)作時(shí)沒有使用攝像頭參數(shù),依賴手動(dòng)找到效果最好的攝像頭角度;誤差累積和搜索空間爆炸導(dǎo)致無法完成長時(shí)規(guī)劃任務(wù)。
接下來,Meta 團(tuán)隊(duì)計(jì)劃探索多模態(tài) JEPA 模型,通過多種感官進(jìn)行預(yù)測(cè),包括視覺、聽覺和觸覺等等。
參考資料:
https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
https://github.com/facebookresearch/vjepa2
https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.