整理 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
讓 AI 像人一樣理解世界并與環境互動。
Meta 重磅發布了 V-JEPA 2(Video Joint Embedding Predictive Architecture 2) 世界模型,并同時發布了三個全新的基準測試,用于評估現有模型通過視頻對物理世界進行推理的能力。
這次,Meta 首席 AI 科學家 Yann LeCun 親自出鏡,并介紹了世界模型與其他模型的不同之處。
V-JEPA 2 是一款基于視頻訓練的先進 AI 系統,旨在賦予機器更深層次的物理世界理解、預測及交互能力,向著構建更通用的AI智能體邁出關鍵一步。
一經發布,便在 X 上引發了眾多關注與討論。
目前 V-JEPA 2 在 Hugging Face 物理推理能力排行榜上排行第一,已超過 GPT-4o。
用百萬小時視頻打造「世界模型」只靠 62 小時機器人數據就能上手控制
Meta 團隊認為,未來 AI 的關鍵在于具備對現實世界進行計劃與推理的能力,而“世界模型(World Models)”正是實現這一目標的核心路徑。
此次,他們不僅開放了 V-JEPA 2 的模型代碼與權重檢查點,供研究與商業用途自由使用,也希望借此構建起更廣泛的開源社區生態,推動世界模型領域的持續進展,加速 AI 與物理世界交互方式的革新。
V-JEPA 2 相關鏈接:
論文地址:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/ GitHub:https://github.com/facebookresearch/vjepa2 HuggingFace:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
V-JEPA 2 基于聯合嵌入預測架構(JEPA)構建,核心由兩大組件組成:
編碼器(Encoder):接收原始視頻輸入,并輸出嵌入表示,捕捉所觀察世界狀態中的關鍵語義信息;
預測器(Predictor):結合視頻嵌入與具體的預測任務上下文,生成對應的預測嵌入結果。
V-JEPA 2 的訓練過程分為兩個階段:
第一階段:無動作預訓練
Meta 使用了來自多個來源的超過 100 萬小時視頻和 100 萬張圖像,為模型構建了豐富的感知語義基礎。該階段的核心目標是學習物體、人與環境之間的交互邏輯,不涉及任何控制指令。
在完成這一階段后,V-JEPA 2 就已展現出出色的理解與預測能力:
在 Something-Something v2 動作識別任務中,僅通過凍結編碼器特征并訓練輕量注意力讀出模型,V-JEPA 2 就取得了優異成績。該任務強調對運動和操作行為的理解。
在 Epic-Kitchens-100 動作預測任務 中,通過凍結編碼器和預測器,再訓練注意力讀出模塊,V-JEPA 2 創造了新的 SOTA 紀錄。該任務需要模型從第一人稱視頻中預測接下來 1 秒可能的動作(包括名詞與動詞)。
此外,將 V-JEPA 2 與語言模型結合,在視頻問答基準任務上(如 Perception Test 和 TempCompass)也實現了領先的性能。
第二階段:動作條件訓練
在掌握世界如何變化的通用模式后,V-JEPA 2 進入了更貼近真實 Agent 的訓練階段——結合動作信息進行規劃學習。
Meta 使用機器人數據(包括視頻觀察和控制動作)引導預測器進行有條件推理:模型在預測未來時,會考慮當前執行的動作,從而具備可控性。令人驚訝的是,這一階段僅使用了 62 小時的機器人數據,就能訓練出一個具備控制能力的模型。
超 3000 人的「AI 產品及應用交流」社群,不錯過 AI 產品風云!誠邀所有 AI 產品及應用從業者、產品經理、開發者和創業者,掃碼加群:
進群后,您將有機會得到:
· 最新、最值得關注的 AI 產品資訊及大咖洞見
· 獨家視頻及文章解讀 AGI 時代的產品方法論及實戰經驗
· 不定期贈送熱門 AI 產品邀請碼
從理解到執行:零樣本機器人控制能力驗證
Meta 在實際環境中驗證了 V-JEPA 2 的遷移與泛化能力。團隊在開源 DROID 數據集上完成模型訓練后,直接部署到實驗室機器人,無需針對部署場景再進行微調。
在多個演示中,V-JEPA 2 展示了強大的零樣本任務規劃能力,尤其在此前從未見過的物體和環境中,完成了以下任務:
短期任務(如物體 拾取與放置):以圖像形式設定目標,模型通過對當前狀態與目標狀態的嵌入,預測一系列動作后果,并實時重規劃,執行最優動作。
長期任務(如將物體移動至指定位置):系統會設定一系列視覺子目標,機器人按順序完成各階段目標,類似人類的模仿學習過程。
最終,在完全新環境中,V-JEPA 2 在 新物體的拾取與放置任務中達成 65%~80% 的成功率,展示了“世界模型”在實現通用機器人智能方面的廣闊潛力。
什么是世界模型?
與此同時,Meta 團隊還向大家詳細介紹了什么是世界模型。
人們對于物理世界的直觀理解根深蒂固。例如,人們普遍認知到,拋向空 中的網球會被重力拉回地面,若其懸停、驟然轉向或變為他物,則會令人感到詫異。這種物理直覺并非成年人教育的產物,而是幼兒在掌握語言之前,通過觀察周圍環境便已逐漸形成的本能認知。
預測世界對自身或他人行為的反應,是人類在日常生活中持續運用的一項核心能力,尤其在規劃行動路徑和應對陌生情境時至關重要。
正是這種內化的“世界模型”賦予了人類直覺,并如同一個內部模擬器,使人能夠預估假設行為的后果,從而選擇最能達成目標的行動方案。
在實際行動前,人類會運用其內在的世界模型來構想潛在結果。因此,在構建能夠“三思而后行”的AI智能體時,一個核心目標便是讓它們學習到同樣強大的世界模型。這樣的世界模型應具備以下關鍵能力:
理解(Understanding):AI的世界模型需能透徹理解對客觀世界的觀察,包括但不限于識別視頻中的物體、行為及 運動模式。
預測(Predicting):該模型應能準確預測世界的自然演化趨勢,以及在智能體采取特定行動后世界可能發生的變化。
規劃(Planning):基于其預測能力,世界模型必須能夠有效地規劃出一系列連貫行動,以實現預設的目標。
三大物理理解基準測試
與此同時,Meta 還發布了三項全新的物理理解基準測試: IntPhys 2、MVPBench、CausalVQA, 來評估當前 AI 模型對物理世界理解的合理性、因果關系和反事實的理解能力。
雖然人類在這些任務中的準確率高達 85%~95%,但包括 V-JEPA 2 在內的領先模型仍與人類存在明顯差距,也為下一階段模型演進提供了清晰目標。
IntPhys 2:判斷“哪一段違反了物理規律”,專注于測試模型是否具備直覺物理常識。
MVPBench 識別“細微差異下的真實因果”:通過構造一對幾乎一致的視頻和問題,迫使模型跳脫表層線索,真正理解視頻中的物理因果關系。
CausalVQA:回答“如果、接下來、為了什么”,旨在測試視頻模型對物理世界因果關系的理解深度
V-JEPA 2 代表了 Meta 在實現高級機器智能(AMI)及構建能在物理世界中運行的實用 AI 智能體目標上的又一重要進展。
下一步
目前 V-JEPA 2 仍以單一時間尺度進行預測,而現實任務往往需要跨時間與空間的復雜規劃。
下一階段,Meta 團隊將重點探索分層式世界模型,讓 AI 能夠像人類一樣,將復雜任務拆解為多個步驟并進行推理與執行。
同時,還將推進多模態建模能力,融合視覺、聽覺、觸覺等多種感知信息,提升 AI 對世界的理解與預測水平。團隊也將持續開源成果,推動這一方向的發展。
參考鏈接:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
2025 全球產品經理大會
8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.