99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta推出開源最新世界模型,運行速度是英偉達Cosmos的30倍

0
分享至

想象一下,當你的寵物狗看到你舉起網球準備投擲時,它會本能地預判球的落點并提前跑向那里,而不是傻傻地盯著你手中的球。

這種對物理世界的直覺理解,正是 AI 領域長期以來始終難以攻克的難題。

如今,Meta 推出了新的開源世界模型 V-JEPA 2 和三個新基準測試,希望借助它們的力量來改變這一點。模型和測試已開源在 GitHub 和 HuggingFace 上。


(來源:Meta)

所謂世界模型,就是專門來幫助 AI 智能體理解周圍世界,預測周遭狀況如何發展,并最終通過規劃自身行動來完成目標的模型。

這種能力在人類身上體現為直覺與預判:預測世界將如何回應我們的行為(或他人的行為),尤其是在規劃行動以及判斷如何應對新情況時。

世界模型已然成為 AI 領域聚焦的目標。李飛飛的 World Labs 、谷歌的 DeepMind 都在開發類似的世界模型。

英偉達也開發了世界模型 Comos,而 Meta 表示,V-JEPA 2 的運行速度是英偉達 Cosmos 模型的 30 倍。

Meta 首席 AI 科學家楊立昆(Yann LeCun)表示:“我們相信世界模型將開啟機器人技術的新時代,使現實世界的 AI 代理能夠幫助處理家務和物理任務,而無需天文數字般龐大的機器人訓練數據。”

V-JEPA 2 是去年發布的 V-JEPA 模型的升級版。它主要基于視頻進行訓練,擁有 12 億參數,采用自監督學習方法。它的英文全名是聯合嵌入預測架構(joint-embedding predictive architecture,縮寫即為 JEPA)。

V-JEPA 2 包含兩個主要組件:

一個是編碼器(encoder),它接收原始視頻并輸出嵌入(embeddings),以捕獲有關觀察世界狀態的有用語義信息。

另一個是預測器(predictor),它接收視頻嵌入和關于預測內容的額外上下文,并輸出預測的嵌入。




圖 | V-JEPA 2 架構(來源:Meta)

V-JEPA 2 的訓練過程則分為兩個階段:

在第一個預訓練階段,研究團隊使用了超過 100 萬小時的視頻和 100 萬張圖像。這些豐富的視覺數據幫助模型學習了世界運行的大量知識,包括人們如何與物體互動、物體如何在世界中運動,以及物體如何與其他物體互動。

Meta 發現,僅在預訓練階段后,模型就已經展現出了與理解和預測相關的關鍵能力。

在訓練的第二階段,Meta 專注于利用機器人數據來提升模型的規劃能力。他們向預測器提供動作信息,從而將這些數據整合到 JEPA 訓練流程中。在使用額外數據訓練后,預測器學會了在預測時考慮具體動作,然后可用于控制。

令人驚訝的是,這個階段并不需要大量的機器人數據。Meta 的技術報告顯示,僅使用 62 小時的機器人數據進行訓練,就足以產生一個可用于規劃和控制的模型。

在性能表現方面,V-JEPA 2 展現出了令人矚目的能力。在運動理解方面,該模型在 Something-Something v2 數據集上實現了 77.3% 的 top-1 準確率。


(來源:Meta)

在人類動作預期任務中,它在 Epic-Kitchens-100 數據集上達到了 39.7% 的 recall-at-5 分數,超越了現有所有任務特定模型。


(來源:Meta)

當 V-JEPA 2 與大語言模型對齊后,在多個視頻問答任務上展現了 80 億參數規模下的最先進性能。例如,在 PerceptionTest 上達到 84.0 分,在 TempCompass 上達到 76.9 分。


(來源:Meta)

為了更好地評估模型從視頻理解和推理物理世界的能力,Meta 還發布了三個新的基準測試:IntPhys 2、MVPBench 和 CausalVQA。

IntPhys 2 用于衡量模型區分場景是否符合物理學的能力,它是在 IntPhys 基準的基礎上擴展的。


(來源:Meta)

MVPBench 是通過選擇題來衡量視頻語言模型對物理(世界)的理解能力,防止模型依賴膚淺的線索“走錯誤的捷徑”。


(來源:Meta)

CausalVQA 則是衡量模型回答與物理因果關系有關問題的能力,包括反事實問題(如果……會發生什么)、預期問題(接下來可能會發生什么)以及規劃問題(為了實現目標,下一步應該采取什么行動)。


(來源:Meta)

三個測試對人類來說小菜一碟,在 84%-93% 之間,但 V-JEPA 2 等模型與人類表現之間仍存在顯著差距。

整體來看,V-JEPA 2 在 IntPhys 2 和 MVPBench 表現最好,Gemini 2.5 Flash 則在 CausalVQA 推理預測任務中表現最好。

值得注意的是,在三個測試中,阿里通義千問視覺語言模型 Qwen2.5-VL 的表現也比較亮眼。


(來源:Meta)

Meta 還展示了在全新環境中使用 V-JEPA 2 進行零樣本機器人規劃。他們在不同實驗室的 Franka 機械臂上零樣本部署 V-JEPA 2-AC(動作條件版本),實現了使用圖像目標進行規劃的物體拾取和放置。

這是在沒有從環境中的機器人收集任何數據,也沒有任何任務特定訓練或獎勵的情況下實現的,展示了從網絡數據和少量機器人交互數據中,自監督學習如何產生一個能夠在物理世界中規劃的世界模型。

最后,需要看到的是,V-JEPA 2 模型也存在局限性,比如預測動作時沒有使用攝像頭參數,依賴手動找到效果最好的攝像頭角度;誤差累積和搜索空間爆炸導致無法完成長時規劃任務。

接下來,Meta 團隊計劃探索多模態 JEPA 模型,通過多種感官進行預測,包括視覺、聽覺和觸覺等等。

參考資料:

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

https://github.com/facebookresearch/vjepa2

https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本慘遭殺豬盤:從印度買的稀土都是中國貨,這下血本無歸了

日本慘遭殺豬盤:從印度買的稀土都是中國貨,這下血本無歸了

文雅筆墨
2025-06-15 15:37:45
太震撼了!這個夏天的演唱會有多瘋狂?全國初步統計,一天40多場

太震撼了!這個夏天的演唱會有多瘋狂?全國初步統計,一天40多場

火山詩話
2025-06-15 13:38:08
大V司馬平邦:怎么讓以色列屈服?導彈洗地特拉維夫,把他們送回石器時代

大V司馬平邦:怎么讓以色列屈服?導彈洗地特拉維夫,把他們送回石器時代

小蘿卜絲
2025-06-15 14:45:13
以色列遭最慘烈損失!科學研究院被炸,2500多名科研人員生死未卜

以色列遭最慘烈損失!科學研究院被炸,2500多名科研人員生死未卜

頭條爆料007
2025-06-15 21:09:29
世俱杯10-0領先,拜仁隊史第二次在國際比賽單場打入10球

世俱杯10-0領先,拜仁隊史第二次在國際比賽單場打入10球

懂球帝
2025-06-16 01:59:35
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
伊朗這個大內奸不除,很難取得勝利

伊朗這個大內奸不除,很難取得勝利

海格講
2025-06-15 05:45:05
拜仁世俱杯不到25分鐘4-0領先,4粒進球均由法國球員打進

拜仁世俱杯不到25分鐘4-0領先,4粒進球均由法國球員打進

懂球帝
2025-06-16 00:33:14
以色列連續轟炸伊朗40小時,伊朗報復無力,一切正加速到來

以色列連續轟炸伊朗40小時,伊朗報復無力,一切正加速到來

山河路口
2025-06-15 16:36:15
這個畢設,尺度真大!

這個畢設,尺度真大!

最黑科技
2025-06-15 21:22:23
貝恩交易至魔術登全美熱搜:1換7價值超高 美記曬奧蘭多全新先發

貝恩交易至魔術登全美熱搜:1換7價值超高 美記曬奧蘭多全新先發

顏小白的籃球夢
2025-06-15 23:24:15
整容臉+無戲可拍?業內怕她發瘋不敢用!

整容臉+無戲可拍?業內怕她發瘋不敢用!

毒舌八卦
2025-06-15 17:20:46
恭喜王欣瑜!6-0送蛋,2-1淘汰大滿貫亞軍,攜手鄭欽文晉級正賽

恭喜王欣瑜!6-0送蛋,2-1淘汰大滿貫亞軍,攜手鄭欽文晉級正賽

侃球熊弟
2025-06-15 22:29:50
一位全職爸爸的9年孤勇路

一位全職爸爸的9年孤勇路

極目新聞
2025-06-15 16:37:04
遺憾!宮魯鳴確認李夢因傷無緣亞洲杯 上屆率隊奪冠入選最佳陣容

遺憾!宮魯鳴確認李夢因傷無緣亞洲杯 上屆率隊奪冠入選最佳陣容

醉臥浮生
2025-06-15 22:30:36
聽完通報后,王毅提一要求,以方當場答應,美州長:唯中國能調停

聽完通報后,王毅提一要求,以方當場答應,美州長:唯中國能調停

掌青說歷史
2025-06-15 11:38:02
S家局面徹底失控!兩大恩人全“反水”,小S成了過街老鼠無人理

S家局面徹底失控!兩大恩人全“反水”,小S成了過街老鼠無人理

火之文
2025-06-15 15:10:06
雷軍大小通吃!網傳常州店從友商又挖了一個常年的銷冠,長相嬌美

雷軍大小通吃!網傳常州店從友商又挖了一個常年的銷冠,長相嬌美

火山詩話
2025-06-15 08:52:18
湖北一市宣布:所有江蘇人免票

湖北一市宣布:所有江蘇人免票

揚子晚報
2025-06-15 20:10:32
以伊沖突第三天:導彈互襲 鄰國遭殃 美伊角力

以伊沖突第三天:導彈互襲 鄰國遭殃 美伊角力

國際在線
2025-06-15 21:23:05
2025-06-16 05:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數 513784關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

本地
數碼
健康
教育
公開課

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

數碼要聞

消息稱蘋果 AirPods Pro 3 明年發布

呼吸科專家破解呼吸道九大謠言!

教育要聞

又是一道經典的應用題,經常出現在試卷上,但還有許多同學做錯

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 霍州市| 安徽省| 辽源市| 甘孜县| 青田县| 宁陵县| 德化县| 衡南县| 西青区| 南和县| 兴国县| 巴楚县| 海南省| 工布江达县| 漳州市| 浪卡子县| 邢台市| 延长县| 南木林县| 龙州县| 淮南市| 武乡县| 东山县| 台东市| 手游| 当雄县| 乡城县| 胶州市| 常熟市| 宝山区| 宁晋县| 双流县| 莲花县| 永和县| 宁南县| 舞钢市| 二连浩特市| 拜泉县| 桃园市| 阳春市| 木兰县|