99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,LeCun親自出鏡,Meta推出新世界模型!

0
分享至



機器之心報道

機器之心編輯部

最近,Meta 大動作不斷。

前些天有外媒曝出馬克?扎克伯格正在組建一個名為「超級智能團隊」的專家團隊,以實現通用人工智能。隨后開出 9 位數的薪酬為該團隊吸納人才。

就在剛剛,Meta 又有新的動作,推出基于視頻訓練的世界模型 V-JEPA 2(全稱 Video Joint Embedding Predictive Architecture 2)。其能夠實現最先進的環境理解與預測能力,并在新環境中完成零樣本規劃與機器人控制。

Meta 表示,他們在追求高級機器智能(AMI)的目標過程中,關鍵在于開發出能像人類一樣認知世界、規劃陌生任務執行方案,并高效適應不斷變化環境的 AI 系統。

這次,Meta 首席 AI 科學家 Yann LeCun 親自出鏡,介紹世界模型與其他 AI 模型的不同。

他說,世界模型是一種現實的抽象數字孿生,AI 可以參考它來理解世界并預測其行為的后果。與理解語言不同,世界模型使機器能夠理解物理世界,并能夠規劃行動路線以完成任務,而無需進行數百萬次的試驗,因為世界模型提供了對世界運行方式的基本理解。能夠使用世界模型進行推理和規劃的 AI 將產生廣泛影響。例如,它可以用于幫助視障人士的輔助技術、在混合現實中為復雜任務提供指導、使教育更加個性化,甚至可以理解代碼對程序狀態和外部世界的影響。

此外,世界模型對于自動駕駛汽車和機器人等自主系統至關重要,它將開啟機器人技術的新紀元,使現實世界中的 AI 智能體能夠在不需要大量機器人訓練數據的情況下幫助完成家務和體力任務。

V-JEPA 2 擁有 12 億參數,基于聯合嵌入預測架構(JEPA)構建。在此之前,Meta 已經證明,JEPA 架構在處理圖像和 3D 點云等模態方面出色的表現。

此次發布的 V-JEPA 2 是在去年首個基于視頻訓練模型 V-JEPA 的基礎上,進一步提升了動作預測和世界建模能力,使機器人能夠通過與陌生物體及環境交互來完成任務。

我們先看幾個示例:

開啟對世界的理解。V-JEPA 2 與語言建模相結合,可提供卓越的運動理解以及領先的視覺推理能力。當視頻中的人跳向水面時,V-JEPA 2 給出了解讀:向前,1.5 周空翻,無轉體。



預測下一步會發生什么。V-JEPA 2 可以預測世界將如何發展。示例中,當人正在做當前事情時,V-JEPA 2 能夠預測接下來會發生什么。



下面是 V-JEPA 2 的一些性能指標:



目前,V-JEPA 2 相關論文、下載鏈接等已經放出。



  • 論文標題:V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
  • 論文鏈接:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
  • 項目鏈接:https://github.com/facebookresearch/vjepa2
  • HuggingFace 鏈接:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
  • 項目網站:https://ai.meta.com/vjepa/

V-JEPA 2 有哪些創新?

V-JEPA 2 基于 JEPA 構建,包含兩個主要組件:

  • 編碼器,用于接收原始視頻并輸出嵌入,這些嵌入能夠捕捉世界狀態的語義信息。
  • 預測器,用于接收視頻嵌入以及關于預測內容的附加上下文,并輸出預測后的嵌入。

在訓練過程中,Meta 使用基于視頻的自監督學習來訓練 V-JEPA 2,因而無需額外的人工注釋即可在視頻上進行訓練。



V-JEPA 2 訓練包含兩個階段:無動作預訓練,以及后續的動作條件訓練。

在第一階段 —— 預訓練階段,Meta 使用了超過 100 萬小時的視頻和 100 萬張圖像。這些豐富的視覺數據有助于模型深入了解世界的運作方式,包括人與物體的交互方式、物體在物理世界中的移動方式以及物體與其他物體的互動方式。

僅僅經過預訓練,Meta 就發現模型已經展現出與理解和預測相關的關鍵能力。例如,通過在凍結編碼器和預測器特征的基礎上訓練注意力讀出(read-out)模型,V-JEPA 2 在 Epic-Kitchens-100 動作預測任務中創造了新的最高紀錄,該任務可以根據以自我為中心的視頻預測未來 1 秒將執行的動作(由名詞和動詞組成)。最后,將 V-JEPA 2 與語言模型相結合,可以在視頻問答基準(例如感知測試和 TempCompass)上實現最先進的性能。

在第一階段之后,模型能夠預測世界狀態的可能演變。然而,這些預測并沒有直接考慮智能體將采取的具體行動。

因而,在訓練的第二階段,Meta 專注于利用機器人數據(包括視覺觀察(視頻)和機器人正在執行的控制動作)來提升模型的規劃能力。

Meta 通過向預測器提供動作信息,將這些數據整合到 JEPA 訓練流程中。在使用這些額外數據進行訓練后,預測器學會在進行預測時考慮具體動作,然后即可用于控制。

第二階段的訓練不需要大量的機器人數據 —— 僅使用 62 小時的機器人數據進行訓練就能構建出一個可用于規劃和控制的模型。

Meta 展示了 V-JEPA 2 如何用于在新環境中進行零樣本機器人的規劃,這些環境中涉及的物體在訓練階段從未見過。與其他機器人基礎模型不同 —— 這些模型通常需要部分訓練數據來自模型部署的具體機器人實例和環境 —— 他們使用開源的 DROID 數據集對模型進行訓練,然后直接將其部署到 Meta 實驗室的機器人上。他們證明了 V-JEPA 2 的預測器可以用于基礎任務,例如夠到物體、拿起物體,并將其放置到新位置。

對于短期任務,例如拿起或放置物體,Meta 以圖像的形式指定目標。他們使用 V-JEPA 2 的編碼器獲取當前狀態和目標狀態的嵌入向量。從其觀察到的當前狀態出發,機器人通過預測器來想象采取一組候選動作的后果,并根據這些動作與期望目標的接近程度對候選動作進行評分。在每個時間步,機器人通過模型預測控制重新規劃,并執行評分最高的下一個動作以接近目標。

對于長期任務,例如拿起物體并將其放置到正確的位置,他們指定了一系列視覺子目標,機器人會按順序嘗試實現這些子目標,類似于人類觀察到的視覺模仿學習。通過這些視覺子目標,V-JEPA 2 在新環境和未見環境中放置新物體的成功率達到了 65% 到 80%。



對物理理解進行基準測試

這次,Meta 還發布了三個新的基準測試,用于評估現有模型從視頻中理解和推理物理世界的能力。盡管人類在這三個基準測試中的表現都非常出色(準確率在 85% 到 95% 之間),但包括 V-JEPA 2 在內的頂級模型與人類表現之間仍存在顯著差距,這表明模型需要在這些方向上進一步改進。

第一個基準測試 ——IntPhys 2 專門設計用于衡量模型區分物理合理場景和不合理場景的能力,它是基于早期的 IntPhys 基準測試進行構建和擴展的。他們設計 IntPhys 2 的方式類似于發展認知科學家評估年幼人類何時獲得直覺物理能力的方法,即通過「違背預期」范式。他們通過游戲引擎生成視頻對來實現這一點,其中兩個視頻在某個時間點之前完全相同,然后其中一個視頻中發生了違反物理規律的事件。模型必須識別出哪個視頻中發生了違反物理規律的事件。盡管人類在各種場景和條件下幾乎都能完美完成這項任務,但他們發現當前的視頻模型表現僅接近隨機水平。



  • IntPhys 2 項目鏈接:https://github.com/facebookresearch/IntPhys2
  • HuggingFace 鏈接:https://huggingface.co/datasets/facebook/IntPhys2
  • 論文鏈接:https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

第二個基準測試 ——MVPBench 通過多項選擇題來衡量視頻語言模型的物理理解能力。與文獻中的其他視頻問答基準測試不同,MVPBench 旨在減少視頻語言模型中常見的捷徑解決方案,例如依賴于表面的視覺或文本線索和偏見。MVPBench 中的每個示例都有一個最小變化對:一個視覺上相似的視頻,以及相同的問題,但答案相反。為了正確回答一個問題,模型還必須正確回答其對應的最小變化對。



  • MVPBench 項目鏈接:https://github.com/facebookresearch/minimal_video_pairs
  • HuggingFace 鏈接:https://huggingface.co/datasets/facebook/minimal_video_pairs
  • 論文鏈接:https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

第三個基準測試 ——CausalVQA 旨在關注模型對物理世界視頻中因果關系的理解,包括反事實(如果…… 會發生什么)、預期(接下來可能會發生什么)和計劃(為了實現目標應該采取什么行動)。

Meta 發現,雖然大型多模態模型越來越能夠回答視頻中發生了什么的問題,但它們仍然難以回答可能發生什么和接下來可能會發生什么的問題,這表明在預測物理世界在給定動作和事件空間的情況下可能如何演變方面,它們的表現與人類存在巨大差距。



  • CausalVQA 項目鏈接:https://github.com/facebookresearch/CausalVQA
  • 論文鏈接:https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

V-JEPA 2 在 Hugging Face 關于物理推理榜單上排名第一,超越 GPT-4o 等。



地址:https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard

Meta 下一步會做什么

Meta 計劃在多個領域進一步探索世界模型。目前,V-JEPA 2 能夠在單一時間尺度上進行學習和預測。然而,許多任務需要跨多個時間尺度進行規劃。想象一下,將一個高級任務分解成更小的步驟,例如裝載洗碗機或烘烤蛋糕。Meta 希望專注于訓練能夠跨多個時間和空間尺度進行學習、推理和規劃的分層 JEPA 模型。另一個重要方向是多模態 JEPA 模型,這些模型能夠利用多種感官進行預測,包括視覺、聽覺和觸覺。

期待 Meta 接下來的更多研究。

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不許改變南海現狀,G7再度對華叫板,話音剛落,中方直接定下規矩

不許改變南海現狀,G7再度對華叫板,話音剛落,中方直接定下規矩

妙知
2025-06-20 10:31:09
發現了沒有,51歲的劉強東,中老年男人的特質他是一個也沒有啊!

發現了沒有,51歲的劉強東,中老年男人的特質他是一個也沒有啊!

東方不敗然多多
2025-06-19 11:05:21
侯森:點球大戰獲有運氣成分,國安遠征軍氣勢不輸大連主場

侯森:點球大戰獲有運氣成分,國安遠征軍氣勢不輸大連主場

雷速體育
2025-06-21 22:28:36
從7月起,需做好“潮水退去”后的準備?房地產或將出現5個趨勢

從7月起,需做好“潮水退去”后的準備?房地產或將出現5個趨勢

平說財經
2025-06-21 07:14:09
足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

側身凌空斬
2025-06-21 20:56:31
女排3-1日本!攔網無解,龔翔宇+2主攻+2副攻齊爆,張籽萱成長!

女排3-1日本!攔網無解,龔翔宇+2主攻+2副攻齊爆,張籽萱成長!

籃球資訊達人
2025-06-21 21:54:54
阿斯麥CEO哀嘆:沒用的,無論給中國設置多少障礙,都沒用

阿斯麥CEO哀嘆:沒用的,無論給中國設置多少障礙,都沒用

混沌錄
2025-06-21 23:14:06
鄭秀文香奈兒造型炸場,時尚表現力滿分

鄭秀文香奈兒造型炸場,時尚表現力滿分

述家娛記
2025-06-20 22:20:27
福建省委常委、組織部部長苗延紅,添新職

福建省委常委、組織部部長苗延紅,添新職

中國日報網
2025-06-21 15:22:05
莫言:喜歡把家里打掃得很干凈的人,表面整潔,實則暴露了人生真相......

莫言:喜歡把家里打掃得很干凈的人,表面整潔,實則暴露了人生真相......

不二大叔
2025-06-19 21:44:53
女子出軌被抓包,丈夫抓她游行示眾:她把我的錢給其他男人花

女子出軌被抓包,丈夫抓她游行示眾:她把我的錢給其他男人花

唐小糖說情感
2025-06-15 08:46:47
打完加沙打伊朗,以色列下一個目標是誰?還是一個亞洲國家

打完加沙打伊朗,以色列下一個目標是誰?還是一個亞洲國家

安珈使者啊
2025-06-21 22:45:03
1.05億,再見火箭!斯通給的還是太多,休城這回是真砸手里了

1.05億,再見火箭!斯通給的還是太多,休城這回是真砸手里了

呆哥聊球
2025-06-21 20:13:12
揭秘國內著名風水斗法事件!貧窮不僅僅限制了你的想象力!

揭秘國內著名風水斗法事件!貧窮不僅僅限制了你的想象力!

談史論天地
2025-06-20 07:50:03
多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

多國出現了退貨潮!演習失敗,中國蘇-35反而成了爆款?

科技處長
2025-06-10 23:00:13
張智霖獨自駕豪車買水被偶遇,54歲生圖曝光:這狀態確定沒開美顏

張智霖獨自駕豪車買水被偶遇,54歲生圖曝光:這狀態確定沒開美顏

玫瑰講娛
2025-06-21 08:13:57
“嫂子,咱媽病了,需要5萬做手術”嫂子:你媽病了,關我什么事

“嫂子,咱媽病了,需要5萬做手術”嫂子:你媽病了,關我什么事

多久情感
2025-06-20 21:51:01
血型可以預測癌癥?研究發現:A、AB血型的人,患癌風險更高

血型可以預測癌癥?研究發現:A、AB血型的人,患癌風險更高

素衣讀史
2025-06-18 10:43:20
阿根廷的“瘋子”總統,扇了誰的耳光?

阿根廷的“瘋子”總統,扇了誰的耳光?

古老板的老巢
2025-06-18 00:39:39
哈梅內伊與家人一起躲入地堡,內景曝光!已將權力委托革命衛隊

哈梅內伊與家人一起躲入地堡,內景曝光!已將權力委托革命衛隊

環球熱點快評
2025-06-19 10:21:28
2025-06-22 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

時尚
教育
健康
本地
手機

天啊,凱特王妃都在準備葬禮了?

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

呼吸科專家破解呼吸道九大謠言!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

手機要聞

曝REDMI K90系列影像新升級:評估豪威OV50Q主攝

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 景宁| 托里县| 威信县| 乳源| 宜兰县| 溆浦县| 钟山县| 二手房| 元江| 杨浦区| 永济市| 青神县| 饶河县| 固安县| 沙洋县| 阳东县| 怀宁县| 北碚区| 台中市| 贵阳市| 普安县| 扎赉特旗| 浦北县| 客服| 大荔县| 蕉岭县| 乐都县| 龙岩市| 仙游县| 隆回县| 镇安县| 稷山县| 庐江县| 札达县| 嘉黎县| 合川市| 洪江市| 兴仁县| 徐汇区| 内丘县| 洪泽县|