說起世界模型,前幾天Google發現智能體需要世界模型,我們也進行了解讀:通用智能體需要世界模型,Google DeepMind團隊發現AGI的必經之路
然而最早下注世界模型的大廠,應該要算是Meta了。Meta首席科學家、圖靈獎得主Yann Lecun,認為主流的GPT等自回歸大語言模型缺乏對物理世界的理解能力,所以提出聯合嵌入預測架構(JEPA),我們整理了JEPA的時間線,方便大家直觀感受一下:
2025年6月,Meta公司的FAIR實驗室在Github和Hugging Face上開源了最新的V-JEPA2模型,并且在arXiv上發表論文:V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning。
如果有一個AI能像人類一樣觀看視頻,不僅能理解正在發生什么,還能預測接下來會發生什么,甚至能指揮機器人完成復雜任務,聽上去還很遙遠,但現在已經成為現實。
這個名為V-JEPA 2的AI系統就像一個學霸,它通過觀看海量視頻來學習理解這個世界。更令人驚訝的是,它不需要人類告訴它每個畫面的具體含義,而是通過自監督學習的方法自己摸索規律。
研究團隊讓這個AI觀看了超過100萬小時的網絡視頻,這相當于一個人不眠不休看114年的內容。通過這種瘋狂刷劇式的學習,V-JEPA 2掌握了三項核心技能:理解視頻內容、預測未來發生的事情,以及指導機器人完成任務。
出人意料的是,這個AI在理解復雜動作方面表現出色。在一項名為Something-Something v2的測試中,它需要區分各種細微的手部動作,比如把東西向左推和把東西向右推,V-JEPA 2達到了77.3%的準確率,這在同類系統中屬于頂尖水平。
當研究人員只給它看了62小時的機器人操作視頻后,V-JEPA 2就學會了控制機器人。在實驗中,它成功指揮機器人完成了抓取物體和搬運任務,而且這些機器人從未在它學習的環境中出現過。
從模仿人類學習開始:AI如何看懂視頻的奧秘
傳統的AI學習方式就像應試教育,需要大量標注好的數據,每張圖片都要有人工標記這是貓、那是狗。但V-JEPA 2采用了一種更像人類的學習方式:它會主動遮住視頻的某些部分,然后嘗試猜測被遮住的內容是什么。
這種學習方法被稱為掩碼去噪,就像做填空題一樣。想象你在看一部電影,突然某些畫面被黑布遮住了,但你仍然可以根據前后情節猜測被遮住的部分發生了什么。V-JEPA 2就是通過這種方式訓練自己的想象力和推理能力。
研究團隊構建了一個龐大的視頻數據集,包含2200萬個視頻片段,總計超過100萬小時的內容。這些視頻來源廣泛,包括日常生活場景、動作演示、教學視頻等。為了確保學習質量,研究人員還對數據進行了精心篩選,就像為學生挑選高質量的教材一樣。
V-JEPA 2的大腦采用了Vision Transformer(ViT)架構,可以理解為一個專門處理視覺信息的神經網絡。它有兩個核心組件:編碼器和預測器。編碼器負責理解和記憶看到的內容,而預測器則負責根據已有信息推測缺失的部分。
為了處理更長的視頻片段,研究團隊還開發了一種漸進式訓練策略。起初,AI只觀看16幀的短視頻片段(大約4秒),隨著學習的深入,它逐漸能夠處理64幀的長視頻(約16秒)。這就像教孩子閱讀時,先從簡單的句子開始,然后逐漸增加到復雜的段落。
值得注意的是,V-JEPA 2使用了一種特殊的位置編碼方法叫做3D-RoPE,這幫助它更好地理解視頻中的時間和空間關系。就像給拼圖的每塊碎片標上坐標一樣,這種方法讓AI知道每個畫面片段在整個視頻中的確切位置。
預測未來的魔法:AI如何學會未卜先知
V-JEPA 2最令人驚嘆的能力之一就是預測未來。但這種預測并不是神秘的占卜,而是基于對世界運行規律的深度理解。
在人類的認知理論中,我們的大腦會不斷構建一個內在的世界模型,這個模型幫助我們理解和預測周圍發生的事情。比如,當你看到有人舉起茶杯時,你的大腦會自動預測接下來他們可能會喝茶。V-JEPA 2的工作原理與此類似。
研究團隊特別關注一項叫做動作預期的任務:需要AI觀看廚房場景的視頻,然后預測接下來一秒鐘內會發生什么動作。
在Epic-Kitchens-100數據集的測試中,V-JEPA 2展現了驚人的預測能力。這個數據集包含了100小時的廚房活動錄像,涵蓋了45個不同的廚房環境。AI需要預測動詞("切"、"倒"、"拿")和名詞("胡蘿卜"、"杯子"、"刀"),以及它們的組合("切胡蘿卜")。
V-JEPA 2在動作預測方面的表現令人矚目,在回憶前5名的指標中達到了39.7的分數,比之前的最佳模型提高了44%。這意味著在100次預測中,有40次它的前5個猜測中包含了正確答案。
更有趣的是,研究人員發現V-JEPA 2的預測能力隨著模型規模的增大而線性提升。當模型參數從3億增加到10億時,預測準確性顯著提高。
為了理解AI的預測過程,研究團隊還進行了可視化實驗。他們訓練了一個解碼器來將AI的內在表示轉換成人類可以理解的圖像。結果顯示,當給定相同的動作序列但不同的抓握狀態(張開或閉合)時,AI能夠正確預測物體是否會隨著機械手臂移動。這表明AI已經理解了基本的物理規律,比如只有抓住物體才能移動它。
從觀察到行動:訓練AI控制機器人的智慧
擁有了觀察和預測能力后,V-JEPA 2面臨的下一個挑戰是學會采取行動。這就像一個從未下過廚的人,通過觀看大量烹飪節目學會了識別食材和預測烹飪過程,現在需要真正拿起鍋鏟親自下廚。
為了實現這個目標,研究團隊開發了V-JEPA 2-AC(Action-Conditioned,動作條件版本)。這個升級版本能夠理解如果我執行某個動作,會發生什么結果這樣的因果關系。
訓練過程分為兩個階段。首先,V-JEPA 2通過觀看網絡視頻學會了理解世界的基本規律。然后,研究人員凍結了這些已學會的知識,在此基礎上添加了一個新的動作預測器。這個預測器專門學習:給定當前狀態和某個動作,下一個狀態會是什么樣。
令人驚訝的是,這個動作條件訓練只使用了62小時的機器人操作視頻。這些視頻來自Droid數據集,包含了各種桌面操作任務,比如抓取、移動和放置物體。重要的是,這些視頻沒有任何人工標注,沒有人告訴AI哪些動作是好的,哪些是壞的,它只是觀察動作和結果之間的關系。
V-JEPA 2-AC的架構包含一個凍結的視頻編碼器(來自預訓練階段)和一個新的動作條件預測器。預測器使用了一種特殊的注意力機制,允許每個時間步的信息與之前所有時間步的信息進行交互,就像一個人在做決定時會考慮所有相關的歷史信息。
訓練時,系統學習兩種損失函數。教師強制損失確保AI能夠準確預測下一幀的狀態,而滾動損失則訓練AI進行多步預測,避免錯誤累積。這就像學習開車時,既要學會根據當前路況做出正確反應,也要學會規劃更長的行駛路線。
零樣本機器人控制:當AI遇見真實世界
訓練完成后,是時候讓V-JEPA 2-AC接受真正的考驗了。研究團隊將其部署到兩個不同實驗室的Franka機械臂上,這些機器人從未出現在訓練數據中。
控制機器人的方法被稱為模型預測控制,這個過程就像下象棋一樣。每次輪到AI行動時,它會在腦海中模擬多種可能的動作序列,選擇最有可能達到目標的那個,然后執行第一步動作。接著,它會觀察實際結果,更新對當前狀態的理解,然后重復這個過程。
研究人員設計了幾種測試任務。最基本的是單目標到任務,機器人需要將機械手臂移動到指定位置。在這個測試中,V-JEPA 2-AC表現出色,能夠將機械手臂精確移動到距離目標4厘米以內,而且移動軌跡顯示出明顯的趨向目標特征。
更復雜的任務包括抓取物體、搬運物體和拾取并放置。在抓取任務中,機器人需要正確識別物體并執行精確的抓握動作。在搬運任務中,機器人需要在抓住物體的同時小心移動,避免物體掉落。最具挑戰性的拾取并放置任務要求機器人完成完整的操作序列:接近物體、抓取、搬運到目標位置、然后放下。
實驗結果很好。在基本的到達任務中,V-JEPA 2-AC達到了100%的成功率。在抓取任務中,對于杯子這樣的物體,成功率達到65%,對于盒子達到25%。在最復雜的拾取并放置任務中,杯子的成功率為80%,盒子為65%。
研究團隊還與其他先進的機器人控制方法進行了比較。他們測試了Octo模型(一個基于視覺-語言-動作的系統)和Cosmos模型(一個視頻生成模型)。結果顯示,V-JEPA 2-AC在所有任務上都表現最佳,特別是在涉及物體交互的復雜任務中優勢明顯。
有趣的是,研究人員還分析了V-JEPA 2-AC的能量景觀。通過可視化AI在選擇動作時的內在評估過程,他們發現這個系統確實學會了合理的物理直覺。例如,當需要向某個方向移動時,AI給出的最優動作確實指向正確方向,而且能量函數呈現出平滑的、局部凸的特征,這有利于規劃算法找到最優解。
視頻問答的新境界:讓AI像人類一樣理解視頻內容
除了控制機器人,V-JEPA 2還在視頻問答領域展現了令人印象深刻的能力。
為了實現這個功能,研究團隊將V-JEPA 2與大型語言模型結合,創建了一個多模態系統。這個過程就像為一個擅長理解圖像的專家和一個擅長處理語言的專家建立溝通橋梁,讓他們能夠協同工作。
系統的訓練采用了漸進式方法,分為三個階段。第一階段專注于圖像描述任務,讓AI學會將視覺信息轉換為語言描述。第二階段擴展到圖像問答,訓練AI回答關于圖像內容的問題。第三階段則進入視頻領域,學習理解和回答關于視頻內容的復雜問題。
整個訓練過程使用了8850萬個圖像-文本和視頻-文本對,這個規模相當于讓AI同時學習數萬本圖冊和觀看數十萬小時的帶解說視頻。訓練采用了Llama 3.1 8B作為語言處理的基礎模型,這確保了系統具備強大的語言理解和生成能力。
在多個標準測試中,V-JEPA 2展現了卓越的性能。在PerceptionTest測試中,它獲得了84.0的準確率,這個測試專門評估AI對物理世界的理解能力,包括物體運動、因果關系和空間推理等。在MVP數據集上,它達到了44.5的配對準確率,這個測試通過最小化文本和外觀偏差來評估真正的物理世界理解能力。
特別值得關注的是,V-JEPA 2在時間推理任務上表現突出。在TempCompass測試中獲得76.9的多選準確率,在TemporalBench測試中獲得36.7的多二元短問答準確率。這些結果表明,AI不僅能理解視頻中的靜態內容,還能把握事件的時間順序和因果關系。
令研究人員驚訝的是,即使V-JEPA 2在預訓練階段沒有接觸任何語言監督,但經過適當的對齊訓練后,它的表現超越了許多專門為視覺-語言任務設計的模型。這打破了學界的傳統觀念,證明了自監督視頻學習的強大潛力。
研究團隊還進行了詳細的消融研究,探索不同因素對性能的影響。他們發現,增加視覺編碼器的規模和提高輸入分辨率都能顯著提升性能。當處理更長的視頻片段時,V-JEPA 2的性能持續改善,這表明它真正從增加的時間信息中受益。
技術細節的巧思:構建強大AI系統的工程智慧
V-JEPA 2的成功不僅來自巧妙的算法設計,更離不開大量精心考慮的技術細節。
在數據處理方面,研究團隊面臨了巨大的挑戰。他們需要從海量的網絡視頻中篩選出高質量的訓練素材。為此,他們開發了一套基于聚類的篩選系統,這個系統就像一個經驗豐富的圖書館員,能夠識別和保留最有價值的內容。
具體來說,他們首先使用計算機視覺技術將視頻分解為獨立的場景片段,然后使用DINOv2模型提取每個場景的特征,接著將相似的場景聚類到一起。通過這種方法,他們從原始的316萬個場景中篩選出115萬個高質量場景,大大提高了訓練效率。
在模型架構設計上,V-JEPA 2采用了多項創新技術。其中最重要的是3D旋轉位置編碼(3D-RoPE),這種技術幫助模型更好地理解視頻中的時空關系。傳統的位置編碼只能處理二維的空間信息,而3D-RoPE將特征維度分成三個部分,分別處理時間、高度和寬度信息,就像為每個視頻片段提供了三維坐標。
訓練策略也經過了精心設計。研究團隊采用了一種漸進式分辨率訓練方法,開始時使用較低分辨率和較短的視頻片段,隨著訓練的進行逐漸增加分辨率和長度。這種方法大大減少了計算需求——相比直接訓練高分辨率模型,這種方法節省了8倍以上的計算時間。
在機器人控制的實現中,研究團隊巧妙地解決了視覺表示與動作空間之間的映射問題。他們使用交叉熵方法來優化動作序列,這個過程就像在所有可能的動作中進行選秀,首先隨機生成大量候選動作,然后根據預期效果排序,保留最優秀的候選者,最后基于這些優秀候選者生成新一輪的候選動作。
為了確保系統的魯棒性,研究人員還進行了大量的敏感性分析。他們發現,相機位置的微小變化會影響機器人的控制精度,這是因為系統需要從單目視覺信息中推斷動作的坐標系。雖然這在一定程度上限制了系統的即插即用能力,但研究人員提出了校準方案來解決這個問題。
在多模態融合方面,V-JEPA 2采用了非標記化的早期融合策略。與許多現有系統不同,它不將視覺信息轉換為離散的標記,而是直接使用連續的特征表示。這種方法就像用高清照片而不是像素畫來傳遞信息,保留了更多的細節和連續性。
實驗驗證的嚴謹性:科學方法的典范
V-JEPA 2的研究展現了現代AI研究的嚴謹性和全面性。研究團隊不僅提出了新方法,更重要的是進行了詳盡的實驗驗證,確保每一個聲明都有堅實的數據支撐。
在視覺理解能力的評估中,研究人員選擇了六個具有代表性的任務,涵蓋了運動理解和外觀理解兩個方面。運動理解任務包括Something-Something v2、Diving-48和Jester,這些任務要求AI理解手勢動作的細微差別。外觀理解任務包括Kinetics400、COIN和ImageNet,主要考察AI對物體和場景的識別能力。
評估協議經過精心設計,采用了凍結編碼器的方法。這意味著預訓練的視覺編碼器權重被凍結,只訓練一個輕量級的分類器。這種方法就像考試時不允許學生查閱資料,純粹測試已掌握的知識,確保了評估結果真實反映了預訓練模型的能力。
在機器人控制實驗中,研究團隊特別注重零樣本泛化能力的驗證。他們選擇了兩個從未在訓練數據中出現的實驗室環境,使用了不同的機器人平臺。這就像讓一個只在模擬器中學會開車的AI直接在真實道路上駕駛,是對系統泛化能力的嚴峻考驗。
實驗設計還包含了多個對照組。研究人員將V-JEPA 2與基于行為克隆的系統Octo和視頻生成模型Cosmos進行了直接比較。這些基準系統代表了不同的技術路線,使得比較結果更具說服力。
為了確保結果的可重復性,研究團隊公開了完整的代碼實現和詳細的超參數設置。他們還進行了多次獨立實驗,報告了平均性能和方差,體現了科學研究的嚴謹態度。
在統計分析方面,研究人員不僅報告了平均性能,還分析了不同條件下的性能變化。例如,他們發現V-JEPA 2的性能隨模型規模呈現線性擴展趨勢,這為未來的模型設計提供了重要指導。
研究團隊誠實地報告了系統的局限性。他們指出了相機位置敏感性問題,分析了長期規劃的挑戰,并討論了當前方法的適用范圍,為后續研究者提供了寶貴的經驗教訓。
意義深遠的影響:重塑AI與機器人技術的未來
V-JEPA 2展示了一種走向通用人工智能(AGI)的可能路徑。傳統的AI系統往往專精于單一任務,而V-JEPA 2展現了在理解、預測和行動三個核心智能要素上的統一能力。這讓我們看到了開發真正通用AI系統的希望。
未來的AI系統可能會具備更強的遷移學習能力。就像一個人學會騎自行車后很容易學會騎摩托車一樣,未來的AI可能能夠將在一個領域學到的知識快速應用到其他領域。這種能力將大大加速AI技術的應用和普及。
V-JEPA 2證明了一個重要理念:AI可以通過觀察世界來學習,而不需要依賴大量的人工標注數據。
這項研究還為多模態AI系統的發展提供了新思路。V-JEPA 2成功地將視覺理解、語言處理和動作控制統一在一個框架中,這為開發更加智能和通用的AI助手奠定了基礎。未來的家庭機器人可能既能理解你的語言指令,又能觀察環境做出合適的反應,還能預測可能發生的情況并提前準備。
從科學研究的角度來看,V-JEPA 2驗證了認知科學中關于內在世界模型的理論。人類之所以能夠在復雜環境中導航和決策,很大程度上依賴于我們大腦中構建的世界模型。V-JEPA 2的成功表明,這種認知機制可以在人工系統中實現。
然而,研究團隊也誠實地指出了當前系統的局限性。長期規劃仍然是一個挑戰,系統對環境變化(如相機位置)的敏感性需要進一步改善。此外,當前的方法主要依賴視覺目標,而在現實應用中,更自然的交互方式可能是語言指令。
盡管存在這些局限性,V-JEPA 2的成功為未來的研究指明了方向。研究團隊提出了幾個重要的發展方向:開發能夠進行分層推理的模型,使AI能夠在不同的時空尺度上進行規劃;將語言理解更深度地集成到世界模型中,實現更自然的人機交互;繼續擴大模型規模,探索更強大的智能涌現。
從技術發展的角度來看,未來幾年可能會看到以下幾個重要趨勢:
1.模型規模的持續增長:研究表明,V-JEPA 2的性能隨著模型規模的增大而提升。未來可能會出現參數規模達到萬億級別的視覺智能模型。
2.多模態融合的深化:未來的AI系統可能不僅能處理視覺和語言信息,還能整合聲音、觸覺等多種感官信息,形成更完整的世界理解。
3.實時學習能力的增強:當前的V-JEPA 2需要大量預訓練,未來的系統可能能夠在使用過程中持續學習和改進。
4.能效的大幅提升:隨著專用芯片和算法優化的發展,運行復雜AI模型的能耗將大幅降低,使得在移動設備和邊緣設備上部署強大AI成為可能。
結語
當我們看到一個AI系統能夠通過觀看視頻就學會控制機器人,就像人類通過觀察學習一樣,我們不禁要問:智能的邊界在哪里?未來的AI還能帶給我們什么驚喜?
也許答案就隱藏在下一個100萬小時的觀察學習中。就像V-JEPA 2通過不懈的觀察獲得了理解世界的能力一樣,人類也在通過不斷的探索和創新,一步步接近真正智能的奧秘。
人類用了數百萬年的進化才獲得了觀察、理解和行動的智能,而AI在短短幾年內就展現出了相似的能力。這種進步速度讓人既興奮又深思:在這個智能快速發展的時代,我們該如何準備迎接一個AI與人類深度融合的未來?
V-JEPA 2給了我們一個答案的開端:通過觀察、理解和學習,智能可以不斷成長和進化。無論是人工的還是自然的,智能的本質都在于對世界的好奇心和理解力。在這個充滿變化的時代,保持學習的心態,也許就是我們與AI共同成長的最好方式。
論文地址:https://arxiv.org/abs/2506.09985
模型地址:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A
Q1:什么是V-JEPA 2?
A:V-JEPA 2,全稱是Video Joint Embedding Predictive Architecture 2,是Meta開發的一種世界模型。它在理解和預測物理世界方面的視覺任務上,取得了目前最先進的性能。
Q2:V-JEPA 2有什么功能?
A:V-JEPA 2提升了動作預測和世界建模的能力,這使得機器人能夠與不熟悉的物體和環境進行交互以完成任務。該模型還可以用于零樣本機器人規劃,以便在新的環境中與不熟悉的物體進行交互。
Q3:Meta發布了哪三個新的基準來評估模型?
A:Meta發布了三個新的基準,分別是:IntPhys 2: 通過要求模型從兩個幾乎相同的視頻中識別出哪個包含物理上不可能的事件,來測試其直覺物理能力;Minimal Video Pairs (MVPBench): 使用選擇題來評估模型的物理理解能力,這些問題與視覺上相似但答案相反的視頻配對,以防止模型采用捷徑式解答;CausalVQA: 通過提問有關反事實、預測和規劃的問題,來評估模型對物理因果關系的掌握程度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.