本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。
- 論文標(biāo)題:Whole-Body Conditioned Egocentric Video Prediction
- 論文地址:https://arxiv.org/pdf/2506.21552
- 項目地址:https://dannytran123.github.io/PEVA/
- 參考閱讀鏈接:https://x.com/YutongBAI1002/status/1938442251866411281
幾十年來,人工智能領(lǐng)域一直在思考一個看似簡單但非常根本的問題:
如果一個智能體要在真實世界中行動、規(guī)劃,并且和環(huán)境互動,它需要一個怎樣的「世界模型」?
在很多早期研究中,世界模型就是一個預(yù)測引擎:只要給它一個抽象的控制指令,比如「向前走一米」或者「向左轉(zhuǎn) 30 度」,它就能模擬出未來的圖像。這類方式在實驗室環(huán)境里已經(jīng)發(fā)揮過很大作用,但一旦放到真正復(fù)雜的人類生活環(huán)境,就常常捉襟見肘。
畢竟,人并不是一個漂浮在空中的攝像頭。人有四肢、有關(guān)節(jié)、有骨骼,也有著非常具體的物理限制:
- 關(guān)節(jié)的活動范圍
- 軀干的穩(wěn)定性和平衡
- 肌肉力量的極限
這些物理約束決定了:并不是所有動作都能被執(zhí)行,很多計劃只能在可達、可平衡、可承受的范圍內(nèi)完成。而正是這樣的物理性,才塑造了人類真實的動作方式,也塑造了我們能夠看到的和不能看到的信息。
舉一些例子:
- 你想看到身后的情況,就必須轉(zhuǎn)頭或者轉(zhuǎn)身
- 你想看清桌下的東西,就必須彎腰蹲下
- 你想拿到高處的杯子,就必須抬起手臂并伸展身體
這些都不是憑空的,而是被身體結(jié)構(gòu)和運動學(xué)約束的行為。所以如果 AI 也要像人一樣預(yù)測未來,就得學(xué)會:預(yù)測自己的身體能做到什么動作,以及由此產(chǎn)生的視覺后果。
為什么說視覺就是規(guī)劃的一部分?
從心理學(xué)、神經(jīng)科學(xué)到行為學(xué),人們早就發(fā)現(xiàn)一個規(guī)律:在執(zhí)行動作之前,人會先預(yù)演接下來會看到什么。
例如:
- 走向水杯時,腦子里會提前預(yù)測水杯什么時候出現(xiàn)
- 轉(zhuǎn)過一個拐角前,會猜測即將出現(xiàn)的景象
- 伸手的時候,會想象手臂何時進入視野
這種「預(yù)演」能力讓人類能及時修正動作并避免失誤。也就是說,我們并不是光靠看到的畫面做出決策,而是一直在用大腦里的「想象」,預(yù)測動作的結(jié)果。
如果未來的 AI 想在真實環(huán)境中做到和人一樣自然地計劃,就需要擁有同樣的預(yù)測機制:「我如果這樣動,接下來會看到什么?」
世界模型的老思路和新思路
世界模型并不新鮮,從 1943 年 Craik 提出「小規(guī)模大腦模型」的概念開始,到 Kalman 濾波器、LQR 等控制理論的出現(xiàn),再到近年用深度學(xué)習(xí)做視覺預(yù)測,大家都在試圖回答:「我采取一個動作,未來會怎樣?」
但是這些方法往往只考慮了低維度的控制:像「前進」、「轉(zhuǎn)向」這類參數(shù)。相比人類的全身動作,它們顯得非常簡陋。因為人類的動作:
- 有幾十個自由度的關(guān)節(jié)
- 有清晰的分層控制結(jié)構(gòu)
- 動作對視覺的結(jié)果會隨著環(huán)境不斷改變
如果一個世界模型不能考慮身體動作如何塑造視覺信息,它很難在現(xiàn)實世界里生存下來。
PEVA 的小嘗試
基于這樣的背景,來自加州大學(xué)伯克利分校、Meta的研究者們提出了一個看起來簡單但非常自然的問題:「如果我真的做了一個完整的人體動作,那接下來從我的眼睛會看到什么?」
相比傳統(tǒng)模型只用「速度 + 方向」做預(yù)測,PEVA 把整個人的 3D 姿態(tài)(包括關(guān)節(jié)位置和旋轉(zhuǎn))一并喂進模型,和歷史的視頻幀一起輸入,從而讓 AI 學(xué)會:身體的動作,會如何重新組織我們能看到的世界。
舉一些例子:
- 手臂抬起 → 遮擋部分物體,同時也可能露出新的區(qū)域
- 蹲下 → 視角高度變化,地面特征出現(xiàn)
- 轉(zhuǎn)頭 → 原本背后的信息重新進入可見范圍
這就是 PEVA 的核心:預(yù)測未來,不只是預(yù)測像素,而是預(yù)測身體驅(qū)動下的視覺后果。
PEVA 的功能
PEVA 目前能做的事情包括:
- 給定未來的 3D 全身動作,預(yù)測連續(xù)的第一視角視頻。
- 分解復(fù)雜行為成「原子動作」,例如只控制左手或者頭部旋轉(zhuǎn)。
不僅做單次預(yù)測,還能生成最長 16 秒的視覺流。
支持「反事實」推斷:如果做另一個動作,會看到什么?
在多條動作序列之間做規(guī)劃,通過視覺相似度挑出更優(yōu)方案。
在多樣化的日常環(huán)境中學(xué)習(xí),避免過擬合在簡單場景。
一句話總結(jié),PEVA 就像一個「身體驅(qū)動的可視化模擬器」,讓 AI 獲得更接近人類的想象方式。
技術(shù)細節(jié)
PEVA 的技術(shù)很簡單直接,主要包括:
- 全身動作輸入(48 維度的三維姿態(tài))
- 條件擴散模型+ Transformer,兼顧視覺生成和時間邏輯
- 在真實同步的視頻 + 動作(Nymeria 數(shù)據(jù)集)上訓(xùn)練
- 用時間跳躍策略預(yù)測到 16 秒
- 做一個可行的多方案規(guī)劃:在若干個動作軌跡中,用視覺相似度挑一個最可能達成目標(biāo)的方案。
研究者在文章中也用大篇幅討論了局限和展望:例如只做了單臂或部分身體的規(guī)劃,目標(biāo)意圖還比較粗糙,沒法像人那樣用語言描述目標(biāo),這些都值得后續(xù)慢慢補齊。
能力小結(jié)
從評估看,PEVA 在幾個方面算是一個可行的探索:
- 短期視覺預(yù)測,與動作對齊度高。
- 長期可達 16 秒的視頻,仍保持較好連貫性。
- 原子動作的控制能力,比如只預(yù)測手部動作、只預(yù)測轉(zhuǎn)身。
- 規(guī)劃:嘗試多動作模擬,挑選最接近目標(biāo)的一條。
這些能力至少證明了一個方向:用身體驅(qū)動未來的視覺預(yù)測,是走向具身智能的一種合理切入點。
展望
后續(xù)還值得探索的方向包括:
- 語言目標(biāo)和多模態(tài)輸入
- 真實交互中的閉環(huán)控制
- 對更復(fù)雜任務(wù)的可解釋規(guī)劃
當(dāng) AI 試著像人一樣行動時,也許它同樣需要先學(xué)會:如果我這么動,接下來會看到什么。
結(jié)語
或許可以這樣說:「人類之所以能看見未來,是因為身體在動,視覺隨之更新。」
PEVA 只是一個很小的嘗試,但希望為未來可解釋、可信任的具身智能,提供一點點啟發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.