LeCun最新世界模型：首次實現(xiàn)16秒場景預(yù)測，機(jī)器人掌握第一視角

2025-07-01 15:23:48　來源: 量子位

北京舉報

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號 QbitAI

LeCun在干嘛呢？

就在扎克伯克親自帶隊Meta的AI項目，千億薪酬挖得硅谷人心浮動之際。Meta在AI領(lǐng)域最負(fù)盛名的大佬、圖靈獎得主、深度學(xué)習(xí)三巨頭之一的Yann LeCun，卻幾乎聲量全無，他沒有參與LLM基礎(chǔ)模型的研發(fā)，也開始在社交網(wǎng)絡(luò)上消停了。

LeCun是要離開Meta了嗎？

不不不。他可能只是在憋自己想追逐的大招，比如——世界模型。而且就在最近，LeCun團(tuán)隊的世界模型新進(jìn)展來了。

名叫PEVA模型，新突破是讓具身智能體學(xué)會這人類一樣的“預(yù)判能力”，首次實現(xiàn)16秒連貫場景預(yù)測。怎么說呢？就像人類伸手時會預(yù)判手臂進(jìn)入視野的角度、走路時會提前觀察腳下路徑，LeCun團(tuán)隊的最新模型，可以讓機(jī)器人實現(xiàn)這樣的能力。

該模型通過結(jié)構(gòu)化動作表示將人體48維關(guān)節(jié)運動學(xué)數(shù)據(jù)與條件擴(kuò)散Transformer結(jié)合。

利用VAE編碼視頻幀、自適應(yīng)層歸一化嵌入動作條件及跨歷史幀注意力機(jī)制等，實現(xiàn)了從全身動作預(yù)測第一視角視頻的高精度生成與長期時序連貫。

PEVA模型讓具身智能體不再依賴“上下左右”這種抽象信號進(jìn)行訓(xùn)練，而是以第一人稱視角的視頻+全身姿態(tài)軌跡為輸入，讓它 “模仿” 人類第一視角下的動作與感知。

通過隨機(jī)時間跳躍與跨歷史幀注意力，解決了擴(kuò)散模型在長時序動作預(yù)測中的計算效率與延遲效應(yīng)問題。

不僅能讓智能體精確模擬伸手取物、行走轉(zhuǎn)向等基礎(chǔ)動作，更實現(xiàn)了長達(dá)16秒的連貫場景預(yù)測

PEVA還具備智能規(guī)劃能力，能在多個動作選項中篩選出最優(yōu)解，輕松完成開冰箱、抓取目標(biāo)物體等復(fù)雜任務(wù)。

這項突破，或許將改寫具身智能體 “笨拙反應(yīng)” 的歷史，讓它們真正學(xué)會“思考”下一步。

LeCun這是要讓AI從“人工智障”進(jìn)化成“人工預(yù)判”??！

PEVA模型：像人類一樣 “模擬” 世界

LeCun團(tuán)隊認(rèn)為具身智能體世界模型應(yīng)具備理解、預(yù)測和規(guī)劃等能力，能夠讓機(jī)器像人一樣 “想象” 動作后的視覺效果。

比如，在一個家庭環(huán)境中，模型要能識別出沙發(fā)、桌子等物體，以及人在房間走動、拿取物品等動作，然后基于這些感知預(yù)測未來行動軌跡。

于是，PEVA模型摒棄了抽象控制信號，采用真實物理基礎(chǔ)上的復(fù)雜動作空間。

關(guān)鍵創(chuàng)新在于用全身動作數(shù)據(jù)訓(xùn)練模型，讓智能體在多樣化的現(xiàn)實場景中以第一人稱視角行動。

結(jié)構(gòu)化動作表示

人體動作包含“整體移動”（如行走）和“關(guān)節(jié)精細(xì)運動”（如手指抓握），需用高維結(jié)構(gòu)化數(shù)據(jù)同時捕捉這兩層信息。

傳統(tǒng)模型使用低維控制信號（如速度、轉(zhuǎn)向），無法刻畫全身關(guān)節(jié)的協(xié)同運動對視覺的影響（如伸手時肩、肘、腕的聯(lián)動如何改變視野）。

結(jié)構(gòu)化動作表示的核心目標(biāo)是完整捕捉人體運動中“整體動作”與“細(xì)微關(guān)節(jié)變化”的雙重信息。

技術(shù)實現(xiàn)

運動學(xué)樹結(jié)構(gòu)編碼：將人體動作表示為以骨盆為根節(jié)點的關(guān)節(jié)層級樹，包含根關(guān)節(jié)的3維平移（全局動態(tài)）和15個上半身關(guān)節(jié)的相對旋轉(zhuǎn)（每個關(guān)節(jié)3維歐拉角，共45維），總維度48維。
局部坐標(biāo)系轉(zhuǎn)換：將全局坐標(biāo)轉(zhuǎn)換為以骨盆為中心的局部坐標(biāo)，消除初始位置和朝向的影響，使動作表示具有平移 / 旋轉(zhuǎn)不變性（如無論人在房間何處，相同伸手動作的編碼一致）。
歸一化與差分表示：位置參數(shù)縮放至[-1,1]，旋轉(zhuǎn)參數(shù)約束在[-π,π]，并以 “幀間變化量” 表示動作（如從第t幀到t+1幀的關(guān)節(jié)運動增量），強(qiáng)化時間動態(tài)特性。

通過“關(guān)節(jié)層級編碼+局部坐標(biāo)系轉(zhuǎn)換+幀間差分”的設(shè)計，將人體全身運動轉(zhuǎn)化為模型可理解的高維結(jié)構(gòu)化數(shù)據(jù)，既保留了物理真實性，又支持細(xì)粒度的視覺控制。

條件擴(kuò)散Transformer架構(gòu)

讓智能體學(xué)會“預(yù)測”能力的挑戰(zhàn)在于動作與視覺的關(guān)系具有高度非線性（如同一手臂動作在不同環(huán)境中導(dǎo)致的視覺變化不同），且存在延遲效應(yīng)（如行走幾步后才看到新場景），需高效捕捉長距離依賴。

PEVA模型設(shè)計

架構(gòu)創(chuàng)新

隨機(jī)時間跳躍訓(xùn)練：從長視頻中隨機(jī)采樣幀（如32秒窗口中選16幀），并將時間跳躍作為動作輸入的一部分，讓模型學(xué)習(xí)不同時間尺度下的動作動態(tài)（如快速揮手與緩慢揮手的視覺差異）。
時間注意力機(jī)制：通過跨歷史幀的交叉注意力，讓當(dāng)前幀生成時關(guān)注過去多幀的 “干凈” 特征（未加噪聲的真實編碼），建模動作的延遲視覺影響（如提前預(yù)測轉(zhuǎn)身后續(xù)的場景變化）。
動作嵌入：將48維動作向量拼接后通過自適應(yīng)層歸一化嵌入Transformer各層，動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)，使動作信息直接影響視覺生成過程（例如，動作中的“向前走”信號會引導(dǎo)模型生成視角前移的畫面）。

該模型采用自回歸擴(kuò)散訓(xùn)練，通過強(qiáng)制輸入真實歷史幀編碼，結(jié)合序列級損失函數(shù)，確保生成幀在動作驅(qū)動下保持時序連貫（如連續(xù)伸手動作的視覺軌跡平滑）。

在訓(xùn)練中使用了Nymeria數(shù)據(jù)集，該數(shù)據(jù)集包含同步的第一視角視頻與全身動作捕捉數(shù)據(jù)，覆蓋了真實場景中的日常動作（如做飯、行走），提供充足的 “動作-視覺” 對兒用于訓(xùn)練，避免了模擬數(shù)據(jù)的物理偏差。

訓(xùn)練時隨機(jī)選擇幀子集（如16幀），通過因果掩碼并行處理序列前綴，提升長視頻訓(xùn)練效率，同時覆蓋動作的短期（如手部微動）與長期（如繞桌行走）影響。

實驗成果：從“機(jī)械執(zhí)行”到“智能規(guī)劃”的跨越

PEVA模型讓具身智能體實現(xiàn)了從人體關(guān)節(jié)運動學(xué)軌跡到第一人稱視頻的端到端預(yù)測

定量分析表明，PEVA模型在多項任務(wù)上表現(xiàn)優(yōu)于基線模型。

在單步預(yù)測中，相比CDiT基線，PEVA的LPIPS值降低0.01，F(xiàn)ID降低1.42，表明其生成畫面與真實畫面的視覺相似度更高、生成質(zhì)量更優(yōu)。

在原子動作控制實驗里，針對 “左手向上”“全身向前” 等基礎(chǔ)動作，PEVA的LPIPS值比CDiT基線低5%-8%，證明其能更精準(zhǔn)地捕捉細(xì)粒度動作帶來的視覺變化。

長期視頻生成方面，在16秒長序列預(yù)測時，PEVA的FID值相比Diffusion Forcing（DF低15%以上，生成視頻的時序連貫性顯著增強(qiáng)。

不僅如此，PEVA模型還能準(zhǔn)確預(yù)測2秒內(nèi)的畫面變化，支持長達(dá)16秒的視頻生成。

在給定多個可能的動作序列時，模型能通過感知相似度評估自動排除不合理選項，選擇與目標(biāo)場景最匹配的動作路徑，展現(xiàn)出類似人類的“試錯-規(guī)劃”思維。

比如，PEVA能夠通過感知環(huán)境，排除第一行“打開水槽”和第二行“走到戶外”的動作序列，找到第三行“打開冰箱”的合理動作。

One More Thing

有意思的是，LeCun曾多次公開表達(dá)了對VAE（基于變分推斷）局限性的批評，卻在PEVA模型的預(yù)訓(xùn)練中使用了VAE編碼器，并用VAE解碼器進(jìn)行了圖像生成的后處理。

LeCun曾稱“VAE是生成模型中的酸黃瓜”（可以理解為“不夠好但勉強(qiáng)可用”），并調(diào)侃其生成樣本的模糊性。

于是，此番讓VAE扮演“視覺特征轉(zhuǎn)換器”的角色引起了網(wǎng)友們的討論。

Yann LeCun立場有所改變？

有人認(rèn)為，盡管LeCun有時不同意某種觀點，但他支持各種新可能。

或者，VAE是一種更實用的選擇。

如果智能體真能像人類一樣預(yù)判行動，以后掃地機(jī)器人能提前 “想” 清楚路線，估計再也不會卡在桌角反復(fù)橫跳了。

你最想讓機(jī)器人幫你搞定什么事呢？

論文地址：https://arxiv.org/abs/2506.21552
項目地址：https://dannytran123.github.io/PEVA/

https://www.reddit.com/r/LocalLLaMA/comments/1lnf7eo/is_yann_lecun_changing_directions_prediction/

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.