聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
LeCun在干嘛呢?
就在扎克伯克親自帶隊Meta的AI項目,千億薪酬挖得硅谷人心浮動之際。Meta在AI領(lǐng)域最負(fù)盛名的大佬、圖靈獎得主、深度學(xué)習(xí)三巨頭之一的Yann LeCun,卻幾乎聲量全無,他沒有參與LLM基礎(chǔ)模型的研發(fā),也開始在社交網(wǎng)絡(luò)上消停了。
LeCun是要離開Meta了嗎?
不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun團(tuán)隊的世界模型新進(jìn)展來了。
名叫PEVA模型,新突破是讓具身智能體學(xué)會這人類一樣的“預(yù)判能力”,首次實現(xiàn)16秒連貫場景預(yù)測。怎么說呢?就像人類伸手時會預(yù)判手臂進(jìn)入視野的角度、走路時會提前觀察腳下路徑,LeCun團(tuán)隊的最新模型,可以讓機(jī)器人實現(xiàn)這樣的能力。
該模型通過結(jié)構(gòu)化動作表示將人體48維關(guān)節(jié)運動學(xué)數(shù)據(jù)與條件擴(kuò)散Transformer結(jié)合。
利用VAE編碼視頻幀、自適應(yīng)層歸一化嵌入動作條件及跨歷史幀注意力機(jī)制等,實現(xiàn)了從全身動作預(yù)測第一視角視頻的高精度生成與長期時序連貫。
PEVA模型讓具身智能體不再依賴“上下左右”這種抽象信號進(jìn)行訓(xùn)練,而是以第一人稱視角的視頻+全身姿態(tài)軌跡為輸入,讓它 “模仿” 人類第一視角下的動作與感知。
通過隨機(jī)時間跳躍與跨歷史幀注意力,解決了擴(kuò)散模型在長時序動作預(yù)測中的計算效率與延遲效應(yīng)問題。
不僅能讓智能體精確模擬伸手取物、行走轉(zhuǎn)向等基礎(chǔ)動作,更實現(xiàn)了長達(dá)16秒的連貫場景預(yù)測
PEVA還具備智能規(guī)劃能力,能在多個動作選項中篩選出最優(yōu)解,輕松完成開冰箱、抓取目標(biāo)物體等復(fù)雜任務(wù)。
這項突破,或許將改寫具身智能體 “笨拙反應(yīng)” 的歷史,讓它們真正學(xué)會“思考”下一步。
LeCun這是要讓AI從“人工智障”進(jìn)化成“人工預(yù)判”??!
PEVA模型: 像人類一樣 “模擬” 世界
LeCun團(tuán)隊認(rèn)為具身智能體世界模型應(yīng)具備理解、預(yù)測和規(guī)劃等能力,能夠讓機(jī)器像人一樣 “想象” 動作后的視覺效果。
比如,在一個家庭環(huán)境中,模型要能識別出沙發(fā)、桌子等物體,以及人在房間走動、拿取物品等動作,然后基于這些感知預(yù)測未來行動軌跡。
于是,PEVA模型摒棄了抽象控制信號,采用真實物理基礎(chǔ)上的復(fù)雜動作空間。
關(guān)鍵創(chuàng)新在于用全身動作數(shù)據(jù)訓(xùn)練模型,讓智能體在多樣化的現(xiàn)實場景中以第一人稱視角行動。
結(jié)構(gòu)化動作表示
人體動作包含“整體移動”(如行走)和“關(guān)節(jié)精細(xì)運動”(如手指抓握),需用高維結(jié)構(gòu)化數(shù)據(jù)同時捕捉這兩層信息。
傳統(tǒng)模型使用低維控制信號(如速度、轉(zhuǎn)向),無法刻畫全身關(guān)節(jié)的協(xié)同運動對視覺的影響(如伸手時肩、肘、腕的聯(lián)動如何改變視野)。
結(jié)構(gòu)化動作表示的核心目標(biāo)是完整捕捉人體運動中“整體動作”與“細(xì)微關(guān)節(jié)變化”的雙重信息。
技術(shù)實現(xiàn)
- 運動學(xué)樹結(jié)構(gòu)編碼:將人體動作表示為以骨盆為根節(jié)點的關(guān)節(jié)層級樹,包含根關(guān)節(jié)的3維平移(全局動態(tài))和15個上半身關(guān)節(jié)的相對旋轉(zhuǎn)(每個關(guān)節(jié)3維歐拉角,共45維),總維度48維。
- 局部坐標(biāo)系轉(zhuǎn)換:將全局坐標(biāo)轉(zhuǎn)換為以骨盆為中心的局部坐標(biāo),消除初始位置和朝向的影響,使動作表示具有平移 / 旋轉(zhuǎn)不變性(如無論人在房間何處,相同伸手動作的編碼一致)。
- 歸一化與差分表示:位置參數(shù)縮放至[-1,1],旋轉(zhuǎn)參數(shù)約束在[-π,π],并以 “幀間變化量” 表示動作(如從第t幀到t+1幀的關(guān)節(jié)運動增量),強(qiáng)化時間動態(tài)特性。
通過“關(guān)節(jié)層級編碼+局部坐標(biāo)系轉(zhuǎn)換+幀間差分”的設(shè)計,將人體全身運動轉(zhuǎn)化為模型可理解的高維結(jié)構(gòu)化數(shù)據(jù),既保留了物理真實性,又支持細(xì)粒度的視覺控制。
條件擴(kuò)散Transformer架構(gòu)
讓智能體學(xué)會“預(yù)測”能力的挑戰(zhàn)在于動作與視覺的關(guān)系具有高度非線性(如同一手臂動作在不同環(huán)境中導(dǎo)致的視覺變化不同),且存在延遲效應(yīng)(如行走幾步后才看到新場景),需高效捕捉長距離依賴。
PEVA模型設(shè)計
架構(gòu)創(chuàng)新
- 隨機(jī)時間跳躍訓(xùn)練:從長視頻中隨機(jī)采樣幀(如32秒窗口中選16幀),并將時間跳躍作為動作輸入的一部分,讓模型學(xué)習(xí)不同時間尺度下的動作動態(tài)(如快速揮手與緩慢揮手的視覺差異)。
- 時間注意力機(jī)制:通過跨歷史幀的交叉注意力,讓當(dāng)前幀生成時關(guān)注過去多幀的 “干凈” 特征(未加噪聲的真實編碼),建模動作的延遲視覺影響(如提前預(yù)測轉(zhuǎn)身后續(xù)的場景變化)。
- 動作嵌入:將48維動作向量拼接后通過自適應(yīng)層歸一化嵌入Transformer各層,動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù),使動作信息直接影響視覺生成過程(例如,動作中的“向前走”信號會引導(dǎo)模型生成視角前移的畫面)。
該模型采用自回歸擴(kuò)散訓(xùn)練,通過強(qiáng)制輸入真實歷史幀編碼,結(jié)合序列級損失函數(shù),確保生成幀在動作驅(qū)動下保持時序連貫(如連續(xù)伸手動作的視覺軌跡平滑)。
在訓(xùn)練中使用了Nymeria數(shù)據(jù)集,該數(shù)據(jù)集包含同步的第一視角視頻與全身動作捕捉數(shù)據(jù),覆蓋了真實場景中的日常動作(如做飯、行走),提供充足的 “動作-視覺” 對兒用于訓(xùn)練,避免了模擬數(shù)據(jù)的物理偏差。
訓(xùn)練時隨機(jī)選擇幀子集(如16幀),通過因果掩碼并行處理序列前綴,提升長視頻訓(xùn)練效率,同時覆蓋動作的短期(如手部微動)與長期(如繞桌行走)影響。
實驗成果:從“機(jī)械執(zhí)行”到“智能規(guī)劃”的跨越
PEVA模型讓具身智能體實現(xiàn)了從人體關(guān)節(jié)運動學(xué)軌跡到第一人稱視頻的端到端預(yù)測
定量分析表明,PEVA模型在多項任務(wù)上表現(xiàn)優(yōu)于基線模型。
在單步預(yù)測中,相比CDiT基線,PEVA的LPIPS值降低0.01,F(xiàn)ID降低1.42,表明其生成畫面與真實畫面的視覺相似度更高、生成質(zhì)量更優(yōu)。
在原子動作控制實驗里,針對 “左手向上”“全身向前” 等基礎(chǔ)動作,PEVA的LPIPS值比CDiT基線低5%-8%,證明其能更精準(zhǔn)地捕捉細(xì)粒度動作帶來的視覺變化。
長期視頻生成方面,在16秒長序列預(yù)測時,PEVA的FID值相比Diffusion Forcing(DF低15%以上,生成視頻的時序連貫性顯著增強(qiáng)。
不僅如此,PEVA模型還能準(zhǔn)確預(yù)測2秒內(nèi)的畫面變化,支持長達(dá)16秒的視頻生成。
在給定多個可能的動作序列時,模型能通過感知相似度評估自動排除不合理選項,選擇與目標(biāo)場景最匹配的動作路徑,展現(xiàn)出類似人類的“試錯-規(guī)劃”思維。
比如,PEVA能夠通過感知環(huán)境,排除第一行“打開水槽”和第二行“走到戶外”的動作序列,找到第三行“打開冰箱”的合理動作。
One More Thing
有意思的是,LeCun曾多次公開表達(dá)了對VAE(基于變分推斷)局限性的批評,卻在PEVA模型的預(yù)訓(xùn)練中使用了VAE編碼器,并用VAE解碼器進(jìn)行了圖像生成的后處理。
LeCun曾稱“VAE是生成模型中的酸黃瓜”(可以理解為“不夠好但勉強(qiáng)可用”),并調(diào)侃其生成樣本的模糊性。
于是,此番讓VAE扮演“視覺特征轉(zhuǎn)換器”的角色引起了網(wǎng)友們的討論。
Yann LeCun立場有所改變?
有人認(rèn)為,盡管LeCun有時不同意某種觀點,但他支持各種新可能。
或者,VAE是一種更實用的選擇。
如果智能體真能像人類一樣預(yù)判行動,以后掃地機(jī)器人能提前 “想” 清楚路線,估計再也不會卡在桌角反復(fù)橫跳了。
你最想讓機(jī)器人幫你搞定什么事呢?
論文地址:https://arxiv.org/abs/2506.21552
項目地址:https://dannytran123.github.io/PEVA/
https://www.reddit.com/r/LocalLLaMA/comments/1lnf7eo/is_yann_lecun_changing_directions_prediction/
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.