99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LeCun最新世界模型:首次實現(xiàn)16秒場景預(yù)測,機(jī)器人掌握第一視角

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

LeCun在干嘛呢?

就在扎克伯克親自帶隊Meta的AI項目,千億薪酬挖得硅谷人心浮動之際。Meta在AI領(lǐng)域最負(fù)盛名的大佬、圖靈獎得主、深度學(xué)習(xí)三巨頭之一的Yann LeCun,卻幾乎聲量全無,他沒有參與LLM基礎(chǔ)模型的研發(fā),也開始在社交網(wǎng)絡(luò)上消停了。

LeCun是要離開Meta了嗎?

不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun團(tuán)隊的世界模型新進(jìn)展來了。

名叫PEVA模型,新突破是讓具身智能體學(xué)會這人類一樣的“預(yù)判能力”,首次實現(xiàn)16秒連貫場景預(yù)測。怎么說呢?就像人類伸手時會預(yù)判手臂進(jìn)入視野的角度、走路時會提前觀察腳下路徑,LeCun團(tuán)隊的最新模型,可以讓機(jī)器人實現(xiàn)這樣的能力。

該模型通過結(jié)構(gòu)化動作表示將人體48維關(guān)節(jié)運動學(xué)數(shù)據(jù)與條件擴(kuò)散Transformer結(jié)合。

利用VAE編碼視頻幀、自適應(yīng)層歸一化嵌入動作條件及跨歷史幀注意力機(jī)制等,實現(xiàn)了從全身動作預(yù)測第一視角視頻的高精度生成與長期時序連貫。



PEVA模型讓具身智能體不再依賴“上下左右”這種抽象信號進(jìn)行訓(xùn)練,而是以第一人稱視角的視頻+全身姿態(tài)軌跡為輸入,讓它 “模仿” 人類第一視角下的動作與感知。



通過隨機(jī)時間跳躍與跨歷史幀注意力,解決了擴(kuò)散模型在長時序動作預(yù)測中的計算效率與延遲效應(yīng)問題。

不僅能讓智能體精確模擬伸手取物、行走轉(zhuǎn)向等基礎(chǔ)動作,更實現(xiàn)了長達(dá)16秒的連貫場景預(yù)測



PEVA還具備智能規(guī)劃能力,能在多個動作選項中篩選出最優(yōu)解,輕松完成開冰箱、抓取目標(biāo)物體等復(fù)雜任務(wù)。



這項突破,或許將改寫具身智能體 “笨拙反應(yīng)” 的歷史,讓它們真正學(xué)會“思考”下一步。

LeCun這是要讓AI從“人工智障”進(jìn)化成“人工預(yù)判”??!



PEVA模型: 像人類一樣 “模擬” 世界

LeCun團(tuán)隊認(rèn)為具身智能體世界模型應(yīng)具備理解、預(yù)測和規(guī)劃等能力,能夠讓機(jī)器像人一樣 “想象” 動作后的視覺效果。

比如,在一個家庭環(huán)境中,模型要能識別出沙發(fā)、桌子等物體,以及人在房間走動、拿取物品等動作,然后基于這些感知預(yù)測未來行動軌跡。

于是,PEVA模型摒棄了抽象控制信號,采用真實物理基礎(chǔ)上的復(fù)雜動作空間。

關(guān)鍵創(chuàng)新在于用全身動作數(shù)據(jù)訓(xùn)練模型,讓智能體在多樣化的現(xiàn)實場景中以第一人稱視角行動。



結(jié)構(gòu)化動作表示

人體動作包含“整體移動”(如行走)和“關(guān)節(jié)精細(xì)運動”(如手指抓握),需用高維結(jié)構(gòu)化數(shù)據(jù)同時捕捉這兩層信息。

傳統(tǒng)模型使用低維控制信號(如速度、轉(zhuǎn)向),無法刻畫全身關(guān)節(jié)的協(xié)同運動對視覺的影響(如伸手時肩、肘、腕的聯(lián)動如何改變視野)。

結(jié)構(gòu)化動作表示的核心目標(biāo)是完整捕捉人體運動中“整體動作”與“細(xì)微關(guān)節(jié)變化”的雙重信息。

技術(shù)實現(xiàn)

  • 運動學(xué)樹結(jié)構(gòu)編碼:將人體動作表示為以骨盆為根節(jié)點的關(guān)節(jié)層級樹,包含根關(guān)節(jié)的3維平移(全局動態(tài))和15個上半身關(guān)節(jié)的相對旋轉(zhuǎn)(每個關(guān)節(jié)3維歐拉角,共45維),總維度48維。
  • 局部坐標(biāo)系轉(zhuǎn)換:將全局坐標(biāo)轉(zhuǎn)換為以骨盆為中心的局部坐標(biāo),消除初始位置和朝向的影響,使動作表示具有平移 / 旋轉(zhuǎn)不變性(如無論人在房間何處,相同伸手動作的編碼一致)。
  • 歸一化與差分表示:位置參數(shù)縮放至[-1,1],旋轉(zhuǎn)參數(shù)約束在[-π,π],并以 “幀間變化量” 表示動作(如從第t幀到t+1幀的關(guān)節(jié)運動增量),強(qiáng)化時間動態(tài)特性。

通過“關(guān)節(jié)層級編碼+局部坐標(biāo)系轉(zhuǎn)換+幀間差分”的設(shè)計,將人體全身運動轉(zhuǎn)化為模型可理解的高維結(jié)構(gòu)化數(shù)據(jù),既保留了物理真實性,又支持細(xì)粒度的視覺控制。

條件擴(kuò)散Transformer架構(gòu)

讓智能體學(xué)會“預(yù)測”能力的挑戰(zhàn)在于動作與視覺的關(guān)系具有高度非線性(如同一手臂動作在不同環(huán)境中導(dǎo)致的視覺變化不同),且存在延遲效應(yīng)(如行走幾步后才看到新場景),需高效捕捉長距離依賴。


PEVA模型設(shè)計

架構(gòu)創(chuàng)新

  • 隨機(jī)時間跳躍訓(xùn)練:從長視頻中隨機(jī)采樣幀(如32秒窗口中選16幀),并將時間跳躍作為動作輸入的一部分,讓模型學(xué)習(xí)不同時間尺度下的動作動態(tài)(如快速揮手與緩慢揮手的視覺差異)。
  • 時間注意力機(jī)制:通過跨歷史幀的交叉注意力,讓當(dāng)前幀生成時關(guān)注過去多幀的 “干凈” 特征(未加噪聲的真實編碼),建模動作的延遲視覺影響(如提前預(yù)測轉(zhuǎn)身后續(xù)的場景變化)。
  • 動作嵌入:將48維動作向量拼接后通過自適應(yīng)層歸一化嵌入Transformer各層,動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù),使動作信息直接影響視覺生成過程(例如,動作中的“向前走”信號會引導(dǎo)模型生成視角前移的畫面)。

該模型采用自回歸擴(kuò)散訓(xùn)練,通過強(qiáng)制輸入真實歷史幀編碼,結(jié)合序列級損失函數(shù),確保生成幀在動作驅(qū)動下保持時序連貫(如連續(xù)伸手動作的視覺軌跡平滑)。

在訓(xùn)練中使用了Nymeria數(shù)據(jù)集,該數(shù)據(jù)集包含同步的第一視角視頻與全身動作捕捉數(shù)據(jù),覆蓋了真實場景中的日常動作(如做飯、行走),提供充足的 “動作-視覺” 對兒用于訓(xùn)練,避免了模擬數(shù)據(jù)的物理偏差。



訓(xùn)練時隨機(jī)選擇幀子集(如16幀),通過因果掩碼并行處理序列前綴,提升長視頻訓(xùn)練效率,同時覆蓋動作的短期(如手部微動)與長期(如繞桌行走)影響。

實驗成果:從“機(jī)械執(zhí)行”到“智能規(guī)劃”的跨越

PEVA模型讓具身智能體實現(xiàn)了從人體關(guān)節(jié)運動學(xué)軌跡到第一人稱視頻的端到端預(yù)測



定量分析表明,PEVA模型在多項任務(wù)上表現(xiàn)優(yōu)于基線模型。

在單步預(yù)測中,相比CDiT基線,PEVA的LPIPS值降低0.01,F(xiàn)ID降低1.42,表明其生成畫面與真實畫面的視覺相似度更高、生成質(zhì)量更優(yōu)。



在原子動作控制實驗里,針對 “左手向上”“全身向前” 等基礎(chǔ)動作,PEVA的LPIPS值比CDiT基線低5%-8%,證明其能更精準(zhǔn)地捕捉細(xì)粒度動作帶來的視覺變化。



長期視頻生成方面,在16秒長序列預(yù)測時,PEVA的FID值相比Diffusion Forcing(DF低15%以上,生成視頻的時序連貫性顯著增強(qiáng)。



不僅如此,PEVA模型還能準(zhǔn)確預(yù)測2秒內(nèi)的畫面變化,支持長達(dá)16秒的視頻生成。



在給定多個可能的動作序列時,模型能通過感知相似度評估自動排除不合理選項,選擇與目標(biāo)場景最匹配的動作路徑,展現(xiàn)出類似人類的“試錯-規(guī)劃”思維。

比如,PEVA能夠通過感知環(huán)境,排除第一行“打開水槽”和第二行“走到戶外”的動作序列,找到第三行“打開冰箱”的合理動作。



One More Thing

有意思的是,LeCun曾多次公開表達(dá)了對VAE(基于變分推斷)局限性的批評,卻在PEVA模型的預(yù)訓(xùn)練中使用了VAE編碼器,并用VAE解碼器進(jìn)行了圖像生成的后處理。

LeCun曾稱“VAE是生成模型中的酸黃瓜”(可以理解為“不夠好但勉強(qiáng)可用”),并調(diào)侃其生成樣本的模糊性。

于是,此番讓VAE扮演“視覺特征轉(zhuǎn)換器”的角色引起了網(wǎng)友們的討論。

Yann LeCun立場有所改變?



有人認(rèn)為,盡管LeCun有時不同意某種觀點,但他支持各種新可能。



或者,VAE是一種更實用的選擇。



如果智能體真能像人類一樣預(yù)判行動,以后掃地機(jī)器人能提前 “想” 清楚路線,估計再也不會卡在桌角反復(fù)橫跳了。

你最想讓機(jī)器人幫你搞定什么事呢?

論文地址:https://arxiv.org/abs/2506.21552
項目地址:https://dannytran123.github.io/PEVA/


https://www.reddit.com/r/LocalLLaMA/comments/1lnf7eo/is_yann_lecun_changing_directions_prediction/


— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
S級交易!掘金!西部有麻煩了!

S級交易!掘金!西部有麻煩了!

籃球?qū)嶄?/span>
2025-07-01 09:49:55
北大校長丁石孫:拒收毛新宇讀北大

北大校長丁石孫:拒收毛新宇讀北大

深度報
2025-06-29 23:36:38
新月淘汰曼城,摩根:C羅說沙特聯(lián)賽很快世界前四,人們都笑了…

新月淘汰曼城,摩根:C羅說沙特聯(lián)賽很快世界前四,人們都笑了…

直播吧
2025-07-01 14:16:10
前綠城董事長張亞東被帶走調(diào)查。

前綠城董事長張亞東被帶走調(diào)查。

流蘇晚晴
2025-07-01 19:48:23
200斤港姐談姜濤肥胖:餓30天都瘦不了,他的情況喝水都長胖

200斤港姐談姜濤肥胖:餓30天都瘦不了,他的情況喝水都長胖

開開森森
2025-06-30 18:18:59
太慘烈了!一線城市房價,回到了2016年

太慘烈了!一線城市房價,回到了2016年

暴財經(jīng)
2025-07-01 17:44:16
1000億收購獲批,華為面臨更大競爭!

1000億收購獲批,華為面臨更大競爭!

互聯(lián)魚
2025-07-01 13:34:51
特朗普大概率參加九三閱兵,“鬼子”卻提前“坐不住”了

特朗普大概率參加九三閱兵,“鬼子”卻提前“坐不住”了

獨對東風(fēng)
2025-07-01 10:52:57
原來,保衛(wèi)戰(zhàn)早已打響!

原來,保衛(wèi)戰(zhàn)早已打響!

大道微言
2025-07-01 15:00:15
南京市市長陳之常,赴任內(nèi)蒙古

南京市市長陳之常,赴任內(nèi)蒙古

新京報政事兒
2025-07-01 17:35:02
溫網(wǎng):王欣瑜2-0爆冷橫掃前法網(wǎng)亞軍穆霍娃 成中國晉級第一人

溫網(wǎng):王欣瑜2-0爆冷橫掃前法網(wǎng)亞軍穆霍娃 成中國晉級第一人

醉臥浮生
2025-07-01 22:34:12
難以置信!網(wǎng)傳某電車陷入泥潭,車主拖車,把防撞梁給拖出來了…

難以置信!網(wǎng)傳某電車陷入泥潭,車主拖車,把防撞梁給拖出來了…

火山詩話
2025-07-01 06:42:01
深圳多區(qū)中小學(xué)期末考試緊急延遲,家長炸鍋:到底是誰投訴的?

深圳多區(qū)中小學(xué)期末考試緊急延遲,家長炸鍋:到底是誰投訴的?

金哥說新能源車
2025-07-01 11:27:46
榕江副縣長清淤后坐在物資上吃盒飯走紅,拍攝者:這個場景很感動,已經(jīng)熬了兩三個通宵

榕江副縣長清淤后坐在物資上吃盒飯走紅,拍攝者:這個場景很感動,已經(jīng)熬了兩三個通宵

瀟湘晨報
2025-07-01 18:30:05
江蘇美容會所老板牛美麗去世!43歲嬌艷動人,確診患胰腺癌才倆月

江蘇美容會所老板牛美麗去世!43歲嬌艷動人,確診患胰腺癌才倆月

果娛
2025-07-01 13:32:15
年輕時候的王寶強(qiáng)確實青澀,連合影也是坐著。

年輕時候的王寶強(qiáng)確實青澀,連合影也是坐著。

人情皆文史
2025-07-01 00:38:18
現(xiàn)金流告急,媒體人:山東泰山昨天晚上余額就剩23萬了

現(xiàn)金流告急,媒體人:山東泰山昨天晚上余額就剩23萬了

懂球帝
2025-07-01 11:18:52
他去世留420億遺產(chǎn),卻規(guī)定兒子每月領(lǐng)200萬,花完要1750年,圖啥

他去世留420億遺產(chǎn),卻規(guī)定兒子每月領(lǐng)200萬,花完要1750年,圖啥

特特農(nóng)村生活
2025-07-01 07:34:08
Shams:邁爾斯·特納與雄鹿達(dá)成4年1.07億美元合同

Shams:邁爾斯·特納與雄鹿達(dá)成4年1.07億美元合同

雷速體育
2025-07-01 23:13:11
南京市市長陳之常,赴任內(nèi)蒙古

南京市市長陳之常,赴任內(nèi)蒙古

新京報
2025-07-01 17:37:10
2025-07-01 23:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10773文章數(shù) 176177關(guān)注度
往期回顧 全部

科技要聞

不懼小米YU7?特斯拉逆勢漲價

頭條要聞

特朗普回應(yīng)是否"驅(qū)逐馬斯克"后 馬斯克迅速發(fā)文還擊

頭條要聞

特朗普回應(yīng)是否"驅(qū)逐馬斯克"后 馬斯克迅速發(fā)文還擊

體育要聞

3號種子佩古拉0-2世界第116 溫網(wǎng)一輪游

娛樂要聞

瘦到脫相!鹿晗首度回應(yīng)暴瘦內(nèi)情?

財經(jīng)要聞

中央財經(jīng)委:依法治理企業(yè)低價無序競爭

汽車要聞

2026款MG Cyberster/MG5 兩款新車售5.99萬起

態(tài)度原創(chuàng)

時尚
健康
房產(chǎn)
數(shù)碼
公開課

50歲女人衣品好的體現(xiàn):穿衣得體,款式簡單,優(yōu)雅又耐看

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

最強(qiáng)黑馬殺出!海南這些區(qū)域,教育正悄悄崛起!

數(shù)碼要聞

榮耀Magic V5搭載魯班緩震鉸鏈,完成100KG重壓挑戰(zhàn)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 同江市| 柯坪县| 鹿邑县| 吴江市| 沙洋县| 广南县| 茶陵县| 二手房| 永丰县| 博罗县| 珠海市| 万州区| 连州市| 合川市| 修水县| 云和县| 洞头县| 黑河市| 金秀| 麻栗坡县| 甘洛县| 新邵县| 郎溪县| 长治市| 乌兰县| 贞丰县| 井研县| 沂水县| 土默特左旗| 嘉鱼县| 乌拉特中旗| 张北县| 岚皋县| 博兴县| 合作市| 阳江市| 泰兴市| 彰化市| 南雄市| 花莲县| 遂平县|