99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首次!世界模型、動作模型融合,全自回歸模型WorldVLA來了

0
分享至



岑俊,阿里巴巴達摩院具身智能大模型算法研究員,博士畢業(yè)于香港科技大學。研究方向主要是:具身智能 VLA 模型,世界模型。

阿里巴巴達摩院提出了 WorldVLA, 首次將世界模型 (World Model) 和動作模型 (Action Model/VLA Model) 融合到了一個模型中。WorldVLA 是一個統(tǒng)一了文本、圖片、動作理解和生成的全自回歸模型。



  • 論文標題:WorldVLA: Towards Autoregressive Action World Model
  • 論文地址:https://arxiv.org/pdf/2506.21539
  • 代碼地址:https://github.com/alibaba-damo-academy/WorldVLA

研究簡介

近年來,視覺 - 語言 - 動作(Vision-Language-Action, VLA)模型的發(fā)展成為機器人動作建模研究的重要方向。這類模型通常是在大規(guī)模預訓練的多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)基礎上,添加一個動作輸出頭或?qū)iT的動作模塊,以實現(xiàn)對動作的生成。MLLMs 在感知和決策方面表現(xiàn)出色,使得 VLA 模型在多種機器人任務中展現(xiàn)出良好的泛化能力。然而,這些模型存在一個顯著的局限性:它們往往缺乏對動作本身的深入理解。在現(xiàn)有方法中,動作只是作為輸出結(jié)果處理,并未被當作輸入進行分析和建模。相比之下,世界模型(World Models)能夠基于當前觀測與動作預測未來的視覺狀態(tài),從而同時理解視覺信息和行為動態(tài)。盡管具備這一優(yōu)勢,世界模型卻無法直接生成動作輸出,這導致其在需要顯式動作規(guī)劃的應用場景中存在功能上的空白。

為了解決 VLA 模型與世界模型各自的局限,我們提出 WorldVLA —— 一種基于自回歸機制的統(tǒng)一動作與圖像理解與生成模型。如下圖所示,WorldVLA 使用三個獨立的編碼器分別處理圖像、文本和動作數(shù)據(jù)。不同模態(tài)的 token 被設計為共享相同的詞表,從而使得在同一個語言模型架構(gòu)下可以統(tǒng)一完成跨模態(tài)的理解與生成任務。



其中,世界模型部分通過輸入動作來生成對應的視覺表示,從而學習環(huán)境中的物理動態(tài)規(guī)律。這種對動作的解讀與物理世界的建模對于動作模型的決策至關重要。與此同時,嵌入在 WorldVLA 中的動作模型也反過來增強了對視覺信息的理解,進一步提升世界模型在圖像生成方面的準確性。這種雙向增強機制使整個系統(tǒng)在理解和生成圖像與動作方面更加魯棒和全面。

此外,已有研究表明,動作分塊(action chunking)和并行解碼技術對動作模型的性能有顯著影響。然而,我們在實驗中發(fā)現(xiàn),在自回歸模型中連續(xù)生成多個動作時會導致性能下降。主要原因在于,預訓練的多模態(tài)語言模型主要接觸的是圖像和文本,而對動作的學習較少,因此在動作生成任務中泛化能力有限。而在自回歸模型中,后續(xù)動作的生成依賴于前面的預測結(jié)果,一旦出現(xiàn)錯誤,便會隨時間不斷傳播放大。為了解決這一問題,我們提出了一種動作注意力掩碼策略(action attention masking strategy),在生成當前動作時選擇性地屏蔽掉之前的動作信息。這種方法有效緩解了錯誤累積的問題,在動作分塊生成任務中帶來了顯著的性能提升。

在 LIBERO 基準測試中,我們的 WorldVLA 相比使用相同主干網(wǎng)絡的傳統(tǒng)動作模型,在抓取成功率上提升了 4%。相較于傳統(tǒng)的世界模型,WorldVLA 在視頻生成質(zhì)量上表現(xiàn)更優(yōu),F(xiàn)VD(Fréchet Video Distance)指標降低了 10%。這些結(jié)果充分說明,將世界模型與動作模型融合所帶來的協(xié)同增益,驗證了圖像與動作統(tǒng)一理解與生成框架的優(yōu)勢。在動作分塊生成任務中,傳統(tǒng)自回歸方式會導致抓取成功率下降 10% 到 50%。但引入我們的注意力掩碼策略后,性能下降得到了明顯緩解,抓取成功率提升了 4% 到 23%。

研究方法

VLA 模型可以根據(jù)圖像理解生成動作;世界模型可以根據(jù)當前圖像和動作生成下一幀圖像;WorldVLA 將將兩者融合,實現(xiàn)圖像與動作的雙向理解和生成,如下圖所示。



WorldVLA 使用獨立的編碼器分別處理圖像、文本和動作,并讓這些模態(tài)共享同一個詞匯表,從而在單一的大語言模型架構(gòu)下實現(xiàn)跨模態(tài)的統(tǒng)一建模。這種設計不僅提升了動作生成的準確性,也增強了圖像預測的質(zhì)量。WorldVLA 使用 Action Model 數(shù)據(jù)和 World Model 數(shù)據(jù)來訓練模型。Action Model 是根據(jù)圖片輸入和文本指令輸入來輸出動作,數(shù)據(jù)格式如下:



World Model 根據(jù)當前幀圖片和動作來生成下一幀圖片,數(shù)據(jù)格式如下:



在一次性輸出多個 action 時,使用默認的自回歸范式會使得效果變差。原因是動作模態(tài)并不在原本多模態(tài)大模型的預訓練中,因此泛化能力較差,這樣生成多個動作時就會有誤差累積的問題。為了解決這個問題,WorldVLA 提出了一種 attention mask 策略,使得生成動作時只能看見前面的圖片而不能看見前面的動作,從而解決動作累計誤差問題,如下圖所示。



實驗結(jié)果

在 LIBERO benchmark 上的實驗結(jié)果如下圖所示,在沒有預訓練的情況下超越了需要預訓練的全自回歸模型 OpenVLA。



下圖為 action model 的消融實驗結(jié)果。對比 row2 和 row1 以及 row5 和 row4 可以看出,world model 的加入可以給 action model 帶來更好的結(jié)果。Row3 可以看出,使用默認的 attention mask 會導致某些任務的成功率下降,但是從 row4 看出,我們提出的 attention mask 可以全面大幅提升任務的成功率。



Action Model 可視化 (Text + Image -> Action)

下圖可以看出 WorldVLA 可以根據(jù)指令完成對應的動作。







World Model 可視化 (Action + Image -> Image)

下圖可以看出 WorldVLA 可以根據(jù)動作和圖片來生成下一幀圖片。







特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
商務部:7月5日起,對原產(chǎn)于歐盟的進口相關白蘭地征收反傾銷稅

商務部:7月5日起,對原產(chǎn)于歐盟的進口相關白蘭地征收反傾銷稅

界面新聞
2025-07-04 15:03:00
華為大模型疑似造假,被扒是用阿里大模型“升級改造”的

華為大模型疑似造假,被扒是用阿里大模型“升級改造”的

回旋鏢
2025-07-04 15:46:30
火車砸窗小伙處理結(jié)果出來了,上鐵道歉,七扇窗戶被砸損失超2萬

火車砸窗小伙處理結(jié)果出來了,上鐵道歉,七扇窗戶被砸損失超2萬

辣條小劇場
2025-07-04 13:19:38
大瓜!李天一豪賭輸千萬,夢鴿被限制出境,84歲李雙江被坑慘了?

大瓜!李天一豪賭輸千萬,夢鴿被限制出境,84歲李雙江被坑慘了?

壹月情感
2025-07-01 21:52:02
數(shù)百名伊朗婦女獻出孩子捍衛(wèi)頭巾法

數(shù)百名伊朗婦女獻出孩子捍衛(wèi)頭巾法

通往遠方的路
2025-07-03 08:50:11
壞消息傳來,要嚴查退休人員,到底咋回事,“4類人”可能逃不掉

壞消息傳來,要嚴查退休人員,到底咋回事,“4類人”可能逃不掉

詩詞中國
2025-07-04 15:16:46
越南全票通過《國籍法》修正案!承認雙重國籍,釋放強大信號

越南全票通過《國籍法》修正案!承認雙重國籍,釋放強大信號

緬甸中文網(wǎng)
2025-07-03 19:22:06
東方港灣董事長但斌:2025年大概率會像處于互聯(lián)網(wǎng)時代的1998年!估計2025年納指很有可能最終上漲20%

東方港灣董事長但斌:2025年大概率會像處于互聯(lián)網(wǎng)時代的1998年!估計2025年納指很有可能最終上漲20%

和訊網(wǎng)
2025-07-04 09:49:18
王學成:1983年駕殲5戰(zhàn)機叛逃臺灣,鄧麗君親自迎接,結(jié)局如何?

王學成:1983年駕殲5戰(zhàn)機叛逃臺灣,鄧麗君親自迎接,結(jié)局如何?

百年歷史老號
2024-05-16 14:38:19
Shein價格欺詐法國用戶,被罰4717萬美元

Shein價格欺詐法國用戶,被罰4717萬美元

藍洞新消費
2025-07-04 09:26:01
又一個鄧文迪!90后東北女孩拿下80歲全球第二富豪,她怎么上位的

又一個鄧文迪!90后東北女孩拿下80歲全球第二富豪,她怎么上位的

果娛
2025-06-05 12:53:31
50米退讓,換來步步緊逼?導致司機情緒失控,轎車被頂進工地!

50米退讓,換來步步緊逼?導致司機情緒失控,轎車被頂進工地!

妙知
2025-07-03 22:18:35
郭正亮:澳洲稀土公司60萬澳元挖走整個科研團隊,搞定了鏑的提煉

郭正亮:澳洲稀土公司60萬澳元挖走整個科研團隊,搞定了鏑的提煉

說說史事
2025-07-04 11:49:18
中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

袁周院長
2025-07-03 10:54:19
上千萬人失去醫(yī)保、清潔能源迎末日,特朗普“大而美”法案讓誰受傷?

上千萬人失去醫(yī)保、清潔能源迎末日,特朗普“大而美”法案讓誰受傷?

第一財經(jīng)資訊
2025-07-04 18:50:12
幼兒鉛中毒!十余名跨省住院

幼兒鉛中毒!十余名跨省住院

中國新聞周刊
2025-07-04 13:18:48
蘇超最讓人擔心的一幕還是發(fā)生了……

蘇超最讓人擔心的一幕還是發(fā)生了……

功夫財經(jīng)
2025-07-04 08:22:56
官方:尼科·威廉姆斯與畢爾巴鄂續(xù)約至2035年,解約金至少上浮50%

官方:尼科·威廉姆斯與畢爾巴鄂續(xù)約至2035年,解約金至少上浮50%

雷速體育
2025-07-04 16:56:16
67歲著名演員家中猝逝,死因曝光,晚年凄涼兒子自殺與妻子反目

67歲著名演員家中猝逝,死因曝光,晚年凄涼兒子自殺與妻子反目

開開森森
2025-07-04 08:40:29
海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

霹靂炮
2025-07-02 21:36:59
2025-07-04 20:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10786文章數(shù) 142353關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰(zhàn)報

頭條要聞

甘肅天水回應幼兒園違規(guī)使用添加劑:我們現(xiàn)在也很焦急

頭條要聞

甘肅天水回應幼兒園違規(guī)使用添加劑:我們現(xiàn)在也很焦急

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經(jīng)要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

純電續(xù)航180km/或30萬級 方程豹鈦7四季度上市

態(tài)度原創(chuàng)

本地
旅游
房產(chǎn)
公開課
軍事航空

本地新聞

云游中國 | 穿越三國!赤壁古戰(zhàn)場藏了多少英雄傳奇?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

重磅發(fā)布!海南樓市2025上半年Top10榜單出爐!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄美元首通話約1小時 討論中東局勢、俄烏談判等

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 关岭| 岱山县| 突泉县| 宣化县| 勐海县| 琼海市| 基隆市| 汾阳市| 兖州市| 和平县| 乐山市| 若尔盖县| 景泰县| 彩票| 资讯 | 台安县| 江山市| 虞城县| 会昌县| 顺昌县| 开原市| 富蕴县| 防城港市| 庐江县| 石景山区| 孟津县| 娄烦县| 福泉市| 都昌县| 东辽县| 德钦县| 莱西市| 视频| 兴义市| 乐安县| 板桥市| 象山县| 安康市| 吉安县| 临沧市| 丹东市|