首次！世界模型、動作模型融合，全自回歸模型WorldVLA來了

2025-07-03 17:41:49　來源: 機器之心Pro

北京舉報

分享至

岑俊，阿里巴巴達摩院具身智能大模型算法研究員，博士畢業(yè)于香港科技大學。研究方向主要是：具身智能 VLA 模型，世界模型。

阿里巴巴達摩院提出了 WorldVLA, 首次將世界模型 (World Model) 和動作模型 (Action Model/VLA Model) 融合到了一個模型中。WorldVLA 是一個統(tǒng)一了文本、圖片、動作理解和生成的全自回歸模型。

論文標題：WorldVLA: Towards Autoregressive Action World Model
論文地址：https://arxiv.org/pdf/2506.21539
代碼地址：https://github.com/alibaba-damo-academy/WorldVLA

研究簡介

近年來，視覺 - 語言 - 動作（Vision-Language-Action, VLA）模型的發(fā)展成為機器人動作建模研究的重要方向。這類模型通常是在大規(guī)模預訓練的多模態(tài)大語言模型（Multimodal Large Language Models, MLLMs）基礎上，添加一個動作輸出頭或?qū)ｉT的動作模塊，以實現(xiàn)對動作的生成。MLLMs 在感知和決策方面表現(xiàn)出色，使得 VLA 模型在多種機器人任務中展現(xiàn)出良好的泛化能力。然而，這些模型存在一個顯著的局限性：它們往往缺乏對動作本身的深入理解。在現(xiàn)有方法中，動作只是作為輸出結(jié)果處理，并未被當作輸入進行分析和建模。相比之下，世界模型（World Models）能夠基于當前觀測與動作預測未來的視覺狀態(tài)，從而同時理解視覺信息和行為動態(tài)。盡管具備這一優(yōu)勢，世界模型卻無法直接生成動作輸出，這導致其在需要顯式動作規(guī)劃的應用場景中存在功能上的空白。

為了解決 VLA 模型與世界模型各自的局限，我們提出 WorldVLA —— 一種基于自回歸機制的統(tǒng)一動作與圖像理解與生成模型。如下圖所示，WorldVLA 使用三個獨立的編碼器分別處理圖像、文本和動作數(shù)據(jù)。不同模態(tài)的 token 被設計為共享相同的詞表，從而使得在同一個語言模型架構(gòu)下可以統(tǒng)一完成跨模態(tài)的理解與生成任務。

其中，世界模型部分通過輸入動作來生成對應的視覺表示，從而學習環(huán)境中的物理動態(tài)規(guī)律。這種對動作的解讀與物理世界的建模對于動作模型的決策至關重要。與此同時，嵌入在 WorldVLA 中的動作模型也反過來增強了對視覺信息的理解，進一步提升世界模型在圖像生成方面的準確性。這種雙向增強機制使整個系統(tǒng)在理解和生成圖像與動作方面更加魯棒和全面。

此外，已有研究表明，動作分塊（action chunking）和并行解碼技術對動作模型的性能有顯著影響。然而，我們在實驗中發(fā)現(xiàn)，在自回歸模型中連續(xù)生成多個動作時會導致性能下降。主要原因在于，預訓練的多模態(tài)語言模型主要接觸的是圖像和文本，而對動作的學習較少，因此在動作生成任務中泛化能力有限。而在自回歸模型中，后續(xù)動作的生成依賴于前面的預測結(jié)果，一旦出現(xiàn)錯誤，便會隨時間不斷傳播放大。為了解決這一問題，我們提出了一種動作注意力掩碼策略（action attention masking strategy），在生成當前動作時選擇性地屏蔽掉之前的動作信息。這種方法有效緩解了錯誤累積的問題，在動作分塊生成任務中帶來了顯著的性能提升。

在 LIBERO 基準測試中，我們的 WorldVLA 相比使用相同主干網(wǎng)絡的傳統(tǒng)動作模型，在抓取成功率上提升了 4%。相較于傳統(tǒng)的世界模型，WorldVLA 在視頻生成質(zhì)量上表現(xiàn)更優(yōu)，F(xiàn)VD（Fréchet Video Distance）指標降低了 10%。這些結(jié)果充分說明，將世界模型與動作模型融合所帶來的協(xié)同增益，驗證了圖像與動作統(tǒng)一理解與生成框架的優(yōu)勢。在動作分塊生成任務中，傳統(tǒng)自回歸方式會導致抓取成功率下降 10% 到 50%。但引入我們的注意力掩碼策略后，性能下降得到了明顯緩解，抓取成功率提升了 4% 到 23%。

研究方法

VLA 模型可以根據(jù)圖像理解生成動作；世界模型可以根據(jù)當前圖像和動作生成下一幀圖像；WorldVLA 將將兩者融合，實現(xiàn)圖像與動作的雙向理解和生成，如下圖所示。

WorldVLA 使用獨立的編碼器分別處理圖像、文本和動作，并讓這些模態(tài)共享同一個詞匯表，從而在單一的大語言模型架構(gòu)下實現(xiàn)跨模態(tài)的統(tǒng)一建模。這種設計不僅提升了動作生成的準確性，也增強了圖像預測的質(zhì)量。WorldVLA 使用 Action Model 數(shù)據(jù)和 World Model 數(shù)據(jù)來訓練模型。Action Model 是根據(jù)圖片輸入和文本指令輸入來輸出動作，數(shù)據(jù)格式如下：

World Model 根據(jù)當前幀圖片和動作來生成下一幀圖片，數(shù)據(jù)格式如下：

在一次性輸出多個 action 時，使用默認的自回歸范式會使得效果變差。原因是動作模態(tài)并不在原本多模態(tài)大模型的預訓練中，因此泛化能力較差，這樣生成多個動作時就會有誤差累積的問題。為了解決這個問題，WorldVLA 提出了一種 attention mask 策略，使得生成動作時只能看見前面的圖片而不能看見前面的動作，從而解決動作累計誤差問題，如下圖所示。

實驗結(jié)果

在 LIBERO benchmark 上的實驗結(jié)果如下圖所示，在沒有預訓練的情況下超越了需要預訓練的全自回歸模型 OpenVLA。

下圖為 action model 的消融實驗結(jié)果。對比 row2 和 row1 以及 row5 和 row4 可以看出，world model 的加入可以給 action model 帶來更好的結(jié)果。Row3 可以看出，使用默認的 attention mask 會導致某些任務的成功率下降，但是從 row4 看出，我們提出的 attention mask 可以全面大幅提升任務的成功率。

Action Model 可視化 (Text + Image -> Action)

下圖可以看出 WorldVLA 可以根據(jù)指令完成對應的動作。

World Model 可視化 (Action + Image -> Image)

下圖可以看出 WorldVLA 可以根據(jù)動作和圖片來生成下一幀圖片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.