本文來自:王宇琪,中國科學院自動化所博士,研究方向為世界模型,自動駕駛感知與決策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等頂級會議上發表過多篇論文。
王鑫龍團隊,北京智源研究院,研究方向為原生多模態大模型,Emu 系列工作核心負責人。
張兆翔團隊,中國科學院自動化研究所,研究方向涵蓋世界模型、視覺生成與重建、自動駕駛、具身智能等。
從 Sora 到Genie2,從語言驅動的視頻生成到世界的交互模擬,世界模型正加速成為連接感知、理解與決策的關鍵基座。隨著視覺 - 語言 - 動作(VLA)模型在具身智能領域的快速發展,多模態之間的邊界正被重塑。
然而,現有方法多以語言模態為中心,往往忽視了視覺信息蘊含的豐富時序動態與因果結構。
為此,北京智源研究院聯合中國科學院自動化研究所提出UniVLA—— 一種全新的 VLA 模型架構,基于全離散、自回歸機制,原生建模視覺、語言與動作信號,并在后訓練階段引入世界模型建模,從大規模視頻中學習時序信息與因果邏輯,有效增強了模型在下游決策任務的性能和學習效率。
UniVLA 在 CALVIN、LIBERO、SimplerEnv 等主流具身智能基準上全面刷新多項 SOTA 紀錄,并展現出在真機操控和自動駕駛等現實場景中的廣泛潛力。
- 論文標題:Unified Vision-Language-Action Model
- 網站鏈接:https://robertwyq.github.io/univla.github.io/
- 論文鏈接:https://arxiv.org/abs/2506.19850
- 代碼鏈接:https://github.com/baaivision/UniVLA
統一視覺 - 語言 - 動作的
全離散自回歸模型
該框架將視覺、語言與動作信號統一轉化為離散 token,并構建視覺 - 動作交錯的多模態時序序列,實現原生統一建模。在訓練范式上,采用自回歸方式進行學習,不僅高效穩定,更具大規模擴展的潛力。
得益于這種時序化的多模態表示,模型天然支持多種任務的統一訓練,包括視覺理解、文生視頻、動作預測等,具備良好的通用性與數據擴展能力。
統一的視覺-語言-動作模型架構
世界模型助力下游決策
在這套統一框架下,世界模型的后訓練顯著提升了下游決策性能,且無需依賴大量動作數據,僅憑海量視頻即可高效學習。
對比語言生成圖像的訓練范式,時序動態信息被證明至關重要;而與純視頻建模相比,多模態語義對齊同樣不可或缺。這為機器人從大規模視頻中學習真實世界知識打開了新路徑,展現出世界模型在多模態感知與決策融合中的巨大潛力。
刷新多項仿真基準紀錄
該方法在當前主流的具身仿真基準上 —— 包括 CALVIN、LIBERO 和 SimplerEnv—— 均展現出強勁的性能優勢,全面刷新多項任務紀錄。
CALVIN 的長程任務評測
LIBERO 的泛化評測
SimplerEnv 的泛化測試
解鎖更廣應用:
真機雙臂操控與端到端駕駛
雙臂協作倒水
探索新的VLA技術路徑
未來展望
相比于基于視覺語言模型(VLM)拓展而來的 VLA 框架,本文提出了一條全新的技術路線,展現出更大的潛力與探索空間。
一方面,我們構建了一個視頻版本的 VLA 架構,使模型能夠有效捕捉視頻中的時空動態特征,并在推理過程中更充分地利用歷史信息;同時,即便缺乏動作標簽,模型僅通過大規模視頻數據的訓練,依然在下游任務中表現出顯著優勢。
另一方面,我們引入全離散的自回歸訓練范式,顯著提升了訓練效率,并為大規模數據下的模型擴展性提供了堅實基礎。未來,我們將進一步探索該框架與多模態強化學習的深度融合,推動其在開放世界中的感知、理解與決策能力持續演進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.