機器之心發(fā)布
機器之心編輯部
如今,GPT-4o、Gemini 2.5 Pro 等多模態(tài)基礎(chǔ)模型在對話、代碼生成和數(shù)學(xué)推理等任務(wù)中已經(jīng)達到甚至超越了人類水平。研究者開始探索如何將這種智能從數(shù)字世界延伸至物理空間,以實現(xiàn)具身智能。這其中最受關(guān)注的前沿方向之一,便是視覺 - 語言 - 動作模型(Vision-Language-Action Models,簡稱 VLA)。此類模型借助基礎(chǔ)模型的通用能力與大規(guī)模學(xué)習(xí)范式,可以處理通用的視覺(Vision)與語言(Language)輸入,并生成實時動作(Action),極大地賦能了機器人系統(tǒng)。
近兩年來,VLA 相關(guān)研究爆發(fā)式增長,技術(shù)路線日新月異 —— 但這也造成了認知碎片化與理解上的困難。現(xiàn)有分類方法如 “大腦 - 小腦”、“快慢系統(tǒng)”、“分層 - 端到端” 等,直覺清晰但本質(zhì)仍不明確。領(lǐng)域急需系統(tǒng)化的分析框架,以梳理研究現(xiàn)狀,指明未來方向。
為此,北京大學(xué) - 靈初智能聯(lián)合實驗室首次從動作詞元化(action tokenization)視角,提出統(tǒng)一理解 VLA 模型的新框架。綜述系統(tǒng)分析了八種主流 action token,探討了不同動作表示背后的能力支撐、數(shù)據(jù)擴展策略和適用場景,明確了未來的架構(gòu)趨勢與關(guān)鍵挑戰(zhàn)。論文由靈初智能 00 后聯(lián)合創(chuàng)始人陳源培與北京大學(xué)人工智能研究院助理教授楊耀東共同擔(dān)任通訊作者。
值得一提的是,在發(fā)布這一重要理論成果的同時,靈初智能也在加速推進 VLA 技術(shù)的產(chǎn)業(yè)化落地。其自研的 VLA 模型 Psi R1 已在麻將機器人等實際場景中得到驗證,7/25 晚 20:00 鎖定抖音直播,靈初智能聯(lián)合創(chuàng)始人陳源培將與搭載 Psi R1 的靈初智能機器人小靈、智元機器人聯(lián)合創(chuàng)始人稚暉君和首形科技創(chuàng)始人 U 航展開一場麻將對戰(zhàn)。
除此之外,還有外賣機器人、超市打包機器人等也將在 WAIC 2025(7 月 26-29 日,上海世博展覽館 H3-C604 展位)上進行集中展示,為業(yè)界提供從理論到應(yīng)用的完整技術(shù)路徑參考。
- 論文標題:A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
- 論文鏈接:https://arxiv.org/abs/2507.01925
- 倉庫地址:https://github.com/Psi-Robot/Awesome-VLA-Papers
核心觀點總結(jié)
- VLA 統(tǒng)一框架與 Action Token 分類:當前的 VLA 系統(tǒng)遵循一個通用框架:視覺與語言輸入經(jīng)過一系列 VLA modules 逐級處理,生成逐漸具體的 action token,最終轉(zhuǎn)化為動作輸出。在該框架中,action token 可分為 language description、code、affordance、trajectory、goal state、latent representation、raw action 和 reasoning 八類。VLA 中的 action token 是 LLM 中 language token 的推廣。
- Action Token 發(fā)展趨勢:VLA 模型的未來不在于依賴單一 action token,而在于多種 token 的協(xié)同。Language motion 表達能力有限,難以成為主流; language plan 在任務(wù)分解中不可或缺。Code 是另一種高效的規(guī)劃形式,其潛力依賴于構(gòu)建完備的感知與動作函數(shù)庫。Affordance(做什么)與 trajectory(如何做)可互補結(jié)合,并借助 goal state 的目標預(yù)測提升生成精度。Latent representation 雖具潛力,但訓(xùn)練中面臨粒度、語義覆蓋和任務(wù)對齊等挑戰(zhàn)。Raw action 最適合端到端學(xué)習(xí),但能力高度依賴數(shù)據(jù)。Reasoning 可作為 “元 token” 增強其他 token 的生成,未來將從基于 language token 的推理發(fā)展為基于 action token 的多模態(tài)推理,并支持任務(wù)適應(yīng)性推理計算。
- 新興 Action Token 類型:Action token 類型由基礎(chǔ)模型的能力決定。隨著模型的演進和聽覺、觸覺等新模態(tài)的引入,未來可能涌現(xiàn)出更多新的 action token 類型與子類型。
- VLA 架構(gòu)趨勢:未來的 VLA 模型很可能采用分層架構(gòu):頂層通過 language description 和 code 實現(xiàn)長程規(guī)劃與邏輯控制。下層在近期內(nèi)預(yù)計將使用 goal state 的視頻預(yù)測、trajectory 的流建模以及 affordance 的三維交互預(yù)測緊密結(jié)合,形成中間動作表示,最終映射為 raw action。長期來看,下層將演化為完全端到端的方式,直接從子任務(wù)級輸入預(yù)測 raw action。reasoning 按需貫穿整個 VLA 模型,增強 action token 生成。
- 從模仿學(xué)習(xí)到強化學(xué)習(xí):引入強化學(xué)習(xí)可幫助 VLA 模型突破模仿學(xué)習(xí)的局限,實現(xiàn)類人試錯與自主探索。實際部署則需更高效的強化算法,以應(yīng)對高重置成本和低交互效率。同時,VLM 可自動生成密集獎勵,加速訓(xùn)練與應(yīng)用。
- 從 VLA 模型到 VLA 智能體:VLA 模型應(yīng)向具備記憶、探索、規(guī)劃和反思能力的主動型 VLA 智能體演進,并由線性結(jié)構(gòu)轉(zhuǎn)向更復(fù)雜的雙向或圖結(jié)構(gòu)架構(gòu)。
- 模型、數(shù)據(jù)與硬件協(xié)同發(fā)展:具身智能旨在應(yīng)對物理世界的非結(jié)構(gòu)化與開放性挑戰(zhàn),亟需模型、數(shù)據(jù)與硬件協(xié)同發(fā)展。然而受限于機器人平臺與高質(zhì)量數(shù)據(jù)匱乏,研究多局限于簡化實驗場景,整體仍處早期階段。實現(xiàn)通用智能需三者協(xié)同演進,協(xié)力前行。
- 安全與對齊:當前的 VLA 研究主要關(guān)注模型能力,未來必須更加重視安全性與人類對齊。
VLA 統(tǒng)一框架與 Action Token 視角
VLA 模型指依托至少一個視覺或語言基礎(chǔ)模型,能夠根據(jù)視覺與語言輸入,生成動作輸出的模型。其本質(zhì)目標是將基礎(chǔ)模型在數(shù)字世界中的智能延伸到物理世界,實現(xiàn)具體的、具身的任務(wù)執(zhí)行能力。
VLA 統(tǒng)一框架描述了不同 VLA 模型共同遵循的通用架構(gòu):即視覺和語言輸入經(jīng)過一系列功能模塊(VLA modules),逐層處理并生成更具體、可執(zhí)行的動作信息(action token),最終轉(zhuǎn)化為實際的動作輸出。
VLA module 指 VLA 模型中支持端到端梯度傳播的最大可微子網(wǎng)絡(luò),或不可微的功能模塊(如 motion planning),承擔(dān)特定的能力(例如場景感知、動作規(guī)劃等),并在模型內(nèi)部彼此協(xié)同工作。
Action token 則是不同 VLA modules 之間傳遞的動作表示,承載具體動作信息。可以理解為 VLA 模型生成的 “動作語言”,用于明確不同模塊間的溝通內(nèi)容與執(zhí)行目標。
舉個具體的例子,以完成 “端茶倒水” 任務(wù)為例:
- 首先,一個 VLA module 處理視覺輸入和語言指令,接受指令 “我渴了,請為我倒一杯茶”,識別場景中的茶壺、茶杯等物品,并規(guī)劃出下一步的子任務(wù)目標,比如:“抓起茶壺把手”。這里生成的子任務(wù)描述即為一種action token(此處為 language plan)。
- 接著,另一個 VLA module 接收該 action token,進一步規(guī)劃具體的抓取路徑與運動軌跡,并生成更加具體的動作描述(例如 trajectory)。
- 最終,這些更具體的 action tokens 被下游的模塊轉(zhuǎn)化為機器人可以直接執(zhí)行的動作序列(即 raw actions),實現(xiàn) “端茶倒水” 的實際行為。
這樣的模塊化結(jié)構(gòu)和 action token 的概念,不僅明確了 VLA 系統(tǒng)的內(nèi)部結(jié)構(gòu),也為深入分析和理解該類模型提供了統(tǒng)一的視角和框架。基于此,這篇綜述發(fā)現(xiàn)當前的 VLA 模型主要使用了八種 action token,并進行了系統(tǒng)的分類梳理與分析。
綜述論文還以時間軸的形式展示了基礎(chǔ)模型、基于 action token 分類的 VLA 模型,以及相關(guān)數(shù)據(jù)工作的演進歷程。其中呈現(xiàn)出的 U 形結(jié)構(gòu)清晰地表明,VLA 模型的快速發(fā)展受到基礎(chǔ)模型與數(shù)據(jù)資源持續(xù)進步的雙重驅(qū)動。
八種 Action Token 的梳理分析
Language Description(語言描述)
用自然語言的形式描述要完成的動作,按照描述顆粒度主要分為子任務(wù)級別的 language plan(“端起茶杯”)和原子動作級別的 language motion(“手往前伸”)兩種。
該類方法利用 LLM 和 VLM 在理解、推理、分解任務(wù)等方面的能力,使機器人能夠以更 “類人” 的方式規(guī)劃和執(zhí)行復(fù)雜任務(wù)。
早期工作如 Language Planner、SayCan 等表明,LLM 可直接將高層指令拆解為語義明確的子任務(wù)(language plan),大幅降低人工設(shè)定需求。為了緩解僅使用 LLM 導(dǎo)致的缺乏環(huán)境感知的缺陷,他們引入視覺模塊和動態(tài)反饋等顯式的落地機制,提升了模型對實際場景的適應(yīng)和操作能力。后續(xù)研究直接使用 VLM 進一步提升多模態(tài)理解和規(guī)劃能力。此外,針對復(fù)雜和長時任務(wù),部分研究(如 BUMBLE、ReflectVLM)引入了記憶與反思機制,使系統(tǒng)具備分階段推理與跨場景適應(yīng)能力。最近的 Hi Robot、pi0.5 等則進一步消除了下層簡單策略的能力限制,擴展到能執(zhí)行通用 language plan 的策略,實現(xiàn)了更強的任務(wù)泛化和動態(tài)修正能力。在細粒度 language description 的研究方面,RT-H、NaVILA 等工作將低層動作細化為 language motion,促進了跨任務(wù)的數(shù)據(jù)共享和人機交互。
這一范式展示出諸多優(yōu)勢。一是與基礎(chǔ)模型高度兼容:語言描述與 LLM/VLM 的原生輸出空間一致,能夠充分發(fā)揮模型的理解、推理和規(guī)劃能力,實現(xiàn)零樣本(zero-shot)或少樣本(few-shot)泛化,顯著降低任務(wù)定制化成本。二是豐富的訓(xùn)練數(shù)據(jù)支持:借助海量圖文與操作數(shù)據(jù),語言描述能有效遷移現(xiàn)實世界知識,提升模型的泛化性與可擴展性。三是更強的長時規(guī)劃能力:分層的語言指令有助于模型處理長鏈路、多階段任務(wù),支持復(fù)雜任務(wù)的結(jié)構(gòu)化分解和執(zhí)行。四是高度可解釋性與可控性:自然語言表達易于人類理解和干預(yù),方便實現(xiàn)人機協(xié)同、動態(tài)糾錯與在線優(yōu)化。
但當前也面臨表達精度不足與推理時延等挑戰(zhàn)。未來,研究趨勢是將 language description 用于高層規(guī)劃,底層控制則結(jié)合 affordance、trajectory、goal state 等精細表示,從而兼顧任務(wù)復(fù)雜性和動作精確性,推動具身智能系統(tǒng)在復(fù)雜環(huán)境下的實用落地。
Code(代碼)
用代碼的形式表達任務(wù)的實現(xiàn)邏輯,包含循環(huán)、分支等邏輯控制和機器人感知、控制的 API 調(diào)用。
代碼是人類與計算機之間最直接也最高效的交流方式。文章系統(tǒng)梳理了近年來以 code 為 action token 的 VLA 研究進展,聚焦其如何從 “能運行的控制代碼” 演進為 “具備邏輯結(jié)構(gòu)、感知能力與任務(wù)泛化能力的機器人行為策略”。代碼其核心思想是:將自然語言和視覺輸入轉(zhuǎn)化為結(jié)構(gòu)清晰、具備可讀性與可執(zhí)行性的程序或偽代碼,擺脫對神經(jīng)網(wǎng)絡(luò)隱式向量的依賴,用明確、透明的代碼來驅(qū)動機器人行為。
code 的主要優(yōu)勢在于當前語言模型在代碼生成方面已展現(xiàn)出極強的能力。生成的程序不僅能夠自然地調(diào)用預(yù)定義的機器人操作 API,也可以集成感知基礎(chǔ)模型提供的識別模塊,還能靈活接入如 NumPy、PyTorch 等常用庫進行空間計算與邏輯控制。這種模塊化、可組合的特性,使得策略能夠快速適配新任務(wù),具備良好的擴展性與可調(diào)試性。同時,代碼語言天然具備流程控制結(jié)構(gòu),如條件判斷與循環(huán)語句,從而完成邏輯更復(fù)雜的任務(wù)規(guī)劃。
但與此同時,code 也面臨現(xiàn)實挑戰(zhàn)。首先,它對 API 庫的依賴極高,而 API 本身的覆蓋范圍往往受限。一旦機器人需要的功能未被定義,或已有接口無法適配當前任務(wù)需求,策略即失效。例如,如果現(xiàn)有控制 API 并不支持對 “濕滑地面”“易碎物體” 等復(fù)雜環(huán)境屬性進行建模和調(diào)用,那么即使生成的代碼邏輯正確,也無法穩(wěn)健執(zhí)行所需動作。其次,代碼結(jié)構(gòu)的固定性也帶來了執(zhí)行層的脆弱性。一方面,語言模型在生成代碼時可能出現(xiàn)邏輯錯誤、結(jié)構(gòu)冗余等問題,影響控制效率;但更嚴重的是,代碼本身往往默認了若干環(huán)境前提條件。一旦實際場景違背這些假設(shè)(例如物體潮濕、位置偏移或不可見),系統(tǒng)可能觸發(fā)不當操作,甚至導(dǎo)致物體損壞或設(shè)備安全風(fēng)險。
因此,未來研究可以從兩個維度進一步釋放代碼式策略的潛力。一方面,需要構(gòu)建更完善、更語義豐富的機器人 API 庫,使語言模型能夠通過調(diào)用接口實現(xiàn)復(fù)雜任務(wù)的自動編排,尤其適用于多步驟、長時序的任務(wù)控制。另一方面,引入形式化驗證機制以檢測 API 調(diào)用的一致性與合法性,并配合運行時安全監(jiān)控手段,降低執(zhí)行層風(fēng)險。同時,代碼的可讀性也為 “人機協(xié)同控制” 提供了天然接口—— 人類可以參與策略微調(diào)、糾錯甚至插入控制邏輯,為構(gòu)建可信、可控的具身智能系統(tǒng)提供新的技術(shù)路徑。
Affordance(可操作性)
一種基于空間的表示方式,刻畫物體在當前任務(wù)中可以如何被交互使用。常見形式包括關(guān)鍵點(keypoint)、邊界框(bounding box)、分割掩碼(segmentation mask)或可操作圖(affordance map)。
在具身智能系統(tǒng)中,如何將感知結(jié)果轉(zhuǎn)化為可執(zhí)行動作,始終是 “語言 - 感知 - 控制” 鏈條中最具挑戰(zhàn)性的環(huán)節(jié)之一。近年來 VLA 興起的一個關(guān)鍵方向是將 affordance(可操作性)作為結(jié)構(gòu)化的 action token,用于連接高層感知理解與底層控制執(zhí)行。所謂 affordance,指的是物體或區(qū)域 “可以被如何交互” 的結(jié)構(gòu)化表示,例如杯沿可能是 “可抓取的”,抽屜把手可能是 “可拉動的”。相較于傳統(tǒng)的坐標點或動作軌跡表示,affordance 更強調(diào)語義明確、空間對齊,并具備良好的任務(wù)適應(yīng)性。當前的 VLA 研究中,affordance 動作表達的形式包括:關(guān)鍵點、邊界框、分割掩碼以及可操作性圖,每種方式在任務(wù)類型、精度要求與環(huán)境復(fù)雜度之間展現(xiàn)出互補優(yōu)勢。
不同的表示形式各有側(cè)重:關(guān)鍵點能夠精確指示交互目標,如把手或按鈕;邊界框在多類檢測模型和語言視覺模型支持下可高效實現(xiàn)實例定位;分割掩碼為功能性區(qū)域提供像素級輪廓與幾何細節(jié),適用于復(fù)雜表面操作;而可操作性圖則從全局視角提供稠密、概率化的交互區(qū)域分布,適合復(fù)雜場景下的空間推理與動作規(guī)劃。
盡管具有結(jié)構(gòu)清晰、跨平臺遷移性強等優(yōu)勢,現(xiàn)有 affordance 動作表示仍面臨三類核心挑戰(zhàn):一是空間表達維度不足,多數(shù)方法仍停留在 2D 或投影 3D 表達,難以勝任需要完整空間理解的真實操作任務(wù);二是動態(tài)建模缺失,affordance 通常被視為靜態(tài)屬性,忽略了動作執(zhí)行后的狀態(tài)變化,無法處理例如 “打開瓶蓋后變?yōu)榭傻钩觥?的動態(tài)演化;三是感知魯棒性有限,在遮擋、模糊等視覺干擾下容易出現(xiàn)誤判,影響下游控制穩(wěn)定性。
針對這些問題,文章總結(jié)出 affordance 動作表示未來的三個關(guān)鍵發(fā)展方向:
- 構(gòu)建原生三維表達形式,基于神經(jīng)輻射場、高斯渲染等方法,實現(xiàn)對物體幾何與空間布局的真實建模;
- 引入時序建模機制,使模型能夠感知并預(yù)測交互過程中的 affordance 演化,提高對長時序任務(wù)的適應(yīng)能力;
- 增強策略魯棒性與不確定性感知能力,不僅預(yù)測交互區(qū)域,還需識別模型自身置信度,提升決策安全性與可控性。
Trajectory(軌跡)
表示物體、末端執(zhí)行器或場景隨時間變化的連續(xù)空間狀態(tài)序列,也就是 “從哪里到哪里怎么動”。
在 VLA 模型的研究中,一個核心挑戰(zhàn)是附帶動作標簽的機器人數(shù)據(jù)集的稀缺性。近期研究表明,將 “軌跡(Trajectory)” 作為一種動作表征,是應(yīng)對此挑戰(zhàn)的有效范式。該方法通過利用無需動作標注的通用視頻數(shù)據(jù),用其中蘊含的運動軌跡來表示動作,從而顯著拓寬了模型的訓(xùn)練數(shù)據(jù)來源。
該研究方向的核心在于將機器人動作編碼為運動軌跡。這些表征主要分為三類:一是點軌跡(Point Trajectory),通過一系列時序下的離散坐標點來為機器人提供精確的路徑引導(dǎo);二是視覺軌跡(Visual Trajectory),它將運動路徑直接渲染于圖像之上,在視覺上下文中直觀地呈現(xiàn)動作意圖;三是光流(Optical Flow),作為一種更為稠密的表征,它描述場景中每個像素的運動矢量,從而捕捉了整體環(huán)境的動態(tài)信息。
基于軌跡的動作表征展現(xiàn)出多項關(guān)鍵優(yōu)勢。首先,正如前文所言,用軌跡作為動作表征可以有效地利用大量視頻數(shù)據(jù),拓寬訓(xùn)練數(shù)據(jù)來源。其次,也是至關(guān)重要的一點,軌跡在任務(wù)泛化上表現(xiàn)出卓越的能力。對于那些語義目標不同但底層運動模式相似的任務(wù)(例如 “擦拭表面” 與 “滑動滑塊”),基于軌跡的策略能夠?qū)崿F(xiàn)更高效的零樣本泛化。再次,與依賴隱空間表征的抽象方法相比,軌跡是一種外顯且具備人類可解釋性的動作形式,為模型的訓(xùn)練與調(diào)試提供了極大便利。
盡管前景廣闊,該方法仍面臨若干挑戰(zhàn)。當前多數(shù)工作聚焦于二維軌跡,其固有的三維空間信息(尤其是物體姿態(tài)與旋轉(zhuǎn))的缺失,限制了其在復(fù)雜靈巧操作任務(wù)中的應(yīng)用。同時,部分依賴大型生成模型的方法存在計算成本高、推理頻率低的問題,難以滿足機器人實時、平滑控制的需求。此外,純軌跡表征在處理需要復(fù)雜交互邏輯、力控制或基于物體功能理解(affordance)的任務(wù)時,其語義豐富度尚顯不足。
因此,未來的研究方向?qū)⒅饕劢褂谌齻€方面:一是探索包含完整六自由度(6-DoF)信息的三維空間軌跡表征;二是開發(fā)輕量化、高效率的軌跡生成與規(guī)劃模型;三是構(gòu)建結(jié)合了軌跡路徑與語義概念的混合式動作表征,從而使機器人能夠應(yīng)對更廣泛、更復(fù)雜的任務(wù)場景。
Goal State(目標狀態(tài))
對未來動作結(jié)果的視覺預(yù)測,如一張圖片、點云或視頻片段,直觀地展示執(zhí)行完某個動作序列后應(yīng)該達到的目標樣子,用作規(guī)劃和執(zhí)行的中間目標。
讓機器人 “想清楚” 再行動。我們?nèi)祟愒趫?zhí)行任務(wù)前,常會先在腦中構(gòu)想最終結(jié)果。受此啟發(fā),VLA 模型也開始采用預(yù)測的目標狀態(tài),即任務(wù)預(yù)期結(jié)果的視覺呈現(xiàn),來作為中間的 “行動指令”。這就像在給機器人下達指令后,先讓它 “想象” 出任務(wù)完成的樣子,再根據(jù)這個 “想象” 來規(guī)劃具體動作,從而彌合高層指令與低層執(zhí)行之間的鴻溝。
這種方法通常采用分層架構(gòu):一個高層模型根據(jù)指令生成目標狀態(tài)的圖像或視頻,隨后低層模型依據(jù)這個視覺指引來生成最終的動作序列。目標狀態(tài)主要分為單幀圖像多幀視頻。單幀圖像描繪任務(wù)完成后的靜態(tài)場景,帶來數(shù)據(jù)可擴展性高、能利用無動作視頻訓(xùn)練等優(yōu)勢。而多幀視頻則提供了更豐富的時間上下文和 “如何做” 的線索,能從大規(guī)模數(shù)據(jù)中生成、提取隱式動作信息,并增強模型在不同任務(wù)和機器人平臺間的泛化能力
目標狀態(tài)的核心優(yōu)勢在于其極佳的數(shù)據(jù)可擴展性(通過自動化數(shù)據(jù)生成)、更廣泛的數(shù)據(jù)源和更強的泛化能力(利用無動作視頻和人類執(zhí)行數(shù)據(jù)),以及增強的任務(wù)特異性(提供精確視覺指引),同時還具備魯棒的可解釋性和直觀的評估方式。然而,目標狀態(tài)也面臨挑戰(zhàn):生成高質(zhì)量、一致性的目標狀態(tài)依然困難,可能出現(xiàn)過度具體或不準確的情況;此外,生成未來圖像或視頻會引入較高的推理延遲,影響實時控制。盡管如此,隨著圖像和視頻生成技術(shù)的飛速發(fā)展,目標狀態(tài)作為 VLA 模型中一個充滿前景的行動指令,正不斷提升機器人理解和執(zhí)行復(fù)雜任務(wù)的能力。未來的研究將重點關(guān)注提高計算效率、增強環(huán)境魯棒性,以及優(yōu)化長程任務(wù)規(guī)劃。
Latent Representation(隱式表示)
通過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練得到的一段隱向量序列,用來編碼一定時間范圍內(nèi)與動作相關(guān)的信息。
如何讓機器人像人一樣,通過觀察就能快速學(xué)習(xí)各種任務(wù)?近期的 VLA 研究開發(fā)了一種新的訓(xùn)練范式,不再大量依賴昂貴的、為機器人量身定制的訓(xùn)練數(shù)據(jù),通過讓 AI 模型觀看多樣的機器人視頻數(shù)據(jù)集和海量的人類視頻數(shù)據(jù)集(如 Ego4D 等),可以自動學(xué)習(xí)并提煉出一套通用的動作 “隱式表示(latent representation)”。
這一類方法的核心在于構(gòu)建動作的隱式表示,根據(jù)編碼的動作信息不同,主要分為以下三類:視覺變化信息,通過分析一段時間內(nèi)視覺場景的變化(比如機械臂的移動),來推斷其中發(fā)生的動作;動作塊壓縮信息,將一段完整的機器人動作序列(Action Chunk),直接壓縮成一個高效、緊湊的 “動作 ID”;任務(wù)目標信息,將一系列的視覺觀察,編碼成一個具有高級語義的 “目標” 信息,指導(dǎo)后續(xù)行為。
這一 “潛在動作” 方法的價值是多方面的。首先,它極大地拓寬了數(shù)據(jù)來源,使得幾乎所有機器人數(shù)據(jù)集和海量人類視頻都能成為機器人的 “教科書”。其次,它顯著提升了訓(xùn)練效率。例如,文中提到的 UniVLA 模型,采用該方法后,僅用 OpenVLA 所需 4.45% 的預(yù)訓(xùn)練時間,就達到了相當?shù)男阅埽曙w躍超過 20 倍。最關(guān)鍵的是,這種方法學(xué)習(xí)到的動作是“身體無關(guān)”的,意味著從人類視頻中學(xué)到的操作技能,可以被有效遷移到擁有不同形態(tài)的機器人身上,展現(xiàn)了驚人的泛化能力。此外,潛在動作表示還有融合其他模態(tài)動作信息的潛力,比如觸覺和聽覺信息。
盡管有上述的種種優(yōu)點,該方法也面臨著挑戰(zhàn),主要在于其 “黑箱” 特性 —— 由于 “潛在動作” 由 AI 自主定義,其內(nèi)部邏輯難以被人類完全理解和干預(yù),這給調(diào)試和確保安全性帶來了新的挑戰(zhàn)。因此,確保這些潛在的動作表示具有良好的性質(zhì)和質(zhì)量變得尤為重要。未來的研究將聚焦于三大方向:如何讓這套 “潛在動作” 的粒度更精細以支持復(fù)雜操作;如何確保其完備性以覆蓋所有可能的任務(wù)場景;以及如何加強其與人類意圖的對齊,確保機器人真正 “聽得懂、干得對”。
Raw Action(原始動作)
可以被機器人直接執(zhí)行的低層級控制指令,比如關(guān)節(jié)角度變化、末端位姿控制、輪子轉(zhuǎn)速等。
近年來,大語言模型(LLM)所展現(xiàn)出的強大能力引發(fā)了廣泛關(guān)注。正如 Richard Sutton 在《The Bitter Lesson》中所指出的,通向通用智能的長期路徑并非依賴人類設(shè)計的領(lǐng)域知識,而是通過通用方法和擴展計算規(guī)模實現(xiàn)。LLM 的成功正源于其在預(yù)訓(xùn)練數(shù)據(jù)量和模型參數(shù)規(guī)模上的擴展(scaling law)。因此,一個自然而然的設(shè)想是:是否可以將 LLM 的成功經(jīng)驗推廣到 VLA 模型中?
在所有的動作 token 表征方式中,raw action 是最直接的形式,它對應(yīng)具身智能體的底層動作空間,例如機械臂的關(guān)節(jié)角度。這種表征天然具備無損性,既可直接從真實系統(tǒng)中采集,也可用于生成,省去了額外的動作格式映射步驟,因而非常適合 VLA 模型的端到端訓(xùn)練。隨著數(shù)據(jù)規(guī)模和模型參數(shù)的不斷增長,我們有理由期待 VLA 模型出現(xiàn)類似 LLM 的 scaling law,從而實現(xiàn)更強的泛化能力。
近年圍繞 raw action token 的 VLA 模型的發(fā)展已初步展現(xiàn)出這一趨勢。在數(shù)據(jù)層面,多個大規(guī)模機器人數(shù)據(jù)集陸續(xù)發(fā)布,如 RT 系列、Open-X Embodiment、DROID、AgiBot World,涵蓋了跨本體、多任務(wù)的多樣性數(shù)據(jù)。模型層面的發(fā)展也呈現(xiàn)出清晰的演進路徑:從早期的簡單多模態(tài)融合架構(gòu),發(fā)展到基于 Transformer 的自回歸模型,再到近期基于基座 VLM 和擴散模型的動作塊生成方法(Diffusion-based Action Chunking)。這些模型在參數(shù)規(guī)模和數(shù)據(jù)使用上不斷擴展,并借助預(yù)訓(xùn)練的 VLM 提升了泛化能力,同時擴散模型結(jié)合動作塊也顯著增強了對精細動作分布的建模能力與動作生成頻率。此外,LLM 中 “預(yù)訓(xùn)練 + 后訓(xùn)練” 的范式也在 VLA 中得到驗證。研究表明,經(jīng)過大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的 VLA 模型,在后訓(xùn)練階段僅需少量新數(shù)據(jù)即可遷移至下游任務(wù),大幅降低了微調(diào)與部署成本。
總體而言,基于 raw action 的 VLA 模型具有多方面優(yōu)勢:其表征無需人為設(shè)計或映射,最符合《The Bitter Lesson》中倡導(dǎo)的最少人類知識介入原則;其端到端可擴展結(jié)構(gòu)便于借鑒 LLM/VLM 的成功范式;其預(yù)訓(xùn)練能力降低了后訓(xùn)練數(shù)據(jù)需求,使得在現(xiàn)實環(huán)境中的泛化部署成為可能。
然而,這一方向也面臨若干挑戰(zhàn)。首先,真實數(shù)據(jù)的獲取成本高昂,當前最大規(guī)模的機器人數(shù)據(jù)集仍處于百萬級別,遠低于 LLM 所依賴的十億級互聯(lián)網(wǎng)語料,實現(xiàn)類似 scaling law 效應(yīng)尚顯不足。其次,大模型 VLA 的推理速度仍然受限,難以滿足高實時性要求的精細操作任務(wù)。最后,實現(xiàn)單一模型的跨本體泛化能力仍是一個未解難題。未來的研究應(yīng)聚焦于如何更高效地獲取高質(zhì)量數(shù)據(jù)、提升推理效率,并突破模型在異構(gòu)機器人間的遷移能力等核心問題。
Reasoning(推理)
用自然語言表達的思考過程,解釋 “為什么要做這個動作”,常用來輔助生成更合理的其他 action token。
機器人操作和自動駕駛等復(fù)雜的具身任務(wù)不僅需要長期規(guī)劃和推理能力,更要求 AI 對空間、語義有深刻理解,并能在不斷變化的真實世界環(huán)境中高效運行。僅僅依靠擴大模型參數(shù)規(guī)模,遠不足以應(yīng)對這些固有的復(fù)雜性。因此,為 VLA 模型注入強大的推理能力,已成為當前最迫切且有前景的解決方案。
我們所說的 VLA 中的推理,并非抽象概念,而是一個明確外化的、以自然語言形式呈現(xiàn)的深思熟慮過程。它扮演著關(guān)鍵的中間角色:當模型接收到高層指令時,推理步驟會引導(dǎo)其生成最終的目標 action token。這就像讓人工智能擁有了 “思考” 的能力,能夠一步步地權(quán)衡、判斷,并將內(nèi)部決策過程清晰地展現(xiàn)出來。
這種 “思考” 能力最初源于大型語言模型的 “思維鏈” 概念,即通過一系列中間步驟來解決復(fù)雜問題。如今,這一理念已成功拓展到 VLA 領(lǐng)域。早期,研究者常通過結(jié)合大型語言模型與額外視覺模塊來實現(xiàn)具身推理。但現(xiàn)在,具備多模態(tài)先驗知識的 VLM 已成為主流。VLM 能夠簡化模型架構(gòu),并通過專門的微調(diào)或再訓(xùn)練來適應(yīng)具身推理的獨特需求。一些方法通過自動化數(shù)據(jù)合成有效解決了高質(zhì)量大規(guī)模推理數(shù)據(jù)集的獲取難題,甚至將人類日常視頻也納入數(shù)據(jù)合成,拓寬了訓(xùn)練數(shù)據(jù)的來源。此外,一些 VLM 更是通過強化學(xué)習(xí)等方式,專門針對具身推理進行了深度優(yōu)化。在自動駕駛這一高風(fēng)險、高復(fù)雜度的應(yīng)用場景中,這類模型將 “思維鏈” 應(yīng)用于其場景描述、分析和規(guī)劃等關(guān)鍵模塊,充分展現(xiàn)了推理在處理復(fù)雜決策中的核心作用。
將推理融入 VLA 模型,帶來了多重顯著優(yōu)勢。它能有效彌合高層指令與底層行動的鴻溝,通過中間思考步驟提升模型對復(fù)雜指令的理解和分解能力,從而增強其在面對新場景和對象時的泛化性和對復(fù)雜任務(wù)的解決能力。此外,推理過程的外化極大地提高了模型的可解釋性,使人類能清晰審查決策、定位錯誤并實時干預(yù),從而深化人機協(xié)作。
然而,推理的應(yīng)用也面臨局限。最突出的是,推理過程往往涉及冗長序列,導(dǎo)致推理時間增加和執(zhí)行速度降低,這對于需要實時響應(yīng)的高頻任務(wù)而言是關(guān)鍵瓶頸。同時,當前推理步驟的固定性以及高質(zhì)量、大規(guī)模推理數(shù)據(jù)集構(gòu)建的挑戰(zhàn),也限制了其靈活性和進一步發(fā)展。
VLA 中的數(shù)據(jù)來源
在 VLA 迅速發(fā)展的當下,“數(shù)據(jù)” 正成為決定模型能力邊界的關(guān)鍵因素。因此,文章系統(tǒng)梳理了當前 VLA 模型所依賴的數(shù)據(jù)資源,并按照 “數(shù)據(jù)金字塔” 的框架,將其劃分為三層:網(wǎng)絡(luò)數(shù)據(jù)與人類視頻、合成與仿真數(shù)據(jù)、真實機器人數(shù)據(jù)。這三類數(shù)據(jù)在模態(tài)組合、監(jiān)督粒度和具身相關(guān)性上各具優(yōu)劣,同時在性能與泛化能力之間形成了清晰的分工。
金字塔的底層由網(wǎng)絡(luò)數(shù)據(jù)與人類視頻構(gòu)成。這類數(shù)據(jù)規(guī)模最大、獲取成本最低,盡管不包含機器人可執(zhí)行的動作標簽,但它們?yōu)槟P徒⑼ㄓ靡曈X語言理解能力提供了基礎(chǔ)。例如,大量圖文對支持模型學(xué)習(xí)物體、動作與場景的語義表征;而第一人稱視角的人類演示視頻(如廚房任務(wù))則提供了豐富的多模態(tài)信息。雖然這些數(shù)據(jù)缺乏動作監(jiān)督與精確標注,但其強語義密度使其成為 VLA 預(yù)訓(xùn)練中不可或缺的資源,幫助模型 “看懂世界”“聽懂任務(wù)”,為后續(xù)具身接入與行為學(xué)習(xí)打下語義基礎(chǔ)。此外,這類數(shù)據(jù)還廣泛用于訓(xùn)練 trajectory,latent representation 等 action token。
金字塔的中層由合成與仿真數(shù)據(jù)構(gòu)成。相比昂貴而稀缺的真實機器人數(shù)據(jù),這類數(shù)據(jù)提供了高性價比且更多樣化的數(shù)據(jù);相比人類視頻,它包含明確的動作標簽。主流做法包括兩類:離線數(shù)據(jù)合成與交互式仿真平臺。離線數(shù)據(jù)合成方法如 MimicGen、DexMimicGen 和 RoboCasa,通過程序化修改、動力學(xué)擾動等手段,從少量演示中生成覆蓋廣泛任務(wù)與環(huán)境變化的大規(guī)模軌跡數(shù)據(jù)。而交互式仿真平臺(如 Isaac Lab、Habitat、robosuite 等)則提供了一個可反復(fù)試驗、高度可控的 “具身訓(xùn)練場”。研究者可以通過遙操作、算法規(guī)劃或強化學(xué)習(xí)等方式持續(xù)生成行為數(shù)據(jù),并通過程序生成器不斷多樣化環(huán)境配置。值得注意的是,越來越多的仿真平臺開始融合高保真物理引擎與真實 3D 場景資產(chǎn),使仿真交互更接近現(xiàn)實,適用于復(fù)雜任務(wù)的預(yù)訓(xùn)練。
金字塔的頂層是真實機器人數(shù)據(jù),承載了物理世界中最具真實性的動作信息。相比仿真或人類演示,真機數(shù)據(jù)包含了現(xiàn)實世界中的動態(tài)變化、感知噪聲與物理約束,是將策略 “從仿真走向真實” 的關(guān)鍵支撐。綜述系統(tǒng)梳理了多個代表性數(shù)據(jù)集:多機器人數(shù)據(jù)(如 OXE、RoboMIND),單機器人數(shù)據(jù)集(如 RT-1、DROID、AgiBot World),以及自動駕駛?cè)蝿?wù)中的時序軌跡(如 Waymo Open Dataset-Motion)。這些數(shù)據(jù)覆蓋了各種場景中不同形態(tài)的機器人完成不同任務(wù)的真機軌跡,還在故障軌跡、力矩 / 聲音模態(tài)等方面提供了學(xué)習(xí)樣本,為策略訓(xùn)練帶來了更強的現(xiàn)實魯棒性與泛化數(shù)據(jù)支撐。
結(jié)語
VLA 模型正迅速成為通往具身智能的核心路徑。這篇綜述首次從 action token 視角系統(tǒng)梳理 VLA 技術(shù)路線,明確八類 token 的設(shè)計思路、優(yōu)劣權(quán)衡與發(fā)展趨勢,并指出當前研究中的關(guān)鍵挑戰(zhàn)與未來方向。隨著基礎(chǔ)模型能力的持續(xù)躍升、數(shù)據(jù)的不斷擴展、研究人員的不斷努力,VLA 研究正在邁向通用智能的下一站。
在即將到來的 2025 世界人工智能大會(7 月 26-29 日)上,靈初智能將全面展示 VLA 技術(shù)的產(chǎn)業(yè)化成果,其發(fā)布的 Psi R1 模型能夠?qū)崿F(xiàn) 30 分鐘連續(xù)麻將博弈,展現(xiàn)了機器人在開放環(huán)境下處理復(fù)雜任務(wù)的突破性能力,標志著具身智能從簡單動作執(zhí)行向真正的認知決策和長程操作的關(guān)鍵躍遷。這將為業(yè)界提供一個觀察 VLA 技術(shù)從理論突破走向?qū)嶋H應(yīng)用的重要窗口,共同推動具身智能技術(shù)在真實世界中的廣泛落地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.