本文第一作者為香港科技大學(廣州)機器人系一年級博士生宋文軒,主要研究方向為VLA模型,共同第一作者是來自香港科技大學廣州的研究助理陳家毅,項目leader為浙江大學和西湖大學聯合培養博士生丁鵬翔,他們也是具身智能領域開源項目OpenHelix以及LLaVA-VLA的研究團隊。通訊作者為香港科技大學廣州的李昊昂教授,他是今年的CVPR2025 Best PaperCandidate的獲得者。
https://mp.weixin.qq.com/s/oJJQmq0dSQ9c7zMWLrgnLw
近年來,視覺 - 語言 - 動作(Vision-Language-Action, VLA)模型因其出色的多模態理解與泛化能力,已成為機器人領域的重要研究方向。盡管相關技術取得了顯著進展,但在實際部署中,尤其是在高頻率和精細操作等任務中,VLA 模型仍受到推理速度瓶頸的嚴重制約。
針對這一問題,部分研究提出采用 Jacobi 解碼替代傳統的自回歸解碼,以期提升推理效率。然而,由于 Jacobi 解碼往往需要較多迭代次數,其加速效果在實踐中較為有限。
為此,我們提出了一種一致性蒸餾訓練(consistency distillation training)策略,使模型在每次迭代中能夠同時預測多個正確的動作 token,從而實現解碼加速。同時,我們設計了混合標簽監督機制(mixed-label supervision),用于緩解蒸餾過程中可能產生的誤差積累問題。
盡管上述方法帶來了可接受的加速效果,我們進一步觀察到:Jacobi 解碼中仍存在若干低效迭代步驟,成為限制整體效率的關鍵瓶頸。為徹底解決該問題,本文提出一種提前退出(early-exit)解碼策略,通過適度放寬收斂條件,進一步提升平均推理效率。
- 論文題目:
- CEED-VLA : Consistency Vision-Language-Action Model with Early-Exit Decoding
- 項目主頁:
- https://irpn-eai.github.io/CEED-VLA/
- 論文鏈接:
- https://arxiv.org/pdf/2506.13725
- 代碼鏈接:
- https://github.com/OpenHelix-Team/CEED-VLA
實驗結果表明,我們所提出的方法在多個基線模型上實現了超過4 倍的推理加速,同時在仿真與真實機器人任務中均保持了較高的任務成功率。這些實驗驗證了本方法在加速機器人多模態決策過程中的高效性與通用性,展現出良好的應用前景。總的來說,我們做出以下三大貢獻:
(1)我們提出了一種通用的加速方法CEED-VLA,在保持操控性能的前提下顯著提升了推理速度。
(2)我們引入了一種一致性蒸餾機制,并在自回歸損失中結合混合標簽監督,以有效保留高質量的動作序列。
(3)我們發現 Jacobi 解碼存在低效迭代的瓶頸問題,進一步提出了早期退出(early-exit)解碼策略,實現了4.1 倍的推理加速與 超過 4.3 倍的解碼頻率提升。
圖 1:不同解碼方法加速效果對比
Method
圖 2:CEED-VLA 模型架構示意圖
我們提出的框架首先通過預訓練的 VLA 模型(例如 LLaVA-VLA和OpenVLA)進行Jacobi Decoding生成訓練Jacobi Trajectory數據集。隨后,我們設計了一種高效的一致性蒸餾方式,并引入了一種新穎的混合標簽監督方法,在同時保證精度和提高速度的前提下訓練學生模型。最后,我們提出了Early-exit Decoding技術,以進一步提升推理速度。模擬環境與現實世界中的實驗表明,在幾乎不損失任務成功率的前提下,該方法顯著提升了模型的推理速度和靈巧任務的成功率。
Consistency Training
對于目標 VLA 模型 ,為了捕捉 Jacobi 軌跡中的內在一致性以進行一致性訓練,我們首先通過在機器人數據集C上使用 Jacobi Decoding對模型 進行動作預測,來采集完整的Jacobi軌跡。
一致性訓練包含兩個優化目標:一致性損失(Consistency Loss):引導模型能夠在單次forward過程中預測多個正確的 token,為了確保模型在軌跡中的任意一步都能生成與最終目標一致的動作,這里引入了 KL 散度作為一致性損失。簡而言之,它要求模型在每一個中間步驟的預測,和最終預測結果之間保持一致,從而提高模型收斂效率。
混合標簽的自回歸監督損失(Mixed-label AR Supervision):為了保留模型常規的自回歸生成能力,CEED-VLA混合使用教師模型的數據以及Ground-truth數據進行監督,以保證動作精確性。最終的訓練目標是兩種損失的加權和。訓練過程如下所示:
圖4 一致性訓練算法
Early-exit Decoding
圖 5:四種解碼方式迭代流程
Jacobi 解碼允許并行輸出動作token,在一定程度上提高了推理速度,但嚴格的收斂條件影響解碼效率進一步提升。為此我們提出Early-exit Decoding策略:模型通過提前退出的方式輸出中間預測結果,無需滿足Jacobi iteration的收斂條件。得益于manipulation任務獨特的結構,Early-exit Decoding顯著提升了推理速度,同時保持了成功率,使得模型能夠以更高頻率控制機器人,滿足實時任務需求。
仿真環境基準實驗(Simulation Benchmark)
圖 6:仿真環境主要實驗結果
在最具挑戰的長程任務CALVIN ABC-D和LIBERO-Long基準上的實驗結果表明,CEED-VLA在幾乎不損失任務成功率的前提下實現了4倍以上的推理速度和執行頻率。
真實世界實驗(Real World)
圖 9:真機實驗部署設置
圖 10:疊毛巾任務上的對比
上圖展示了 LLaVA-VLA 模型的真實表現。機械臂操作頻率較低,難以完成如疊毛巾等靈巧操作任務,經常出現抓取失敗或只抓到一邊的情況,導致任務失敗。下圖展示了 CEED-VLA 模型的實驗效果。得益于推理頻率的提高,機械臂動作更加順暢,成功完成了靈巧操作任務。
圖 11:CEED-VLA 在真實世界中的實驗結果。
CEED-VLA 顯著提升了推理速度和控制頻率,使模型能夠學習并執行高頻動作,因此相比基線在靈巧任務上的成功率大幅提升,超過 70%。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.