作者簡介:由來自北京大學、香港中文大學、北京智源研究院、智平方的老師同學聯合研究,作者包括博士生陳浩、劉家銘、顧晨陽、劉卓洋,通訊作者為北京大學仉尚航。北京大學 HMI 實驗室長期致力于具身智能和多模態學習領域的研究,歡迎關注。
快執行與慢思考:
在機器人操控領域,實現高頻響應與復雜推理的統一,一直是一個重大技術挑戰。近期,北京大學與香港中文大學的研究團隊聯合發布了名為 Fast-in-Slow(FiS-VLA) 的全新雙系統視覺 - 語言 - 動作模型。不同之前的快慢系統 VLA 方法需要初始化 / 引入一個全新的快速執行模塊,該方法通過將快速執行模塊嵌入預訓練視覺 - 語言模型(VLM)中,實現快慢系統一體化的設計。同時,針對雙系統設計了異構模態輸入與異步運行頻率的策略,使得 FiS-VLA 既能實現快速動作生成,也具備慢思考能力。該方法在多個仿真與真機平臺上取得了優異表現。最令人矚目的是,FiS-VLA-7B 可以實現高達 117.7Hz 的控制頻率,大幅領先于現有主流方案,展示了其廣闊的實際應用潛力。
- 論文鏈接:
- https://arxiv.org/pdf/2506.01953
- 項目主頁:
- https://fast-in-slow.github.io/
- 代碼鏈接:
- https://github.com/CHEN-H01/Fast-in-Slow
- PKU HMI 實驗室主頁:
- https://pku-hmi-lab.github.io/HMI-Web/index.html
研究背景與挑戰:
機器人操作系統的目標是在復雜環境中,依據傳感器輸入和語言指令,生成精確有效的控制信號。雖然近年來大規模的視覺 - 語言模型(VLMs)因其強大的預訓練能力被引入到機器人領域,但其龐大的模型參數和較慢的推理速度,限制了其在高頻控制任務中的實用性。
為此,一些研究引入 Kahneman 的 “雙系統理論”:系統 1 代表快速、直覺式的決策系統,系統 2 代表緩慢但深度推理的系統。在這一理論的啟發下,已有方法嘗試構建雙系統結構,即使用 VLM 作為系統 2 進行任務級理解,再使用額外的策略頭(系統 1)進行動作預測。但現有設計中兩個系統相對獨立,無法充分共享系統 2 的預訓練知識,導致協同效率低下,系統 1 缺乏對系統 2 語義推理結果的充分利用。
Fast-in-slow VLA (如何在慢系統中分化出執行模塊)
FiS-VLA 提出一種創新結構,將 VLM 的末端幾層 Transformer 模塊直接重構為系統 1 執行模塊,嵌入原有系統 2 內部,形成一個統一的高效推理與控制模型。系統 2 以低頻率處理 2D 圖像和語言指令,輸出指導特征;系統 1 以高頻率響應實時感知輸入(狀態、圖像和點云),實現高效動作生成。
此外,FiS-VLA 采用雙系統感知協同訓練策略,一方面利用擴散建模增強系統 1 的動作生成能力,另一方面保留系統 2 的高維語義推理能力,確保整體推理執行的互補性。模型在超 86 萬條軌跡的大規模機器人數據集上預訓練,并在多個現實任務中微調優化,顯著提升了任務完成率和控制頻率。
1. 架構設計:FiS-VLA 基于 Prismatic VLM 架構,主要包括以下模塊:視覺編碼器(結合 SigLIP 與 DINOv2 兩種視覺編碼器)、輕量級 3D tokenizer(處理點云并共享視覺編碼器提取空間特征)、大語言模型(使用 LLaMA2-7B,并將其最后 n 層 Transformer 模塊重用于系統 1),以及若干 MLP 模塊(用于模態融合和擴散建模)。系統 1 直接嵌入系統 2 中的高維表示空間,使其能繼承預訓練知識并實現高頻執行,整個系統構成 “快中有慢、慢中有快” 的協同結構。
2. 雙系統協作:FiS-VLA 的結構由兩個組成部分構成:一個慢速的系統 2 和一個快速的系統 1,這一設計靈感來源于 Kahneman 提出的雙系統理論。在 FiS-VLA 中,系統 2 會處理與任務相關的視覺觀測(如圖像)和語言指令,并將其轉化為高維特征,這些特征來自大語言模型(LLM)的中間層。借鑒 “動作塊化” 的方法,FiS-VLA 認識到在時間步 t 的輸入可以為未來若干步的動作生成提供指導,因此 FiS-VLA 將系統 2 的中間層輸出作為一個潛在的條件信號,為接下來的 H 步系統 1 的動作生成提供約束。相較而言,系統 1 專注于實時動作生成,它在每一個時間步上運行,接收當前的感知輸入并輸出動作,同時也利用周期性更新的來自系統 2 的高維語義理解結果。這樣的行為模式類似于人類的直覺反應,使得系統 1 成為一個高頻率的動作生成模塊。為了使兩個系統協同工作,FiS-VLA 研究了它們之間的運行頻率比例,并在消融實驗中測試了不同的動作預測視野,實質上是在探索系統 2 每運行一次,系統 1 應連續運行多少步。在訓練階段,FiS-VLA 采用異步采樣的方式控制系統 2 的運行頻率,使得系統 1 能夠保持動作生成過程的時間一致性。
另外,FiS-VLA 采用異構模態輸入設計。由于系統 1 與系統 2 在職責上存在根本差異,FiS-VLA 為其設計了異構的輸入模態。系統 2 主要承擔任務理解與語義推理的工作,作為一個在互聯網上以圖文數據大規模預訓練而來的模型,它最適合接收語言指令與 2D 圖像,以充分激發其語義建模能力。系統 1 則用于實時生成機器人動作,因此必須接收全面、低延遲的感知信息輸入,包括當前時刻的 2D 圖像、機器人的自身狀態(如關節、位置等),以及通過相機參數從深度圖還原出的 3D 點云信息。特別是 3D 信息對于識別空間關系與實現精細操作至關重要。最終,系統 1 會將這些輸入模態與系統 2 輸出的高維特征共同融合,作為條件輸入進行動作生成。
3.FiS-VLA 雙系統協同訓練:系統 1 以擴散建模為核心,注入帶噪動作作為訓練變量,實現連續性動作生成;系統 2 則采用自回歸預測保留推理能力,這兩個訓練目標聯合優化 FiS-VLA。訓練采用跨平臺大規模軌跡數據(約 860K 條軌跡),并在微調階段引入子任務語言指令增強任務適應性。
精度、速度、泛化!
1. 仿真測試:FiS-VLA 在 RLBench 仿真任務中平均成功率為 69%,顯著優于 CogACT(61%)與 π0(55%),在 10 項任務中 8 項居首。在控制頻率上,其在動作塊大小為 1 時達到 21.9Hz,是 CogACT 的 2 倍以上。
2. 真機測試:在真實機器人平臺(Agilex 與 AlphaBot)中,FiS-VLA 在 8 項任務中平均成功率分別為 68% 與 74%,遠超 π0 基線。在高精度操控任務如 “倒水”、“擦黑板”、“折毛巾” 等場景下展現顯著優勢。
3. 泛化能力:在泛化測試中,面對未見物體、復雜背景與光照變化,FiS-VLA 準確率下降幅度遠小于 π0,驗證其雙系統架構對視覺擾動的魯棒性。
4. 消融實驗:消融實驗表明,并非共享 Transformer 層數越多,系統 1 性能越強,在共享 Transformer 層數為 2 的時候,FiS-VLA 實現最佳性能;系統 1 接收機器人狀態、圖像與點云三種輸入模態效果最佳;系統 1 和系統 2 協作的最佳頻率比為 1:4;FiS-VLA 在不同 action chunk 值下性能穩定,而控制頻率呈比例提升。特別當單步預測 8 個動作時,理論控制頻率高達 117.7Hz;同時最后作者還研究了 FiS-VLA 的一系列變體(模型輸入的變體)。
5. 真機實驗可視化
總結與展望:
FiS-VLA 通過在統一 VLM 中嵌入執行模塊,創新性地融合推理與控制,實現了高頻、高精度、強泛化的機器人操控能力。作者討論到,未來若引入動態調整共享結構與協同頻率策略,將進一步提升其在實際任務中的自適應性與魯棒性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.