網易首頁 > 網易號 > 正文申請入駐

模擬大腦功能分化！北大與港中文發布Fast-in-Slow VLA

2025-07-16 14:55:14　來源: 機器之心Pro

北京舉報

分享至

作者簡介：由來自北京大學、香港中文大學、北京智源研究院、智平方的老師同學聯合研究，作者包括博士生陳浩、劉家銘、顧晨陽、劉卓洋，通訊作者為北京大學仉尚航。北京大學 HMI 實驗室長期致力于具身智能和多模態學習領域的研究，歡迎關注。

快執行與慢思考：

在機器人操控領域，實現高頻響應與復雜推理的統一，一直是一個重大技術挑戰。近期，北京大學與香港中文大學的研究團隊聯合發布了名為 Fast-in-Slow（FiS-VLA）的全新雙系統視覺 - 語言 - 動作模型。不同之前的快慢系統 VLA 方法需要初始化 / 引入一個全新的快速執行模塊，該方法通過將快速執行模塊嵌入預訓練視覺 - 語言模型（VLM）中，實現快慢系統一體化的設計。同時，針對雙系統設計了異構模態輸入與異步運行頻率的策略，使得 FiS-VLA 既能實現快速動作生成，也具備慢思考能力。該方法在多個仿真與真機平臺上取得了優異表現。最令人矚目的是，FiS-VLA-7B 可以實現高達 117.7Hz 的控制頻率，大幅領先于現有主流方案，展示了其廣闊的實際應用潛力。

論文鏈接:
https://arxiv.org/pdf/2506.01953
項目主頁:
https://fast-in-slow.github.io/
代碼鏈接:
https://github.com/CHEN-H01/Fast-in-Slow
PKU HMI 實驗室主頁：
https://pku-hmi-lab.github.io/HMI-Web/index.html

研究背景與挑戰：

機器人操作系統的目標是在復雜環境中，依據傳感器輸入和語言指令，生成精確有效的控制信號。雖然近年來大規模的視覺 - 語言模型（VLMs）因其強大的預訓練能力被引入到機器人領域，但其龐大的模型參數和較慢的推理速度，限制了其在高頻控制任務中的實用性。

為此，一些研究引入 Kahneman 的 “雙系統理論”：系統 1 代表快速、直覺式的決策系統，系統 2 代表緩慢但深度推理的系統。在這一理論的啟發下，已有方法嘗試構建雙系統結構，即使用 VLM 作為系統 2 進行任務級理解，再使用額外的策略頭（系統 1）進行動作預測。但現有設計中兩個系統相對獨立，無法充分共享系統 2 的預訓練知識，導致協同效率低下，系統 1 缺乏對系統 2 語義推理結果的充分利用。

Fast-in-slow VLA (如何在慢系統中分化出執行模塊)

FiS-VLA 提出一種創新結構，將 VLM 的末端幾層 Transformer 模塊直接重構為系統 1 執行模塊，嵌入原有系統 2 內部，形成一個統一的高效推理與控制模型。系統 2 以低頻率處理 2D 圖像和語言指令，輸出指導特征；系統 1 以高頻率響應實時感知輸入（狀態、圖像和點云），實現高效動作生成。

此外，FiS-VLA 采用雙系統感知協同訓練策略，一方面利用擴散建模增強系統 1 的動作生成能力，另一方面保留系統 2 的高維語義推理能力，確保整體推理執行的互補性。模型在超 86 萬條軌跡的大規模機器人數據集上預訓練，并在多個現實任務中微調優化，顯著提升了任務完成率和控制頻率。

1. 架構設計：FiS-VLA 基于 Prismatic VLM 架構，主要包括以下模塊：視覺編碼器（結合 SigLIP 與 DINOv2 兩種視覺編碼器）、輕量級 3D tokenizer（處理點云并共享視覺編碼器提取空間特征）、大語言模型（使用 LLaMA2-7B，并將其最后 n 層 Transformer 模塊重用于系統 1），以及若干 MLP 模塊（用于模態融合和擴散建模）。系統 1 直接嵌入系統 2 中的高維表示空間，使其能繼承預訓練知識并實現高頻執行，整個系統構成 “快中有慢、慢中有快” 的協同結構。

2. 雙系統協作：FiS-VLA 的結構由兩個組成部分構成：一個慢速的系統 2 和一個快速的系統 1，這一設計靈感來源于 Kahneman 提出的雙系統理論。在 FiS-VLA 中，系統 2 會處理與任務相關的視覺觀測（如圖像）和語言指令，并將其轉化為高維特征，這些特征來自大語言模型（LLM）的中間層。借鑒 “動作塊化” 的方法，FiS-VLA 認識到在時間步 t 的輸入可以為未來若干步的動作生成提供指導，因此 FiS-VLA 將系統 2 的中間層輸出作為一個潛在的條件信號，為接下來的 H 步系統 1 的動作生成提供約束。相較而言，系統 1 專注于實時動作生成，它在每一個時間步上運行，接收當前的感知輸入并輸出動作，同時也利用周期性更新的來自系統 2 的高維語義理解結果。這樣的行為模式類似于人類的直覺反應，使得系統 1 成為一個高頻率的動作生成模塊。為了使兩個系統協同工作，FiS-VLA 研究了它們之間的運行頻率比例，并在消融實驗中測試了不同的動作預測視野，實質上是在探索系統 2 每運行一次，系統 1 應連續運行多少步。在訓練階段，FiS-VLA 采用異步采樣的方式控制系統 2 的運行頻率，使得系統 1 能夠保持動作生成過程的時間一致性。

另外，FiS-VLA 采用異構模態輸入設計。由于系統 1 與系統 2 在職責上存在根本差異，FiS-VLA 為其設計了異構的輸入模態。系統 2 主要承擔任務理解與語義推理的工作，作為一個在互聯網上以圖文數據大規模預訓練而來的模型，它最適合接收語言指令與 2D 圖像，以充分激發其語義建模能力。系統 1 則用于實時生成機器人動作，因此必須接收全面、低延遲的感知信息輸入，包括當前時刻的 2D 圖像、機器人的自身狀態（如關節、位置等），以及通過相機參數從深度圖還原出的 3D 點云信息。特別是 3D 信息對于識別空間關系與實現精細操作至關重要。最終，系統 1 會將這些輸入模態與系統 2 輸出的高維特征共同融合，作為條件輸入進行動作生成。

3.FiS-VLA 雙系統協同訓練：系統 1 以擴散建模為核心，注入帶噪動作作為訓練變量，實現連續性動作生成；系統 2 則采用自回歸預測保留推理能力，這兩個訓練目標聯合優化 FiS-VLA。訓練采用跨平臺大規模軌跡數據（約 860K 條軌跡），并在微調階段引入子任務語言指令增強任務適應性。

精度、速度、泛化！

1. 仿真測試：FiS-VLA 在 RLBench 仿真任務中平均成功率為 69%，顯著優于 CogACT（61%）與 π0（55%），在 10 項任務中 8 項居首。在控制頻率上，其在動作塊大小為 1 時達到 21.9Hz，是 CogACT 的 2 倍以上。

2. 真機測試：在真實機器人平臺（Agilex 與 AlphaBot）中，FiS-VLA 在 8 項任務中平均成功率分別為 68% 與 74%，遠超 π0 基線。在高精度操控任務如 “倒水”、“擦黑板”、“折毛巾” 等場景下展現顯著優勢。

3. 泛化能力：在泛化測試中，面對未見物體、復雜背景與光照變化，FiS-VLA 準確率下降幅度遠小于 π0，驗證其雙系統架構對視覺擾動的魯棒性。

4. 消融實驗：消融實驗表明，并非共享 Transformer 層數越多，系統 1 性能越強，在共享 Transformer 層數為 2 的時候，FiS-VLA 實現最佳性能；系統 1 接收機器人狀態、圖像與點云三種輸入模態效果最佳；系統 1 和系統 2 協作的最佳頻率比為 1:4；FiS-VLA 在不同 action chunk 值下性能穩定，而控制頻率呈比例提升。特別當單步預測 8 個動作時，理論控制頻率高達 117.7Hz；同時最后作者還研究了 FiS-VLA 的一系列變體（模型輸入的變體）。

5. 真機實驗可視化

總結與展望：

FiS-VLA 通過在統一 VLM 中嵌入執行模塊，創新性地融合推理與控制，實現了高頻、高精度、強泛化的機器人操控能力。作者討論到，未來若引入動態調整共享結構與協同頻率策略，將進一步提升其在實際任務中的自適應性與魯棒性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.