在家庭服務機器人領域,如何讓機器人理解開放環境中的自然語言指令、動態規劃行動路徑并精準執行操作,一直是學界和工業界的核心挑戰。
近日,上海人工智能實驗室聯合新加坡國立大學、香港大學等機構的研究團隊,提出了 "OWMM-Agent" 具身智能體——首個專為開放世界移動操作(OWMM)設計的多模態智能體 (VLM Agent) 架構,首次實現了全局場景理解、機器人狀態跟蹤和多模態動作生成的統一建模。
同時該工作通過仿真器合成智能體軌跡數據,微調了針對該任務的多模態大模型 OWMM-VLM,在真實環境測試下,該模型零樣本單步動作預測準確率達 90%。
- 論文鏈接:https://arxiv.org/pdf/2506.04217
- Github 主頁:https://github.com/HHYHRHY/OWMM-Agent
一、問題背景介紹:開放語義下的移動抓取任務
傳統移動抓取機器人在家庭場景處理 “清理餐桌并將水果放回碗中” 這類開放指令時,往往需要依賴預先構建的場景 3D 重建或者語義地圖,不僅耗時且難以應對動態環境。OWMM 任務的核心難點在于:
- 全局場景推理:需要結合自然語言指令和多視角視覺信息,理解整個場景的布局和物體信息。
- 具身決策閉環:實時跟蹤機器人狀態(如當前位置、長續任務執行狀態),生成符合物理約束的動作(如理解要到一定距離才可以抓取物體);
- 系統整合問題:VLM 基座模型難以直接輸出機器人控制所需的底層目標(如導航目標點坐標、抓取物體坐標等)。
二、OWMM-Agent:用 VLM 重構機器人 “大腦”
研究團隊提出的 OWMM-Agent 架構,通過兩大創新突破上述瓶頸:
1. 多模態 Agent 架構
通過將開放世界移動操作(OWMM)問題建模成多輪,多圖推理和定位 (Grounding) 問題,讓多模態大模型進行端到端的感知 - 推理 - 決策 - 狀態更新過程。
- 長期環境記憶:利用預映射階段獲取的多視角場景圖像(如圖 1 中的歷史幀),構建全局場景理解能力,支持復雜指令的空間推理(如 “從吧臺凳取物并放到沙發”);
- 瞬態狀態記憶:以文本形式跟蹤機器人實時狀態(如 “已抓取物體,正接近目標位置”),輔助 VLM 生成上下文相關的動作序列;
- 動作空間設計:VLM 模型直接輸出動作 handle 和 Ego-centric Obsersavation RGB 空間的坐標參數,通過函數調用傳統路徑規劃器(Path Planner)和機械臂運動規劃器(Motion Planner),不依賴預定義策略技能庫。
圖 1:OWMM-Agent 框架和動作接口設計
2. 多模態 Agent 微調數據合成
針對 VLM 基座模型在機器人領域的 “幻覺” 問題,團隊設計了基于 Habitat 仿真平臺的數據合成方案:
- 任務模板驅動:基于 Habitat 仿真環境,通過 PDDL 語言定義任務流程,自動生成 OWMM episodes。最終數據集基于 143 個仿真場景,157 種可抓取物體和 1471 個容器,采集了 20 萬 + 條的多圖加文本數據集;
- 符號世界建模:利用仿真環境的真值數據(如物體坐標,機器人狀態,PDDL 世界狀態),標注多圖像 - 文本 - 動作對,避免人工標注成本;
- 多模態增強:通過 GPT-4o 重寫思維鏈和文字總結內容、引入機器人第一視角圖像,增強數據多樣性和語義接地能力。
團隊利用仿真合成的多模態數據,基于 Intern-VL 2.5 8B/38B 微調得到用于 OWMM 的專用模型 OWMM-VLM。
圖 2: OWMM-VLM 模型
三、實驗驗證:模擬與真實環境雙突破
在模擬環境中,OWMM-VLM 模型展現出顯著優勢:
- 單步能力:在 “Ego-centric 動作決策”“圖像檢索”“動作定位 (Action Grounding)” 三項核心任務上,380 億參數的 OWMM-VLM-38B 模型準確率分別達 97.85%、87.54% 和 88%,遠超 GPT-4o(48.53%、46.46%、7%)和模塊化方案(如 GPT-4o+RoboPoint);
- 完整序列任務:在 308 次模擬測試中,OWMM-VLM-38B 在整個 OWMM 長序移動抓取任務成功率達 21.9%,且零死循環;而基線模型由于大量幻覺和誤差累積,成功率低于 1%,且頻繁陷入死循環。
圖 3:Habitat 仿真環境單步動作和完整 OWMM 序列測試結果
更值得關注的是真實環境測試:在 Fetch 機器人上,模型僅通過模擬數據訓練,即實現了 90% 的零樣本動作生成成功率(30 次測試中 27 次成功)。例如,在 “將豆奶盒從書桌移至會議桌” 任務中,模型準確檢索目標位置、規劃導航路徑,并生成機械臂抓取坐標,展現出強泛化能力。在真機部署實驗中,團隊采用了 Robi Butler 工作提供的人類通過 VR 設備控制室內機器人系統的多模態接口,并遷移到 OWMM-Agent 框架中。
四、未來展望:邁向通用家庭機器人
該研究首次證明,通過大規模模擬數據微調的 VLM 模型,可成為開放世界移動操作的通用基礎模型。同時這篇工作也存在局限性,當前方法假設有一個相對理想的環境重建,并假設目標任務相關的觀測已經在記憶中,且對復雜機械臂(如多指手)的控制能力有限。
隨著老齡化社會對服務機器人需求的激增,OWMM-Agent 的突破為 “會聽、會看、會做” 的通用家庭助手奠定了關鍵技術基礎。或許在不久的將來,我們真能迎來 “一句話指揮機器人完成家務” 的智能生活。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.