網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

室內(nèi)移動(dòng)抓取多模態(tài)智能體亮相，真實(shí)環(huán)境零樣本動(dòng)作準(zhǔn)確率達(dá) 90%

2025-06-21 10:55:56　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

在家庭服務(wù)機(jī)器人領(lǐng)域，如何讓機(jī)器人理解開放環(huán)境中的自然語言指令、動(dòng)態(tài)規(guī)劃行動(dòng)路徑并精準(zhǔn)執(zhí)行操作，一直是學(xué)界和工業(yè)界的核心挑戰(zhàn)。

近日，上海人工智能實(shí)驗(yàn)室聯(lián)合新加坡國立大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)，提出了 "OWMM-Agent" 具身智能體——首個(gè)專為開放世界移動(dòng)操作（OWMM）設(shè)計(jì)的多模態(tài)智能體 (VLM Agent) 架構(gòu)，首次實(shí)現(xiàn)了全局場(chǎng)景理解、機(jī)器人狀態(tài)跟蹤和多模態(tài)動(dòng)作生成的統(tǒng)一建模。

同時(shí)該工作通過仿真器合成智能體軌跡數(shù)據(jù)，微調(diào)了針對(duì)該任務(wù)的多模態(tài)大模型 OWMM-VLM，在真實(shí)環(huán)境測(cè)試下，該模型零樣本單步動(dòng)作預(yù)測(cè)準(zhǔn)確率達(dá) 90%。

論文鏈接：https://arxiv.org/pdf/2506.04217
Github 主頁：https://github.com/HHYHRHY/OWMM-Agent

一、問題背景介紹：開放語義下的移動(dòng)抓取任務(wù)

傳統(tǒng)移動(dòng)抓取機(jī)器人在家庭場(chǎng)景處理 “清理餐桌并將水果放回碗中” 這類開放指令時(shí)，往往需要依賴預(yù)先構(gòu)建的場(chǎng)景 3D 重建或者語義地圖，不僅耗時(shí)且難以應(yīng)對(duì)動(dòng)態(tài)環(huán)境。OWMM 任務(wù)的核心難點(diǎn)在于：

全局場(chǎng)景推理：需要結(jié)合自然語言指令和多視角視覺信息，理解整個(gè)場(chǎng)景的布局和物體信息。
具身決策閉環(huán)：實(shí)時(shí)跟蹤機(jī)器人狀態(tài)（如當(dāng)前位置、長續(xù)任務(wù)執(zhí)行狀態(tài)），生成符合物理約束的動(dòng)作（如理解要到一定距離才可以抓取物體）；
系統(tǒng)整合問題：VLM 基座模型難以直接輸出機(jī)器人控制所需的底層目標(biāo)（如導(dǎo)航目標(biāo)點(diǎn)坐標(biāo)、抓取物體坐標(biāo)等）。

二、OWMM-Agent：用 VLM 重構(gòu)機(jī)器人 “大腦”

研究團(tuán)隊(duì)提出的 OWMM-Agent 架構(gòu)，通過兩大創(chuàng)新突破上述瓶頸：

1. 多模態(tài) Agent 架構(gòu)

通過將開放世界移動(dòng)操作（OWMM）問題建模成多輪，多圖推理和定位 (Grounding) 問題，讓多模態(tài)大模型進(jìn)行端到端的感知 - 推理 - 決策 - 狀態(tài)更新過程。

長期環(huán)境記憶：利用預(yù)映射階段獲取的多視角場(chǎng)景圖像（如圖 1 中的歷史幀），構(gòu)建全局場(chǎng)景理解能力，支持復(fù)雜指令的空間推理（如 “從吧臺(tái)凳取物并放到沙發(fā)”）；
瞬態(tài)狀態(tài)記憶：以文本形式跟蹤機(jī)器人實(shí)時(shí)狀態(tài)（如 “已抓取物體，正接近目標(biāo)位置”），輔助 VLM 生成上下文相關(guān)的動(dòng)作序列；
動(dòng)作空間設(shè)計(jì)：VLM 模型直接輸出動(dòng)作 handle 和 Ego-centric Obsersavation RGB 空間的坐標(biāo)參數(shù)，通過函數(shù)調(diào)用傳統(tǒng)路徑規(guī)劃器（Path Planner）和機(jī)械臂運(yùn)動(dòng)規(guī)劃器（Motion Planner），不依賴預(yù)定義策略技能庫。

圖 1：OWMM-Agent 框架和動(dòng)作接口設(shè)計(jì)

2. 多模態(tài) Agent 微調(diào)數(shù)據(jù)合成

針對(duì) VLM 基座模型在機(jī)器人領(lǐng)域的 “幻覺” 問題，團(tuán)隊(duì)設(shè)計(jì)了基于 Habitat 仿真平臺(tái)的數(shù)據(jù)合成方案：

任務(wù)模板驅(qū)動(dòng)：基于 Habitat 仿真環(huán)境，通過 PDDL 語言定義任務(wù)流程，自動(dòng)生成 OWMM episodes。最終數(shù)據(jù)集基于 143 個(gè)仿真場(chǎng)景，157 種可抓取物體和 1471 個(gè)容器，采集了 20 萬 + 條的多圖加文本數(shù)據(jù)集；
符號(hào)世界建模：利用仿真環(huán)境的真值數(shù)據(jù)（如物體坐標(biāo)，機(jī)器人狀態(tài)，PDDL 世界狀態(tài)），標(biāo)注多圖像 - 文本 - 動(dòng)作對(duì)，避免人工標(biāo)注成本；
多模態(tài)增強(qiáng)：通過 GPT-4o 重寫思維鏈和文字總結(jié)內(nèi)容、引入機(jī)器人第一視角圖像，增強(qiáng)數(shù)據(jù)多樣性和語義接地能力。

團(tuán)隊(duì)利用仿真合成的多模態(tài)數(shù)據(jù)，基于 Intern-VL 2.5 8B/38B 微調(diào)得到用于 OWMM 的專用模型 OWMM-VLM。

圖 2： OWMM-VLM 模型

三、實(shí)驗(yàn)驗(yàn)證：模擬與真實(shí)環(huán)境雙突破

在模擬環(huán)境中，OWMM-VLM 模型展現(xiàn)出顯著優(yōu)勢(shì)：

單步能力：在 “Ego-centric 動(dòng)作決策”“圖像檢索”“動(dòng)作定位 (Action Grounding)” 三項(xiàng)核心任務(wù)上，380 億參數(shù)的 OWMM-VLM-38B 模型準(zhǔn)確率分別達(dá) 97.85%、87.54% 和 88%，遠(yuǎn)超 GPT-4o（48.53%、46.46%、7%）和模塊化方案（如 GPT-4o+RoboPoint）；
完整序列任務(wù)：在 308 次模擬測(cè)試中，OWMM-VLM-38B 在整個(gè) OWMM 長序移動(dòng)抓取任務(wù)成功率達(dá) 21.9%，且零死循環(huán)；而基線模型由于大量幻覺和誤差累積，成功率低于 1%，且頻繁陷入死循環(huán)。

圖 3：Habitat 仿真環(huán)境單步動(dòng)作和完整 OWMM 序列測(cè)試結(jié)果

更值得關(guān)注的是真實(shí)環(huán)境測(cè)試：在 Fetch 機(jī)器人上，模型僅通過模擬數(shù)據(jù)訓(xùn)練，即實(shí)現(xiàn)了 90% 的零樣本動(dòng)作生成成功率（30 次測(cè)試中 27 次成功）。例如，在 “將豆奶盒從書桌移至?xí)h桌” 任務(wù)中，模型準(zhǔn)確檢索目標(biāo)位置、規(guī)劃導(dǎo)航路徑，并生成機(jī)械臂抓取坐標(biāo)，展現(xiàn)出強(qiáng)泛化能力。在真機(jī)部署實(shí)驗(yàn)中，團(tuán)隊(duì)采用了 Robi Butler 工作提供的人類通過 VR 設(shè)備控制室內(nèi)機(jī)器人系統(tǒng)的多模態(tài)接口，并遷移到 OWMM-Agent 框架中。

四、未來展望：邁向通用家庭機(jī)器人

該研究首次證明，通過大規(guī)模模擬數(shù)據(jù)微調(diào)的 VLM 模型，可成為開放世界移動(dòng)操作的通用基礎(chǔ)模型。同時(shí)這篇工作也存在局限性，當(dāng)前方法假設(shè)有一個(gè)相對(duì)理想的環(huán)境重建，并假設(shè)目標(biāo)任務(wù)相關(guān)的觀測(cè)已經(jīng)在記憶中，且對(duì)復(fù)雜機(jī)械臂（如多指手）的控制能力有限。

隨著老齡化社會(huì)對(duì)服務(wù)機(jī)器人需求的激增，OWMM-Agent 的突破為 “會(huì)聽、會(huì)看、會(huì)做” 的通用家庭助手奠定了關(guān)鍵技術(shù)基礎(chǔ)。或許在不久的將來，我們真能迎來 “一句話指揮機(jī)器人完成家務(wù)” 的智能生活。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.