在家庭服務(wù)機(jī)器人領(lǐng)域,如何讓機(jī)器人理解開放環(huán)境中的自然語言指令、動(dòng)態(tài)規(guī)劃行動(dòng)路徑并精準(zhǔn)執(zhí)行操作,一直是學(xué)界和工業(yè)界的核心挑戰(zhàn)。
近日,上海人工智能實(shí)驗(yàn)室聯(lián)合新加坡國立大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了 "OWMM-Agent" 具身智能體——首個(gè)專為開放世界移動(dòng)操作(OWMM)設(shè)計(jì)的多模態(tài)智能體 (VLM Agent) 架構(gòu),首次實(shí)現(xiàn)了全局場(chǎng)景理解、機(jī)器人狀態(tài)跟蹤和多模態(tài)動(dòng)作生成的統(tǒng)一建模。
同時(shí)該工作通過仿真器合成智能體軌跡數(shù)據(jù),微調(diào)了針對(duì)該任務(wù)的多模態(tài)大模型 OWMM-VLM,在真實(shí)環(huán)境測(cè)試下,該模型零樣本單步動(dòng)作預(yù)測(cè)準(zhǔn)確率達(dá) 90%。
- 論文鏈接:https://arxiv.org/pdf/2506.04217
- Github 主頁:https://github.com/HHYHRHY/OWMM-Agent
一、問題背景介紹:開放語義下的移動(dòng)抓取任務(wù)
傳統(tǒng)移動(dòng)抓取機(jī)器人在家庭場(chǎng)景處理 “清理餐桌并將水果放回碗中” 這類開放指令時(shí),往往需要依賴預(yù)先構(gòu)建的場(chǎng)景 3D 重建或者語義地圖,不僅耗時(shí)且難以應(yīng)對(duì)動(dòng)態(tài)環(huán)境。OWMM 任務(wù)的核心難點(diǎn)在于:
- 全局場(chǎng)景推理:需要結(jié)合自然語言指令和多視角視覺信息,理解整個(gè)場(chǎng)景的布局和物體信息。
- 具身決策閉環(huán):實(shí)時(shí)跟蹤機(jī)器人狀態(tài)(如當(dāng)前位置、長續(xù)任務(wù)執(zhí)行狀態(tài)),生成符合物理約束的動(dòng)作(如理解要到一定距離才可以抓取物體);
- 系統(tǒng)整合問題:VLM 基座模型難以直接輸出機(jī)器人控制所需的底層目標(biāo)(如導(dǎo)航目標(biāo)點(diǎn)坐標(biāo)、抓取物體坐標(biāo)等)。
二、OWMM-Agent:用 VLM 重構(gòu)機(jī)器人 “大腦”
研究團(tuán)隊(duì)提出的 OWMM-Agent 架構(gòu),通過兩大創(chuàng)新突破上述瓶頸:
1. 多模態(tài) Agent 架構(gòu)
通過將開放世界移動(dòng)操作(OWMM)問題建模成多輪,多圖推理和定位 (Grounding) 問題,讓多模態(tài)大模型進(jìn)行端到端的感知 - 推理 - 決策 - 狀態(tài)更新過程。
- 長期環(huán)境記憶:利用預(yù)映射階段獲取的多視角場(chǎng)景圖像(如圖 1 中的歷史幀),構(gòu)建全局場(chǎng)景理解能力,支持復(fù)雜指令的空間推理(如 “從吧臺(tái)凳取物并放到沙發(fā)”);
- 瞬態(tài)狀態(tài)記憶:以文本形式跟蹤機(jī)器人實(shí)時(shí)狀態(tài)(如 “已抓取物體,正接近目標(biāo)位置”),輔助 VLM 生成上下文相關(guān)的動(dòng)作序列;
- 動(dòng)作空間設(shè)計(jì):VLM 模型直接輸出動(dòng)作 handle 和 Ego-centric Obsersavation RGB 空間的坐標(biāo)參數(shù),通過函數(shù)調(diào)用傳統(tǒng)路徑規(guī)劃器(Path Planner)和機(jī)械臂運(yùn)動(dòng)規(guī)劃器(Motion Planner),不依賴預(yù)定義策略技能庫。
圖 1:OWMM-Agent 框架和動(dòng)作接口設(shè)計(jì)
2. 多模態(tài) Agent 微調(diào)數(shù)據(jù)合成
針對(duì) VLM 基座模型在機(jī)器人領(lǐng)域的 “幻覺” 問題,團(tuán)隊(duì)設(shè)計(jì)了基于 Habitat 仿真平臺(tái)的數(shù)據(jù)合成方案:
- 任務(wù)模板驅(qū)動(dòng):基于 Habitat 仿真環(huán)境,通過 PDDL 語言定義任務(wù)流程,自動(dòng)生成 OWMM episodes。最終數(shù)據(jù)集基于 143 個(gè)仿真場(chǎng)景,157 種可抓取物體和 1471 個(gè)容器,采集了 20 萬 + 條的多圖加文本數(shù)據(jù)集;
- 符號(hào)世界建模:利用仿真環(huán)境的真值數(shù)據(jù)(如物體坐標(biāo),機(jī)器人狀態(tài),PDDL 世界狀態(tài)),標(biāo)注多圖像 - 文本 - 動(dòng)作對(duì),避免人工標(biāo)注成本;
- 多模態(tài)增強(qiáng):通過 GPT-4o 重寫思維鏈和文字總結(jié)內(nèi)容、引入機(jī)器人第一視角圖像,增強(qiáng)數(shù)據(jù)多樣性和語義接地能力。
團(tuán)隊(duì)利用仿真合成的多模態(tài)數(shù)據(jù),基于 Intern-VL 2.5 8B/38B 微調(diào)得到用于 OWMM 的專用模型 OWMM-VLM。
圖 2: OWMM-VLM 模型
三、實(shí)驗(yàn)驗(yàn)證:模擬與真實(shí)環(huán)境雙突破
在模擬環(huán)境中,OWMM-VLM 模型展現(xiàn)出顯著優(yōu)勢(shì):
- 單步能力:在 “Ego-centric 動(dòng)作決策”“圖像檢索”“動(dòng)作定位 (Action Grounding)” 三項(xiàng)核心任務(wù)上,380 億參數(shù)的 OWMM-VLM-38B 模型準(zhǔn)確率分別達(dá) 97.85%、87.54% 和 88%,遠(yuǎn)超 GPT-4o(48.53%、46.46%、7%)和模塊化方案(如 GPT-4o+RoboPoint);
- 完整序列任務(wù):在 308 次模擬測(cè)試中,OWMM-VLM-38B 在整個(gè) OWMM 長序移動(dòng)抓取任務(wù)成功率達(dá) 21.9%,且零死循環(huán);而基線模型由于大量幻覺和誤差累積,成功率低于 1%,且頻繁陷入死循環(huán)。
圖 3:Habitat 仿真環(huán)境單步動(dòng)作和完整 OWMM 序列測(cè)試結(jié)果
更值得關(guān)注的是真實(shí)環(huán)境測(cè)試:在 Fetch 機(jī)器人上,模型僅通過模擬數(shù)據(jù)訓(xùn)練,即實(shí)現(xiàn)了 90% 的零樣本動(dòng)作生成成功率(30 次測(cè)試中 27 次成功)。例如,在 “將豆奶盒從書桌移至?xí)h桌” 任務(wù)中,模型準(zhǔn)確檢索目標(biāo)位置、規(guī)劃導(dǎo)航路徑,并生成機(jī)械臂抓取坐標(biāo),展現(xiàn)出強(qiáng)泛化能力。在真機(jī)部署實(shí)驗(yàn)中,團(tuán)隊(duì)采用了 Robi Butler 工作提供的人類通過 VR 設(shè)備控制室內(nèi)機(jī)器人系統(tǒng)的多模態(tài)接口,并遷移到 OWMM-Agent 框架中。
四、未來展望:邁向通用家庭機(jī)器人
該研究首次證明,通過大規(guī)模模擬數(shù)據(jù)微調(diào)的 VLM 模型,可成為開放世界移動(dòng)操作的通用基礎(chǔ)模型。同時(shí)這篇工作也存在局限性,當(dāng)前方法假設(shè)有一個(gè)相對(duì)理想的環(huán)境重建,并假設(shè)目標(biāo)任務(wù)相關(guān)的觀測(cè)已經(jīng)在記憶中,且對(duì)復(fù)雜機(jī)械臂(如多指手)的控制能力有限。
隨著老齡化社會(huì)對(duì)服務(wù)機(jī)器人需求的激增,OWMM-Agent 的突破為 “會(huì)聽、會(huì)看、會(huì)做” 的通用家庭助手奠定了關(guān)鍵技術(shù)基礎(chǔ)。或許在不久的將來,我們真能迎來 “一句話指揮機(jī)器人完成家務(wù)” 的智能生活。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.