99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

室內(nèi)移動(dòng)抓取多模態(tài)智能體亮相,真實(shí)環(huán)境零樣本動(dòng)作準(zhǔn)確率達(dá) 90%

0
分享至



在家庭服務(wù)機(jī)器人領(lǐng)域,如何讓機(jī)器人理解開放環(huán)境中的自然語言指令、動(dòng)態(tài)規(guī)劃行動(dòng)路徑并精準(zhǔn)執(zhí)行操作,一直是學(xué)界和工業(yè)界的核心挑戰(zhàn)。

近日,上海人工智能實(shí)驗(yàn)室聯(lián)合新加坡國立大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了 "OWMM-Agent" 具身智能體——首個(gè)專為開放世界移動(dòng)操作(OWMM)設(shè)計(jì)的多模態(tài)智能體 (VLM Agent) 架構(gòu),首次實(shí)現(xiàn)了全局場(chǎng)景理解、機(jī)器人狀態(tài)跟蹤和多模態(tài)動(dòng)作生成的統(tǒng)一建模。

同時(shí)該工作通過仿真器合成智能體軌跡數(shù)據(jù),微調(diào)了針對(duì)該任務(wù)的多模態(tài)大模型 OWMM-VLM,在真實(shí)環(huán)境測(cè)試下,該模型零樣本單步動(dòng)作預(yù)測(cè)準(zhǔn)確率達(dá) 90%。



  • 論文鏈接:https://arxiv.org/pdf/2506.04217
  • Github 主頁:https://github.com/HHYHRHY/OWMM-Agent

一、問題背景介紹:開放語義下的移動(dòng)抓取任務(wù)


傳統(tǒng)移動(dòng)抓取機(jī)器人在家庭場(chǎng)景處理 “清理餐桌并將水果放回碗中” 這類開放指令時(shí),往往需要依賴預(yù)先構(gòu)建的場(chǎng)景 3D 重建或者語義地圖,不僅耗時(shí)且難以應(yīng)對(duì)動(dòng)態(tài)環(huán)境。OWMM 任務(wù)的核心難點(diǎn)在于:

  • 全局場(chǎng)景推理:需要結(jié)合自然語言指令和多視角視覺信息,理解整個(gè)場(chǎng)景的布局和物體信息。
  • 具身決策閉環(huán):實(shí)時(shí)跟蹤機(jī)器人狀態(tài)(如當(dāng)前位置、長續(xù)任務(wù)執(zhí)行狀態(tài)),生成符合物理約束的動(dòng)作(如理解要到一定距離才可以抓取物體);
  • 系統(tǒng)整合問題:VLM 基座模型難以直接輸出機(jī)器人控制所需的底層目標(biāo)(如導(dǎo)航目標(biāo)點(diǎn)坐標(biāo)、抓取物體坐標(biāo)等)。

二、OWMM-Agent:用 VLM 重構(gòu)機(jī)器人 “大腦”

研究團(tuán)隊(duì)提出的 OWMM-Agent 架構(gòu),通過兩大創(chuàng)新突破上述瓶頸:

1. 多模態(tài) Agent 架構(gòu)

通過將開放世界移動(dòng)操作(OWMM)問題建模成多輪,多圖推理和定位 (Grounding) 問題,讓多模態(tài)大模型進(jìn)行端到端的感知 - 推理 - 決策 - 狀態(tài)更新過程。

  • 長期環(huán)境記憶:利用預(yù)映射階段獲取的多視角場(chǎng)景圖像(如圖 1 中的歷史幀),構(gòu)建全局場(chǎng)景理解能力,支持復(fù)雜指令的空間推理(如 “從吧臺(tái)凳取物并放到沙發(fā)”);
  • 瞬態(tài)狀態(tài)記憶:以文本形式跟蹤機(jī)器人實(shí)時(shí)狀態(tài)(如 “已抓取物體,正接近目標(biāo)位置”),輔助 VLM 生成上下文相關(guān)的動(dòng)作序列;
  • 動(dòng)作空間設(shè)計(jì):VLM 模型直接輸出動(dòng)作 handle 和 Ego-centric Obsersavation RGB 空間的坐標(biāo)參數(shù),通過函數(shù)調(diào)用傳統(tǒng)路徑規(guī)劃器(Path Planner)和機(jī)械臂運(yùn)動(dòng)規(guī)劃器(Motion Planner),不依賴預(yù)定義策略技能庫。



圖 1:OWMM-Agent 框架和動(dòng)作接口設(shè)計(jì)

2. 多模態(tài) Agent 微調(diào)數(shù)據(jù)合成

針對(duì) VLM 基座模型在機(jī)器人領(lǐng)域的 “幻覺” 問題,團(tuán)隊(duì)設(shè)計(jì)了基于 Habitat 仿真平臺(tái)的數(shù)據(jù)合成方案:

  • 任務(wù)模板驅(qū)動(dòng):基于 Habitat 仿真環(huán)境,通過 PDDL 語言定義任務(wù)流程,自動(dòng)生成 OWMM episodes。最終數(shù)據(jù)集基于 143 個(gè)仿真場(chǎng)景,157 種可抓取物體和 1471 個(gè)容器,采集了 20 萬 + 條的多圖加文本數(shù)據(jù)集;
  • 符號(hào)世界建模:利用仿真環(huán)境的真值數(shù)據(jù)(如物體坐標(biāo),機(jī)器人狀態(tài),PDDL 世界狀態(tài)),標(biāo)注多圖像 - 文本 - 動(dòng)作對(duì),避免人工標(biāo)注成本;
  • 多模態(tài)增強(qiáng):通過 GPT-4o 重寫思維鏈和文字總結(jié)內(nèi)容、引入機(jī)器人第一視角圖像,增強(qiáng)數(shù)據(jù)多樣性和語義接地能力。

團(tuán)隊(duì)利用仿真合成的多模態(tài)數(shù)據(jù),基于 Intern-VL 2.5 8B/38B 微調(diào)得到用于 OWMM 的專用模型 OWMM-VLM。



圖 2: OWMM-VLM 模型


三、實(shí)驗(yàn)驗(yàn)證:模擬與真實(shí)環(huán)境雙突破

在模擬環(huán)境中,OWMM-VLM 模型展現(xiàn)出顯著優(yōu)勢(shì):

  • 單步能力:在 “Ego-centric 動(dòng)作決策”“圖像檢索”“動(dòng)作定位 (Action Grounding)” 三項(xiàng)核心任務(wù)上,380 億參數(shù)的 OWMM-VLM-38B 模型準(zhǔn)確率分別達(dá) 97.85%、87.54% 和 88%,遠(yuǎn)超 GPT-4o(48.53%、46.46%、7%)和模塊化方案(如 GPT-4o+RoboPoint);
  • 完整序列任務(wù):在 308 次模擬測(cè)試中,OWMM-VLM-38B 在整個(gè) OWMM 長序移動(dòng)抓取任務(wù)成功率達(dá) 21.9%,且零死循環(huán);而基線模型由于大量幻覺和誤差累積,成功率低于 1%,且頻繁陷入死循環(huán)。



圖 3:Habitat 仿真環(huán)境單步動(dòng)作和完整 OWMM 序列測(cè)試結(jié)果

更值得關(guān)注的是真實(shí)環(huán)境測(cè)試:在 Fetch 機(jī)器人上,模型僅通過模擬數(shù)據(jù)訓(xùn)練,即實(shí)現(xiàn)了 90% 的零樣本動(dòng)作生成成功率(30 次測(cè)試中 27 次成功)。例如,在 “將豆奶盒從書桌移至?xí)h桌” 任務(wù)中,模型準(zhǔn)確檢索目標(biāo)位置、規(guī)劃導(dǎo)航路徑,并生成機(jī)械臂抓取坐標(biāo),展現(xiàn)出強(qiáng)泛化能力。在真機(jī)部署實(shí)驗(yàn)中,團(tuán)隊(duì)采用了 Robi Butler 工作提供的人類通過 VR 設(shè)備控制室內(nèi)機(jī)器人系統(tǒng)的多模態(tài)接口,并遷移到 OWMM-Agent 框架中。

四、未來展望:邁向通用家庭機(jī)器人

該研究首次證明,通過大規(guī)模模擬數(shù)據(jù)微調(diào)的 VLM 模型,可成為開放世界移動(dòng)操作的通用基礎(chǔ)模型。同時(shí)這篇工作也存在局限性,當(dāng)前方法假設(shè)有一個(gè)相對(duì)理想的環(huán)境重建,并假設(shè)目標(biāo)任務(wù)相關(guān)的觀測(cè)已經(jīng)在記憶中,且對(duì)復(fù)雜機(jī)械臂(如多指手)的控制能力有限。

隨著老齡化社會(huì)對(duì)服務(wù)機(jī)器人需求的激增,OWMM-Agent 的突破為 “會(huì)聽、會(huì)看、會(huì)做” 的通用家庭助手奠定了關(guān)鍵技術(shù)基礎(chǔ)。或許在不久的將來,我們真能迎來 “一句話指揮機(jī)器人完成家務(wù)” 的智能生活。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
趙一鳴零食店被搶后續(xù):縣政府介入,店主曝光全過程,官方回應(yīng)

趙一鳴零食店被搶后續(xù):縣政府介入,店主曝光全過程,官方回應(yīng)

鋭娛之樂
2025-06-20 20:32:56
被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

界史
2025-06-21 11:45:00
一位中產(chǎn)爸爸的怒吼:我寧愿我的孩子,回到傳統(tǒng)的應(yīng)試教育時(shí)代

一位中產(chǎn)爸爸的怒吼:我寧愿我的孩子,回到傳統(tǒng)的應(yīng)試教育時(shí)代

詩詞中國
2025-01-18 13:12:38
87年老婆考研上岸跟我離婚,我晉升為師長,轉(zhuǎn)業(yè)時(shí)在單位相遇

87年老婆考研上岸跟我離婚,我晉升為師長,轉(zhuǎn)業(yè)時(shí)在單位相遇

蕭竹輕語
2025-06-18 18:31:19
破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現(xiàn)政府“瞎操作”

破冰失敗,中國拒絕給立陶宛好臉色,前總理炮轟現(xiàn)政府“瞎操作”

素年文史
2025-06-21 12:40:03
花1000元買一塊2TB硬盤:結(jié)果收到一整箱!總價(jià)值9000+

花1000元買一塊2TB硬盤:結(jié)果收到一整箱!總價(jià)值9000+

快科技
2025-06-20 11:23:13
闊太李念的Labubu,一個(gè)能換一套房?網(wǎng)友:送我都嫌占地方

闊太李念的Labubu,一個(gè)能換一套房?網(wǎng)友:送我都嫌占地方

聯(lián)友說娛
2025-06-21 14:21:52
評(píng)論“違規(guī)吃喝”,新華社更勝一籌

評(píng)論“違規(guī)吃喝”,新華社更勝一籌

海濤評(píng)論
2025-06-20 22:22:44
足協(xié)杯!2-1,49歲李霄鵬率隊(duì)晉級(jí)八強(qiáng),羅森文、金永浩驚艷破門

足協(xié)杯!2-1,49歲李霄鵬率隊(duì)晉級(jí)八強(qiáng),羅森文、金永浩驚艷破門

側(cè)身凌空斬
2025-06-21 21:30:33
馬英九再提“兩岸統(tǒng)一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

馬英九再提“兩岸統(tǒng)一”,郭正亮妄批馬英九訪陸,蕭美琴再次變臉

阿紿聊社會(huì)
2025-06-21 11:33:39
伊朗丟制空權(quán),以軍戰(zhàn)機(jī)狂炸,讓中國明白:解放軍武器布局走對(duì)路

伊朗丟制空權(quán),以軍戰(zhàn)機(jī)狂炸,讓中國明白:解放軍武器布局走對(duì)路

胖福的小木屋
2025-06-20 23:48:20
特斯拉重大宣布:計(jì)劃再投資超500億元!大行警告......

特斯拉重大宣布:計(jì)劃再投資超500億元!大行警告......

每日經(jīng)濟(jì)新聞
2025-06-21 14:29:07
汪峰評(píng)論區(qū)淪陷,被質(zhì)疑用老套路追求寧靜,本人解釋牽手原因!

汪峰評(píng)論區(qū)淪陷,被質(zhì)疑用老套路追求寧靜,本人解釋牽手原因!

古希臘掌管月桂的神
2025-06-20 13:36:25
達(dá)萬壓哨絕平!足協(xié)杯兩連殺,兩次破門兩次爭議,張玉寧錯(cuò)失進(jìn)球

達(dá)萬壓哨絕平!足協(xié)杯兩連殺,兩次破門兩次爭議,張玉寧錯(cuò)失進(jìn)球

奧拜爾
2025-06-21 21:05:05
以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對(duì)決

以伊沖突,帶火中國軍備,而且是全套,全球軍火將是中美對(duì)決

柏銘銳談
2025-06-20 16:01:48
2024年A股上市公司高管薪酬排行榜:醫(yī)藥生物行業(yè)備受矚目

2024年A股上市公司高管薪酬排行榜:醫(yī)藥生物行業(yè)備受矚目

時(shí)代投研
2025-06-20 21:17:03
小伙子車內(nèi)死亡,被曝內(nèi)臟蒸熟,姐姐發(fā)出視頻,原來是幫鄰居出事

小伙子車內(nèi)死亡,被曝內(nèi)臟蒸熟,姐姐發(fā)出視頻,原來是幫鄰居出事

奇思妙想草葉君
2025-06-21 01:19:08
知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場(chǎng)

知名汽車巨頭崩盤!8年巨虧1099億,銷量暴跌90%,金主將撤資退場(chǎng)

星光看娛樂
2025-06-20 10:35:27
周家斌,妄議黨中央大政方針、結(jié)交政治騙子、搞權(quán)色交易

周家斌,妄議黨中央大政方針、結(jié)交政治騙子、搞權(quán)色交易

政知新媒體
2025-06-20 19:25:24
“任何侵犯中國領(lǐng)空的外國飛機(jī),直接擊落!”中方通報(bào)全球

“任何侵犯中國領(lǐng)空的外國飛機(jī),直接擊落!”中方通報(bào)全球

科技處長
2025-06-20 22:14:57
2025-06-21 23:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10687文章數(shù) 142343關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

頭條要聞

官方通報(bào)那爾那茜有關(guān)情況:涉嫌高考報(bào)名材料造假

體育要聞

王欣瑜:資格賽差點(diǎn)要退賽 夢(mèng)幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財(cái)經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

教育
房產(chǎn)
手機(jī)
藝術(shù)
數(shù)碼

教育要聞

2025北京高招變數(shù)大!這些志愿填報(bào)的坑,千萬別踩!

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

手機(jī)要聞

曝REDMI K90系列影像新升級(jí):評(píng)估豪威OV50Q主攝

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

電視“鴻蒙”時(shí)刻?疑似搭載旗艦手機(jī)芯片,革新百年電視產(chǎn)業(yè)!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 措勤县| 高邮市| 潢川县| 苏州市| 南安市| 湖州市| 遵化市| 新泰市| 乐亭县| 大洼县| 松溪县| 万盛区| 阳高县| 沾化县| 临高县| 红河县| 阿合奇县| 金坛市| 乐山市| 吴堡县| 精河县| 永年县| 集贤县| 盘锦市| 兰溪市| 建湖县| 达拉特旗| 昌图县| 安龙县| 独山县| 斗六市| 关岭| 望谟县| 闽清县| 清流县| 巴楚县| 海南省| 龙岩市| 土默特右旗| 秦皇岛市| 阜阳市|