99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2025 Highlight | OmniManip:以對象為中心的機器人通用操作框架

0
分享至

本文是對發表于計算機人工智能領域頂級會議 CVPR 2025 的論文 OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 的解讀。該論文由北京大學董豪課題組完成,共同第一作者為北京大學計算機學院博士生潘銘杰和張繼耀。

本文提出了一種基于多模態大模型的開放詞匯操作方法,通過以物體為中心的 3D 交互基元,賦能 VLM(視覺語言模型)3D 理解與推理能力,使機器人能夠免訓練、零樣本地執行多項操作任務。與先前基于關鍵點、線、面等交互基元的工作不同,OmniManip 能夠通過物體 3D 渲染和姿態跟蹤達成規劃-執行層面的雙閉環,實現了操作性能的顯著突破。文章在 CVPR 2025 中作為 Highlight 發表。


論文標題: OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 論文地址: https://arxiv.org/abs/2501.03841 文章代碼: https://github.com/pmj110119/OmniManip 項目主頁: https://omnimanip.github.io
一、研究背景

近年來視覺語言基礎模型(Vision Language Models, VLMs)在多模態理解和高層次常識推理上?放異彩,如何將其應用于機器?以實現通用操作是具身智能領域的?個核心問題。這?目標的實現受兩?關鍵挑戰制約:

  1. VLM 缺少精確的 3D 理解能力:通過對比學習范式訓練、僅以 2D 圖像 / 文本作為輸?的 VLM 的天然局限;

  2. 無法輸出低層次動作:將 VLM 在機器?數據上進行微調以得到視覺 - 語言 - 動作(VLA)模型是?種有前景的解決方案,但目前仍受到數據收集成本和泛化能力的限制。

針對上述難題,OmniManip 基于以對象為中心的 3D 交互基元,賦能 VLM 3D 理解與規劃能力,并通過創新性的規劃-執行雙閉環設計實現了操作性能的顯著突破。

實驗結果表明,OmniManip 作為?種免訓練的開放詞匯操作方法,在各種機器人操作任務中具備強大的零樣本泛化能?。

二、技術方案解析 2.1 方法概述

OmniManip 的關鍵設計包括:

  • 基于 VLM 的任務解析:利用 VLM 強?的常識推理能力,將任務分解為多個結構化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。

  • 以物體為中心的交互基元作為空間約束:通過 3D 基座模型生成任務相關物體的 3D 模型和規范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從而優化求解出 Active 物體在 Passive 物體規范坐標系下的目標交互姿態。

  • 閉環 VLM 規劃:將目標交互姿態下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現 VLM 對自身規劃結果的閉環調整。

  • 閉環機器人執行:通過物體 6D 姿態跟蹤器實時更新 Active/Passive 物體的位姿,轉換為機械臂末端執行器的操作軌跡,實現閉環執行。


2.2 以物體為中心的交互基元

物體的交互基元通過其在標準空間中的交互點和方向來表征。交互點 p∈R3 表示物體上關鍵的交互位置,而交互方向 v∈R3 代表與任務相關的主要軸。這兩者共同構成交互基元 O={p,v},封裝了滿足任務約束所需的基本幾何和功能屬性。這些標準交互基元相對于其標準空間定義,能夠在不同場景中保持?致,實現更通用和可重用的操作策略。


對于通用物體的交互點提取,OmniManip 利用視覺語?模型(VLM)在原圖(當部件可見且實體存在時)或在正交視圖中渲染的 3D 網格(當部件不可見或實體不存在時)上進行定位。

與 CoPa 和 ReKep 等方法不同,OmniManip 直接讓 VLM 進行 grounding,不會受限于不穩定的 part 分割或聚類結果。

在交互方向的采樣方面,由于物體的規范化空間通過 Omni6DPose 錨定,軸的方向與語義對齊,該團隊讓 VLM 直接對物體標準空間的軸進行語義描述,并根據操作任務進行匹配度排序,以獲得交互方向的候選。

2.3 雙閉環系統設計

作為最新的 SOTA 工作,李飛飛團隊的 ReKep 通過關鍵點跟蹤巧妙地實現了機械臂的閉環執行,但其 VLM 規劃過程是開環的。OmniManip 則更進?步,得益于以物體為中心的設計理念,首次在 VLM 規劃和機械臂執?層?實現了雙閉環系統:

閉環規劃:在實驗中,VLM 推理很容易出現幻覺,導致錯誤的規劃結果(尤其是在涉及 3D 旋轉的任務中,如倒水、插筆)。OmniManip 賦予 VLM 閉環規劃能?,通過渲染物體的三維模型,幫助 VLM 「腦補」出規劃結果后的物體樣貌,再判斷其合理性。

這?功能賦予了 VLM 空間反思能力,使其能夠在測試時進行推理,類似于 OpenAI 的 O1,大大提高了操作成功率。為了保持框架的簡潔性,研究團隊沒有設計復雜的測試時推理流程,僅作?輪校驗就已明顯提高了 VLM 的規劃準確率。


閉環執行:OmniManip 提取的交互基元位于物體的規范空間中,只需引入?個 6D 位姿跟蹤器即可輕松實現閉環操作。與 ReKep 使用的關鍵點跟蹤器相比,基于物體的 6D 位姿跟蹤方式更為穩定,并對遮擋具有更強的魯棒性。(缺點則是不如關鍵點靈活、無法建模柔性物體操作。)

三、實驗結果 3.1 強大的開放詞匯操作性能

在12個真機短程任務上,OmniManip 均展現出卓越的性能。


雙閉環系統設計為 OmniManip 帶來了約 17% 的性能提升,這證明了 RRC 在有效減少?模型幻覺影響??的作用。

3.2 交互基元的魯棒性

VLM 需要基于交互基元對機器?操作進行規劃,如果交互基元本身存在問題,VLM 就會陷入「巧婦難為無米之炊」的困境。因此,可靠的交互基元至關重要。以往的方法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元,然后通過相機的內外參數轉換到 3D 空間。

然而,由于 2D 圖像存在空間歧義,采樣效果對相機視?、圖像紋理和部件形狀等因素極為敏感(例如,當相機平視杯子時,之前的方法只能對準杯子的側壁、而不是開口)。而 OmniManip 則是在物體的 3D 規范空間中進行采樣,能夠輕松克服 2D 圖像的局限性,實現可靠的 3D 交互基元提取。


3.3 強大的拓展性與潛力

OmniManip 能夠與 high-level 任務規劃器結合,實現長程任務操作。

作為?種以物體為中心的算法,OmniManip 與機械臂本體解耦,能夠零成本遷移至不同形態的本體(例如雙臂?形機器?)。

OmniManip 具有強?的通用泛化能力,不受特定場景和物體限制,可用作數字資產?動標注 / 合成管道。作為核心的數據生成引擎,OmniManip 已被應用于最近開源的 AgibotDigitalWorld 數據集[1],實現大規模的機器人軌跡自動采集。

四、總結

本文提出了一種基于多模態大模型的開放詞匯操作方法 OmniManip,通過以物體為中心的 3D 交互基元,創新性的規劃-執行雙閉環設計,使機器人能夠免訓練、零樣本地執行多項操作任務。

OmniManip 在多個任務上超越了現有方法,展現出了強大的泛化性和穩定性,為未來的機器人自主操作提供了一種強大的工具。

[1] AgibotDigitalWorld 數據集: https://huggingface.co/datasets/agibot-world/AgiBotDigitalWorld

作者:潘銘杰、張繼耀 來源:公眾號【北京大學前沿計算研究中心】

llustration From IconScout By IconScout Store

-The End-

本周上新!

掃碼觀看!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動,蔣凡離接班人又近了一步?

阿里大變動,蔣凡離接班人又近了一步?

新10億商業參考
2025-06-25 18:51:08
你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

解讀熱點事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

39健康網
2025-06-24 20:02:57
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

二月侃事
2025-06-25 16:47:23
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號劇委會
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會以任何形式出席北約峰會

匈牙利總理:澤連斯基不會以任何形式出席北約峰會

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統:12天戰爭結束 重建工作開啟

伊朗總統:12天戰爭結束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

大風新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

手機
本地
時尚
教育
公開課

手機要聞

首銷價 299 元,vivo X Fold5 折疊屏手機行業首發單內屏寶

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

教育要聞

暑假趕緊讓孩子讀這些范文

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 利辛县| 北票市| 房产| 垣曲县| 瑞丽市| 涿鹿县| 石城县| 象山县| 营山县| 盈江县| 隆回县| 高邑县| 繁峙县| 鹤岗市| 南平市| 平阳县| 体育| 蓬溪县| 永胜县| 察雅县| 景洪市| 大竹县| 丹棱县| 北安市| 石家庄市| 桦甸市| 高阳县| 军事| 南澳县| 潼南县| 德兴市| 霍林郭勒市| 波密县| 历史| 资兴市| 东海县| 密云县| 保山市| 松溪县| 平乐县| 响水县|