網易首頁 > 網易號 > 正文申請入駐

CVPR 2025 Highlight | OmniManip：以對象為中心的機器人通用操作框架

2025-05-07 08:26:59　來源: 將門創投

北京舉報

分享至

本文是對發表于計算機人工智能領域頂級會議 CVPR 2025 的論文 OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 的解讀。該論文由北京大學董豪課題組完成，共同第一作者為北京大學計算機學院博士生潘銘杰和張繼耀。

本文提出了一種基于多模態大模型的開放詞匯操作方法，通過以物體為中心的 3D 交互基元，賦能 VLM（視覺語言模型）3D 理解與推理能力，使機器人能夠免訓練、零樣本地執行多項操作任務。與先前基于關鍵點、線、面等交互基元的工作不同，OmniManip 能夠通過物體 3D 渲染和姿態跟蹤達成規劃-執行層面的雙閉環，實現了操作性能的顯著突破。文章在 CVPR 2025 中作為 Highlight 發表。

論文標題： OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 論文地址： https://arxiv.org/abs/2501.03841 文章代碼： https://github.com/pmj110119/OmniManip 項目主頁： https://omnimanip.github.io

一、研究背景

近年來視覺語言基礎模型（Vision Language Models, VLMs）在多模態理解和高層次常識推理上?放異彩，如何將其應用于機器?以實現通用操作是具身智能領域的?個核心問題。這?目標的實現受兩?關鍵挑戰制約：

VLM 缺少精確的 3D 理解能力：通過對比學習范式訓練、僅以 2D 圖像 / 文本作為輸?的 VLM 的天然局限；
無法輸出低層次動作：將 VLM 在機器?數據上進行微調以得到視覺 - 語言 - 動作（VLA）模型是?種有前景的解決方案，但目前仍受到數據收集成本和泛化能力的限制。

針對上述難題，OmniManip 基于以對象為中心的 3D 交互基元，賦能 VLM 3D 理解與規劃能力，并通過創新性的規劃-執行雙閉環設計實現了操作性能的顯著突破。

實驗結果表明，OmniManip 作為?種免訓練的開放詞匯操作方法，在各種機器人操作任務中具備強大的零樣本泛化能?。

二、技術方案解析 2.1 方法概述

OmniManip 的關鍵設計包括：

基于 VLM 的任務解析：利用 VLM 強?的常識推理能力，將任務分解為多個結構化階段（Stages），每個階段明確指定了主動物體（Active）、被動物體（Passive）和動作類型（Action）。
以物體為中心的交互基元作為空間約束：通過 3D 基座模型生成任務相關物體的 3D 模型和規范化空間（canonical space），使 VLM 能夠直接在該空間中采樣 3D 交互基元，作為 Action 的空間約束，從而優化求解出 Active 物體在 Passive 物體規范坐標系下的目標交互姿態。
閉環 VLM 規劃：將目標交互姿態下的 Active/Passive 物體渲染成圖像，由 VLM 評估與重采樣，實現 VLM 對自身規劃結果的閉環調整。
閉環機器人執行：通過物體 6D 姿態跟蹤器實時更新 Active/Passive 物體的位姿，轉換為機械臂末端執行器的操作軌跡，實現閉環執行。

2.2 以物體為中心的交互基元

物體的交互基元通過其在標準空間中的交互點和方向來表征。交互點 p∈R3 表示物體上關鍵的交互位置，而交互方向 v∈R3 代表與任務相關的主要軸。這兩者共同構成交互基元 O={p,v}，封裝了滿足任務約束所需的基本幾何和功能屬性。這些標準交互基元相對于其標準空間定義，能夠在不同場景中保持?致，實現更通用和可重用的操作策略。

對于通用物體的交互點提取，OmniManip 利用視覺語?模型（VLM）在原圖（當部件可見且實體存在時）或在正交視圖中渲染的 3D 網格（當部件不可見或實體不存在時）上進行定位。

與 CoPa 和 ReKep 等方法不同，OmniManip 直接讓 VLM 進行 grounding，不會受限于不穩定的 part 分割或聚類結果。

在交互方向的采樣方面，由于物體的規范化空間通過 Omni6DPose 錨定，軸的方向與語義對齊，該團隊讓 VLM 直接對物體標準空間的軸進行語義描述，并根據操作任務進行匹配度排序，以獲得交互方向的候選。

2.3 雙閉環系統設計

作為最新的 SOTA 工作，李飛飛團隊的 ReKep 通過關鍵點跟蹤巧妙地實現了機械臂的閉環執行，但其 VLM 規劃過程是開環的。OmniManip 則更進?步，得益于以物體為中心的設計理念，首次在 VLM 規劃和機械臂執?層?實現了雙閉環系統：

閉環規劃：在實驗中，VLM 推理很容易出現幻覺，導致錯誤的規劃結果（尤其是在涉及 3D 旋轉的任務中，如倒水、插筆）。OmniManip 賦予 VLM 閉環規劃能?，通過渲染物體的三維模型，幫助 VLM 「腦補」出規劃結果后的物體樣貌，再判斷其合理性。

這?功能賦予了 VLM 空間反思能力，使其能夠在測試時進行推理，類似于 OpenAI 的 O1，大大提高了操作成功率。為了保持框架的簡潔性，研究團隊沒有設計復雜的測試時推理流程，僅作?輪校驗就已明顯提高了 VLM 的規劃準確率。

閉環執行：OmniManip 提取的交互基元位于物體的規范空間中，只需引入?個 6D 位姿跟蹤器即可輕松實現閉環操作。與 ReKep 使用的關鍵點跟蹤器相比，基于物體的 6D 位姿跟蹤方式更為穩定，并對遮擋具有更強的魯棒性。（缺點則是不如關鍵點靈活、無法建模柔性物體操作。）

三、實驗結果 3.1 強大的開放詞匯操作性能

在12個真機短程任務上，OmniManip 均展現出卓越的性能。

雙閉環系統設計為 OmniManip 帶來了約 17% 的性能提升，這證明了 RRC 在有效減少?模型幻覺影響??的作用。

3.2 交互基元的魯棒性

VLM 需要基于交互基元對機器?操作進行規劃，如果交互基元本身存在問題，VLM 就會陷入「巧婦難為無米之炊」的困境。因此，可靠的交互基元至關重要。以往的方法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元，然后通過相機的內外參數轉換到 3D 空間。

然而，由于 2D 圖像存在空間歧義，采樣效果對相機視?、圖像紋理和部件形狀等因素極為敏感（例如，當相機平視杯子時，之前的方法只能對準杯子的側壁、而不是開口）。而 OmniManip 則是在物體的 3D 規范空間中進行采樣，能夠輕松克服 2D 圖像的局限性，實現可靠的 3D 交互基元提取。

3.3 強大的拓展性與潛力

OmniManip 能夠與 high-level 任務規劃器結合，實現長程任務操作。

作為?種以物體為中心的算法，OmniManip 與機械臂本體解耦，能夠零成本遷移至不同形態的本體（例如雙臂?形機器?）。

OmniManip 具有強?的通用泛化能力，不受特定場景和物體限制，可用作數字資產?動標注 / 合成管道。作為核心的數據生成引擎，OmniManip 已被應用于最近開源的 AgibotDigitalWorld 數據集[1]，實現大規模的機器人軌跡自動采集。

四、總結

本文提出了一種基于多模態大模型的開放詞匯操作方法 OmniManip，通過以物體為中心的 3D 交互基元，創新性的規劃-執行雙閉環設計，使機器人能夠免訓練、零樣本地執行多項操作任務。

OmniManip 在多個任務上超越了現有方法，展現出了強大的泛化性和穩定性，為未來的機器人自主操作提供了一種強大的工具。

[1] AgibotDigitalWorld 數據集： https://huggingface.co/datasets/agibot-world/AgiBotDigitalWorld

作者：潘銘杰、張繼耀來源：公眾號【北京大學前沿計算研究中心】

llustration From IconScout By IconScout Store

-The End-

本周上新！

掃碼觀看！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.