本文是對發表于計算機人工智能領域頂級會議 CVPR 2025 的論文 OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 的解讀。該論文由北京大學董豪課題組完成,共同第一作者為北京大學計算機學院博士生潘銘杰和張繼耀。
本文提出了一種基于多模態大模型的開放詞匯操作方法,通過以物體為中心的 3D 交互基元,賦能 VLM(視覺語言模型)3D 理解與推理能力,使機器人能夠免訓練、零樣本地執行多項操作任務。與先前基于關鍵點、線、面等交互基元的工作不同,OmniManip 能夠通過物體 3D 渲染和姿態跟蹤達成規劃-執行層面的雙閉環,實現了操作性能的顯著突破。文章在 CVPR 2025 中作為 Highlight 發表。
論文標題: OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints 論文地址: https://arxiv.org/abs/2501.03841 文章代碼: https://github.com/pmj110119/OmniManip 項目主頁: https://omnimanip.github.io一、研究背景
近年來視覺語言基礎模型(Vision Language Models, VLMs)在多模態理解和高層次常識推理上?放異彩,如何將其應用于機器?以實現通用操作是具身智能領域的?個核心問題。這?目標的實現受兩?關鍵挑戰制約:
VLM 缺少精確的 3D 理解能力:通過對比學習范式訓練、僅以 2D 圖像 / 文本作為輸?的 VLM 的天然局限;
無法輸出低層次動作:將 VLM 在機器?數據上進行微調以得到視覺 - 語言 - 動作(VLA)模型是?種有前景的解決方案,但目前仍受到數據收集成本和泛化能力的限制。
針對上述難題,OmniManip 基于以對象為中心的 3D 交互基元,賦能 VLM 3D 理解與規劃能力,并通過創新性的規劃-執行雙閉環設計實現了操作性能的顯著突破。
實驗結果表明,OmniManip 作為?種免訓練的開放詞匯操作方法,在各種機器人操作任務中具備強大的零樣本泛化能?。
二、技術方案解析 2.1 方法概述
OmniManip 的關鍵設計包括:
基于 VLM 的任務解析:利用 VLM 強?的常識推理能力,將任務分解為多個結構化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。
以物體為中心的交互基元作為空間約束:通過 3D 基座模型生成任務相關物體的 3D 模型和規范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從而優化求解出 Active 物體在 Passive 物體規范坐標系下的目標交互姿態。
閉環 VLM 規劃:將目標交互姿態下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現 VLM 對自身規劃結果的閉環調整。
閉環機器人執行:通過物體 6D 姿態跟蹤器實時更新 Active/Passive 物體的位姿,轉換為機械臂末端執行器的操作軌跡,實現閉環執行。
2.2 以物體為中心的交互基元
物體的交互基元通過其在標準空間中的交互點和方向來表征。交互點 p∈R3 表示物體上關鍵的交互位置,而交互方向 v∈R3 代表與任務相關的主要軸。這兩者共同構成交互基元 O={p,v},封裝了滿足任務約束所需的基本幾何和功能屬性。這些標準交互基元相對于其標準空間定義,能夠在不同場景中保持?致,實現更通用和可重用的操作策略。
對于通用物體的交互點提取,OmniManip 利用視覺語?模型(VLM)在原圖(當部件可見且實體存在時)或在正交視圖中渲染的 3D 網格(當部件不可見或實體不存在時)上進行定位。
與 CoPa 和 ReKep 等方法不同,OmniManip 直接讓 VLM 進行 grounding,不會受限于不穩定的 part 分割或聚類結果。
在交互方向的采樣方面,由于物體的規范化空間通過 Omni6DPose 錨定,軸的方向與語義對齊,該團隊讓 VLM 直接對物體標準空間的軸進行語義描述,并根據操作任務進行匹配度排序,以獲得交互方向的候選。
2.3 雙閉環系統設計
作為最新的 SOTA 工作,李飛飛團隊的 ReKep 通過關鍵點跟蹤巧妙地實現了機械臂的閉環執行,但其 VLM 規劃過程是開環的。OmniManip 則更進?步,得益于以物體為中心的設計理念,首次在 VLM 規劃和機械臂執?層?實現了雙閉環系統:
閉環規劃:在實驗中,VLM 推理很容易出現幻覺,導致錯誤的規劃結果(尤其是在涉及 3D 旋轉的任務中,如倒水、插筆)。OmniManip 賦予 VLM 閉環規劃能?,通過渲染物體的三維模型,幫助 VLM 「腦補」出規劃結果后的物體樣貌,再判斷其合理性。
這?功能賦予了 VLM 空間反思能力,使其能夠在測試時進行推理,類似于 OpenAI 的 O1,大大提高了操作成功率。為了保持框架的簡潔性,研究團隊沒有設計復雜的測試時推理流程,僅作?輪校驗就已明顯提高了 VLM 的規劃準確率。
閉環執行:OmniManip 提取的交互基元位于物體的規范空間中,只需引入?個 6D 位姿跟蹤器即可輕松實現閉環操作。與 ReKep 使用的關鍵點跟蹤器相比,基于物體的 6D 位姿跟蹤方式更為穩定,并對遮擋具有更強的魯棒性。(缺點則是不如關鍵點靈活、無法建模柔性物體操作。)
三、實驗結果 3.1 強大的開放詞匯操作性能
在12個真機短程任務上,OmniManip 均展現出卓越的性能。
雙閉環系統設計為 OmniManip 帶來了約 17% 的性能提升,這證明了 RRC 在有效減少?模型幻覺影響??的作用。
3.2 交互基元的魯棒性
VLM 需要基于交互基元對機器?操作進行規劃,如果交互基元本身存在問題,VLM 就會陷入「巧婦難為無米之炊」的困境。因此,可靠的交互基元至關重要。以往的方法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元,然后通過相機的內外參數轉換到 3D 空間。
然而,由于 2D 圖像存在空間歧義,采樣效果對相機視?、圖像紋理和部件形狀等因素極為敏感(例如,當相機平視杯子時,之前的方法只能對準杯子的側壁、而不是開口)。而 OmniManip 則是在物體的 3D 規范空間中進行采樣,能夠輕松克服 2D 圖像的局限性,實現可靠的 3D 交互基元提取。
3.3 強大的拓展性與潛力
OmniManip 能夠與 high-level 任務規劃器結合,實現長程任務操作。
作為?種以物體為中心的算法,OmniManip 與機械臂本體解耦,能夠零成本遷移至不同形態的本體(例如雙臂?形機器?)。
OmniManip 具有強?的通用泛化能力,不受特定場景和物體限制,可用作數字資產?動標注 / 合成管道。作為核心的數據生成引擎,OmniManip 已被應用于最近開源的 AgibotDigitalWorld 數據集[1],實現大規模的機器人軌跡自動采集。
四、總結
本文提出了一種基于多模態大模型的開放詞匯操作方法 OmniManip,通過以物體為中心的 3D 交互基元,創新性的規劃-執行雙閉環設計,使機器人能夠免訓練、零樣本地執行多項操作任務。
OmniManip 在多個任務上超越了現有方法,展現出了強大的泛化性和穩定性,為未來的機器人自主操作提供了一種強大的工具。
[1] AgibotDigitalWorld 數據集: https://huggingface.co/datasets/agibot-world/AgiBotDigitalWorld
作者:潘銘杰、張繼耀 來源:公眾號【北京大學前沿計算研究中心】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀看!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.