該論文由清華大學與北京銀河通用機器人有限公司合作完成。論文的共同第一作者為清華大學學生張智楷、薛晗,銀河通用研究團隊成員陳超,指導老師為清華大學助理教授弋力與北京大學助理教授王鶴。
大數據和大模型已成為具身智能領域業界和學術界的焦點,人們也在期待人形機器人真正步入大數據、大模型時代。然而,行業一直缺乏穩定的人形機器人全身遙操作與數據采集方案。
近日,銀河通用機器人攜手清華大學發布了全開源、多機型、跨虛實的人形機器人全身遙操作系統——OpenWBT。即便是新手,也能在小時內從零完成部署,并以接近日常人類工作空間的方式,高效采集人形機器人全空間操作數據,為打造具備操作智能的人形機器人提供堅實的數據支撐。目前 OpenWBT 已經在 GitHub、Gitee 等開源平臺全面上線。
- 論文標題:Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space
- 相關論文:https://www.arxiv.org/pdf/2505.10918
- 項目主頁:https://zzk273.github.io/R2S2/
- GitHub:https://github.com/GalaxyGeneralRobotics/OpenWBT
- Gitee:https://gitee.com/GalaxyGeneralRobotics/OpenWBT
為什么需要「全身遙操」?
「如果機器人只能站直不動,它的作業空間可能還不如一臺掃地機。」研究團隊成員解釋道。傳統遙操作往往僅依賴上半身控制,而 OpenWBT 通過全身運動控制,讓機器人實現移動、碰高、摸低等多種能力。只需要一款 VR 頭顯,就可以遙控多種機器人,使其像人類一樣彎腰拾起地上的物品,或伸手擦拭高處的窗臺。
OpenWBT 三大技術亮點
- 極簡部署方便使用
只需要一副 VR 頭顯、一臺筆記本電腦,新手也可以在小時內從零完成系統的快速部署。不受場地限制、無需復雜的設備校準與穿戴,躺在家里床上,也可以遙控千里之外的機器人。
- 多機型跨平臺輕松操作
OpenWBT 不僅兼容 29 自由度的 Unitree G1,還支持擁有成人身高的Unitree H1,可輕松覆蓋成年人完整的工作空間,成為對人類勞動力的有力補充。
(Real-world-Ready Skill Space)。旨在解決基于仿真強化學習的人形機器人全身控制中仿真到真實(sim2real)遷移這一難題。將仿真中的人形機器人技能遷移到真實世界極具挑戰性,尤其是當機器人需要完成走路、下蹲、彎腰、手臂自由揮動等多種動作時,傳統方法往往難以應對這一多樣性,而提出了一種分層式的新穎框架來解決這一問題。
- 靈活兼顧虛實遙操
OpenWBT 同時支持在真實世界和仿真環境中進行遙操作。在真實世界中遙操作,可避免感知與控制的域偏差,直接獲得高質量機器人數據;在仿真環境中遙操作,無需搭建物理場景,便于快速采集和大規模數據增強,提高樣本效率,并為后續模型的泛化能力奠定基礎。
首先將運動分為若干原子技能(如走、蹲、前傾等),針對每種原子技能設計專門的獎勵函數與訓練策略,使其可以穩定遷移到真實世界中。然而,當機器人需要在這些原子技能之間頻繁切換的時候,由于缺少對技能間組合與過渡的建模,機器人仍然難以保證穩定。
因此,進一步通過強化學習對原子技能的組合與銜接進行優化,并利用條件變分自編碼器對包括原子技能及其組合銜接在內的各種底層控制進行統一生成式建模,我們將該生成空間命名為 Real-world-Ready Skill Space,即依據高層級任務需求,我們可以從該空間中選取特定的技能與組合,進而實現穩定的全身控制。把復雜的多技能 sim2real 問題拆分成可解決的單技能 sim2real 問題,再利用層次結構與生成式建模把技能整合起來,仿真到真實(sim2real)遷移難題就不再可怕。具體來講,該工作的技術核心包括以下三點:
- 穩定秘訣——「真實世界穩定」的原子技能庫
讓機器人學會一種 skill 很難,讓機器人學會多種 skills 更難,讓機器人能夠將學會的多種 skills 進行穩定的 sim2real transfer 更是難上加難。一般的端到端強化學習受限于優化難度和 sim2real transfer 穩定性,很難同時學會多種可在真實世界穩定運行的技能。
因此,本文提出首先通過基于啟發式獎勵函數的強化學習構建一個「真實世界穩定」的原子技能庫。從功能性上設計出不同的原子技能,每個技能由專屬的獎勵函數訓練,并通過 sim2real transfer 驗證其在真實世界中的穩定性。
該工作將機器人的全身控制拆分為了三種不同的原子技能:locomotion、body-pose-adjustment 和 hand reaching。
Locomotion 負責讓機器人健步如飛,body-pose-adjustment 支持機器人像人一樣彎腰下蹲,hand-reaching 使得機器人雙手可以精確觸達目標點。
針對 locomotion,該工作使用步態引導產生穩定的行走動作:
針對 body-pose-adjustment,該工作鼓勵在運動學和動力學上的對稱性來實現穩定的機器人動作控制:
- 化零為整——融合不同原子技能實現全身控制
分開訓練雖然大大保證了原子技能在真實世界的表現,但是卻不足以支撐真正的機器人全身控制,因為這需要機器人能夠在不同技能之間協同、切換。因此,在原子技能庫基礎之上,該工作進一步提出一種IL+RL的技能融合策略,通過結合監督學習和強化學習的損失:
使得機器人能夠同時掌握多種技能,并將其編碼到一個技能隱空間當中,并通過 KL 散度和約束函數使得其空間更具結構性:
執行時,policy 只需要從隱空間解碼,便可得到真實的關節力矩,在保留原子技能的真實世界穩定性的基礎之上,實現原子技能之間的穩定組合與銜接,大幅擴展機器人的運動空間。
圖注:從 a 到 d,機器人逐步解鎖下蹲與前傾能力,機器人可觸達空間逐步增大
- 用途豐富——從全身遙操作到分層強化學習
該工作可以很好的支持全身遙操的需求,只需將遙操指令與機器人狀態進行聯合編碼即可選取合適的技能組合并完成對機器人的穩定全身控制。此外,該工作也可以被應用在分層強化學習當中,幫助機器人自主完成一系列觸達任務,例如基于環境感知的碰點、搬箱子等。
該工作發現,技能融合時得到的技能隱空間,是一個非常高效的關于機器人全身運動的表征方式,將高維無序的機器人動作編碼為具有高度結構性的技能空間。高層規劃策略只需要從該隱空間中采樣,便能略去底層運動控制的細節,使得機器人以穩定的方式完成各種任務。該工作通過實驗驗證了其技能隱空間對于任務學習的有效性:
圖注:不同方法在自主觸點、自主搬箱任務中的對比,SR 代表成功率,DE 代表距離偏差
研究團隊表示 OpenWBT 在持續更新中,在未來支持更多的機器人類型與更加復雜的技能類型,OpenWBT 項目也歡迎大家加入,持續招募全職工程師和實習生,期待全球開發者共同參與測試、優化,推動通用人形機器人技術發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.