本文一作:陳天行,TianxingChen.github.io,2025 級香港大學(xué) MMLab 博士生,師從羅平教授。在學(xué)術(shù)頂會(huì)以一作 / 共一發(fā)表多篇論文,獲得 ECCV 協(xié)同具身智能研討會(huì)Best Paper,CVPR Highlight 等。獲得 CCF 優(yōu)秀大學(xué)生等多項(xiàng)榮譽(yù)以及 20 余項(xiàng)國家級競賽獎(jiǎng)項(xiàng)。擔(dān)任 CVPR 2025 RoboTwin 雙臂協(xié)作競賽組織者。發(fā)起《具身智能技術(shù)指南》項(xiàng)目,已破 6k Github Stars。Lumina具身智能社區(qū)聯(lián)合創(chuàng)始人。
最近,上海交通大學(xué) ScaleLab 與香港大學(xué) MMLab@HKU 領(lǐng)銜發(fā)布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真平臺(tái)在 CVPR 上舉辦的雙臂協(xié)作競賽 Technical Report。RoboTwin 2.0 開源了大規(guī)模域隨機(jī)化雙臂操作數(shù)據(jù)合成器與 50 個(gè)操作任務(wù)的評測基準(zhǔn)集,Technical Report 中分享了 RoboTwin 賽事的優(yōu)勝方案以及總結(jié)見解。
兩篇論文的第一作者為香港大學(xué) MMLab@HKU 在讀博士生陳天行,通訊作者為上海交大 ScaleLab 助理教授穆堯以及香港大學(xué)副教授羅平。共同第一作者包括陳攢鑫、陳柏均、蔡子健、劉藝彬等。
RoboTwin 2.0 介紹視頻如下:
RoboTwin 系列工作曾中稿 CVPR 2025 Highlight、ECCV 2024 MAAS Workshop Best Paper,并作為第十九屆“挑戰(zhàn)杯人工智能 + 挑戰(zhàn)賽”官方賽題、RoboTwin 雙臂協(xié)作競賽賽題 @CVPR 2025 MEIS Workshop、張江人形機(jī)器人創(chuàng)新創(chuàng)業(yè)大賽賽題,Github 上斬獲 1.2k Stars。
- 論文標(biāo)題:RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation
- 項(xiàng)目主頁:https://robotwin-platform.github.io/
- 論文鏈接:https://arxiv.org/abs/2506.18088
- 代碼鏈接: https://github.com/RoboTwin-Platform/RoboTwin
- 用戶文檔:https://robotwin-platform.github.io/doc/
- Technical Report 標(biāo)題:Benchmarking Generalizable Dual-Arm Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop
- Technical Report 鏈接:https://arxiv.org/abs/2506.23351
引言
雙臂機(jī)器人在協(xié)同裝配、工具使用和物體交接等復(fù)雜場景中具有重要作用,但要訓(xùn)練出通用的 VLA 等操作策略,現(xiàn)有數(shù)據(jù)收集和仿真管線面臨多重瓶頸。一方面,真實(shí)示教數(shù)據(jù)規(guī)模化獲取成本高、耗時(shí)長,難以覆蓋足夠多的任務(wù)、物體形態(tài)與硬件差異;另一方面,現(xiàn)有仿真缺乏針對新任務(wù)的高效、可擴(kuò)展的專家數(shù)據(jù)生成方法;同時(shí)其域隨機(jī)化設(shè)計(jì)過于表層,無法模擬真實(shí)環(huán)境中復(fù)雜性;更未考慮不同雙臂平臺(tái)在運(yùn)動(dòng)學(xué)與抓取策略上的行為差異,導(dǎo)致數(shù)據(jù)合成方案難以在新環(huán)境或新硬件上泛化。
因此我們提出了 RoboTwin 2.0,提供基于多模態(tài)大模型與仿真在環(huán)的自動(dòng)化專家代碼合成方案,開源了含 731 個(gè),147 類帶豐富標(biāo)注物體的 RoboTwin 物體數(shù)據(jù)集(RoboTwin-OD),并基于兩者構(gòu)建了支持 5 款本體與 50 個(gè)任務(wù)的大規(guī)模域隨機(jī)化仿真雙臂操作數(shù)據(jù)合成器與評測基準(zhǔn)集。實(shí)驗(yàn)結(jié)果表明 RoboTwin 2.0 的域隨機(jī)化數(shù)據(jù)可以極大地增強(qiáng)模型面對未見環(huán)境的魯棒性。我們開源了代碼、預(yù)采集的操作數(shù)據(jù)以及用戶友好的文檔。
方法
1. 專家代碼生成
在專家代碼生成方面,RoboTwin 2.0 首先引入了一套比 1.0 更加精簡易用的 API 庫,顯著降低了大型多模態(tài)模型生成代碼的門檻;隨后在仿真閉環(huán)中,結(jié)合關(guān)鍵幀視覺觀測和實(shí)時(shí)環(huán)境反饋,以多模態(tài)大模型為核心不斷迭代優(yōu)化,持續(xù)提升任務(wù)專家代碼的準(zhǔn)確性與執(zhí)行效率。
2.RoboTwin-OD(RoboTwin 物體數(shù)據(jù)集)
為了構(gòu)建更多樣的仿真操作數(shù)據(jù),覆蓋更多的操作技能與交互物體,我們構(gòu)建了 RoboTwin-OD(RoboTwin Object Dataset),包含 147 類、731 個(gè)實(shí)例,其中 534 個(gè)實(shí)例由我們基于AIGC生成并經(jīng)凸分解優(yōu)化,其余來自 Objaverse 與 SAPIEN PartNet-Mobility。針對每個(gè)物體,我們精細(xì)標(biāo)注了多種操作點(diǎn)、操作方向,以及物體級別和操作級別的語義信息,為大模型提供了全面而清晰的語義理解支持。RoboTwin-OD 不僅奠定了大規(guī)模仿真操作任務(wù)設(shè)計(jì)的基礎(chǔ),也為復(fù)雜雜亂場景的布置提供了堅(jiān)實(shí)支撐。
3. 面向本體的自適應(yīng)抓取
由于自由度和運(yùn)動(dòng)結(jié)構(gòu)的差異,不同機(jī)械臂在同一任務(wù)中的可達(dá)空間和操作偏好各異。為此,RoboTwin 2.0 針對每個(gè)物體構(gòu)建了涵蓋多種抓取軸與接近方向的操作候選集。具體做法是:結(jié)合機(jī)械臂的優(yōu)選接近方向、隨機(jī)姿態(tài)擾動(dòng)與并行運(yùn)動(dòng)規(guī)劃,生成豐富的抓取候選;并在可達(dá)性更高的方向上施加角度擾動(dòng),以進(jìn)一步擴(kuò)展可行姿態(tài)空間。基于這種方法,RoboTwin 2.0 支持 5 種本體的操作數(shù)據(jù)合成與評測。
4. 域隨機(jī)化
為了讓 RoboTwin 2.0 在各種復(fù)雜且多變的真實(shí)場景下都能保持卓越的操作性能,我們在數(shù)據(jù)生成環(huán)節(jié)引入了一套系統(tǒng)化的 Domain Randomization 策略。通過對多維度的隨機(jī)化處理,模型得以在訓(xùn)練階段見識(shí)到充分多樣化的樣本,從而在實(shí)際部署中展現(xiàn)出更強(qiáng)的魯棒性。下面將從五個(gè)關(guān)鍵維度依次說明我們所采用的隨機(jī)化手段。
場景雜亂 (Scene Clutter)
隨機(jī)在工作區(qū)中加入與任務(wù)無關(guān)的干擾物體,利用已構(gòu)建的 RoboTwin-OD 對象庫進(jìn)行碰撞感知的放置。通過預(yù)先計(jì)算碰撞體積并在同類別或功能相似的對象之間做語義分組,避免放置過于相似的干擾物,從而既增強(qiáng)多樣性又降低潛在的策略混淆。
多樣化背景紋理 (Background Textures)
構(gòu)建包含 12000 種高質(zhì)量紋理的背景庫:先用大模型自動(dòng)生成 1000 條關(guān)于真實(shí)表面外觀的 Prompt,再利用 Stable Diffusion v2 為每條 Prompt 合成 20 張候選紋理,經(jīng)過人工過濾后保留最具代表性的樣本,用以隨機(jī)化桌面及周圍背景。
光照變化 (Lighting Variation)
在物理合理范圍內(nèi),隨機(jī)化光源類型(點(diǎn)光源、面光源)、數(shù)量、顏色溫度、強(qiáng)度及位置,以模擬真實(shí)世界中多樣的燈光條件,增強(qiáng)策略對陰影、反射和色彩偏移的魯棒性。
桌面高度 (Tabletop Heights)
將桌面高度在合理范圍內(nèi)均勻采樣,改變相機(jī)視角和機(jī)械臂–物體間的空間關(guān)系,使策略適應(yīng)不同工作臺(tái)面高度帶來的感知與運(yùn)動(dòng)學(xué)差異。
多樣化語言指令 (Language Instructions)
基于多模態(tài)大語言模型,自動(dòng)生成任務(wù)指令模板和對象描述,再結(jié)合隨機(jī)采樣的對象屬性進(jìn)行組合,以在軌跡級別引入豐富的語言變化,提升模型對未見指令的泛化能力。
5.RoboTwin 2.0 50 個(gè)任務(wù)的數(shù)據(jù)生成器以及評測基準(zhǔn)集
基于以上幾個(gè)方法,我們構(gòu)建了支持 5 款本體、50 個(gè)雙臂任務(wù)的數(shù)據(jù)生成器以及評測基準(zhǔn)集。
實(shí)驗(yàn)結(jié)果
1. 閉環(huán)專家代碼生成性能提升
與 RoboTwin 1.0 相比,在 10 項(xiàng)典型操作任務(wù)上不加入任何技巧,RoboTwin 2.0 的平均成功率(ASR)與 Top5-ASR 均從 47.4% 提升至 62.1%;加入結(jié)構(gòu)化執(zhí)行反饋后,ASR 進(jìn)一步提升至 66.7%,結(jié)合多模態(tài)反饋時(shí)達(dá)到 71.3%,迭代次數(shù)從 2.46 次降低至 1.76 次,LLM token 消耗也顯著降低。
2. 自適應(yīng)抓取增強(qiáng)效果明顯
在五種雙臂機(jī)器人平臺(tái)上自動(dòng)采集 50 個(gè)任務(wù)的數(shù)據(jù),對比 RoboTwin 1.0 的合成方案,RoboTwin 2.0 平均成功率提升 8.3%;其中低 DoF 平臺(tái)增益更大:六自由度的 Aloha-AgileX 平臺(tái)提升 13.7%,Piper 平臺(tái)提升 22.7%,ARX-X5 平臺(tái)提升 5.6%。
3. 域隨機(jī)化對策略魯棒性的貢獻(xiàn)
在基于 VLA 框架的消融試驗(yàn)中,將預(yù)訓(xùn)練模型 RDT、Pi0 用于 32 項(xiàng)任務(wù)每任務(wù) 300 條數(shù)據(jù)(共 9600 條數(shù)據(jù))的大規(guī)模域隨機(jī)化數(shù)據(jù)中微調(diào),然后在未見任務(wù)中使用少量無域隨機(jī)化數(shù)據(jù)微調(diào)后進(jìn)行評測。RoboTwin 2.0(R2.0,含域隨機(jī)化數(shù)據(jù))相比起未經(jīng)過大規(guī)模域隨機(jī)化數(shù)據(jù)微調(diào)的原策略,在新任務(wù)上為 RDT 帶來絕對增益 10.6%(相對提升 71.6%),為 Pi0 帶來絕對增益 8.8%(相對提升 41.9%),且均在僅用干凈數(shù)據(jù)微調(diào)的情況下仍保持強(qiáng)泛化能力。
4. 真實(shí)世界零/少樣本遷移效果
在四類真實(shí)雙臂任務(wù)(Bowls Stack、Block Handover、Bottle Pick、Bell Click)的對照實(shí)驗(yàn)中,基于 10 條真實(shí)示例訓(xùn)練的基線模型,引入 1000 條 RoboTwin 2.0 合成軌跡后,四種測試配置的成功率分別平均提升 13.5%、27.5%、23.5% 和 33.0%;而在純合成(zero-shot)設(shè)置下,即使完全不依賴真實(shí)數(shù)據(jù),也能在未見背景場景中取得 21.0% 和 20.5% 的成功率提升。
以上結(jié)果充分展示了 RoboTwin 2.0 在代碼生成、抓取拓展、環(huán)境魯棒性以及 sim2real 遷移等多維度的綜合優(yōu)勢,為后續(xù)大規(guī)模、場景豐富的雙臂操作研究提供了堅(jiān)實(shí)的數(shù)據(jù)與基準(zhǔn)支撐。
開源
我們開源了 50 個(gè)任務(wù)的 RoboTwin 2.0 代碼,預(yù)采集 100,000 + 條多本體域隨機(jī)化操作數(shù)據(jù),以及完整的 RoboTwin-OD 大規(guī)模豐富語義數(shù)字資產(chǎn)庫,以及用戶友好的使用文檔。
RoboTwin CVPR Challenge Technical Report
參賽 64 支隊(duì)伍,總?cè)舜纬?400 人。決勝出來自清華 - 地平線團(tuán)隊(duì)的真機(jī)賽冠軍,以及來自京東科技集團(tuán)的仿真賽冠軍。并由優(yōu)勝團(tuán)隊(duì)共同合著 Technical Report。Report 中分享了各隊(duì)伍取得優(yōu)異成績的關(guān)鍵算法,包括 SEM 以及 AnchorDP3 等,并挖掘了數(shù)據(jù)質(zhì)量、數(shù)據(jù)預(yù)處理、語言魯棒性、多模態(tài)融合以及模型架構(gòu)等關(guān)于雙臂操作的見解。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.