本文提出了一種軌跡級(jí)別 SE(3) 等變的擴(kuò)散策略(ET-SEED),通過將等變表示學(xué)習(xí)和擴(kuò)散策略結(jié)合,使機(jī)器人能夠在極少的示范數(shù)據(jù)下高效學(xué)習(xí)復(fù)雜操作技能,并能夠泛化到不同物體姿態(tài)和環(huán)境中。作者拓展了 SE(3) 等變擴(kuò)散過程的理論,并在 SE(3) 流形上提出了一種高效的等變擴(kuò)散過程,簡(jiǎn)化了建模和推理過程。相比于已有的方法,ET-SEED 在數(shù)據(jù)效率、泛化能力和計(jì)算開銷方面均取得了突破性的提升。
論文標(biāo)題: ET-SEED: Efficient Trajectory-Level SE(3) Equivariant Diffusion Policy 論文鏈接: https://arxiv.org/abs/2411.03990 文章代碼: https://github.com/Cold114514/ET-SEED/ 項(xiàng)目主頁(yè): https://et-seed.github.io/
一、背景
在機(jī)器人操作任務(wù)中,模仿學(xué)習(xí)(imitation learning)已被廣泛用于學(xué)習(xí)各種操作技能,如開門、書寫、折疊衣物等。然而,傳統(tǒng)方法通常依賴大量示范數(shù)據(jù),特別是當(dāng)物體的空間姿態(tài)超出訓(xùn)練分布時(shí),模型的泛化能力較差,容易出現(xiàn)執(zhí)行失敗。例如,一個(gè)在桌面中央學(xué)習(xí)到的物體抓取策略,可能在物體位于桌角或旋轉(zhuǎn)一定角度后完全失效。
圖1 雖然現(xiàn)有方法嘗試通過數(shù)據(jù)增強(qiáng)(data augmentation)或?qū)Ρ葘W(xué)習(xí)(contrastive learning)來緩解這一問題,但它們往往需要額外的任務(wù)特定知識(shí)或額外訓(xùn)練,并且無(wú)法在理論上保證空間泛化能力。相比之下,物理世界中廣泛存在對(duì)稱性(symmetry),例如剛體運(yùn)動(dòng)具有 SE(3) 等變性,即如果物體發(fā)生平移或旋轉(zhuǎn),相應(yīng)的操作軌跡也應(yīng)當(dāng)相應(yīng)變化(如圖1)。例如:
在不同角度的紙張上書寫,筆跡的軌跡應(yīng)該隨紙張旋轉(zhuǎn);
在不同位置的門上執(zhí)行開門操作,軌跡應(yīng)相應(yīng)變化,而不是重新學(xué)習(xí)新的策略;
在不同初始狀態(tài)的衣物上執(zhí)行折疊操作,軌跡應(yīng)能自動(dòng)適配。
ET-SEED 便是基于這一核心思想,提出了一種軌跡級(jí)的 SE(3) 等變擴(kuò)散策略,使得機(jī)器人能夠在少量示范數(shù)據(jù)下高效學(xué)習(xí),并泛化到未見過的物體姿態(tài)和場(chǎng)景。
二、方法
ET-SEED 通過等變擴(kuò)散建模和高效的去噪策略,在保證 SE(3) 等變性的同時(shí),提高了計(jì)算效率,核心創(chuàng)新點(diǎn)如下:
1. 軌跡級(jí) SE(3) 等變擴(kuò)散建模
傳統(tǒng)的擴(kuò)散策略通常僅適用于歐幾里得空間,而 ET-SEED 直接在 SE(3) 流形(manifold)上建模,使得軌跡在 3D 旋轉(zhuǎn)和平移變換下保持等變性。由于這樣的建模方法天然符合任務(wù)的內(nèi)在特征,ET-SEED 極大提升了泛化能力,使其適用于各種機(jī)器人操作任務(wù)。
2. 降低訓(xùn)練復(fù)雜度的等變擴(kuò)散過程
現(xiàn)有的等變擴(kuò)散方法要求所有去噪步驟都保持等變性,但這會(huì)顯著增加推理難度。ET-SEED 拓展了現(xiàn)有的等變擴(kuò)散理論,證明僅需一個(gè)等變?nèi)ピ氩襟E即可保證最終軌跡的等變性,從而顯著降低訓(xùn)練難度,同時(shí)保持泛化能力(如圖2)。
圖23. 結(jié)合 SE(3) Transformer 的擴(kuò)散去噪策略
ET-SEED 結(jié)合了 SE(3) Transformer 并通過在 SE(3) 流形上定義動(dòng)作空間,構(gòu)建了一種新的等變網(wǎng)絡(luò)架構(gòu)。該架構(gòu)在去噪過程中采用兩階段策略(如圖3):
第一階段(SE(3) 不變?nèi)ピ耄呵?K-1 輪去噪過程中,網(wǎng)絡(luò)僅執(zhí)行不變變換,以降低計(jì)算和推理復(fù)雜度;
第二階段(SE(3) 等變?nèi)ピ耄鹤詈笠惠喨ピ氩捎?SE(3) 等變變換,確保最終軌跡滿足空間等變性。
圖3
4. 適用于多種操作任務(wù)
ET-SEED 在多種具有代表性的機(jī)器人操作任務(wù)中均表現(xiàn)出色,包括:剛體操作任務(wù),關(guān)節(jié)物體操作,長(zhǎng)程任務(wù)和可變形物體操作。體現(xiàn)了我們方法的通用性。
三、實(shí)驗(yàn)驗(yàn)證
我們?cè)诜抡姝h(huán)境 Isaac Gym 和 Isaac Sim 上設(shè)計(jì)并搭建了六個(gè)具有代表性的機(jī)器人操作任務(wù)環(huán)境:
旋轉(zhuǎn)三角形:機(jī)器人推動(dòng)三角形至目標(biāo)姿態(tài)。
開瓶蓋:機(jī)器人旋轉(zhuǎn)并取下瓶蓋。
開門:機(jī)器人在不同門把手和方向上執(zhí)行開門操作。
機(jī)器人書法:機(jī)器人用毛筆書寫漢字和字母。
折疊衣物:機(jī)器人執(zhí)行標(biāo)準(zhǔn)的衣物折疊任務(wù)。
甩平衣物:機(jī)器人抓住衣物的肩部,通過抖動(dòng)使其展開。
圖4 在這六個(gè)任務(wù)上進(jìn)行實(shí)驗(yàn)用于評(píng)估本文提出的方法,并將其與目前的 SOTA 方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,我們的方法比現(xiàn)有方法更高效地利用示范數(shù)據(jù),在相同數(shù)量的示范下成功率更高,尤其是在示范數(shù)據(jù)很少的情況下,我們的方法比現(xiàn)有方法在全部六個(gè)任務(wù)上都具有顯著的提升。此外,ET-SEED 對(duì)示范數(shù)據(jù)中未見過的物體位姿也具有很好的泛化能力,這說明了我們?cè)O(shè)計(jì)的等變過程能極大地增強(qiáng)擴(kuò)散策略的空間泛化能力。
同時(shí),我們?cè)谒膫€(gè)真實(shí)世界的機(jī)器人操作任務(wù)上測(cè)試了 ET-SEED 的能力,實(shí)驗(yàn)表明,在僅 20 條示范軌跡的情況下,ET-SEED 依然能夠在未見過的物體姿態(tài)下成功執(zhí)行任務(wù),表現(xiàn)出了遠(yuǎn)超現(xiàn)有方法的泛化能力。
擰瓶蓋
開門
疊衣服
寫字
四、總結(jié)
本文提出了一種高效的軌跡級(jí) SE(3) 等變擴(kuò)散策略 ET-SEED,通過創(chuàng)新性的等變擴(kuò)散建模,使機(jī)器人能夠在少量示范數(shù)據(jù)下學(xué)習(xí)復(fù)雜操作技能,并泛化到不同物體姿態(tài)和場(chǎng)景。
ET-SEED 在多個(gè)任務(wù)上超越了現(xiàn)有方法,成功率更高、泛化能力更強(qiáng)、數(shù)據(jù)利用效率更優(yōu),為未來的機(jī)器人自主操作提供了更強(qiáng)大的工具。
來源: 公眾號(hào)【北京大學(xué)前沿計(jì)算研究中心】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.