本研究提出了一種適用于視覺(jué)與觸覺(jué)/力覺(jué)聯(lián)合學(xué)習(xí)的快-慢學(xué)習(xí)框架RDP,并配套開(kāi)發(fā)了高質(zhì)量視-觸/力覺(jué)數(shù)據(jù)采集系統(tǒng)TactAR。通過(guò)大量實(shí)驗(yàn)證實(shí),具備閉環(huán)控制機(jī)制的快-慢架構(gòu)與高質(zhì)量多模態(tài)數(shù)據(jù)在應(yīng)對(duì)接觸密集型任務(wù)中具有關(guān)鍵意義。希望RDP框架中閉環(huán)控制與快慢網(wǎng)絡(luò)的設(shè)計(jì)理念,能夠?yàn)槲磥?lái)視覺(jué)與觸覺(jué)/力覺(jué)融合學(xué)習(xí)系統(tǒng)的構(gòu)建提供新思路與參考。
論文題目: Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation 論文鏈接: https://arxiv.org/abs/2503.02881 代碼地址: https://github.com/xiaoxiaoxh/reactive_diffusion_policy 項(xiàng)目地址: https://reactive-diffusion-policy.github.io
相關(guān)Talk: http://www.techbeat.net/talk-info?id=963一、動(dòng)機(jī)
人類無(wú)需預(yù)測(cè)準(zhǔn)確的動(dòng)作指令,便可以完成許多接觸密集型(contact-rich)任務(wù)。以削水果為例,人類并不會(huì)直接預(yù)測(cè)出手的準(zhǔn)確運(yùn)動(dòng)軌跡,而是先估計(jì)一個(gè)粗略的軌跡,再在動(dòng)作執(zhí)行過(guò)程中根據(jù)觸覺(jué)等感官的反饋進(jìn)行調(diào)整。這種包含慢思考與快速調(diào)整的機(jī)制被神經(jīng)科學(xué)家稱做預(yù)測(cè)性動(dòng)作(predictive action)與閉環(huán)微調(diào)(closed-loop finetuning)[1]。由此可見(jiàn),觸覺(jué)的引入和快慢雙系統(tǒng)的架構(gòu)大大降低了操作任務(wù)的難度,這對(duì)于需要精確控制的接觸密集型任務(wù)而言尤其重要。這也啟發(fā)了研究團(tuán)隊(duì),能否將這種視-觸/力覺(jué)的快慢框架引入機(jī)器人操作學(xué)習(xí)。
事實(shí)上,現(xiàn)有的機(jī)器人操作方法已經(jīng)具備了通過(guò)視覺(jué)進(jìn)行長(zhǎng)期動(dòng)作規(guī)劃和基于力覺(jué)來(lái)快速閉環(huán)控制的能力。例如,以Diffusion Policy [2] 與 π-0 [3]為代表的模仿學(xué)習(xí)方法會(huì)以1~2Hz的頻率根據(jù)視覺(jué)觀察預(yù)測(cè)未來(lái)的動(dòng)作塊(action chunk),可以實(shí)現(xiàn)對(duì)復(fù)雜任務(wù)的學(xué)習(xí)。而傳統(tǒng)的阻抗/導(dǎo)納控制則可以依照人為設(shè)定好的參數(shù)以>100Hz的頻率根據(jù)力反饋實(shí)時(shí)調(diào)整,實(shí)現(xiàn)較強(qiáng)的反應(yīng)能力。為了結(jié)合這兩種方法的優(yōu)勢(shì),研究團(tuán)隊(duì)提出了反應(yīng)增強(qiáng)的擴(kuò)散策略(Reactive Diffusion Policy,RDP)。
具體來(lái)說(shuō),它首先通過(guò)“慢網(wǎng)絡(luò)”的隱式擴(kuò)散策略(Latent Diffusion Policy, LDP)來(lái)預(yù)測(cè)高層次的隱式動(dòng)作塊,接著利用“快網(wǎng)絡(luò)”非對(duì)稱分詞器(Asymmetric Tokenizer,AT)實(shí)時(shí)依據(jù)最新的觸/力覺(jué)輸入解碼真正執(zhí)行的動(dòng)作。這使得其可以同時(shí)具備建模復(fù)雜動(dòng)作分布和快速反應(yīng)的能力。此外,為了采集高質(zhì)量的視-觸/力覺(jué)數(shù)據(jù),研究團(tuán)隊(duì)還設(shè)計(jì)了一套數(shù)據(jù)采集系統(tǒng)TactAR,它使用增強(qiáng)現(xiàn)實(shí)(AR)來(lái)實(shí)時(shí)向采集者展示觸/力覺(jué)信息,從而讓人類采集員根據(jù)反饋來(lái)調(diào)整動(dòng)作。
實(shí)驗(yàn)發(fā)現(xiàn),在三項(xiàng)具有挑戰(zhàn)的接觸密集型任務(wù)中,RDP都展現(xiàn)出了相比先有視覺(jué)模仿學(xué)習(xí)更好的性能,并且RDP可以很好地適用于觸覺(jué)和力覺(jué)兩類傳感器。這些結(jié)果體現(xiàn)出觸/力覺(jué)的引入以及閉環(huán)控制的重要性,并展示出RDP的快慢網(wǎng)絡(luò)結(jié)果在視-觸/力覺(jué)聯(lián)合學(xué)習(xí)中的應(yīng)用潛力。
二、方法
框架總覽:為了實(shí)現(xiàn)視-觸/力覺(jué)聯(lián)合學(xué)習(xí),研究團(tuán)隊(duì)還提出了一種視-觸/力覺(jué)聯(lián)合學(xué)習(xí)框架反應(yīng)增強(qiáng)的擴(kuò)散策略(Reactive Diffusion Policy, RDP),它使用慢網(wǎng)絡(luò)建模復(fù)雜的動(dòng)作分布,再通過(guò)快網(wǎng)絡(luò)實(shí)現(xiàn)基于觸/力覺(jué)反饋的高頻閉環(huán)控制;此外,研究團(tuán)隊(duì)設(shè)計(jì)了一套低成本的遙操作系統(tǒng)TactAR,它可以為多種傳感器提供基于AR的觸/力覺(jué)反饋。 2.1 反應(yīng)增強(qiáng)的擴(kuò)散策略 RDP觸/力覺(jué)表征
研究團(tuán)隊(duì)對(duì)不同的傳感器設(shè)計(jì)了對(duì)應(yīng)的表征。對(duì)于視觸覺(jué)傳感器(例如GelSight,MCTac),研究團(tuán)隊(duì)使用主成分分析(PCA)對(duì)傳感器凝膠上的標(biāo)志點(diǎn)位移轉(zhuǎn)化為低維度表征。采用PCA表征使模型可以更好地容忍標(biāo)志點(diǎn)跟蹤誤差和噪聲,并且提高對(duì)凝膠損壞或更換導(dǎo)致的紋理光照變化的魯棒性。對(duì)于力傳感器,研究團(tuán)隊(duì)使用6維力/扭矩作為表征。
模型框架
RDP的網(wǎng)絡(luò)結(jié)構(gòu): RDP由兩部分成:非對(duì)稱分詞器(Asymmetric Tokenizer,AT),也即快網(wǎng)絡(luò);以及隱式擴(kuò)散策略(Latent Diffusion Policy, LDP),也即慢網(wǎng)絡(luò)。
AT由一個(gè)1D-CNN編碼器 和一個(gè)GRU解碼器 組成。給定訓(xùn)練數(shù)據(jù)集 中的一個(gè)動(dòng)作塊(action chunk) ,編碼器將其下采樣為一個(gè)隱式動(dòng)作塊 。研究團(tuán)隊(duì)選擇使用基于CNN的編碼器來(lái)保留原始序列的空間結(jié)構(gòu),使得隱式動(dòng)作塊能夠更好地被LDP處理。隨后,解碼器通過(guò) 重建動(dòng)作,其中 是對(duì)應(yīng)的觸/力覺(jué)表征序列。需要注意的是,研究團(tuán)隊(duì)僅在解碼器中使用觸/力覺(jué)表征作為輸入,這種結(jié)構(gòu)上的非對(duì)稱性是為了保證隱式動(dòng)作塊僅保留高層次的反饋策略,而精確的位置則由解碼器通過(guò)觸/力覺(jué)信息進(jìn)行預(yù)測(cè)。研究團(tuán)隊(duì)使用了L1重建損失和KL懲罰來(lái)訓(xùn)練AT:
LDP是一種隱空間上執(zhí)行的擴(kuò)散策略(DP)。擴(kuò)散策略是一種生成式動(dòng)作策略,它通過(guò)學(xué)習(xí)噪聲估計(jì)網(wǎng)絡(luò) ,將帶噪聲的動(dòng)作 迭代去噪為干凈的動(dòng)作 。這里,研究團(tuán)隊(duì)使用AT中的編碼器將數(shù)據(jù)轉(zhuǎn)換到隱空間: 。
這種建模方法具有多個(gè)優(yōu)點(diǎn):一方面,經(jīng)過(guò)下采樣的隱式動(dòng)作塊降低了計(jì)算成本;更重要的是,AT中的非對(duì)稱設(shè)計(jì)使得動(dòng)作中具有挑戰(zhàn)的反應(yīng)行為被排除在隱式動(dòng)作塊之外,這降低了LDP從低頻觀測(cè)學(xué)習(xí)動(dòng)作的難度,并增強(qiáng)了LDP的泛化能力。訓(xùn)練時(shí),給定當(dāng)前的觀測(cè) (包括圖像、觸覺(jué)和本體感知),研究團(tuán)隊(duì)使用DDPM[4]目標(biāo)進(jìn)行優(yōu)化:
其中 為迭代索引, 為具有一定方差的隨機(jī)噪聲。
模型推理
RDP與其他框架在推理階段具有較大的差別。標(biāo)準(zhǔn)的動(dòng)作塊預(yù)測(cè)模型(a)在動(dòng)作塊內(nèi)時(shí)開(kāi)環(huán)控制,即使使用時(shí)序融合(temporal ensembling)也僅能實(shí)現(xiàn)半閉環(huán)控制。而RDP(c)則與人類類似,首先使用慢網(wǎng)絡(luò)(LDP)預(yù)測(cè)一段時(shí)間內(nèi)的隱式動(dòng)作塊,再結(jié)合最新的觸/力覺(jué)反饋,通過(guò)快網(wǎng)絡(luò)(AT)解碼真實(shí)的執(zhí)行動(dòng)作。這實(shí)現(xiàn)了動(dòng)作塊內(nèi)的閉環(huán)控制,提高了模型的反應(yīng)能力。
研究團(tuán)隊(duì)對(duì)各個(gè)模塊進(jìn)行了測(cè)速并發(fā)現(xiàn),由于AT僅需要較小的參數(shù)量,其可以實(shí)現(xiàn)實(shí)時(shí)推理。
2.2 視-觸/力覺(jué)遙操作采集系統(tǒng) TactAR系統(tǒng)架構(gòu)
TactAR是一套基于ROS2和增強(qiáng)現(xiàn)實(shí)(AR)的視-觸/力覺(jué)數(shù)據(jù)采集系統(tǒng)。它使用Quest3作為遙操作輸入設(shè)備,利用內(nèi)置的SLAM系統(tǒng)來(lái)檢測(cè)控制器的位置,并發(fā)送給主機(jī)。接著,主機(jī)會(huì)將對(duì)應(yīng)的動(dòng)作信息經(jīng)過(guò)處理后以發(fā)送給機(jī)械臂,機(jī)械臂以工具中心點(diǎn)姿態(tài)(TCP Pose)進(jìn)行控制。與此同時(shí),機(jī)械臂與傳感器的信息會(huì)經(jīng)過(guò)ROS2同步并記錄在主機(jī)上。觸/力覺(jué)信息則會(huì)進(jìn)一步發(fā)送給Quest3用于AR顯示。這里,研究人員使用凝膠標(biāo)志點(diǎn)位移和三維力矢來(lái)可視化視觸覺(jué)傳感器和力傳感器的信號(hào),從而得到直觀、豐富的力反饋信息。由此可見(jiàn),TactAR具有低成本、跨傳感器、跨本體等優(yōu)勢(shì)。功能展示AR實(shí)時(shí)觸/力覺(jué)反饋
AR反饋與TCP綁定
數(shù)據(jù)采集示例
三、實(shí)驗(yàn)
完整的實(shí)驗(yàn)視頻和更多分析請(qǐng)參閱項(xiàng)目主頁(yè)和論文。
3.1 實(shí)驗(yàn)設(shè)定
研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)具有挑戰(zhàn)性的任務(wù)用于實(shí)驗(yàn):
削黃瓜:策略模型需要使用工具完成黃瓜削皮,在執(zhí)行過(guò)程中,人類會(huì)拿住黃瓜并給予一定的干擾。這要求策略模型需要同時(shí)具有精確預(yù)測(cè)和快速反應(yīng)的能力。
擦花瓶:與削黃瓜類似,過(guò)程中人類同樣會(huì)給予干擾。相比削黃瓜,這還要求策略模型具有對(duì)旋轉(zhuǎn)動(dòng)作的自適應(yīng)力控制能力。
雙臂抬水杯:策略模型需要用雙臂抬起水杯,并且不使水杯變形。這要求策略模型需要有精確力控制和雙臂協(xié)同能力。
研究團(tuán)隊(duì)選取了DP、增加了觸覺(jué)圖像為觀察的DP、增加了觸覺(jué)表征為觀察的DP等目前的最佳模型作為基線模型用于性能比較。
3.2 定性結(jié)果
完整的視頻結(jié)果、案例展示以及可解釋性可視化可以參閱項(xiàng)目主頁(yè)。
3.3 定量結(jié)果
根據(jù)上表中的實(shí)驗(yàn)結(jié)果,研究團(tuán)隊(duì)得到了以下結(jié)論。
視-觸/力覺(jué)聯(lián)合學(xué)習(xí)架構(gòu)的重要性
僅僅將觸覺(jué)信號(hào)添加到觀測(cè)中并不一定會(huì)提高性能。如表I所示,無(wú)論是使用原始觸覺(jué)圖像還是在DP中使用觸覺(jué)表征,其性能與純視覺(jué)的方法類似。這表明,有效的視-觸/力覺(jué)聯(lián)合學(xué)習(xí)需要對(duì)策略模型的架構(gòu)進(jìn)行改變,而不能簡(jiǎn)單地增加輸入模態(tài)。
RDP顯著優(yōu)于基線方法
如表I、表II 和表III所示,與各種基線模型相比,RDP在所有三項(xiàng)任務(wù)中的總體得分都大幅提高( )。這些任務(wù)需要策略網(wǎng)絡(luò)具有不同的能力,包括精確性、對(duì)旋轉(zhuǎn)動(dòng)作的自適應(yīng)力控制以及雙臂協(xié)同的精確力控制。研究團(tuán)隊(duì)認(rèn)為這些能力與RDP高頻的基于觸/力覺(jué)反饋的閉環(huán)控制高度相關(guān)。
跨傳感器的適用性
RDP在具有不同特性的觸/力覺(jué)傳感器上表現(xiàn)良好。如表I所時(shí),在削黃瓜任務(wù)中,GelSight Mini和MCTac取得了相當(dāng)?shù)男阅埽?.90和0.88)。而表III中的結(jié)果則表明,在雙臂抬水杯任務(wù)中,RDP甚至可以在兩個(gè)機(jī)械臂上同時(shí)使用不同的傳感器。
對(duì)干擾的快速反應(yīng)能力
即使存在人類干擾時(shí),RDP仍然表現(xiàn)出出色的性能。如表I所時(shí),在削黃瓜任務(wù)中,RDP在接觸后干擾的條件取得了0.80的得分,而增加了觸覺(jué)表征的DP僅為0.15。這證明了快網(wǎng)絡(luò)可以基于觸/力覺(jué)反饋提供及時(shí)的修正。
以上結(jié)果均體現(xiàn)出了RDP快慢雙系統(tǒng)在視-觸/力覺(jué)聯(lián)合學(xué)習(xí)上的有效性和通用性。
3.4 TactAR中的觸/力覺(jué)反饋對(duì)模型性能的影響
研究團(tuán)隊(duì)通過(guò)問(wèn)卷調(diào)查和對(duì)照實(shí)驗(yàn)的方式驗(yàn)證了TactAR中的觸/力覺(jué)反饋對(duì)模型性能的重要性。
研究團(tuán)隊(duì)邀請(qǐng)了10名具有不同遙操作/模仿學(xué)習(xí)經(jīng)驗(yàn)的志愿者參與用戶調(diào)查。結(jié)果表明,大部分用戶( )認(rèn)為觸/力覺(jué)反饋對(duì)于數(shù)據(jù)采集非常重要。
研究團(tuán)隊(duì)也通過(guò)量化指標(biāo)對(duì)比了普通VR遙操作和TactAR在數(shù)據(jù)質(zhì)量上的差異。在削黃瓜任務(wù)中,TactAR可以提高削皮的平均長(zhǎng)度(0.72 0.91),并提高過(guò)程中力的穩(wěn)定性(0.58 0.87)。
此外,研究團(tuán)隊(duì)使用傳統(tǒng)VR采集的數(shù)據(jù)訓(xùn)練策略模型用于性能對(duì)比。結(jié)果表明,TactAR可以帶來(lái)較大的性能提升。這可能是由于TactAR采集的數(shù)據(jù)有更加穩(wěn)定的力傳感信號(hào),這更有利于RDP的快網(wǎng)絡(luò)學(xué)習(xí)到有意義的反應(yīng)模式。
以上實(shí)驗(yàn)均體現(xiàn)出數(shù)據(jù)質(zhì)量對(duì)視-觸/力覺(jué)學(xué)習(xí)的重要性。
四、總結(jié)與展望
此研究提出了一種適用于視-觸/力覺(jué)聯(lián)合學(xué)習(xí)的快慢學(xué)習(xí)框架RDP,并設(shè)計(jì)了一套可用于采集高質(zhì)量視-觸/力覺(jué)數(shù)據(jù)的系統(tǒng)TactAR。研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)表明具有閉環(huán)控制的快慢系統(tǒng)以及高質(zhì)量數(shù)據(jù)對(duì)接觸密集型任務(wù)的重要性。期待RDP中閉環(huán)控制、快慢網(wǎng)絡(luò)等設(shè)計(jì)可以為未來(lái)的視-觸/力覺(jué)學(xué)習(xí)系統(tǒng)設(shè)計(jì)帶來(lái)啟發(fā)。
參考文獻(xiàn)
[1] Johansson R S, Flanagan J R. Coding and use of tactile signals from the fingertips in object manipulation tasks[J]. Nature Reviews Neuroscience, 2009, 10(5): 345-359.
[2] Chi C, Xu Z, Feng S, et al. Diffusion policy: Visuomotor policy learning via action diffusion[J]. The International Journal of Robotics Research, 2023: 02783649241273668.
[3] Black, K., Brown, N., Driess, D., Esmail, A., Equi, M., Finn, C., ... & Zhilinsky, U. π0: Avision-language-action flow model for general robot control, 2024. URL https://arxiv. org/abs/2410.24164.
[4] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門(mén)創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛(ài)的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門(mén)創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。
關(guān)于我“門(mén)”
將門(mén)是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過(guò)連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門(mén)成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門(mén)”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.