衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
來和機(jī)器狗一起運(yùn)動(dòng)不?你的羽毛球搭子來了!
無需人工協(xié)助,僅靠強(qiáng)化學(xué)習(xí),機(jī)器狗子就學(xué)會(huì)了羽毛球哐哐對(duì)打,就像這樣——
在室外:
在室內(nèi):
都不在話下。
基于強(qiáng)化學(xué)習(xí),研究人員開發(fā)了機(jī)器狗的全身視覺運(yùn)動(dòng)控制策略,同步控制腿部(18個(gè)自由度)移動(dòng),和手臂揮拍動(dòng)作。
最終呈現(xiàn)出來的表現(xiàn)不賴,狗子最高揮拍速度達(dá)到12米/秒。
在與人類選手的協(xié)作比賽中,某一回合連續(xù)擊球10次,甚至涌現(xiàn)出如擊球后回位中心的類人行為。
該研究在各種環(huán)境中進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了四足機(jī)器人預(yù)測羽毛球軌跡、有效導(dǎo)航服務(wù)區(qū)域,以及對(duì)人類球員進(jìn)行最精準(zhǔn)打擊的能力。
證明了足式移動(dòng)機(jī)器人在復(fù)雜和動(dòng)態(tài)的體育場景中應(yīng)用的可行性。
研究背后團(tuán)隊(duì)來自蘇黎世聯(lián)邦理工學(xué)院。
相關(guān)論文剛剛發(fā)表在Science旗下子刊Science Robotics上。
羽毛球“大戰(zhàn)”中涌現(xiàn)出類人行為
學(xué)會(huì)打羽毛球的機(jī)器狗是什么配置?
公開數(shù)據(jù)如下:
主體由一個(gè)四足ANYmal-D底座和一個(gè)動(dòng)態(tài)手臂DynaArm組成。
它配備了一個(gè)帶有全局快門的ZED X立體相機(jī)用于羽毛球感知。相機(jī)在坐標(biāo)系中計(jì)算出的羽毛球位置,預(yù)測攔截位置,這個(gè)值和機(jī)器人本體感知觀測值一起被喂給強(qiáng)化學(xué)習(xí)策略。
然后生成關(guān)鍵指令,來控制四足底座。
此外,羽毛球拍相對(duì)于腕關(guān)節(jié)呈45°角定向。研究人員表示,根據(jù)早期對(duì)不同朝向的仿真測試,這被證明是最有效的配置。
如下圖所示,在部署過程中,狗子以400 Hz的頻率運(yùn)行,同時(shí)機(jī)器人控制策略以100 Hz的速率更新觀測值并發(fā)送關(guān)節(jié)位置指令。
系統(tǒng)的感知包括羽毛球位置測量、狀態(tài)估計(jì)和軌跡預(yù)測,它在Jetson AGX Orin模塊上以60 Hz的頻率異步運(yùn)行。
基于這個(gè)配置,狗子和人類業(yè)余羽毛球選手開打了。
整個(gè)過程中,雖然存在一些失誤,但狗子還是能夠根據(jù)不同的速度和落點(diǎn)的來球做出適當(dāng)反應(yīng)。
平均來說,感知模塊在對(duì)手機(jī)球后需要花費(fèi)0.357秒來判斷攔截軌跡。通常,羽毛球會(huì)在0.654秒后達(dá)到四足底座上方1.25米然后被攔截。
記錄中,狗子從預(yù)測到擊球最快耗時(shí)0.367秒。
狗子和人類打得有來有回——沒錯(cuò),它能夠進(jìn)行連續(xù)擊球。
在官方放出的視頻中,就有一次對(duì)打進(jìn)行了10次連續(xù)擊球。
值得一提的是,狗子還涌現(xiàn)了類人行為——
每次擊球后,狗子會(huì)自動(dòng)向球場中心移步。
類似于人類玩家每次擊球過后都會(huì)調(diào)整站位和站姿,為下一次擊球做好準(zhǔn)備。
在給定真實(shí)感知(ground-truth perception)的情況下,研究人員評(píng)估了在指令揮拍時(shí)間到達(dá)攔截位置0.1米范圍內(nèi)(大約是球拍中心到邊緣的距離)的擊球百分比。
仿真結(jié)果表明,在發(fā)球區(qū),狗子攔截來球幾乎一攔一個(gè)準(zhǔn),失敗率可忽略不計(jì)。
不過,當(dāng)狗子站在在發(fā)球區(qū)邊界,或者羽毛球直接落在狗子身后時(shí),機(jī)器狗預(yù)測羽毛球軌跡并成功攔截就變成了一件很有挑戰(zhàn)性的任務(wù)。
因?yàn)楫?dāng)羽毛球從正上方或正后方接近狗子時(shí),它必須直接向上俯仰。這對(duì)機(jī)器狗來說很有難度。
上圖中的折線統(tǒng)計(jì)圖B,繪制了執(zhí)行的EE速度和最大基座角速度相對(duì)于指令速度的曲線。
在執(zhí)行10m/s的揮拍速度時(shí),狗子基本都能跟蹤指令速度;速度超過10m/s時(shí),精度就會(huì)下降。
當(dāng)命令他以19m/s揮拍時(shí),機(jī)器狗出現(xiàn)了最高執(zhí)行速度,即12.06m/s。相比之下,業(yè)余羽毛球運(yùn)動(dòng)員可以達(dá)到20m/s至30m/s的揮拍速度。
如材料與方法部分所述,系統(tǒng)在接近其電流和關(guān)節(jié)速度極限的情況下運(yùn)行以實(shí)現(xiàn)這些指令。此外,更高的指令速度導(dǎo)致基座角速度增加,表明基座姿態(tài)控制與操作器揮動(dòng)之間存在耦合。
上圖中的C部分顯示了在擊球時(shí)間前后球拍與目標(biāo)位置之間的距離,球拍在指令的擊球時(shí)刻精確到達(dá)其最近點(diǎn)。
在指令12m/s揮拍時(shí),機(jī)器狗執(zhí)行的平均揮拍速度為10.8m/s,平均位置誤差為0.117米。
換句話說,當(dāng)球拍以目標(biāo)速度移動(dòng)時(shí),僅有0.0108秒的偏移。
此外,整個(gè)羽毛球大戰(zhàn)中,機(jī)器狗會(huì)自主學(xué)習(xí)動(dòng)態(tài)調(diào)整相機(jī)姿態(tài),根據(jù)任務(wù)緊迫性動(dòng)態(tài)調(diào)整步態(tài),包括短距離微調(diào)姿態(tài)、中距離不規(guī)則步態(tài)、長距離類疾馳(Galloping)步態(tài)等。
比如,它以快跑進(jìn)行遠(yuǎn)距離快速攔截,并在近距離回?fù)魰r(shí)穩(wěn)定,動(dòng)態(tài)協(xié)調(diào)手臂和腿部。
一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一控制策略
打羽毛球的難點(diǎn),就是需要運(yùn)動(dòng)員在步法和上肢運(yùn)動(dòng)之間進(jìn)行復(fù)雜的相互協(xié)調(diào)作用。
對(duì)機(jī)器狗來說,這也是一項(xiàng)需要精確協(xié)調(diào)感知、移動(dòng)和手臂揮動(dòng)的任務(wù)。
更進(jìn)一步來說,需要機(jī)器狗在動(dòng)態(tài)環(huán)境中協(xié)調(diào)下肢與上肢之間的運(yùn)動(dòng),并使肢體控制與感知對(duì)齊。
這對(duì)機(jī)器狗來說同樣不是一件簡單的事情。
一方面,當(dāng)前控制器和硬件存在不足;另一方面,羽毛球?qū)Ω兄⒁苿?dòng)和操作之間復(fù)雜的相互作用提出了極高的要求,需要平衡「快速響應(yīng)的移動(dòng)」與「精確的手臂運(yùn)動(dòng)」。
盡管在原理上,機(jī)器人擁有大量的自由度以實(shí)現(xiàn)靈活運(yùn)動(dòng),但在實(shí)踐中,這很大程度上取決于控制算法。
在實(shí)際應(yīng)用中,另一種大家熟知的球類——乒乓球,在精確性和策略方面的研究都更為廣泛,這類情況目前主要的解決辦法是使用帶有外部視覺系統(tǒng)的固定基座或龍門式操作器。
相比之下,本研究強(qiáng)調(diào)全身視覺運(yùn)動(dòng)技能,并僅依賴機(jī)載感知,整合了腿式移動(dòng)和手臂揮動(dòng)——這種方法更好地模擬了人類打羽毛球時(shí)候的方式。
研究團(tuán)隊(duì)提出了一種基于強(qiáng)化學(xué)習(xí)的統(tǒng)一控制策略。
它用于涉及所有自由度的全身視覺運(yùn)動(dòng)技能,以實(shí)現(xiàn)有效的羽毛球跟蹤和擊打。
該策略由一個(gè)利用真實(shí)世界相機(jī)數(shù)據(jù)的感知噪聲模型提供信息,從而確保仿真與部署之間感知誤差水平的一致性,并促進(jìn)學(xué)習(xí)主動(dòng)感知行為。
這為解決教師-學(xué)生訓(xùn)練的一個(gè)已知局限提供了方法:
即用完美感知訓(xùn)練出來的教師策略與用于部署的學(xué)生策略之間存在的信息差距。
在這樣的框架中,教師策略沒有動(dòng)力去學(xué)習(xí)主動(dòng)感知行為,因?yàn)樗呀?jīng)能夠獲得完美的觀測結(jié)果;學(xué)生策略則僅基于部分觀測和由本體感知和感知?dú)v史重構(gòu)的潛在向量來模仿這些行為。
因此,兩種策略都沒有發(fā)展出主動(dòng)感知行為,并且在用于控制的信息上出現(xiàn)了差異。
此外,該方法還包括一個(gè)羽毛球預(yù)測模型和用于魯棒運(yùn)動(dòng)控制的約束強(qiáng)化學(xué)習(xí),以增強(qiáng)部署準(zhǔn)備度。
與基準(zhǔn)相比,在沒有明確的視野范圍獎(jiǎng)勵(lì)的情況下,機(jī)器狗即可實(shí)現(xiàn)更低的感知誤差,和更高效的機(jī)械功率使用。
團(tuán)隊(duì)表示,當(dāng)前系統(tǒng)主要依賴一個(gè)商用立體相機(jī)上的擴(kuò)展卡爾曼濾波器(EKF)進(jìn)行羽毛球狀態(tài)估計(jì)。
該方法可以通過整合額外的傳感模態(tài)來改進(jìn),例如通過扭矩和聲音進(jìn)行沖擊檢測,或加入額外的 RGB(紅、綠、藍(lán))、深度或事件相機(jī),以增強(qiáng)機(jī)器人在更激烈的游戲場景中的物理交互響應(yīng)。
鑒于人類球員通常通過觀察對(duì)手動(dòng)作來預(yù)測羽毛球軌跡,人體姿態(tài)估計(jì)也可能是一種提高策略性能的有價(jià)值模態(tài)。
論文直通車:
https://www.science.org/doi/epdf/10.1126/scirobotics.adu3922
參考鏈接:
[1]https://x.com/rohanpaul_ai/status/1928125317228679615
[2]https://www.science.org/doi/10.1126/scirobotics.adu3922#sec-2
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.