衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
來和機器狗一起運動不?你的羽毛球搭子來了!
無需人工協(xié)助,僅靠強化學習,機器狗子就學會了羽毛球哐哐對打,就像這樣——
在室外:
在室內(nèi):
都不在話下。
基于強化學習,研究人員開發(fā)了機器狗的全身視覺運動控制策略,同步控制腿部(18個自由度)移動,和手臂揮拍動作。
最終呈現(xiàn)出來的表現(xiàn)不賴,狗子最高揮拍速度達到12米/秒。
在與人類選手的協(xié)作比賽中,某一回合連續(xù)擊球10次,甚至涌現(xiàn)出如擊球后回位中心的類人行為。
該研究在各種環(huán)境中進行了大量實驗,驗證了四足機器人預測羽毛球軌跡、有效導航服務區(qū)域,以及對人類球員進行最精準打擊的能力。
證明了足式移動機器人在復雜和動態(tài)的體育場景中應用的可行性。
研究背后團隊來自蘇黎世聯(lián)邦理工學院。
相關(guān)論文剛剛發(fā)表在Science旗下子刊Science Robotics上。
羽毛球“大戰(zhàn)”中涌現(xiàn)出類人行為
學會打羽毛球的機器狗是什么配置?
公開數(shù)據(jù)如下:
主體由一個四足ANYmal-D底座和一個動態(tài)手臂DynaArm組成。
它配備了一個帶有全局快門的ZED X立體相機用于羽毛球感知。相機在坐標系中計算出的羽毛球位置,預測攔截位置,這個值和機器人本體感知觀測值一起被喂給強化學習策略。
然后生成關(guān)鍵指令,來控制四足底座。
此外,羽毛球拍相對于腕關(guān)節(jié)呈45°角定向。研究人員表示,根據(jù)早期對不同朝向的仿真測試,這被證明是最有效的配置。
如下圖所示,在部署過程中,狗子以400 Hz的頻率運行,同時機器人控制策略以100 Hz的速率更新觀測值并發(fā)送關(guān)節(jié)位置指令。
系統(tǒng)的感知包括羽毛球位置測量、狀態(tài)估計和軌跡預測,它在Jetson AGX Orin模塊上以60 Hz的頻率異步運行。
基于這個配置,狗子和人類業(yè)余羽毛球選手開打了。
整個過程中,雖然存在一些失誤,但狗子還是能夠根據(jù)不同的速度和落點的來球做出適當反應。
平均來說,感知模塊在對手機球后需要花費0.357秒來判斷攔截軌跡。通常,羽毛球會在0.654秒后達到四足底座上方1.25米然后被攔截。
記錄中,狗子從預測到擊球最快耗時0.367秒。
狗子和人類打得有來有回——沒錯,它能夠進行連續(xù)擊球。
在官方放出的視頻中,就有一次對打進行了10次連續(xù)擊球。
值得一提的是,狗子還涌現(xiàn)了類人行為——
每次擊球后,狗子會自動向球場中心移步。
類似于人類玩家每次擊球過后都會調(diào)整站位和站姿,為下一次擊球做好準備。
在給定真實感知(ground-truth perception)的情況下,研究人員評估了在指令揮拍時間到達攔截位置0.1米范圍內(nèi)(大約是球拍中心到邊緣的距離)的擊球百分比。
仿真結(jié)果表明,在發(fā)球區(qū),狗子攔截來球幾乎一攔一個準,失敗率可忽略不計。
不過,當狗子站在在發(fā)球區(qū)邊界,或者羽毛球直接落在狗子身后時,機器狗預測羽毛球軌跡并成功攔截就變成了一件很有挑戰(zhàn)性的任務。
因為當羽毛球從正上方或正后方接近狗子時,它必須直接向上俯仰。這對機器狗來說很有難度。
上圖中的折線統(tǒng)計圖B,繪制了執(zhí)行的EE速度和最大基座角速度相對于指令速度的曲線。
在執(zhí)行10m/s的揮拍速度時,狗子基本都能跟蹤指令速度;速度超過10m/s時,精度就會下降。
當命令他以19m/s揮拍時,機器狗出現(xiàn)了最高執(zhí)行速度,即12.06m/s。相比之下,業(yè)余羽毛球運動員可以達到20m/s至30m/s的揮拍速度。
如材料與方法部分所述,系統(tǒng)在接近其電流和關(guān)節(jié)速度極限的情況下運行以實現(xiàn)這些指令。此外,更高的指令速度導致基座角速度增加,表明基座姿態(tài)控制與操作器揮動之間存在耦合。
上圖中的C部分顯示了在擊球時間前后球拍與目標位置之間的距離,球拍在指令的擊球時刻精確到達其最近點。
在指令12m/s揮拍時,機器狗執(zhí)行的平均揮拍速度為10.8m/s,平均位置誤差為0.117米。
換句話說,當球拍以目標速度移動時,僅有0.0108秒的偏移。
此外,整個羽毛球大戰(zhàn)中,機器狗會自主學習動態(tài)調(diào)整相機姿態(tài),根據(jù)任務緊迫性動態(tài)調(diào)整步態(tài),包括短距離微調(diào)姿態(tài)、中距離不規(guī)則步態(tài)、長距離類疾馳(Galloping)步態(tài)等。
比如,它以快跑進行遠距離快速攔截,并在近距離回擊時穩(wěn)定,動態(tài)協(xié)調(diào)手臂和腿部。
一種基于強化學習的統(tǒng)一控制策略
打羽毛球的難點,就是需要運動員在步法和上肢運動之間進行復雜的相互協(xié)調(diào)作用。
對機器狗來說,這也是一項需要精確協(xié)調(diào)感知、移動和手臂揮動的任務。
更進一步來說,需要機器狗在動態(tài)環(huán)境中協(xié)調(diào)下肢與上肢之間的運動,并使肢體控制與感知對齊。
這對機器狗來說同樣不是一件簡單的事情。
一方面,當前控制器和硬件存在不足;另一方面,羽毛球?qū)Ω兄⒁苿雍筒僮髦g復雜的相互作用提出了極高的要求,需要平衡「快速響應的移動」與「精確的手臂運動」。
盡管在原理上,機器人擁有大量的自由度以實現(xiàn)靈活運動,但在實踐中,這很大程度上取決于控制算法。
在實際應用中,另一種大家熟知的球類——乒乓球,在精確性和策略方面的研究都更為廣泛,這類情況目前主要的解決辦法是使用帶有外部視覺系統(tǒng)的固定基座或龍門式操作器。
相比之下,本研究強調(diào)全身視覺運動技能,并僅依賴機載感知,整合了腿式移動和手臂揮動——這種方法更好地模擬了人類打羽毛球時候的方式。
研究團隊提出了一種基于強化學習的統(tǒng)一控制策略。
它用于涉及所有自由度的全身視覺運動技能,以實現(xiàn)有效的羽毛球跟蹤和擊打。
該策略由一個利用真實世界相機數(shù)據(jù)的感知噪聲模型提供信息,從而確保仿真與部署之間感知誤差水平的一致性,并促進學習主動感知行為。
這為解決教師-學生訓練的一個已知局限提供了方法:
即用完美感知訓練出來的教師策略與用于部署的學生策略之間存在的信息差距。
在這樣的框架中,教師策略沒有動力去學習主動感知行為,因為它已經(jīng)能夠獲得完美的觀測結(jié)果;學生策略則僅基于部分觀測和由本體感知和感知歷史重構(gòu)的潛在向量來模仿這些行為。
因此,兩種策略都沒有發(fā)展出主動感知行為,并且在用于控制的信息上出現(xiàn)了差異。
此外,該方法還包括一個羽毛球預測模型和用于魯棒運動控制的約束強化學習,以增強部署準備度。
與基準相比,在沒有明確的視野范圍獎勵的情況下,機器狗即可實現(xiàn)更低的感知誤差,和更高效的機械功率使用。
團隊表示,當前系統(tǒng)主要依賴一個商用立體相機上的擴展卡爾曼濾波器(EKF)進行羽毛球狀態(tài)估計。
該方法可以通過整合額外的傳感模態(tài)來改進,例如通過扭矩和聲音進行沖擊檢測,或加入額外的 RGB(紅、綠、藍)、深度或事件相機,以增強機器人在更激烈的游戲場景中的物理交互響應。
鑒于人類球員通常通過觀察對手動作來預測羽毛球軌跡,人體姿態(tài)估計也可能是一種提高策略性能的有價值模態(tài)。
論文直通車:
https://www.science.org/doi/epdf/10.1126/scirobotics.adu3922
參考鏈接:
[1]https://x.com/rohanpaul_ai/status/1928125317228679615
[2]https://www.science.org/doi/10.1126/scirobotics.adu3922#sec-2
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.