西風 發自 凹非寺
量子位 | 公眾號 QbitAI
波士頓動力帶機器人看世界,Altas重磅升級了!
現在,它具備3D空間感知實時物體追蹤能力,可以自主執行更復雜的工業任務。
請看Altas在汽車工廠打工VCR:
視頻鏈接:https://mp.weixin.qq.com/s/05nJ-EY5z4KVbdZxGr0s1w
小哥故意將汽車零部件丟在地上,只見它360°轉動頭部環顧四周,隨后成功識別并將其放入正確位置:
視頻鏈接:https://mp.weixin.qq.com/s/05nJ-EY5z4KVbdZxGr0s1w
(就是偷感好重,笑死)
故意移動裝置位置,它也能精準感知到變化
然后依舊穩穩地將零部件放入槽內:
頭部和腰部都可360°旋轉,干起活來那叫一個麻利:
據介紹,Altas的一系列功能升級源于波士頓動力團隊對Altas感知系統進行的全新設計,融合了2D與3D感知技術、物體位姿追蹤,以及基于物理特性的精確校準方案。
網友看到該新成果后紛紛叫好。光是官方在YouTube上發布的視頻就引來了十余萬人圍觀,點贊量近8k
網友紛紛表示Altas能夠觀察到物品掉落還會環顧四周觀察,這個能力非常炫酷。
還有網友表示迫不及待希望看到它們能夠在實際工作環境中投入使用。
除此之外,關于全新能力具體實現,官方發布了技術Blog。
背后技術解析
波士頓動力團隊表示,拿起一個汽車零件并將其放入正確的插槽,這一看似簡單的任務對于機器人來說實際上并不容易。
它需要將這個任務拆解為多個步驟,而每個步驟都需要關于環境的廣泛知識
Altas得先檢測并識別物體,工廠中許多零件有的是金屬材質的具有光澤感,有的對比度低顏色深暗,所以機器人攝像頭如何清晰區分就是一大挑戰。
然后,Altas需要推斷物體的位置進行抓取,它是在桌子上敞開放置,還是在視線受限的容器內?
拿起物體后,Altas還需要決定將其放置在何處以及如何送達該位置。
最后,Altas要精確放置物體,任何方向偏差幾厘米都可能導致物體卡住或掉落。
因此,它還要能在出現問題時采取糾正措施。
例如,若插入失敗,它可以利用基于工廠零件訓練的基礎視覺模型的通用性和其本身大活動范圍,搜索并從地面撿起掉落的零件。
下面具體來看波士頓動力是如何解決這些問題的。
2D感知:環境中有哪些物體?
首先機器人需要具備2D感知能力,確定周圍的環境是否存在障礙物、目標物體或地面風險。
波士頓動力透露其2D物體檢測系統主要通過物體標識、邊界框、關鍵點的形式,為機器人提供環境信息
比如在開頭所展示的Atlas存儲汽車零件的場景中,系統重點檢測存儲汽車零件的大型貨架這一固定裝置。
這些裝置形狀尺寸各異,Atlas需識別其類型并定位空間占位,以規避碰撞風險。除了檢測和識別所有固定裝置外,系統還將裝置邊角定義為關鍵點,通過匹配內部存儲的裝置模型,實現感知環境與虛擬模型的坐標對齊。
而這其中,固定裝置的關鍵點是2D像素點,分為兩種類型:
- 外部點(綠色):捕捉裝置外部輪廓,如貨架正面的四個邊角,用于快速定位裝置整體位置;
- 內部點(紅色):數量更多且形式多樣,捕捉特定固定裝置內貨架和小隔間的內部分布,從而實現對單個插槽的精確定位。
另外,為了執行固定裝置分類和關鍵點預測,Atlas使用了輕量級網絡架構,平衡了性能與實時感知能力,這對Atlas的敏捷性至關重要。
3D感知:物體相對于Atlas的位置在哪里?
接下來,Atlas若想精準操作固定裝置內的物體,必先明確自身與目標裝置的相對空間關系。
其核心依賴基于關鍵點的固定裝置定位模塊,該模塊可實時估算Atlas相對于周圍所有裝置的位置與朝向
定位系統接收來自物體檢測流程的內部、外部關鍵點,通過最小化重投影誤差將這些關鍵點與預設空間分布模型對齊。
系統還會接收運動里程計數據(用于測量Atlas的移動距離和方向),以便在統一坐標系中融合固定裝置的位姿估計,提升對關鍵點噪聲的魯棒性。
其中的一個關鍵挑戰是處理頻繁的遮擋和超出視野的關鍵點。例如,當Atlas靠近某個固定裝置或視角傾斜時,部分外部關鍵點可能不在視野內或者不可靠。
這時,定位系統轉而依賴固定裝置內部插槽分隔線的拐角關鍵點(與物體取放直接相關的區域)來解決這一問題。
但這又帶來了2D關鍵點與3D拐角的關聯挑戰,即圖像中的每個關鍵點對應哪個3D拐角?
Atlas首先通過外部關鍵點進行初步近似,從而對內部關鍵點的關聯做出初步猜測,然后結合內外部關鍵點生成更可靠的固定裝置及其所有插槽的位姿估計。
其次,部分固定裝置在視覺上完全相同,這種情況在工廠中非常常見,也給實際場景帶來了額外挑戰。
Atlas通過結合時間一致性和不同固定裝置間相對位置的先驗知識(例如,假設裝置A位于裝置B右側半米處)來解決這一問題。
所有這些特性共同構成了一個可靠且敏捷的固定裝置感知系統。
所以,當有人移動Atlas身后的固定裝置時,機器人會迅速識別預期位置與實際位置的差異,重新定位裝置,并相應地重新規劃行為。
物體位姿估計:Atlas如何與物體交互?
接下來再看看,Atlas是如何與物體交互的。
據介紹,Atlas物體操作能力依賴于準確、實時的以物體為中心的感知。其物體位姿跟蹤系統SuperTracker融合了多源信息,包括機器人運動學數據、視覺數據,必要時還包含力反饋數據。
具體來說,來自Atlas關節編碼器的運動學信息可幫助確定Atlas的抓手在空間中的位置。當Atlas識別出它已經抓取到一個物體時,這些信息為Atlas在移動身體時物體應該處于的位置提供了強有力的先驗知識。
通過融合運動數據,Atlas可以處理物體在視覺上被遮擋或不在攝像頭視野中的情況,并感知物體是否從抓手中滑落。
當物體處于攝像頭視野內時,Atlas使用一種“渲染-比較”方法來估計單目圖像中的位姿,背后是一個物體位姿估計模型
該模型通過大規模合成數據訓練而成,在給定CAD模型的情況下可對新物體進行零樣本泛化。當使用3D位姿先驗初始化時,模型會迭代地細化該先驗,以最小化渲染的CAD模型與捕獲的攝像頭圖像之間的差異。
此外,位姿估計器也可通過2D感興趣區域先驗(如物體掩碼)初始化,隨后生成一批位姿假設并輸入評分模型,最終對最優假設進行優化。
波士頓動力透露,Atlas的位姿估計器已在數百種工廠資產上通過了可靠驗證,這些資產均已在內部完成建模和紋理映射。
SuperTracker將視覺位姿估計作為3D先驗接收。在Atlas面臨的操作場景中,由于遮擋、部分可見性和光照變化,視覺位姿估計可能存在歧義。
為此,系統使用一系列濾波器驗證位姿估計:
- 自洽性:不依賴單一的位姿先驗,而是使用一批擾動初始值,并通過基于最大團的一致性算法驗證輸出,確保收斂到相同的預測位姿;
- 運動學一致性:作為強制接觸的代理,拒絕任何導致手指與物體距離異常過大的預測位姿。
運動學和攝像頭輸入通過固定滯后平滑器異步處理。該平滑器接收來自Atlas關節編碼器的高速率運動輸入歷史,以及機器學習模型的低速率視覺位姿估計,進而確定最優的6自由度物體軌跡。
校準:Atlas是否真的處于其“認為”的位置?
波士頓動力團隊還強調,在執行精確操作任務時,不能低估經過良好校準的手眼協調的重要性,即Atlas的“視覺感知”與“動作執行”之間精確可靠的映射關系。
上圖顯示了Atlas的機身內部模型疊加在實時攝像頭畫面上的效果,其手臂、腿部和軀干與機器人“認知”中的位置幾乎完全對齊。
而這背后是一套精心設計的攝像頭和運動校準程序,用于補償機器人機身制造和組裝中的不精確性,以及因溫度變化或反復物理沖擊等外部因素導致的隨時間產生的物理變化。
波士頓動力團隊表示,根據他們的經驗,“精確的手眼校準是實現高性能操作和感知驅動自主能力的關鍵前提”。
One More Thing
團隊還透露了未來計劃——正專注于為Atlas構建統一的基礎模型
未來的發展將超越傳統感知范疇,推動感知與動作從分離過程向融合過程轉變,實現從空間人工智能到“運動智能”的范式升級。
[1]https://bostondynamics.com/blog/making-atlas-see-the-world/
[2]https://www.youtube.com/watch?v=oe1dke3Cf7I
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.