“AI 的下半場是落地,而具身智能將是最佳載體”。
責編 | 夢依丹
出品 | CSDN(ID:CSDNnews)
Figure 自 2 月宣布與 OpenAI 結束合作轉而擁抱完全自主研發路線后,動作頻頻。
先是于 2 月下旬正式發布其傾力打造的機器人操作系統 Helix,該系統被視為 Figure 實現“真正自主”的關鍵基石。不僅如此,搭載該模型的 Figure 02 也已進駐物流工廠,承擔起快遞分揀的重任,顯示了其初步的商業化潛力。
緊接著,Figure 又于近日宣布,其工業機器人 Figure 02 通過純強化學習算法,成功實現了如人類般自然流暢的行走。
強化學習驅動:突破 Sim-to-Real 難題
Figure 02 機器人能夠像人類一樣自然流暢地行走,其背后關鍵驅動力是強化學習(Reinforcement Learning, RL)技術。與傳統的步態規劃方法不同,Figure 團隊并沒有采用預先編程的固定行走模式,而是選擇了端到端的神經網絡,通過強化學習讓機器人自主掌握行走的技巧。這種方法賦予了 Figure 02 更強的適應性和魯棒性,使其能夠在復雜多變的環境中穩定行走。
據 Figure 官網介紹,他們所采用的強化學習算法,旨在讓機器人能夠在不同的地形和負載條件下進行自適應行走。為了實現這一目標,工程師們構建了一個高度逼真的物理模擬環境,其中,數以千計的 Figure 02 機器人并聯運行,每個機器人都有其獨特的物理參數。通過模擬各種可能遇到的場景,機器人能夠學習如何精確控制自身的關節,以實現平衡和推進。
值得注意的是,Figure 02 的行走控制策略完全是通過強化學習訓練而成,沒有任何人為步態設計或示教。這意味著,機器人是從零開始,通過在模擬環境中不斷試錯,逐步掌握了行走的技巧。
Figure 團隊通過獎勵機器人模仿人類行走的參考軌跡,從而使其能夠學習到更接近人類的行走風格,例如腳后跟著地、腳尖離地和手臂擺動與腿部運動同步等特征的步態。此外,獎勵機制還優化了速度跟蹤、功耗以及對外部擾動和地形變化的魯棒性。
然而,僅僅在模擬環境中訓練是不夠的。如何將模擬環境中的學習成果成功遷移到真實的機器人身上,是一個巨大的挑戰,被稱為 “Sim-to-Real” 問題。為了克服這一難題,Figure 團隊采用了兩種關鍵策略:
域隨機化(Domain Randomization): 在模擬環境中,隨機化每個機器人的物理屬性,模擬各種可能出現的系統變化,使得訓練出的策略能夠適應真實世界中機器人之間的差異。
高頻扭矩反饋控制(kHz-rate Torque Feedback Control): 在真實機器人上運行策略時,使用高頻閉環扭矩控制來補償執行器建模中的誤差。
通過將域隨機化與高頻扭矩反饋控制相結合,Figure 成功地實現了零樣本遷移(Zero-Shot Transfer),即無需額外的微調,在模擬環境中訓練出的策略可以直接應用于真實的 Figure 02 機器人上。正如 Figure 官方所展示的,10 臺 Figure 02 機器人在沒有任何調整或修改的情況下,都能夠基于相同的強化學習神經網絡運行。
Figure 認為,這項技術為未來人形機器人在復雜環境中的應用奠定了堅實的基礎。通過強化學習,Figure 機器人能夠快速學習魯棒的本體感受運動策略,并實現快速的工程迭代周期。
該技術的關鍵要點可以總結為:
強化學習訓練:Figure 02 在高保真物理模擬環境中進行強化學習,通過試錯優化步態,使其更接近人類的行走方式。
模擬到現實的遷移(Sim-to-Real Transfer):通過域隨機化(domain randomization)和高頻率的扭矩反饋,使得在模擬中訓練的策略可以直接遷移到現實機器人,而無需額外調整。
人類風格步態優化:通過獎勵機制引導機器人學習符合人類步態特點的行走方式,如腳跟著地、腳趾離地、手臂擺動等。
穩定性與擴展性:策略能夠適應不同地形、外部干擾以及機器人個體差異,實現穩定、可擴展的人形機器人步行能力。
擺脫對 OpenAI 等外部技術的依賴,轉向自主研發,為機器人企業開辟了新路 徑。掌握核心技術,構建自主可控的軟件平臺,并結合硬件設計優勢,已成為人形機器人突圍的關鍵。
但要真正走向實用化,仍面臨諸多挑戰——如何增強感知能力?如何執行更復雜的任務?如何實現更自然的人機交互?此外,打造開放生態,匯聚全球開發者,共同推動創新,也是未來的重要方向。
想了解具身智能的最新進展、核心挑戰與未來趨勢?3 月 28 日 19:30,CSDN《萬有引力》特別邀請北郵人工智能學院副教授陳光(@愛可可-愛生活)、深智院副研究員夏軒、Roboraction.AI CEO 黃浴,在CSDN &《新程序員》執行總編、《萬有引力》主理人唐小引主持下,以“十問具身智能”為切入點,深度探討通用機器人的真正邊界!敬請期待!
https://www.figure.ai/news/reinforcement-learning-walking
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.