近期,“美國版宇樹”Figure AI 與寶馬的合作關系受到質疑,有報道稱其進展不及預期,對此 Figure AI 曾強烈否認,Adcock 甚至公開威脅要起訴相關媒體。
然而,公司聯合創始人兼首席執行官Brett Adcock在6日的彭博科技大會上的表現,與其競爭對手形成了鮮明對比。當Agility Robotics和Boston Dynamics都在現場展示其機器人產品時,Figure AI卻選擇了缺席。
面對記者關于為何不進行現場演示的追問,Adcock給出的理由顯得頗為牽強:
"我們的理念是不參加很多活動,我認為這是巨大的時間浪費。坦率地說,我必須帶一個團隊來這里展示機器人,他們本可以在辦公室工作。"
Adcock補充稱,公司正通過視頻展示機器人。
6月8日,Figure AI的回應視頻來了。公司發布了Helix機器人60分鐘無剪輯物流分揀視頻,聲稱僅僅三個月的物流環境部署后,Helix的操作速度和靈活性已開始接近人類水平。
Figure機器人:三個月內逼近人類?
Figure稱,公司研發的 Helix 機器人在人形機器人領域展現出多項令人印象深刻的亮點,特別是在物流和操作任務方面取得了顯著進步。
Helix的平均包裹處理速度從5.0秒提升至4.05秒,效率提升近20%,同時還能處理可變形塑料袋和扁平信封等復雜包裹類型,非常接近人類操作員的效率。更令人震撼的是條形碼掃描成功率從70%飆升至95%——這意味著機器人不僅更快,還更精準。
當Helix遇到褶皺的塑料包裝袋時,它會先輕拍平整表面,確保條形碼完整讀取。這都是通過端到端學習直接從數據中學習到的,無需顯式編程。
Figure:Helix擁有先進的感知和控制架構
Figure表示,工程師為Helix植入了三大關鍵模塊,讓其具備了短期記憶、運動歷史感知和力反饋能力:
- 視覺記憶:引入短期視覺記憶模塊,使機器人能夠記住過去的視覺信息,從而進行更智能的多步操作,消除冗余動作,提高任務成功率。
- 狀態歷史:通過整合機器人近期狀態的歷史數據,實現了更快速、更靈敏的控制,讓機器人在操作過程中保持連貫性,并能及時應對突發狀況。
- 力反饋:整合了觸覺感知能力,機器人能夠感知與物體和環境的接觸,從而實現更精確的抓取和操作,提高了系統對物體差異的穩健性。
Figure的受控實驗顯示,Helix訓練數據從10小時增加到60小時,處理時間從6.34秒降至4.31秒,掃描成功率從88.2%升至94.4%。表明其基于學習的方法具有強大的可擴展性。
公司表示,Helix正在穩步縮小學習型機器人與真實世界任務需求之間的差距。一個由人形機器人在速度、效率和靈活性上與人類并肩工作的未來不再是科幻,而是即將到來的現實。
以下為Figure AI官網原文:
《擴展 Helix:人形物流領域的新突破》
2025年06月07日
自我們首次將 Helix 系統部署在物流環境中僅僅三個月,該系統的功能和性能就取得了飛躍性進步。Helix 系統如今能夠處理更廣泛多樣的包裝類型,并且正逐漸接近人類水平的靈巧度和速度,使我們離實現完全自主的包裹分揀又近了一步。這一快速進展凸顯了 Helix 系統基于學習的機器人方法的可擴展性,能夠迅速轉化為實際應用中的成效。
新型包裹類型——Helix 系統如今能夠像處理硬質紙箱一樣可靠地操縱可變形的聚乙烯袋和扁平信封,針對每種形態因素調整其抓取方式和策略,動態地處理各類物體。
更高的處理速度——盡管處理的包裹類型變得更加復雜多樣,執行速度也提升至每個包裹4.05秒(從約5.0秒降低),實現了約20%的處理速度提升,同時保持了準確性。
更高的條形碼掃描成功率——如今,運輸標簽的朝向在約95%的情況下都能正確地面向掃描儀(從約70%提升),這得益于更好的視覺和控制能力。
自適應行為——機器人展現出了從演示中學習到的細微行為,例如輕拍塑料信封以撫平褶皺,從而提高條形碼的讀取率。
小型包裹物流,如這里所示的例子,是人工智能學習的理想環境,因為每個時間步的包裹和場景都在不斷變化,這使其非常適合神經網絡。
這些改進是通過數據擴展和模型架構改進實現的:
時間記憶——一個新的視覺記憶模塊賦予了 Helix 系統有狀態的感知能力。如今的策略還結合了過去狀態的歷史記錄,能夠實現時間上延伸的行為,并提高了對中斷的魯棒性。
力反饋——力感應被整合到狀態輸入中,提供了一種觸覺代理,從而實現了更精確的抓取和包裹操縱。
在這里,我們分析了這些提升的來源,考察了增加演示訓練數據(從10小時增加到60小時)如何影響性能,以及上述每項架構增強如何有助于 Helix 系統在包裹處理的速度和準確性方面取得進步。
擴展包裹種類和自適應行為
Helix 系統的物流策略已經擴展到能夠處理更廣泛多樣的包裹。除了標準的硬質紙箱,該系統如今還能管理聚乙烯袋(聚乙烯袋)、加襯信封以及其他可變形或薄型包裹,這些包裹帶來了獨特的挑戰。這些物品可能會折疊、起皺或彎曲,使得抓取和定位標簽變得更加困難。Helix 系統通過實時調整其抓取策略來解決這一問題——例如,通過快速甩動軟袋使其動態翻轉,或者使用捏握方式處理扁平郵件。盡管形狀和質地的多樣性增加,Helix 系統卻提高了其吞吐量,平均每個包裹的處理時間約為4.05秒,沒有出現瓶頸。
該物流任務的目標是將包裹旋轉,使條形碼朝下以便掃描。一個值得注意的行為是 Helix 系統在嘗試掃描之前傾向于拍平塑料包裝。如果運輸標簽位于彎曲或起皺的表面(常見于填充松散的聚乙烯袋或起泡信封),策略會通過短暫按壓和平整表面來做出反應。這種微妙的“平整”動作是從演示中學習而來的,確保條形碼能夠完全被掃描儀讀取。這種自適應行為突出了端到端學習的優勢——機器人從未明確硬編碼的演示策略中學習,直接從數據中學習,以克服現實世界中包裝的不完美之處。
至關重要的是,這些新能力并沒有降低效率。吞吐量隨著多功能性一起增加。Helix 系統每個包裹的平均處理時間從大約5.0秒(在簡化的一組包裹上)降低到了4.31秒,即使隨著新包裹類型的出現,任務變得更加困難。這種速度提升使性能更接近人類操作員的速度。同樣,條形碼方向的成功率也上升到了約95%。這些改進共同表明了一個更加靈巧且可靠的系統,能夠在廣泛的現實世界包裹范圍內接近人類水平的速度和準確性。
Helix 系統視覺-運動策略的架構改進
上述許多提升都是通過針對 Helix 系統1視覺-運動策略的改進實現的。在過去的兩個月里,我們引入了新的記憶和感知模塊,使控制策略更加具有情境感知能力和魯棒性。這些增強功能使 Helix 系統能夠更好地感知世界的狀態,并感受其正在做的事情,補充了最初部署時建立的視覺和控制基礎。在這里,我們詳細說明每一項改進以及它如何有助于 Helix 系統的物流性能。
視覺記憶
Helix 系統的策略如今維護著其環境的短期視覺記憶,而不僅僅是基于即時的相機幀進行操作。具體來說,該模型配備了一個模塊,該模塊從最近的一系列視頻幀中組合特征,為其提供了一個時間上延伸的場景視圖。這種隱式的視覺記憶使得有狀態的行為成為可能:機器人可以記住它已經檢查過包裹的哪一面,或者傳送帶的哪些區域是空閑的。例如,如果初始相機視圖沒有完全揭示標簽,Helix 系統可以回憶起之前的部分瞥見,并決定將包裹旋轉到記得標簽可見的角度。因此,記憶模塊有助于消除冗余動作(機器人不會“忘記”并重新檢查同一側兩次),并通過確保考慮了物品的所有必要視圖來提高成功率。本質上,視覺記憶賦予了 Helix 系統一種時間上的上下文感,使其能夠在多步驟操作中更具戰略性地行動。這正是將條形碼方向成功率提升至95%的關鍵——如今的策略可以可靠地執行多步驟操作(例如多次小旋轉或視角調整),以找到條形碼,由視覺回憶引導,而不是依賴于一次幸運的瞥見。
狀態歷史
我們還將 Helix 系統的本體感知輸入與近期狀態的歷史記錄相結合,從而實現了更快、更具反應性的控制。最初,策略是以固定時長的動作塊進行操作的:它會觀察當前狀態并輸出一系列運動軌跡,然后重新觀察,如此循環。通過將過去機器人的狀態(手、軀干和頭部位置)的窗口納入策略的輸入中,系統在這些動作塊之間保持了連續性。重要的是,狀態歷史保留了上下文,因此即使重新規劃的頻率更高,策略也不會丟失其正在進行的操作或使操縱變得不穩定。最終結果是對意外或干擾的更快響應:如果包裹移動了或者嘗試抓取沒有完美落地,Helix 系統可以在運動中途進行糾正,且幾乎沒有延遲。這一增強功能對每個包裹的處理時間的減少做出了顯著貢獻。
力反饋
為了賦予 Helix 系統基本的觸覺,我們將力反饋整合到了策略的輸入觀察中。Helix 系統對環境和它操縱的物體所施加的力現在成為了輸入神經網絡的狀態的一部分。這些信息使策略能夠檢測接觸事件并相應地進行調整。例如,當 Helix 系統伸手去拿一個包裹時,它能夠感知到第一次接觸到物體的時候,或者當一個包裹被按壓在表面上時。它學會了利用這些線索來調節運動:例如,在檢測到與傳送帶接觸時暫停向下的運動。通過與觸覺形成閉環,Helix 系統實現了更精確的處理,最終提高了動作的成功率和一致性,使系統對物體的重量、硬度和放置位置的變化更具魯棒性。
結果與討論
為了量化這些改進的影響,我們在不同的訓練數據制度和模型配置下對 Helix 系統的物流性能進行了受控評估。我們測量了兩個關鍵指標:包裹處理速度(每個包裹的平均秒數,越低越好)和條形碼掃描成功率(正確朝向掃描儀的包裹百分比,越高越好)。以下結果分解了額外的訓練數據和新的架構特性對 Helix 系統整體性能提升的各自貢獻。
擴展訓練數據
首先,我們考察了擴展人類演示數據量對 Helix 系統熟練度的影響。我們將訓練數據量約為10小時、20小時、40小時和60小時的演示軌跡的模型進行了比較(網絡架構和超參數相同)。如下面的圖1所示,增加訓練數據在吞吐量和準確性方面都帶來了明顯的改進。
圖1:訓練數據量對包裹處理性能的影響。更多的演示數據帶來了更快的平均處理速度(每個包裹的秒數,越低越好)和更高的條形碼掃描成功率。下面的所有模型都是相同的,都使用了帶有記憶和反饋模塊的最新 Helix 系統1架構。
從10小時增加到60小時的訓練演示,Helix每個包裹的平均處理時間從約6.84秒降低到了4.31秒,吞吐量提高了58%,條形碼成功率從88.2%上升到了94.4%。這些回報表明,我們仍然處于低數據階段,因為隨著數據量的增加,模型性能仍在穩步提升。
記憶和反饋模塊的貢獻
接下來,我們評估最近的架構增強——視覺記憶、狀態歷史和力反饋——對性能的貢獻。我們進行了消融研究,比較了帶有這些模塊啟用或禁用的Helix模型的不同變體。在這個比較中,所有模型都是在相同的60小時數據集上訓練的,因此任何指標上的差異都反映了這些新功能的有無。圖2總結了這次消融研究的結果,列出了處理速度和成功率。
圖2:添加視覺記憶、狀態歷史和力反饋的性能影響。每一行展示了一個Helix策略的變體(在60小時數據上訓練),啟用了某些模塊。完整模型(最后一行)包含了所有增強功能。我們報告了每個變體的平均處理時間(秒/包裹)和條形碼成功率。
在圖2中,我們展示了每個模塊如何消除特定的瓶頸。單目基線缺乏深度和時間上下文,抓取位置不準確,而且由于無法判斷停留在某個狀態的時間,常常會長時間暫停。增加立體視覺解決了深度問題——抓取更加干凈利落,吞吐量也有所提高——但長時間暫停的問題仍然存在。解決暫停問題的一個方法是增加動作塊的長度,但這會以降低反應時間為代價。相反,引入視覺記憶可以讓策略回憶起袋子是否已經被翻轉,或者標簽是否曾經可見,消除了冗余的重新定向,并從循環中再削減了半秒。當加入狀態歷史和力反饋時,機器人獲得了時間流逝和觸覺的感知:它不再停滯不前,更好地調節對硬紙箱的抓取力,并更好地控制對周圍施加的力以避免失去平衡,使首次條形碼掃描成功率提升至94%。最后,通過將網絡的Transformer解碼器頭參數數量增加50%來擴展網絡,利用這些更豐富的輸入,將平均處理時間降低到4.05秒,同時保持準確率在92%以上。
視覺條件反射:人機交接
盡管Helix在物流場景中的主要目標是自主分揀,但相同的端到端模型可以輕松適應新的交互。一個例子是通過視覺條件反射實現的人機交接行為。我們僅提供了一些額外的演示片段,其中一個人等待包裹交接(這些片段是在主要數據收集過程中隨機收集的),從而讓策略將人伸出的手解釋為交接物品的信號。沒有明確編程新的技能;網絡只是學會了,在有人伸手的情況下,合適的動作是將包裹交給對方而不是放在傳送帶上。這種行為使用了與其他所有動作相同的神經策略和權重——差異純粹來自Helix對人的觀察以及它從那些額外示例中學到的上下文。
結論
我們展示了如何通過擴展高質量的演示數據集,并結合視覺記憶、狀態歷史和力反饋等架構改進,顯著提升了Helix在現實世界物流中的性能。結果是一個通用的視覺-運動策略,能夠以接近人類水平的速度和高可靠性處理各種包裹——與兩個月前的初始能力相比,這是一個顯著的進步。這些改進不僅解決了包裹處理中的即時挑戰,還為Helix的控制系統帶來了普遍的好處,這些好處可以延續到其他用例中。通過啟用有狀態的感知和力感應,我們在不犧牲效率的情況下,使策略更加穩健和靈活。至關重要的是,策略既從數據擴展中受益,也從架構改進中受益,僅靠其中任何一項都無法推動策略性能的提升。
Helix正在穩步提升其靈巧性和穩健性,縮小了學習型機器人操作與現實任務需求之間的差距。正在進行的工作將繼續擴大其技能集,并確保在更高的速度和工作負載下保持穩定。。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.