新智元報道
來源:學術頭條
【新智元導讀】具身智能最大的挑戰在于泛化能力,即在陌生環境中正確完成任務。最近,Physical Intelligence推出全新的π0.5 VLA模型,通過異構任務協同訓練實現了泛化,各種家務都能拿捏。
近年來,機器人取得了顯著進展,能表演雜技、跳舞、聽從指令,甚至完成疊衣服、擦桌子等復雜任務。但機器人面臨的最大挑戰并非靈活性,而是泛化能力——在新環境中正確完成任務的能力。
想象一個你家中的清潔機器人:每個家庭布局不同,物品擺放各異,機器人必須在多個層面上實現泛化。低層面上,它需學會如何抓起未曾見過的勺子或盤子;高層面上,它要理解任務語義,如衣服應放進洗衣籃、用何種工具擦拭溢出物。實現這種能力既依賴強大的操作技能,也需要常識理解,而現實中可用于訓練的數據又極其有限,這進一步增加了困難。
即使近年來的機器人在靈巧性方面有所突破,往往也是基于特定場景和相似數據訓練出來的。
因此,如果我們希望機器人成為我們日常生活的一部分,在我們的家中、雜貨店、辦公室、醫院和其他“雜亂”的環境中工作,機器人就必須具備更加強大的泛化能力。
今天,美國具身智能公司 Physical Intelligence 推出了一個基于 π0 的視覺-語言-動作(VLA)模型 π0.5,其利用異構任務的協同訓練來實現廣泛的泛化,可以在全新的家中執行各種任務。
實驗表明,這種知識遷移對于有效的泛化至關重要,而且他們首次證明,端到端學習型機器人系統可以在全新的家庭中執行長程靈巧操作技能,例如清潔廚房或臥室。
π0.5是如何工作的?
π0.5 背后的主要原理是異構數據的共同訓練:通過在各種不同的數據源上訓練 VLA 模型,不僅可以教它如何物理地執行不同的技能,還可以教它如何理解每項技能的語義背景,推斷任務的高級結構,甚至從其他機器人轉移物理行為。
協同訓練的概念很簡單:由于 VLA 源自通用的視覺語言模型(VLM),因此它們可以在包含動作、圖像、文本和其他多模態標注(例如邊界框)的任意組合的示例上進行訓練。這包括通用的多模態任務,如圖像字幕、視覺問答或物體檢測;面向機器人的任務,如帶有動作的機器人演示;以及“高級”機器人示例,這些示例由帶有適當語義行為標記的觀察結果組成。演示還包含“口頭指令”,即一個人通過自然語言一步步指導機器人完成一項復雜任務。該模型既可以對下一步要執行的語義步驟進行高級推理(類似于思路鏈推理),也可以進行低級預測,以向機器人的關節輸出運動指令。
圖|π0.5 的協同訓練任務示意圖,其中包括來自多種不同機器人類型的各種機器人數據源,以及包括高級子任務指令、指示和網絡數據在內的多模態數據。
雖然協同訓練的基本原理并非新事物,但訓練一個能夠廣泛泛化的 VLA 需要合理地組合協同訓練任務。VLA 需要由多種協同訓練任務組成的“課程”,以便在所有必要的抽象層次上實現泛化。在實驗中,他們訓練了 π0.5 模型的不同版本,這些版本排除了完整訓練混合的不同部分,只留下使用在實驗中使用的相同機器人收集的移動操作數據(約 400 小時)。
圖|評估完整的 π0.5 訓練混合與排除各種數據源的消減相比。網絡數據(WD)在泛化到分布外對象方面的差異最大,而來自其他機器人(ME 和 CE)的數據在所有評估條件下都很重要。
他們評估了兩種實驗條件:全面清潔任務;以及分布外泛化(OOD)評估,要求機器人將提示中指示的特定物體移入抽屜。對于這兩種評估,都測量了成功率和語言理解率。在所有情況下,來自其他機器人(ME 和 CE)的數據對策略性能產生了巨大影響。在 OOD 案例中,他們還發現與包含網絡數據(WD)的策略性能存在差異,這提高了機器人正確識別數據中未包含的新物體類別的能力。
為了更好地量化 π0.5 能夠實現的泛化程度,他們進行了一項擴展研究,其中改變了訓練數據中不同環境的數量。他們還在比較中加入了基線模型,該模型使用所有其他數據源的數據外,還直接使用來自測試環境的數據進行訓練。該模型(用水平綠線表示)可以直觀地了解,如果消除了泛化到新環境的挑戰,VLA 在該場景中的表現如何。
圖|評估在與訓練混合中的其他數據集共同訓練時,性能如何隨訓練環境的數量而變化。當使用所有可用的訓練環境時(圖中最右邊一點),π0.5(黃色)與直接在測試環境(綠色)中訓練的基線模型性能相似。
這些結果不僅表明,π0.5 的泛化性能會隨著訓練集中不同環境數量的增加而穩步提升,而且僅僅經過大約 100 個訓練環境,它的性能就接近了直接在測試環境中訓練的基線模型。
訓練和推理
π0.5 構建于 π0 VLA 基礎之上,經過聯合訓練,能同時輸出動作和文本標簽,因此可在高層和低層控制機器人。在運行時,它先生成一個文本形式的“高級”動作,再細化為一組連續的低級關節動作(每組稱為一個 50 步的“動作塊”)來執行該動作。
這一流程延續了他們此前的 Hi Robot 系統思路,不同之處在于 π0.5 將高級決策與低級控制統一由同一模型完成,類似于“思維鏈”模式。
模型本身包含離散自回歸 token 解碼和通過流匹配進行的連續解碼,例如 π0。離散解碼路徑用于推斷高級動作,而連續流匹配路徑用于推斷低級運動命令。
圖|π0.5 使用的高層/低層推理程序。該模型首先生成一個用語言表達的高級動作,基本上是“告訴自己”應該采取什么步驟來完成任務,然后利用其流程匹配動作專家來選擇運動指令。
如果換個房子試試呢?
他們通過讓 π0.5 控制機械手,在訓練數據中從未見過的新房屋中完成清潔任務,以評估其泛化能力。對 VLA 來說,這是極具挑戰的測試。盡管 VLA 曾展現出出色的泛化能力,如理解語義指令、與人互動、組合技能等,但這些能力多在與訓練環境相似的場景中實現。
此前,他們的 π0-FAST 雖能通過 DROID 系統推廣到新環境,但僅限于如移動物體等簡單任務。而此次實驗中,π0.5 被放入全新家庭,需完成收拾碗碟、整理床鋪、清潔地板等復雜任務。這些任務不僅耗時,還要求機器人執行如用海綿擦拭等復雜動作,理解任務語義,并將其拆解為多個環節,每步都需與正確的物體互動。
最后,π0.5 模型可以接受不同粒度的語言命令,從“把盤子放進水槽”這樣的高級提示,到指示模型拾取特定物體或朝特定方向移動的詳細單個命令。他們在下方視頻中展示了一些語言跟隨的示例。
下一步:更泛化的物理智能
這項工作表明,VLA 能夠實現出色的泛化能力,即便面對如清潔廚房或臥室這樣復雜且多變的機器人任務,也能有效應對。π0.5 能夠讓機器人完成在訓練數據中從未遇到過的新家庭環境的清潔任務。
盡管 π0.5 還不夠完美,常在高級語義推理和動作執行指令方面出現錯誤,但研究人員希望,通過讓機器人從多樣的知識來源中學習,π0.5 能夠幫助我們更接近實現廣泛泛化、靈活應變的物理智能。
目前,這些機器人可以通過語言反饋進行改進;未來,它們還可能借助自主經驗,在更少監督的情況下不斷優化,或在不熟悉的情境中主動請求幫助和建議。盡管如此,在知識遷移、模型構建技術,以及數據來源的多樣性等方面,仍有大量進步空間。
參考資料:
https://mp.weixin.qq.com/s/T3sufjvlfjW5oFtWhCf9-g
本文轉自學術頭條,若二次轉載請聯系原作者
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.