聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
不用提前熟悉環境,一聲令下,就能讓宇樹機器人坐在椅子上、桌子上、箱子上!
還能直接解鎖 “跨過箱子”、“敲門” 等任務~
這是來自UC伯克利、卡內基梅隆大學等團隊的最新研究成果LeVERB框架——
基于模擬數據訓練實現零樣本部署,讓人形機器人通過感知新環境,理解語言指令就能直接完成全身動作。
傳統人形機器人要么 “能看懂指令卻動不了”(缺乏全身控制能力),要么 “只能機械執行動作卻讀不懂環境”(依賴人工預設動作庫)。
LeVERB首次打通了視覺語義理解與物理運動兩者之間的斷層,讓機器人能像人類一樣從“想”到“做”,自動感知環境,直接遵循指令完成動作。
上面展示的“坐下”動作就是通過“相機感知環境+'坐在[椅子/盒子/桌子]上'指令”完成的:
團隊還推出了配套基準:LeVERB-Bench。
這是首個面向人形機器人WBC(全身控制)的 “仿真到真實” 視覺-語言閉環基準,包含10類超150個任務。
團隊將該框架部署在宇樹G1機器人上進行基準測試,結果顯示:
在簡單視覺導航任務中零樣本成功率達80%,整體任務成功率58.5%,比樸素分層VLA(視覺-語言-動作)方案的性能強7.8倍。
目前,LeVERB-Bench數據集已在LeRobot格式中開源,項目的完整代碼也即將發布。
雙層系統實現從“想”到“做”的全身動作
多數視覺-語言-動作(VLA)模型在控制機器人時,依賴手工設計的底層動作 “詞匯”(如末端執行器姿勢、根部速度等)。
這使得它們只能處理準靜態任務,無法應對人形機器人全身控制(WBC)所需的靈活全身動作。
簡單來說,以前的機器人要么高層直接控制細節(就像大腦同時管走路和思考,效率低),要么底層不懂語義(就像四肢只聽簡單命令,復雜任務做不了)。
而人形機器人是高維非線性動態系統,需要高頻控制與低頻規劃結合,傳統方法缺乏對視覺和語言語義的有效整合。
于是,團隊提出將高層的視覺-語言指令壓縮映射為一個動作向量,也就是一個抽象指令,這種指令能夠被底層的動作模塊識別并執行。
在LeVERB框架中,這個抽象指令被稱為“潛在動作詞匯”。
LeVERB框架由分層雙系統組成,這兩層系統以“潛在動作詞匯”作為接口。
該方法的最終目標是使兩層的“潛在動作詞匯”保持一致,讓高層專注 “理解任務”,底層專注 “做好動作”,各取所長。
LeVERB框架
- 高層LeVERB-VL(想):一個基于Transformer的102.6M視覺語言主干,將語言指令和視覺上下文轉換為潛在動詞,運行頻率10Hz。
LeVERB-VL負責理解 “看到的東西” 和 “聽到的話”。比如看到 “去坐藍色椅子”,它會先分析 “藍色椅子在哪”“怎么過去”,但不直接控制動作細節,而是把想法轉化成一種 “抽象指令”。
它通過VLA先驗模塊、運動學編碼器、殘差潛在空間、運動學解碼器和判別器等組件,將視覺和語言輸入映射到平滑規則的潛在詞匯空間,為運動控制生成潛在動作計劃。
訓練時,通過軌跡重建、分布對齊和對抗分類三部分優化模型,同時采用數據混合策略增強數據多樣性,并對超參數進行精細設置,以實現對視覺 - 語言信息的高效處理和準確決策 。
- 底層LeVERB-A(做):一個基于Transformer的1.1M全身動作專家,利用強化學習訓練的WBC策略,接收高層的潛在動作指令,將潛在動詞解碼為動力學級的人形動作輸出,運行頻率50Hz。
這部分作用是將LeVERB-VL生成的潛在指令轉化為機器人可執行的動力學級動作。
訓練時,先通過近端策略優化算法訓練與視覺-語言無關的教師策略,再使用DAgger算法和Huber損失函數將教師策略的動作蒸餾到以潛在命令為條件的學生策略(即LeVERB-A)中。
運行時,LeVERB-A接收本體感受信息和潛在向量,采用Transformer架構輸出經重新參數化的扭矩級關節位置動作指令,并在機器人板載CPU上用C++實現實時推理,完成人形機器人的全身控制 。
LeVERB-Bench
無法衡量就無法展開下一步工作,團隊還專門提出了一個人形機器人視覺-語言全身控制(WBC)任務的配套基準LeVERB-Bench。
在人形機器人WBC領域,用于訓練VLA模型的演示數據稀缺。現有基準存在諸多問題,如僅關注locomotion、在狀態空間中無視覺、渲染不真實導致仿真與現實差距大等,無法滿足研究需求。
LeVERB-Bench在仿真中重放重定向的動作捕捉(MoCap)運動,收集逼真的軌跡數據。這種方式無需在數據收集時進行可靠的動態控制,運動學姿勢能提供任務級語義,還支持使用互聯網視頻等來源的重定向人形數據。
采用IsaacSim中的光線追蹤渲染技術,能更準確地模擬場景光照和陰影,減輕以往合成數據中因光照不真實導致的仿真與現實差距問題。
通過程序生成管道,對每個軌跡進行縮放和隨機化處理,隨機化場景背景、物體屬性、任務設置、相機視圖,并對部分演示進行鏡像,以確保數據的多樣性和語義豐富性。
手動或使用VLM為數據標注以自我為中心的文本命令。同時,利用VLM為僅包含運動的對標注文本指令,增加僅語言數據,擴大數據覆蓋范圍。
LeVERB-Bench包含多種任務類別,如導航(Navigation)、走向目標(Towards)、繞物體移動(Around)、移動(Locomotion)、坐下(Sitting)、伸手夠物(Reaching)等。
從視覺-語言任務和僅語言任務兩個維度進行分類,共涵蓋154個視覺-語言任務軌跡和460個僅語言任務軌跡,每個軌跡經過多次隨機化后生成大量演示數據。
通過154條軌跡,每條隨機化100次,生成了17.1小時的逼真運動軌跡數據。此外,還增加了2.7小時的僅語言數據,覆蓋500條不同軌跡,進一步豐富了數據集。
在評估時,會在20個隨機環境中進行,每個任務類別的場景紋理和物體屬性完全隨機化且在訓練數據中未出現過,同時對第三人稱相機角度進行局部隨機化,確保評估任務在視覺上未在訓練集中出現,以此檢驗模型的泛化能力。
實驗結果
團隊將LeVERB框架部署在Unitree G1機器人上,測試其在真實場景中的零樣本閉環控制能力,讓機器人執行如 “走向椅子坐下” 等任務。驗證了LeVERB從仿真到真實的遷移能力,證明該框架在實際應用中的可行性。
通過在LeVERB-Bench基準上評估,LeVERB框架表現出色,簡單視覺導航任務零樣本成功率達80%,整體任務成功率為58.5%,比樸素分層VLA方案高出7.8倍。這表明LeVERB能有效處理復雜視覺-語言任務,在不同場景下具備良好的泛化能力。
還對LeVERB框架的關鍵組件進行消融實驗,探究各組件對性能的影響,例如去掉判別器(ND)、運動學編碼器(NE)等組件進行測試。
去掉判別器(ND)會導致性能顯著下降,表明其在對齊潛在空間、增強模型泛化能力方面的重要性;去掉運動學編碼器(NE)也會使性能降低,證明運動學編碼器對補充運動細節信息的必要性。
團隊成員半數為華人
LeVERB團隊有半數成員是來自UC伯克利、卡內基梅隆大學(CMU)等的華人學者。
該項目的主要負責人薛浩儒碩士畢業于卡內基梅隆大學(CMU),現于UC伯克利攻讀博士學位。
他曾在MPC Lab、LeCAR 實驗室實驗室進行機器人研究,現在NVIDIA GEAR實驗室實習。
2021年至2024年,他領導了AI Racing Tech項目——一個價值數百萬美元的自動駕駛賽車研究項目。
該項目在F1級自動駕駛賽車上部署了真實世界的機器人學習,最高時速達到160英里。
AI Racing Tech在2022年的美國印第安納波利斯自動駕駛挑戰賽中奪得亞軍,在2023年奪得季軍。
另一位負責人廖啟源本科畢業于廣東工業大學機電工程專業,目前是UC伯克利機械工程專業的博士研究生。
他的研究方向專注于開發新型機器和驅動方式、結合學習和基于模型的方法、協同設計硬件、學習和控制。
目前,他在波士頓動力公司實習。
感興趣的朋友可以到原文中查看更多細節。
項目地址:https://ember-lab-berkeley.github.io/LeVERB-Website/
論文地址:https://arxiv.org/abs/2506.13751
參考鏈接:
https://x.com/HaoruXue/status/1937216452983160863
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.