網易首頁 > 網易號 > 正文申請入駐

機器人首次打通視覺感知與運動斷層，華人博士讓宇樹G1現場演示

宇樹機器人G1笨笨同學向大家問好

2025-06-25 14:44:08　來源: 量子位

日本,東京都舉報

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

不用提前熟悉環境，一聲令下，就能讓宇樹機器人坐在椅子上、桌子上、箱子上！

還能直接解鎖 “跨過箱子”、“敲門” 等任務~

這是來自UC伯克利、卡內基梅隆大學等團隊的最新研究成果LeVERB框架——

基于模擬數據訓練實現零樣本部署，讓人形機器人通過感知新環境，理解語言指令就能直接完成全身動作。

傳統人形機器人要么 “能看懂指令卻動不了”（缺乏全身控制能力），要么 “只能機械執行動作卻讀不懂環境”（依賴人工預設動作庫）。

LeVERB首次打通了視覺語義理解與物理運動兩者之間的斷層，讓機器人能像人類一樣從“想”到“做”，自動感知環境，直接遵循指令完成動作。

上面展示的“坐下”動作就是通過“相機感知環境+'坐在[椅子/盒子/桌子]上'指令”完成的：

團隊還推出了配套基準：LeVERB-Bench。

這是首個面向人形機器人WBC（全身控制）的 “仿真到真實” 視覺-語言閉環基準，包含10類超150個任務。

團隊將該框架部署在宇樹G1機器人上進行基準測試，結果顯示：

在簡單視覺導航任務中零樣本成功率達80%，整體任務成功率58.5%，比樸素分層VLA（視覺-語言-動作）方案的性能強7.8倍。

目前，LeVERB-Bench數據集已在LeRobot格式中開源，項目的完整代碼也即將發布。

雙層系統實現從“想”到“做”的全身動作

多數視覺-語言-動作（VLA）模型在控制機器人時，依賴手工設計的底層動作 “詞匯”（如末端執行器姿勢、根部速度等）。

這使得它們只能處理準靜態任務，無法應對人形機器人全身控制（WBC）所需的靈活全身動作。

簡單來說，以前的機器人要么高層直接控制細節（就像大腦同時管走路和思考，效率低），要么底層不懂語義（就像四肢只聽簡單命令，復雜任務做不了）。

而人形機器人是高維非線性動態系統，需要高頻控制與低頻規劃結合，傳統方法缺乏對視覺和語言語義的有效整合。

于是，團隊提出將高層的視覺-語言指令壓縮映射為一個動作向量，也就是一個抽象指令，這種指令能夠被底層的動作模塊識別并執行。

在LeVERB框架中，這個抽象指令被稱為“潛在動作詞匯”。

LeVERB框架由分層雙系統組成，這兩層系統以“潛在動作詞匯”作為接口。

該方法的最終目標是使兩層的“潛在動作詞匯”保持一致，讓高層專注 “理解任務”，底層專注 “做好動作”，各取所長。

LeVERB框架

高層LeVERB-VL（想）：一個基于Transformer的102.6M視覺語言主干，將語言指令和視覺上下文轉換為潛在動詞，運行頻率10Hz。

LeVERB-VL負責理解 “看到的東西” 和 “聽到的話”。比如看到 “去坐藍色椅子”，它會先分析 “藍色椅子在哪”“怎么過去”，但不直接控制動作細節，而是把想法轉化成一種 “抽象指令”。

它通過VLA先驗模塊、運動學編碼器、殘差潛在空間、運動學解碼器和判別器等組件，將視覺和語言輸入映射到平滑規則的潛在詞匯空間，為運動控制生成潛在動作計劃。

訓練時，通過軌跡重建、分布對齊和對抗分類三部分優化模型，同時采用數據混合策略增強數據多樣性，并對超參數進行精細設置，以實現對視覺 - 語言信息的高效處理和準確決策。

底層LeVERB-A（做）：一個基于Transformer的1.1M全身動作專家，利用強化學習訓練的WBC策略，接收高層的潛在動作指令，將潛在動詞解碼為動力學級的人形動作輸出，運行頻率50Hz。

這部分作用是將LeVERB-VL生成的潛在指令轉化為機器人可執行的動力學級動作。

訓練時，先通過近端策略優化算法訓練與視覺-語言無關的教師策略，再使用DAgger算法和Huber損失函數將教師策略的動作蒸餾到以潛在命令為條件的學生策略（即LeVERB-A）中。

運行時，LeVERB-A接收本體感受信息和潛在向量，采用Transformer架構輸出經重新參數化的扭矩級關節位置動作指令，并在機器人板載CPU上用C++實現實時推理，完成人形機器人的全身控制。

LeVERB-Bench

無法衡量就無法展開下一步工作，團隊還專門提出了一個人形機器人視覺-語言全身控制（WBC）任務的配套基準LeVERB-Bench。

在人形機器人WBC領域，用于訓練VLA模型的演示數據稀缺。現有基準存在諸多問題，如僅關注locomotion、在狀態空間中無視覺、渲染不真實導致仿真與現實差距大等，無法滿足研究需求。

LeVERB-Bench在仿真中重放重定向的動作捕捉（MoCap）運動，收集逼真的軌跡數據。這種方式無需在數據收集時進行可靠的動態控制，運動學姿勢能提供任務級語義，還支持使用互聯網視頻等來源的重定向人形數據。

采用IsaacSim中的光線追蹤渲染技術，能更準確地模擬場景光照和陰影，減輕以往合成數據中因光照不真實導致的仿真與現實差距問題。

通過程序生成管道，對每個軌跡進行縮放和隨機化處理，隨機化場景背景、物體屬性、任務設置、相機視圖，并對部分演示進行鏡像，以確保數據的多樣性和語義豐富性。

手動或使用VLM為數據標注以自我為中心的文本命令。同時，利用VLM為僅包含運動的對標注文本指令，增加僅語言數據，擴大數據覆蓋范圍。

LeVERB-Bench包含多種任務類別，如導航（Navigation）、走向目標（Towards）、繞物體移動（Around）、移動（Locomotion）、坐下（Sitting）、伸手夠物（Reaching）等。

從視覺-語言任務和僅語言任務兩個維度進行分類，共涵蓋154個視覺-語言任務軌跡和460個僅語言任務軌跡，每個軌跡經過多次隨機化后生成大量演示數據。

通過154條軌跡，每條隨機化100次，生成了17.1小時的逼真運動軌跡數據。此外，還增加了2.7小時的僅語言數據，覆蓋500條不同軌跡，進一步豐富了數據集。

在評估時，會在20個隨機環境中進行，每個任務類別的場景紋理和物體屬性完全隨機化且在訓練數據中未出現過，同時對第三人稱相機角度進行局部隨機化，確保評估任務在視覺上未在訓練集中出現，以此檢驗模型的泛化能力。

實驗結果

團隊將LeVERB框架部署在Unitree G1機器人上，測試其在真實場景中的零樣本閉環控制能力，讓機器人執行如 “走向椅子坐下” 等任務。驗證了LeVERB從仿真到真實的遷移能力，證明該框架在實際應用中的可行性。

通過在LeVERB-Bench基準上評估，LeVERB框架表現出色，簡單視覺導航任務零樣本成功率達80%，整體任務成功率為58.5%，比樸素分層VLA方案高出7.8倍。這表明LeVERB能有效處理復雜視覺-語言任務，在不同場景下具備良好的泛化能力。

還對LeVERB框架的關鍵組件進行消融實驗，探究各組件對性能的影響，例如去掉判別器（ND）、運動學編碼器（NE）等組件進行測試。

去掉判別器（ND）會導致性能顯著下降，表明其在對齊潛在空間、增強模型泛化能力方面的重要性；去掉運動學編碼器（NE）也會使性能降低，證明運動學編碼器對補充運動細節信息的必要性。

團隊成員半數為華人

LeVERB團隊有半數成員是來自UC伯克利、卡內基梅隆大學（CMU）等的華人學者。

該項目的主要負責人薛浩儒碩士畢業于卡內基梅隆大學（CMU），現于UC伯克利攻讀博士學位。

他曾在MPC Lab、LeCAR 實驗室實驗室進行機器人研究，現在NVIDIA GEAR實驗室實習。

2021年至2024年，他領導了AI Racing Tech項目——一個價值數百萬美元的自動駕駛賽車研究項目。

該項目在F1級自動駕駛賽車上部署了真實世界的機器人學習，最高時速達到160英里。

AI Racing Tech在2022年的美國印第安納波利斯自動駕駛挑戰賽中奪得亞軍，在2023年奪得季軍。

另一位負責人廖啟源本科畢業于廣東工業大學機電工程專業，目前是UC伯克利機械工程專業的博士研究生。

他的研究方向專注于開發新型機器和驅動方式、結合學習和基于模型的方法、協同設計硬件、學習和控制。

目前，他在波士頓動力公司實習。

感興趣的朋友可以到原文中查看更多細節。

項目地址：https://ember-lab-berkeley.github.io/LeVERB-Website/
論文地址：https://arxiv.org/abs/2506.13751

參考鏈接：
https://x.com/HaoruXue/status/1937216452983160863

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛學會歧視的AI，就開始PUA我了

新周刊 2025-03-19 09:04:03
1 跟貼 1
機器人頂會RSS 2025獎項！大牛Pieter Abbeel領銜研究杰出Demo獎

機器之心Pro 2025-06-25 16:09:29
0 跟貼 0

我在哪？要去哪？字節跳動Astra雙模型架構助力機器人自由導航

機器之心Pro 2025-06-23 17:44:23
0 跟貼 0

人形機器人折算替代的人力成本回報周期可達一年

財聯社 2025-05-17 21:07:45
0 跟貼 0
國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
1019 跟貼 1019

宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
0 跟貼 0
波士頓動力電動Atlas機器人進廠打工！「汽車組裝首秀」，當實驗室的科幻狂想照進現實流水線！

新智元 2025-06-01 01:36:14
513 跟貼 513

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
傅里葉人形機器人在商湯技術交流日展區展示實時視覺能力

智東西 2025-04-11 14:25:09
0 跟貼 0
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0
王杰高：從投資視角看人形機器人三大潛力方向

財聯社 2025-05-18 21:21:16
0 跟貼 0
“沒有機器人出生就會奔跑” 在磕磕絆絆中看見未來的影子

每日經濟新聞 2025-04-19 23:08:42
0 跟貼 0
谷歌首個！機器人有了“離線大腦”，沒網也能干活

機器之心Pro 2025-06-25 19:36:06
0 跟貼 0
不止會跳舞，還會做家務，掃地、做飯、關窗簾？擎天柱機器人又進化了

新智元 2025-06-01 01:36:14
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
北京人形機器人天團來了！

智東西 2025-02-19 16:29:42
0 跟貼 0
會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0
手術刀尖的“AI革命”，當機器人與人類共同握住生命的脈搏

每日經濟新聞 2025-04-18 18:13:14
0 跟貼 0
最低調的機器人天團，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
ET-SEED：提升機器人操作泛化能力的

機器之心Pro 2025-03-06 16:15:18
0 跟貼 0
對話智識神工楚慶：AI必須創造新生產力，否則就是一場昂貴的幻覺

通信世界 2025-06-25 20:14:37
0 跟貼 0
頂流機器人天團匯聚無錫，上演十八般武藝

財聯社 2025-04-25 11:58:56
0 跟貼 0
淘天聯合愛橙開源強化學習訓練框架,支持十億到千億參數大模型

機器之心Pro 2025-06-25 14:12:44
0 跟貼 0
你給豆包打的這通視頻背后，藏著AI實時交互的體驗密碼

智東西 2025-06-25 20:04:47
0 跟貼 0
沒有智能全是人工162億美元估值印度AI獨角獸暴雷

財聯社 2025-05-30 17:15:00
0 跟貼 0
具身智能的終極命題：是造「人」還是造「生產力」？

機器之心Pro 2025-06-25 14:46:02
1 跟貼 1
天府絳溪實驗室交互人形機器人前沿研究中心成立

每日經濟新聞 2025-06-23 11:19:07
1 跟貼 1
對話梅卡曼德機器人邵天蘭：沖向具身智能終局的路上，我們先上桌了｜牛白丁

鈦媒體APP 2025-06-25 18:28:58
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
每經專訪360集團創始人、董事長兼CEO周鴻祎：智能體賦予大模型“手和腳”，依靠“類人”數字員工，個人創業者能成超級個體

每日經濟新聞 2025-06-25 19:54:22
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
家政機器人上線，陌生環境秒懂指令，網友：哪里賣？

機器之心Pro 2025-05-06 18:16:58
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0

量子位

追蹤人工智能動態

10732文章數 176172關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戲

健康

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

機器人首次打通視覺感知與運動斷層，華人博士讓宇樹G1現場演示

宇樹機器人G1笨笨同學向大家問好

雙層系統實現從“想”到“做”的全身動作

LeVERB框架

LeVERB-Bench

實驗結果

團隊成員半數為華人

小米YU7已下線500輛展車 26日前運往全國

與汪峰節目牽手引猜測 寧靜談擇偶標準：他不是我的菜

與汪峰節目牽手引猜測 寧靜談擇偶標準：他不是我的菜

山西太原大媽，在NBA闖出一片天

向佐接機郭碧婷，全程無交流像陌生人

免除蘇寧易購5億債務的神秘人是誰？

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

《死亡擱淺2》引擎封神？玩家盛贊開放世界表現！

呼吸科專家破解呼吸道九大謠言！

木質簡約 空間極致利用

與汪峰節目牽手引猜測寧靜談擇偶標準：他不是我的菜

與汪峰節目牽手引猜測寧靜談擇偶標準：他不是我的菜

售14.99萬/限量200臺別克昂科威S新增丹霞紅內飾

木質簡約空間極致利用