網易首頁 > 網易號 > 正文申請入駐

頂級大牛Pieter Abbeel：如何解決人形機器人的「數據困境」？

2025-04-02 10:12:37　來源: RoboX

北京舉報

分享至

人物簡介 /Pieter Abbeel——
加州大學伯克利分校電氣工程與計算機科學系教授，以及該校機器學習實驗室的負責人、人工智能研究實驗室（BAIR）聯合主任，曾任OpenAI研究科學家。

在當今一線AI企業的知名創始人中，有至少12位是他的學生。

在近期舉辦的GTC上，Pieter Abbeel進行了一場關于「機器人訓練數據」的主題演講，RoboX對其內容進行了編譯整理，在此分享：

現在，隨著硬件的不斷進步，機器人所缺少的就是「大腦」，而大腦的關鍵驅動力就是AI。對于大多數人來說，當看見諸如「ChatGPT通過MBA考試」之類的消息時，能感受到「人工智能似乎真的起作用了」。

那么，在此背后，基于Transformer的大型語言模型（LLM）的秘訣是什么呢——在該模型中，輸入是一系列的tokens，輸出是對下一個token的預測。

這種方法之所以有效，是因為基于海量的互聯網數據，能夠訓練出非常龐大的神經網絡。

這些數據中有一些經過了有效篩選，同時又有大量的算力來支持訓練，也就形成了有效的方法。

那么，人形機器人呢？我們能用哪些數據來訓練它們？

幾條難走的數據道路

Abbeel指出，目前世界上還沒有真正的人形機器人，也就沒有大量的行為數據。

找到有效的數據源，是機器人學中的一大挑戰，也是一大機遇。

據其介紹，其中一個天然的數據源，就是「遠程操作」——這樣可以直接獲取關節角度、操作力度等數據。在很多方面，這類似于大語言模型的數據獲取方式，即直接獲取與目標任務相匹配的數據。

但遠程操作是非常耗時和昂貴的。它不像LLM擁有互聯網上的海量數據，這種方式采集到的數據量仍然很小。

還有人提出，只需要在視頻中追蹤人類的手部動作就好了。畢竟，手部動作在物理世界產生了關鍵性的影響。

但Abbeel認為，好的計算機視覺技術確實可以追蹤手部運動，但這些視頻并不能完全符合需求。

還有一種方式，是通過大規模仿真來獲取數據，這樣也能夠確切地知道機器人在做什么。但仿真并不總是與現實完全吻合，因為這無法將所有有趣的現實世界元素及場景，融入到模擬器中。

那么，為什么不直接讓機器人在現實世界中學習呢？盡管這種方法原則上是可以的，但如何在現實世界中，讓機器人安全地進行強化學習、試錯學習？要在哪里設置它們呢？這些都還無法實現。

或許也有人打算采用更「隨意」的方式——只使用互聯網視頻，進行下一幀、下一個token的預測，并通過這種方式了解世界。但這樣還是無法接觸到實際的行為，也無法了解機器人如何通過手、腳、手臂等身體部位來影響世界。

“在某種程度上，我們面臨的是一堆雜亂無章的事物，但從研究的角度來看，這令人興奮。如何將這些不同類型的數據結合起來，以滿足訓練需求呢？這里有一種正在嘗試的整合方法（仍然屬于研究階段）。”

Abbeel表示，互聯網數據可以用于構建背景知識，包括世界的運作、以及人類交流的方式。但實際上，我們需要的是一個能在物理世界中完成各種任務的機器人。

“所以，在仿真環境和真實環境中，我會對機器人進行一些強化學習，以了解它是如何與物體進行交互的。”

最后，還需要讓人類參與其中，例如進行遠程操作，或者對機器人的行為提供反饋。就像在RLHF（具有人類反饋的強化學習）的語言模型中看到的那樣，對機器人的行為給予好、壞、更好、更壞的反饋。這樣，機器人就能了解到你不希望它做什么。

不過，這樣的方式非常復雜。這不僅僅是下載數據、運行訓練方案那么簡單。這是一個復雜的「拼圖游戲」，由許多碎片組成，每個碎片都有其自身的挑戰。

“即使今天這些不同的組件還沒有完全整合在一起，但它們都在取得巨大的進步，而且是以非常有趣的方式取得的。”

Abbeel此時展示了一張幻燈片——數據金字塔。

金字塔的基礎是網絡數據，然后是合成、仿真數據，而頂端則是現實世界的數據，可能需要人類參與收集。

（圖1：機器人基礎模型訓練的數據金字塔。GROOT N1的異構訓練語料庫可以表示為一個金字塔：從底部到頂部，數據量逐漸減少，而實體特定性逐漸增加。）

與語言模型相比，目前在機器人領域的高信號數據（即易于擴展的數據）方面，尚未達成共識。同時，如何最佳地組合數據源，也沒有達成一致。

但是，許多令人興奮的研究成果已經開始涌現。比如，人們可能不再需要1000萬美元的預算來訓練LLM，而只需要一個GPU就能做出驚人的成果。

遙操方法的最新進展

Abbeel指出，如果直接采用遠程操作，那么獲取符合需求數據的最直接方法就是：輸入攝像頭捕捉的畫面，打印出機器人的關節角度，然后輸出下一個關節角度。如果有遙控操作設置，則可以長時間收集此類數據。

“我自己和許多人都認為，大規模實現這種數據集是完全不可能的。然而，斯坦福大學的切爾西·芬恩團隊（Chelsea Finn）證明，只要設置得當，也可以非常快速地收集數據。雖然這些數據還未達到互聯網規模，但收集速度顯著加快。”

Abbeel介紹稱，在這個案例中是第二代Mobile ALOHA（一個低成本的機器人和遠程操作系統）。通過該系統，可以對機器人進行遠程操作，然后再用得到的數據訓練一個神經網絡，自主執行任務。

現在，Chelsea Finn、Sergio Levine、Carol Haussman和其他一些人創辦了一家公司——PI（Physical Intelligence），他們在這項研究的基礎上，展示了當在資源更多的企業中擴大規模時，可以獲得更好的結果——他們成功地建立了大規模的數據收集系統。

Abbeel展示了一個PI機器人整理衣物的視頻：“這里應該注意的是機器人自我糾錯的行為——這顯然不是一次按照腳本進行的衣物折疊過程，而是通過神經網絡控制完成的任務。它學會了如何應對大量變化，以及當計劃出現微小偏差時，如何進行糾正。”

Abbeel指出，盡管該方案還沒有100%成功，也不算是「發展得超級順暢」，但ALOHA和PI已經取得了很多進展。

實際上，經過加州大學圣地亞哥分校（UCSD）的王小龍教授團隊，與麻省理工學院（MIT）研究人員的合作，已經證明可以使用Apple Vision Pro從MIT進行遙控操作，這是另一種技術的融合——它可以跟蹤手部動作。

MIT的手部動作由Apple Vision Pro跟蹤，并通過普通互聯網發送。它只是普通的、快速的互聯網，允許操作者遠程控制這個機器人來完成一些非常有趣的任務。

當然，由于是遠程控制，會存在一定的延時。因此，這需要更緩慢地操作，因為如果動作太快，就很難與機器人保持同步。

但是，通過遙操收集的數據，機器人已經可以完成一些非常有趣的事情。其中一個例子，是讓機器人將小耳塞放入盒子中。這再次展示了在當前機器人硬件和正確控制下，機器人可能具備的靈巧性。

在這個例子中，機器人是自主操作的，它是從演示中學習的。“我們完全可以追蹤某人的全身動作，然后學習模仿它。”

讓機器人多做「有趣」的事

盡管對人形機器人很感興趣，但Abbeel還是認為，不應低估四足機器人未來的普及程度。因為四足機器人更容易操作，且不易摔倒，更加穩定。

而且，四足機器人也可以裝上手臂，而不僅僅局限于四條腿。

Abbeel展示了一段視頻——在王小龍教授的家里，裝有手臂的四足機器人可以自主打掃孩子的玩具房。

從另一方面來看，既然人類每天都在用手進行烹飪、打掃、整理、建造等各種各樣的事情。為什么不直接記錄下來呢？

卡內基梅隆大學的Deepak Pathak正在進行類似的研究工作，這里的關鍵思想是，如果讓神經網絡觀看人類動作的視頻，那么或許應該利用在訓練神經網絡權重時使用的損失函數，來鼓勵、優化神經網絡。

“我們應該鼓勵神經網絡學習預測雙手將與世界互動的位置——當雙手懸在空中時，具體發生了什么可能并不重要，但它們將如何與世界互動，是需要關注的點。”

通過這樣的方法，機器人以后在被要求完成任務時，就不必從頭開始學習了，因為它已經對物理世界的交互有了認知。例如，它會知道門把手、抽屜把手是它應該首先操作打開的位置。這樣做的好處是，它教會了機器人一些先驗知識——哪些東西是「有趣的」。

“如果你從頭開始對機器人運行強化學習，你會發現機器人之所以需要學很長時間，是因為它們忙于做很多‘無趣’的事情。現在通過神經網絡的損失函數，機器人可以學習了解這個世界上哪些部分是有趣的。”

沒有「眼睛」也能自主行走

目前，Abbeel在伯克利的一些同事，在Locomotion方面取得了一些成果。他們收集了大量關于行走的數據集，這些數據來自于神經網絡控制下的仿真機器人動作。

其中包括了機器人的所有關節角度、對這些關節施加的指令、機器人的質心，以及其姿態。“這是第一個完整的數據集，包括了發送給機器人的動作指令。”

“我們現在得到的，是一個看起來更像大語言模型的訓練集。對于后三個數據集（見上圖），其實都是狀態序列；而對于第一個數據集，狀態和動作是交替的。我們在這個數據集上訓練了一個大型的Transformer模型，來學習預測下一個token，由此可以給出非常好的基線行走控制器。然后我們運行了一些額外的強化學習，它除了預測token，還能進行Reward反饋優化，而非僅僅優化現有數據中的下一個token。”

伯克利的團隊在更崎嶇的地形上進行這種訓練，然后在現實世界中測試。目前，該系統已完成了超過4英里的現實徒步。

在自主性上，這個機器人實際上是在沒有攝像頭輸入的狀態下，實現多種地形的行走。它只是知道自己的身體姿態，并能有效地感知腳下發生的情況。

不過，同時也會有人使用操縱桿，來控制機器人的移動方向。所以，高層次的導航是由人來指示方向的，但所有低層次的控制都是自主的。

“我覺得很有趣的是，即使沒有‘眼睛’，這個機器人也能有效地跨過這些障礙。即使舊金山的坡度很陡，它也能上坡下坡。”

另一個Abbeel團隊正在研究的課題，是「如何讓機器人跑得更快」。

目前，人類跑完100米大概需要十幾秒，而機器人需要20幾秒。而伯克利團隊通過強化學習訓練控制器，試圖將機器人速度最大化。

現場展示的機器人沒有上半身，它是Digit機器人的早期版本之一（Agility的機器人）。可以看到，該機器人能以非常自然的方式運動。可以快速跑完100米，同樣的強化學習也讓它學會了跳躍。

“跳躍其實更難，因為這需要落地時保持穩定，也需要在后續做大量踉蹌動作來彌補落地的不協調。使用類似的技術，也可以訓練一個四足機器人，成為足球守門員。”

從視頻來看，「守門員」機器人通過攝像頭捕捉足球，并且快速反應，跳躍、撲救，或者阻擋足球。

價格很快就會下降

Abbeel表示，伯克利以非常低的預算建造機器人，也能夠做很多事情，擁有非常動態的技能。

“機器人的價格真的會下降，而且很快就會達到一個階段，即硬件的價格將不再是利用這些機器人的障礙。”

對于近期很火的「宇樹G1打功夫」的視頻，Abbeel表示，“我不知道他們具體是怎么做到這一點的，但很可能是先對人類的相同動作進行了動捕，然后重新定位到機器人可以執行的動作上。考慮到機器人的物理限制，這需要在模擬環境中運行強化學習，學習執行這些動作，最后再轉移到真實世界的機器人上得以執行。”

虛擬與現實的融合

很多人形機器人的全身控制都依賴于仿真，事實證明，仿真數據的質量非常高。這是因為足式機器人與世界的接觸的點，主要集中在腳部，只需關注這部分的訓練即可。

但在上肢操作中，會面臨更多細節上的問題，例如物體可能變形、破裂，以及很多隨機事件。

那么，接下來的重要問題，是如何將更多現實世界的信息融入仿真器中。

這也是Abbeel的一名學生Arthur在做的一個項目。他們認為，在收集人類行為的視頻時，可以不僅進行動作捕捉，還要捕捉周圍環境。

在一個案例中，將樓梯融入到仿真環境中，然后通過強化學習，在模擬中執行那些復雜的動作，并希望最終能將其應用到現實中，這將是下一步的工作。

”關鍵在于，我們正變得越來越擅長將重要的事物融入仿真中。類似NeRF和高斯潑濺這樣的技術，它們可以讓神經網絡真正理解世界的三維結構。“

同樣的，也可以通過這種方式將世界的三維信息融入機器人的仿真器中，并開始在更復雜的環境中進行訓練。

令人興奮的Body Transformer

“我們最近完成了一項讓我非常興奮的工作，那就是Body Transformer。如今，Transformer是每一個大語言模型背后的技術，也是眾多強大的AI模型（涵蓋視覺、語言、語音、機器人等領域）背后的技術。那么，我們能不能讓它更貼近機器人身體的結構，而不僅僅是一個通用的transformer？”

Abbeel指出，如果觀察人類和動物，會發現它們之間存在一種空間連接性。比如，當人類感受到指尖被灼燒時，反應路徑并不一定要一路傳遞到大腦，而是存在一條更短的路徑，這條短路徑能讓人們快速做出反應。

這樣構建機器人身體，會更加容易，因為這樣能同時具備處理事情的短路徑和長路徑。這實際上是一種歸納偏置(inductive bias），也就是對模型進行偏好選擇的先驗假設或限制)，也許會是一種更快的學習方式。

這種局部性，反而可能實現更快地學習。

比起單一的神經網絡，現在Abbeel團隊對模塊化架構更感興趣。在該方法中，Transformer中的連接不是全連接的，而是局部連接的，這樣可以更有效地查看機器人的骨架，并利用它作為歸納偏置，使模型更加高效。

同時，由于采用了局部連接，當應用Attention時，就能夠實現多頻率推理，并在強化學習時提供了局部化的信用分配。

他介紹稱，強化學習中的一個常見挑戰是，當機器人完成一個任務，龐大的黑箱Transformer無法告訴你具體原因。而Body Transformer可以分析出導致任務成功或失敗的原因，而且可以具體到手和腳都做了什么。

基于機器人的局部性，本質上擁有了一個稀疏的注意力圖，被稱之為“遮蔽注意力機制” （Masked Attention）以區別于“全注意力機制” （Full Attention）。

下圖的灰色曲線表明，與遮蔽注意力相比，全注意力每次迭代需要更多的時間，計算成本也高得多。

而具有遮蔽注意力的Body Transformer提高了模仿學習的效率和可擴展性，并且在數據較少的情況下也能很好地工作。

在這個例子中，機器人只需要三次演示就能學會完成一項任務，這是一種很好的歸納偏置。我此外，它還有助于強化學習和向現實世界的遷移。

由此，只需要一塊不錯的GPU，人們甚至只需要家里就能訓練機器人。

Abbeel稱，要想讓機器人取得進步，首先要確保為它設定了正確的目標。

“我們在仿真環境中設置了一系列任務，讓人們可以在家里輕松訓練，而且不需要自己的機器人。而針對機器人的移動問題，我們設置了一系列locomotion任務，包括各種復雜地形任務，還有一些局部操作任務，例如開門、廚房家務等等。”

他提到，許多人會問，為何不將機器人設計得更強，乃至超越物理極限？這是因為，這樣的目標需要將機器人設計得很重，移動起來也很難。所以，更理想的狀態是讓它們既安全，又盡可能輕便，也就是讓它在接近其物理極限的情況下工作，最大化其能力。

目前，上述系統已被整合到了人形機器人測試平臺（humanoid bench）中，可通過谷歌搜索。它不僅包含了問題設置，還配備了觸覺感知功能（目前大多數的機器人并不具備如此豐富的觸覺感知能力）。

Abbeel指出，原先，傳統算法在處理大規模動作空間時存在一定難度——雖然如果只控制身體，而不控制手，學習速度會快很多，但這樣會欠缺全身控制的能力。

由此，可以采用分層的方法，將技能解耦，這是取得進展的一種方式。例如從一個伸手策略開始，使用強化學習來教機器人達到一個目標，然后你可以在此基礎模型上學習做其他事情。

“雖然在我們的平臺上，不是所有任務都能完成，但許多任務現在都已經取得了很大進展。”

在現實世界中進行訓練既昂貴又不安全。而現在，并行視頻正在與Google DeepMind合作的MuJoCo Playground上進行工作。MuJoCo Playground模擬了各種各樣的任務，它是開源的，支持批量GPU渲染，只需一行代碼即可安裝。

”通常，當你安裝一個包含很多你想要的功能的軟件時，安裝過程會很復雜，但MuJoCo Playground只需一行代碼即可安裝，并且可以在任何地方進行訓練。當云端GPU不太忙時，你可以免費在云中使用它們并運行你的實驗。“

Abbeel介紹稱，仿真提供了安全和廉價的數據，成為簡單基準測試的一部分。

對比來看，DeepMind Control Suite是一個長期的機器人控制測試環境，用于測試許多算法。它可以在仿真環境中運行各種機器人，并將其轉移到現實世界中。

而MuJoCo Playground則會先定義任務，這通常意味著定義Reward，通常是多個Reward，以告訴系統真正想要什么，然后開始訓練模擬。它通常使用PPO（Proximal Policy Optimization，近端策略優化）算法，并根據需要調整獎勵。

如果沒有得到想要的結果，可以逐步構建更困難的任務，然后添加域隨機化，這意味著在你的仿真中添加一點隨機性。

在演講最后，Abbeel及其學生展示了一個基于MuJoCo Playground訓練的機器人，它即便在有人拉動遙控手柄干擾時，也能向前、向后或側向行走，并且能在出現錯誤時進行恢復。

Abbeel總結稱，目前行業對于「如何建設機器人的AI大腦」還未達成共識，但已經取得了一些巨大進展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.