人物簡介 /Pieter Abbeel——
加州大學伯克利分校電氣工程與計算機科學系教授 ,以及該校機器學習實驗室的負責人、人工智能研究實驗室(BAIR)聯合主任,曾任OpenAI研究科學家。
在當今一線AI企業的知名創始人中,有至少12位是他的學生。
在近期舉辦的GTC上,Pieter Abbeel進行了一場關于「機器人訓練數據」的主題演講,RoboX對其內容進行了編譯整理,在此分享:
現在,隨著硬件的不斷進步,機器人所缺少的就是「大腦」,而大腦的關鍵驅動力就是AI。對于大多數人來說,當看見諸如「ChatGPT通過MBA考試」之類的消息時,能感受到「人工智能似乎真的起作用了」。
那么,在此背后,基于Transformer的大型語言模型(LLM)的秘訣是什么呢——在該模型中,輸入是一系列的tokens,輸出是對下一個token的預測。
這種方法之所以有效,是因為基于海量的互聯網數據,能夠訓練出非常龐大的神經網絡。
這些數據中有一些經過了有效篩選,同時又有大量的算力來支持訓練,也就形成了有效的方法。
那么,人形機器人呢?我們能用哪些數據來訓練它們?
幾條難走的數據道路
Abbeel指出,目前世界上還沒有真正的人形機器人,也就沒有大量的行為數據。
找到有效的數據源,是機器人學中的一大挑戰,也是一大機遇。
據其介紹,其中一個天然的數據源,就是「遠程操作」——這樣可以直接獲取關節角度、操作力度等數據。在很多方面,這類似于大語言模型的數據獲取方式,即直接獲取與目標任務相匹配的數據。
但遠程操作是非常耗時和昂貴的。它不像LLM擁有互聯網上的海量數據,這種方式采集到的數據量仍然很小。
還有人提出,只需要在視頻中追蹤人類的手部動作就好了。畢竟,手部動作在物理世界產生了關鍵性的影響。
但Abbeel認為,好的計算機視覺技術確實可以追蹤手部運動,但這些視頻并不能完全符合需求。
還有一種方式,是通過大規模仿真來獲取數據,這樣也能夠確切地知道機器人在做什么。但仿真并不總是與現實完全吻合,因為這無法將所有有趣的現實世界元素及場景,融入到模擬器中。
那么,為什么不直接讓機器人在現實世界中學習呢?盡管這種方法原則上是可以的,但如何在現實世界中,讓機器人安全地進行強化學習、試錯學習?要在哪里設置它們呢?這些都還無法實現。
或許也有人打算采用更「隨意」的方式——只使用互聯網視頻,進行下一幀、下一個token的預測,并通過這種方式了解世界。但這樣還是無法接觸到實際的行為,也無法了解機器人如何通過手、腳、手臂等身體部位來影響世界。
“在某種程度上,我們面臨的是一堆雜亂無章的事物,但從研究的角度來看,這令人興奮。如何將這些不同類型的數據結合起來,以滿足訓練需求呢?這里有一種正在嘗試的整合方法(仍然屬于研究階段)。”
Abbeel表示,互聯網數據可以用于構建背景知識,包括世界的運作、以及人類交流的方式。但實際上,我們需要的是一個能在物理世界中完成各種任務的機器人。
“所以,在仿真環境和真實環境中,我會對機器人進行一些強化學習,以了解它是如何與物體進行交互的。”
最后,還需要讓人類參與其中,例如進行遠程操作,或者對機器人的行為提供反饋。就像在RLHF(具有人類反饋的強化學習)的語言模型中看到的那樣,對機器人的行為給予好、壞、更好、更壞的反饋。這樣,機器人就能了解到你不希望它做什么。
不過,這樣的方式非常復雜。這不僅僅是下載數據、運行訓練方案那么簡單。這是一個復雜的「拼圖游戲」,由許多碎片組成,每個碎片都有其自身的挑戰。
“即使今天這些不同的組件還沒有完全整合在一起,但它們都在取得巨大的進步,而且是以非常有趣的方式取得的。”
Abbeel此時展示了一張幻燈片——數據金字塔。
金字塔的基礎是網絡數據,然后是合成、仿真數據,而頂端則是現實世界的數據,可能需要人類參與收集。
(圖1:機器人基礎模型訓練的數據金字塔。GROOT N1的異構訓練語料庫可以表示為一個金字塔:從底部到頂部,數據量逐漸減少,而實體特定性逐漸增加。)
與語言模型相比,目前在機器人領域的高信號數據(即易于擴展的數據)方面,尚未達成共識。同時,如何最佳地組合數據源,也沒有達成一致。
但是,許多令人興奮的研究成果已經開始涌現。比如,人們可能不再需要1000萬美元的預算來訓練LLM,而只需要一個GPU就能做出驚人的成果。
遙操方法的最新進展
Abbeel指出,如果直接采用遠程操作,那么獲取符合需求數據的最直接方法就是:輸入攝像頭捕捉的畫面,打印出機器人的關節角度,然后輸出下一個關節角度。如果有遙控操作設置,則可以長時間收集此類數據。
“我自己和許多人都認為,大規模實現這種數據集是完全不可能的。然而,斯坦福大學的切爾西·芬恩團隊(Chelsea Finn)證明,只要設置得當,也可以非常快速地收集數據。雖然這些數據還未達到互聯網規模,但收集速度顯著加快。”
Abbeel介紹稱,在這個案例中是第二代Mobile ALOHA(一個低成本的機器人和遠程操作系統)。通過該系統,可以對機器人進行遠程操作,然后再用得到的數據訓練一個神經網絡,自主執行任務。
現在,Chelsea Finn、Sergio Levine、Carol Haussman和其他一些人創辦了一家公司——PI(Physical Intelligence),他們在這項研究的基礎上,展示了當在資源更多的企業中擴大規模時,可以獲得更好的結果——他們成功地建立了大規模的數據收集系統。
Abbeel展示了一個PI機器人整理衣物的視頻:“這里應該注意的是機器人自我糾錯的行為——這顯然不是一次按照腳本進行的衣物折疊過程,而是通過神經網絡控制完成的任務。它學會了如何應對大量變化,以及當計劃出現微小偏差時,如何進行糾正。”
Abbeel指出,盡管該方案還沒有100%成功,也不算是「發展得超級順暢」,但ALOHA和PI已經取得了很多進展。
實際上,經過加州大學圣地亞哥分校(UCSD)的王小龍教授團隊,與麻省理工學院(MIT)研究人員的合作,已經證明可以使用Apple Vision Pro從MIT進行遙控操作,這是另一種技術的融合——它可以跟蹤手部動作。
MIT的手部動作由Apple Vision Pro跟蹤,并通過普通互聯網發送。它只是普通的、快速的互聯網,允許操作者遠程控制這個機器人來完成一些非常有趣的任務。
當然,由于是遠程控制,會存在一定的延時。因此,這需要更緩慢地操作,因為如果動作太快,就很難與機器人保持同步。
但是,通過遙操收集的數據,機器人已經可以完成一些非常有趣的事情。其中一個例子,是讓機器人將小耳塞放入盒子中。這再次展示了在當前機器人硬件和正確控制下,機器人可能具備的靈巧性。
在這個例子中,機器人是自主操作的,它是從演示中學習的。“我們完全可以追蹤某人的全身動作,然后學習模仿它。”
讓機器人多做「有趣」的事
盡管對人形機器人很感興趣,但Abbeel還是認為,不應低估四足機器人未來的普及程度。因為四足機器人更容易操作,且不易摔倒,更加穩定。
而且,四足機器人也可以裝上手臂,而不僅僅局限于四條腿。
Abbeel展示了一段視頻——在王小龍教授的家里,裝有手臂的四足機器人可以自主打掃孩子的玩具房。
從另一方面來看,既然人類每天都在用手進行烹飪、打掃、整理、建造等各種各樣的事情。為什么不直接記錄下來呢?
卡內基梅隆大學的Deepak Pathak正在進行類似的研究工作,這里的關鍵思想是,如果讓神經網絡觀看人類動作的視頻,那么或許應該利用在訓練神經網絡權重時使用的損失函數,來鼓勵、優化神經網絡。
“我們應該鼓勵神經網絡學習預測雙手將與世界互動的位置——當雙手懸在空中時,具體發生了什么可能并不重要,但它們將如何與世界互動,是需要關注的點。”
通過這樣的方法,機器人以后在被要求完成任務時,就不必從頭開始學習了,因為它已經對物理世界的交互有了認知。例如,它會知道門把手、抽屜把手是它應該首先操作打開的位置。這樣做的好處是,它教會了機器人一些先驗知識——哪些東西是「有趣的」。
“如果你從頭開始對機器人運行強化學習,你會發現機器人之所以需要學很長時間,是因為它們忙于做很多‘無趣’的事情。現在通過神經網絡的損失函數,機器人可以學習了解這個世界上哪些部分是有趣的。”
沒有「眼睛」也能自主行走
目前,Abbeel在伯克利的一些同事,在Locomotion方面取得了一些成果。他們收集了大量關于行走的數據集,這些數據來自于神經網絡控制下的仿真機器人動作。
其中包括了機器人的所有關節角度、對這些關節施加的指令、機器人的質心,以及其姿態。“這是第一個完整的數據集,包括了發送給機器人的動作指令。”
“我們現在得到的,是一個看起來更像大語言模型的訓練集。對于后三個數據集(見上圖),其實都是狀態序列;而對于第一個數據集,狀態和動作是交替的。我們在這個數據集上訓練了一個大型的Transformer模型,來學習預測下一個token,由此可以給出非常好的基線行走控制器。然后我們運行了一些額外的強化學習,它除了預測token,還能進行Reward反饋優化,而非僅僅優化現有數據中的下一個token。”
伯克利的團隊在更崎嶇的地形上進行這種訓練,然后在現實世界中測試。目前,該系統已完成了超過4英里的現實徒步。
在自主性上,這個機器人實際上是在沒有攝像頭輸入的狀態下,實現多種地形的行走。它只是知道自己的身體姿態,并能有效地感知腳下發生的情況。
不過,同時也會有人使用操縱桿,來控制機器人的移動方向。所以,高層次的導航是由人來指示方向的,但所有低層次的控制都是自主的。
“我覺得很有趣的是,即使沒有‘眼睛’,這個機器人也能有效地跨過這些障礙。即使舊金山的坡度很陡,它也能上坡下坡。”
另一個Abbeel團隊正在研究的課題,是「如何讓機器人跑得更快」。
目前,人類跑完100米大概需要十幾秒,而機器人需要20幾秒。而伯克利團隊通過強化學習訓練控制器,試圖將機器人速度最大化。
現場展示的機器人沒有上半身,它是Digit機器人的早期版本之一(Agility的機器人)。可以看到,該機器人能以非常自然的方式運動。可以快速跑完100米,同樣的強化學習也讓它學會了跳躍。
“跳躍其實更難,因為這需要落地時保持穩定,也需要在后續做大量踉蹌動作來彌補落地的不協調。使用類似的技術,也可以訓練一個四足機器人,成為足球守門員。”
從視頻來看,「守門員」機器人通過攝像頭捕捉足球,并且快速反應,跳躍、撲救,或者阻擋足球。
價格很快就會下降
Abbeel表示,伯克利以非常低的預算建造機器人,也能夠做很多事情,擁有非常動態的技能。
“機器人的價格真的會下降,而且很快就會達到一個階段,即硬件的價格將不再是利用這些機器人的障礙。”
對于近期很火的「宇樹G1打功夫」的視頻,Abbeel表示,“我不知道他們具體是怎么做到這一點的,但很可能是先對人類的相同動作進行了動捕,然后重新定位到機器人可以執行的動作上。考慮到機器人的物理限制,這需要在模擬環境中運行強化學習,學習執行這些動作,最后再轉移到真實世界的機器人上得以執行。”
虛擬與現實的融合
很多人形機器人的全身控制都依賴于仿真,事實證明,仿真數據的質量非常高。這是因為足式機器人與世界的接觸的點,主要集中在腳部,只需關注這部分的訓練即可。
但在上肢操作中,會面臨更多細節上的問題,例如物體可能變形、破裂,以及很多隨機事件。
那么,接下來的重要問題,是如何將更多現實世界的信息融入仿真器中。
這也是Abbeel的一名學生Arthur在做的一個項目。他們認為,在收集人類行為的視頻時,可以不僅進行動作捕捉,還要捕捉周圍環境。
在一個案例中,將樓梯融入到仿真環境中,然后通過強化學習,在模擬中執行那些復雜的動作,并希望最終能將其應用到現實中,這將是下一步的工作。
”關鍵在于,我們正變得越來越擅長將重要的事物融入仿真中。類似NeRF和高斯潑濺這樣的技術,它們可以讓神經網絡真正理解世界的三維結構。“
同樣的,也可以通過這種方式將世界的三維信息融入機器人的仿真器中,并開始在更復雜的環境中進行訓練。
令人興奮的Body Transformer
“我們最近完成了一項讓我非常興奮的工作,那就是Body Transformer。如今,Transformer是每一個大語言模型背后的技術,也是眾多強大的AI模型(涵蓋視覺、語言、語音、機器人等領域)背后的技術。那么,我們能不能讓它更貼近機器人身體的結構,而不僅僅是一個通用的transformer?”
Abbeel指出,如果觀察人類和動物,會發現它們之間存在一種空間連接性。比如,當人類感受到指尖被灼燒時,反應路徑并不一定要一路傳遞到大腦,而是存在一條更短的路徑,這條短路徑能讓人們快速做出反應。
這樣構建機器人身體,會更加容易,因為這樣能同時具備處理事情的短路徑和長路徑。這實際上是一種歸納偏置(inductive bias),也就是對模型進行偏好選擇的先驗假設或限制),也許會是一種更快的學習方式。
這種局部性,反而可能實現更快地學習。
比起單一的神經網絡,現在Abbeel團隊對模塊化架構更感興趣。在該方法中,Transformer中的連接不是全連接的,而是局部連接的,這樣可以更有效地查看機器人的骨架,并利用它作為歸納偏置,使模型更加高效。
同時,由于采用了局部連接,當應用Attention時,就能夠實現多頻率推理,并在強化學習時提供了局部化的信用分配。
他介紹稱,強化學習中的一個常見挑戰是,當機器人完成一個任務,龐大的黑箱Transformer無法告訴你具體原因。而Body Transformer可以分析出導致任務成功或失敗的原因,而且可以具體到手和腳都做了什么。
基于機器人的局部性,本質上擁有了一個稀疏的注意力圖,被稱之為“遮蔽注意力機制” (Masked Attention)以區別于“全注意力機制” (Full Attention)。
下圖的灰色曲線表明,與遮蔽注意力相比,全注意力每次迭代需要更多的時間,計算成本也高得多。
而具有遮蔽注意力的Body Transformer提高了模仿學習的效率和可擴展性,并且在數據較少的情況下也能很好地工作。
在這個例子中,機器人只需要三次演示就能學會完成一項任務,這是一種很好的歸納偏置。我此外,它還有助于強化學習和向現實世界的遷移。
由此,只需要一塊不錯的GPU,人們甚至只需要家里就能訓練機器人。
Abbeel稱,要想讓機器人取得進步,首先要確保為它設定了正確的目標。
“我們在仿真環境中設置了一系列任務,讓人們可以在家里輕松訓練,而且不需要自己的機器人。而針對機器人的移動問題,我們設置了一系列locomotion任務,包括各種復雜地形任務,還有一些局部操作任務,例如開門、廚房家務等等。”
他提到,許多人會問,為何不將機器人設計得更強,乃至超越物理極限?這是因為,這樣的目標需要將機器人設計得很重,移動起來也很難。所以,更理想的狀態是讓它們既安全,又盡可能輕便,也就是讓它在接近其物理極限的情況下工作,最大化其能力。
目前,上述系統已被整合到了人形機器人測試平臺(humanoid bench)中,可通過谷歌搜索。它不僅包含了問題設置,還配備了觸覺感知功能(目前大多數的機器人并不具備如此豐富的觸覺感知能力)。
Abbeel指出,原先,傳統算法在處理大規模動作空間時存在一定難度——雖然如果只控制身體,而不控制手,學習速度會快很多,但這樣會欠缺全身控制的能力。
由此,可以采用分層的方法,將技能解耦,這是取得進展的一種方式。例如從一個伸手策略開始,使用強化學習來教機器人達到一個目標,然后你可以在此基礎模型上學習做其他事情。
“雖然在我們的平臺上,不是所有任務都能完成,但許多任務現在都已經取得了很大進展。”
在現實世界中進行訓練既昂貴又不安全。而現在,并行視頻正在與Google DeepMind合作的MuJoCo Playground上進行工作。MuJoCo Playground模擬了各種各樣的任務,它是開源的,支持批量GPU渲染,只需一行代碼即可安裝。
”通常,當你安裝一個包含很多你想要的功能的軟件時,安裝過程會很復雜,但MuJoCo Playground只需一行代碼即可安裝,并且可以在任何地方進行訓練。當云端GPU不太忙時,你可以免費在云中使用它們并運行你的實驗。“
Abbeel介紹稱,仿真提供了安全和廉價的數據,成為簡單基準測試的一部分。
對比來看,DeepMind Control Suite是一個長期的機器人控制測試環境,用于測試許多算法。它可以在仿真環境中運行各種機器人,并將其轉移到現實世界中。
而MuJoCo Playground則會先定義任務,這通常意味著定義Reward,通常是多個Reward,以告訴系統真正想要什么,然后開始訓練模擬。它通常使用PPO(Proximal Policy Optimization,近端策略優化)算法,并根據需要調整獎勵。
如果沒有得到想要的結果,可以逐步構建更困難的任務,然后添加域隨機化,這意味著在你的仿真中添加一點隨機性。
在演講最后,Abbeel及其學生展示了一個基于MuJoCo Playground訓練的機器人,它即便在有人拉動遙控手柄干擾時,也能向前、向后或側向行走,并且能在出現錯誤時進行恢復。
Abbeel總結稱,目前行業對于「如何建設機器人的AI大腦」還未達成共識,但已經取得了一些巨大進展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.