99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

頂級大牛Pieter Abbeel:如何解決人形機器人的「數據困境」?

0
分享至

人物簡介 /Pieter Abbeel——
加州大學伯克利分校電氣工程與計算機科學系教授 ,以及該校機器學習實驗室的負責人、人工智能研究實驗室(BAIR)聯合主任,曾任OpenAI研究科學家。

在當今一線AI企業的知名創始人中,有至少12位是他的學生。

在近期舉辦的GTC上,Pieter Abbeel進行了一場關于「機器人訓練數據」的主題演講,RoboX對其內容進行了編譯整理,在此分享:



現在,隨著硬件的不斷進步,機器人所缺少的就是「大腦」,而大腦的關鍵驅動力就是AI。對于大多數人來說,當看見諸如「ChatGPT通過MBA考試」之類的消息時,能感受到「人工智能似乎真的起作用了」。

那么,在此背后,基于Transformer的大型語言模型(LLM)的秘訣是什么呢——在該模型中,輸入是一系列的tokens,輸出是對下一個token的預測。

這種方法之所以有效,是因為基于海量的互聯網數據,能夠訓練出非常龐大的神經網絡。

這些數據中有一些經過了有效篩選,同時又有大量的算力來支持訓練,也就形成了有效的方法。

那么,人形機器人呢?我們能用哪些數據來訓練它們?

幾條難走的數據道路

Abbeel指出,目前世界上還沒有真正的人形機器人,也就沒有大量的行為數據。

找到有效的數據源,是機器人學中的一大挑戰,也是一大機遇。

據其介紹,其中一個天然的數據源,就是「遠程操作」——這樣可以直接獲取關節角度、操作力度等數據。在很多方面,這類似于大語言模型的數據獲取方式,即直接獲取與目標任務相匹配的數據。



但遠程操作是非常耗時和昂貴的。它不像LLM擁有互聯網上的海量數據,這種方式采集到的數據量仍然很小。

還有人提出,只需要在視頻中追蹤人類的手部動作就好了。畢竟,手部動作在物理世界產生了關鍵性的影響。

但Abbeel認為,好的計算機視覺技術確實可以追蹤手部運動,但這些視頻并不能完全符合需求。

還有一種方式,是通過大規模仿真來獲取數據,這樣也能夠確切地知道機器人在做什么。但仿真并不總是與現實完全吻合,因為這無法將所有有趣的現實世界元素及場景,融入到模擬器中。

那么,為什么不直接讓機器人在現實世界中學習呢?盡管這種方法原則上是可以的,但如何在現實世界中,讓機器人安全地進行強化學習、試錯學習?要在哪里設置它們呢?這些都還無法實現。

或許也有人打算采用更「隨意」的方式——只使用互聯網視頻,進行下一幀、下一個token的預測,并通過這種方式了解世界。但這樣還是無法接觸到實際的行為,也無法了解機器人如何通過手、腳、手臂等身體部位來影響世界。

“在某種程度上,我們面臨的是一堆雜亂無章的事物,但從研究的角度來看,這令人興奮。如何將這些不同類型的數據結合起來,以滿足訓練需求呢?這里有一種正在嘗試的整合方法(仍然屬于研究階段)。”



Abbeel表示,互聯網數據可以用于構建背景知識,包括世界的運作、以及人類交流的方式。但實際上,我們需要的是一個能在物理世界中完成各種任務的機器人。

“所以,在仿真環境和真實環境中,我會對機器人進行一些強化學習,以了解它是如何與物體進行交互的。”

最后,還需要讓人類參與其中,例如進行遠程操作,或者對機器人的行為提供反饋。就像在RLHF(具有人類反饋的強化學習)的語言模型中看到的那樣,對機器人的行為給予好、壞、更好、更壞的反饋。這樣,機器人就能了解到你不希望它做什么。

不過,這樣的方式非常復雜。這不僅僅是下載數據、運行訓練方案那么簡單。這是一個復雜的「拼圖游戲」,由許多碎片組成,每個碎片都有其自身的挑戰。

“即使今天這些不同的組件還沒有完全整合在一起,但它們都在取得巨大的進步,而且是以非常有趣的方式取得的。”

Abbeel此時展示了一張幻燈片——數據金字塔。

金字塔的基礎是網絡數據,然后是合成、仿真數據,而頂端則是現實世界的數據,可能需要人類參與收集。



(圖1:機器人基礎模型訓練的數據金字塔。GROOT N1的異構訓練語料庫可以表示為一個金字塔:從底部到頂部,數據量逐漸減少,而實體特定性逐漸增加。)

與語言模型相比,目前在機器人領域的高信號數據(即易于擴展的數據)方面,尚未達成共識。同時,如何最佳地組合數據源,也沒有達成一致。

但是,許多令人興奮的研究成果已經開始涌現。比如,人們可能不再需要1000萬美元的預算來訓練LLM,而只需要一個GPU就能做出驚人的成果。



遙操方法的最新進展

Abbeel指出,如果直接采用遠程操作,那么獲取符合需求數據的最直接方法就是:輸入攝像頭捕捉的畫面,打印出機器人的關節角度,然后輸出下一個關節角度。如果有遙控操作設置,則可以長時間收集此類數據。

“我自己和許多人都認為,大規模實現這種數據集是完全不可能的。然而,斯坦福大學的切爾西·芬恩團隊(Chelsea Finn)證明,只要設置得當,也可以非常快速地收集數據。雖然這些數據還未達到互聯網規模,但收集速度顯著加快。”

Abbeel介紹稱,在這個案例中是第二代Mobile ALOHA(一個低成本的機器人和遠程操作系統)。通過該系統,可以對機器人進行遠程操作,然后再用得到的數據訓練一個神經網絡,自主執行任務。



現在,Chelsea Finn、Sergio Levine、Carol Haussman和其他一些人創辦了一家公司——PI(Physical Intelligence),他們在這項研究的基礎上,展示了當在資源更多的企業中擴大規模時,可以獲得更好的結果——他們成功地建立了大規模的數據收集系統。

Abbeel展示了一個PI機器人整理衣物的視頻:“這里應該注意的是機器人自我糾錯的行為——這顯然不是一次按照腳本進行的衣物折疊過程,而是通過神經網絡控制完成的任務。它學會了如何應對大量變化,以及當計劃出現微小偏差時,如何進行糾正。”

Abbeel指出,盡管該方案還沒有100%成功,也不算是「發展得超級順暢」,但ALOHA和PI已經取得了很多進展。

實際上,經過加州大學圣地亞哥分校(UCSD)的王小龍教授團隊,與麻省理工學院(MIT)研究人員的合作,已經證明可以使用Apple Vision Pro從MIT進行遙控操作,這是另一種技術的融合——它可以跟蹤手部動作。

MIT的手部動作由Apple Vision Pro跟蹤,并通過普通互聯網發送。它只是普通的、快速的互聯網,允許操作者遠程控制這個機器人來完成一些非常有趣的任務。



當然,由于是遠程控制,會存在一定的延時。因此,這需要更緩慢地操作,因為如果動作太快,就很難與機器人保持同步。

但是,通過遙操收集的數據,機器人已經可以完成一些非常有趣的事情。其中一個例子,是讓機器人將小耳塞放入盒子中。這再次展示了在當前機器人硬件和正確控制下,機器人可能具備的靈巧性。

在這個例子中,機器人是自主操作的,它是從演示中學習的。“我們完全可以追蹤某人的全身動作,然后學習模仿它。”



讓機器人多做「有趣」的事

盡管對人形機器人很感興趣,但Abbeel還是認為,不應低估四足機器人未來的普及程度。因為四足機器人更容易操作,且不易摔倒,更加穩定。

而且,四足機器人也可以裝上手臂,而不僅僅局限于四條腿。

Abbeel展示了一段視頻——在王小龍教授的家里,裝有手臂的四足機器人可以自主打掃孩子的玩具房。



從另一方面來看,既然人類每天都在用手進行烹飪、打掃、整理、建造等各種各樣的事情。為什么不直接記錄下來呢?

卡內基梅隆大學的Deepak Pathak正在進行類似的研究工作,這里的關鍵思想是,如果讓神經網絡觀看人類動作的視頻,那么或許應該利用在訓練神經網絡權重時使用的損失函數,來鼓勵、優化神經網絡。

“我們應該鼓勵神經網絡學習預測雙手將與世界互動的位置——當雙手懸在空中時,具體發生了什么可能并不重要,但它們將如何與世界互動,是需要關注的點。”



通過這樣的方法,機器人以后在被要求完成任務時,就不必從頭開始學習了,因為它已經對物理世界的交互有了認知。例如,它會知道門把手、抽屜把手是它應該首先操作打開的位置。這樣做的好處是,它教會了機器人一些先驗知識——哪些東西是「有趣的」。

“如果你從頭開始對機器人運行強化學習,你會發現機器人之所以需要學很長時間,是因為它們忙于做很多‘無趣’的事情。現在通過神經網絡的損失函數,機器人可以學習了解這個世界上哪些部分是有趣的。”

沒有「眼睛」也能自主行走

目前,Abbeel在伯克利的一些同事,在Locomotion方面取得了一些成果。他們收集了大量關于行走的數據集,這些數據來自于神經網絡控制下的仿真機器人動作。

其中包括了機器人的所有關節角度、對這些關節施加的指令、機器人的質心,以及其姿態。“這是第一個完整的數據集,包括了發送給機器人的動作指令。”



“我們現在得到的,是一個看起來更像大語言模型的訓練集。對于后三個數據集(見上圖),其實都是狀態序列;而對于第一個數據集,狀態和動作是交替的。我們在這個數據集上訓練了一個大型的Transformer模型,來學習預測下一個token,由此可以給出非常好的基線行走控制器。然后我們運行了一些額外的強化學習,它除了預測token,還能進行Reward反饋優化,而非僅僅優化現有數據中的下一個token。”

伯克利的團隊在更崎嶇的地形上進行這種訓練,然后在現實世界中測試。目前,該系統已完成了超過4英里的現實徒步。

在自主性上,這個機器人實際上是在沒有攝像頭輸入的狀態下,實現多種地形的行走。它只是知道自己的身體姿態,并能有效地感知腳下發生的情況。

不過,同時也會有人使用操縱桿,來控制機器人的移動方向。所以,高層次的導航是由人來指示方向的,但所有低層次的控制都是自主的。

“我覺得很有趣的是,即使沒有‘眼睛’,這個機器人也能有效地跨過這些障礙。即使舊金山的坡度很陡,它也能上坡下坡。”



另一個Abbeel團隊正在研究的課題,是「如何讓機器人跑得更快」。

目前,人類跑完100米大概需要十幾秒,而機器人需要20幾秒。而伯克利團隊通過強化學習訓練控制器,試圖將機器人速度最大化。

現場展示的機器人沒有上半身,它是Digit機器人的早期版本之一(Agility的機器人)。可以看到,該機器人能以非常自然的方式運動。可以快速跑完100米,同樣的強化學習也讓它學會了跳躍。



“跳躍其實更難,因為這需要落地時保持穩定,也需要在后續做大量踉蹌動作來彌補落地的不協調。使用類似的技術,也可以訓練一個四足機器人,成為足球守門員。”

從視頻來看,「守門員」機器人通過攝像頭捕捉足球,并且快速反應,跳躍、撲救,或者阻擋足球。



價格很快就會下降


Abbeel表示,伯克利以非常低的預算建造機器人,也能夠做很多事情,擁有非常動態的技能。

“機器人的價格真的會下降,而且很快就會達到一個階段,即硬件的價格將不再是利用這些機器人的障礙。”

對于近期很火的「宇樹G1打功夫」的視頻,Abbeel表示,“我不知道他們具體是怎么做到這一點的,但很可能是先對人類的相同動作進行了動捕,然后重新定位到機器人可以執行的動作上。考慮到機器人的物理限制,這需要在模擬環境中運行強化學習,學習執行這些動作,最后再轉移到真實世界的機器人上得以執行。”

虛擬與現實的融合

很多人形機器人的全身控制都依賴于仿真,事實證明,仿真數據的質量非常高。這是因為足式機器人與世界的接觸的點,主要集中在腳部,只需關注這部分的訓練即可。

但在上肢操作中,會面臨更多細節上的問題,例如物體可能變形、破裂,以及很多隨機事件。

那么,接下來的重要問題,是如何將更多現實世界的信息融入仿真器中。

這也是Abbeel的一名學生Arthur在做的一個項目。他們認為,在收集人類行為的視頻時,可以不僅進行動作捕捉,還要捕捉周圍環境。

在一個案例中,將樓梯融入到仿真環境中,然后通過強化學習,在模擬中執行那些復雜的動作,并希望最終能將其應用到現實中,這將是下一步的工作。



”關鍵在于,我們正變得越來越擅長將重要的事物融入仿真中。類似NeRF和高斯潑濺這樣的技術,它們可以讓神經網絡真正理解世界的三維結構。“

同樣的,也可以通過這種方式將世界的三維信息融入機器人的仿真器中,并開始在更復雜的環境中進行訓練。

令人興奮的Body Transformer

“我們最近完成了一項讓我非常興奮的工作,那就是Body Transformer。如今,Transformer是每一個大語言模型背后的技術,也是眾多強大的AI模型(涵蓋視覺、語言、語音、機器人等領域)背后的技術。那么,我們能不能讓它更貼近機器人身體的結構,而不僅僅是一個通用的transformer?”

Abbeel指出,如果觀察人類和動物,會發現它們之間存在一種空間連接性。比如,當人類感受到指尖被灼燒時,反應路徑并不一定要一路傳遞到大腦,而是存在一條更短的路徑,這條短路徑能讓人們快速做出反應。



這樣構建機器人身體,會更加容易,因為這樣能同時具備處理事情的短路徑和長路徑。這實際上是一種歸納偏置(inductive bias),也就是對模型進行偏好選擇的先驗假設或限制),也許會是一種更快的學習方式。

這種局部性,反而可能實現更快地學習。



比起單一的神經網絡,現在Abbeel團隊對模塊化架構更感興趣。在該方法中,Transformer中的連接不是全連接的,而是局部連接的,這樣可以更有效地查看機器人的骨架,并利用它作為歸納偏置,使模型更加高效。

同時,由于采用了局部連接,當應用Attention時,就能夠實現多頻率推理,并在強化學習時提供了局部化的信用分配。

他介紹稱,強化學習中的一個常見挑戰是,當機器人完成一個任務,龐大的黑箱Transformer無法告訴你具體原因。而Body Transformer可以分析出導致任務成功或失敗的原因,而且可以具體到手和腳都做了什么。



基于機器人的局部性,本質上擁有了一個稀疏的注意力圖,被稱之為“遮蔽注意力機制” (Masked Attention)以區別于“全注意力機制” (Full Attention)。



下圖的灰色曲線表明,與遮蔽注意力相比,全注意力每次迭代需要更多的時間,計算成本也高得多。

而具有遮蔽注意力的Body Transformer提高了模仿學習的效率和可擴展性,并且在數據較少的情況下也能很好地工作。



在這個例子中,機器人只需要三次演示就能學會完成一項任務,這是一種很好的歸納偏置。我此外,它還有助于強化學習和向現實世界的遷移。

由此,只需要一塊不錯的GPU,人們甚至只需要家里就能訓練機器人。

Abbeel稱,要想讓機器人取得進步,首先要確保為它設定了正確的目標。

“我們在仿真環境中設置了一系列任務,讓人們可以在家里輕松訓練,而且不需要自己的機器人。而針對機器人的移動問題,我們設置了一系列locomotion任務,包括各種復雜地形任務,還有一些局部操作任務,例如開門、廚房家務等等。”



他提到,許多人會問,為何不將機器人設計得更強,乃至超越物理極限?這是因為,這樣的目標需要將機器人設計得很重,移動起來也很難。所以,更理想的狀態是讓它們既安全,又盡可能輕便,也就是讓它在接近其物理極限的情況下工作,最大化其能力。

目前,上述系統已被整合到了人形機器人測試平臺(humanoid bench)中,可通過谷歌搜索。它不僅包含了問題設置,還配備了觸覺感知功能(目前大多數的機器人并不具備如此豐富的觸覺感知能力)。

Abbeel指出,原先,傳統算法在處理大規模動作空間時存在一定難度——雖然如果只控制身體,而不控制手,學習速度會快很多,但這樣會欠缺全身控制的能力。

由此,可以采用分層的方法,將技能解耦,這是取得進展的一種方式。例如從一個伸手策略開始,使用強化學習來教機器人達到一個目標,然后你可以在此基礎模型上學習做其他事情。

“雖然在我們的平臺上,不是所有任務都能完成,但許多任務現在都已經取得了很大進展。”

在現實世界中進行訓練既昂貴又不安全。而現在,并行視頻正在與Google DeepMind合作的MuJoCo Playground上進行工作。MuJoCo Playground模擬了各種各樣的任務,它是開源的,支持批量GPU渲染,只需一行代碼即可安裝。

”通常,當你安裝一個包含很多你想要的功能的軟件時,安裝過程會很復雜,但MuJoCo Playground只需一行代碼即可安裝,并且可以在任何地方進行訓練。當云端GPU不太忙時,你可以免費在云中使用它們并運行你的實驗。“

Abbeel介紹稱,仿真提供了安全和廉價的數據,成為簡單基準測試的一部分。

對比來看,DeepMind Control Suite是一個長期的機器人控制測試環境,用于測試許多算法。它可以在仿真環境中運行各種機器人,并將其轉移到現實世界中。

而MuJoCo Playground則會先定義任務,這通常意味著定義Reward,通常是多個Reward,以告訴系統真正想要什么,然后開始訓練模擬。它通常使用PPO(Proximal Policy Optimization,近端策略優化)算法,并根據需要調整獎勵。

如果沒有得到想要的結果,可以逐步構建更困難的任務,然后添加域隨機化,這意味著在你的仿真中添加一點隨機性。



在演講最后,Abbeel及其學生展示了一個基于MuJoCo Playground訓練的機器人,它即便在有人拉動遙控手柄干擾時,也能向前、向后或側向行走,并且能在出現錯誤時進行恢復。



Abbeel總結稱,目前行業對于「如何建設機器人的AI大腦」還未達成共識,但已經取得了一些巨大進展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
18歲烏克蘭名媛嫁入南京富豪,8年寄2.2億回國,丈夫探親后愣住了

18歲烏克蘭名媛嫁入南京富豪,8年寄2.2億回國,丈夫探親后愣住了

荔枝人物記
2025-05-01 19:20:03
美財長要求中國讓步,27國也突然對華加稅,外交部四個字說明一切

美財長要求中國讓步,27國也突然對華加稅,外交部四個字說明一切

悅悅侃歷史
2025-05-04 13:25:07
校園“奶頭樂”現象盛行,不少學生深陷其中,家長卻渾然不知……

校園“奶頭樂”現象盛行,不少學生深陷其中,家長卻渾然不知……

大道微言
2025-04-11 06:47:45
巴菲特,投資過兩只中國股票,
一只是比亞迪,
另一只是中國石油

巴菲特,投資過兩只中國股票, 一只是比亞迪, 另一只是中國石油

風風順
2025-05-03 07:05:42
特魯姆普:馬克比趙心童更全面,二人球風也大有不同

特魯姆普:馬克比趙心童更全面,二人球風也大有不同

懂球帝
2025-05-04 16:06:18
我懷上二胎后,留守在老家,突然發現12歲的女兒身上有些異常

我懷上二胎后,留守在老家,突然發現12歲的女兒身上有些異常

莎莉說情感
2025-05-04 14:30:08
邁阿密國際4-1大勝紐約紅牛,梅西破門,蘇亞雷斯建功

邁阿密國際4-1大勝紐約紅牛,梅西破門,蘇亞雷斯建功

懂球帝
2025-05-04 09:45:40
不裝了,哈登賽后爆出爭議行為!快船隊很意外,球迷:沒有責任感

不裝了,哈登賽后爆出爭議行為!快船隊很意外,球迷:沒有責任感

阿泰希特
2025-05-04 12:49:19
點球絕平!英超第4翻車,落后1分,無緣超越曼城

點球絕平!英超第4翻車,落后1分,無緣超越曼城

足球狗說
2025-05-04 23:06:43
汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

古希臘掌管月桂的神
2025-05-04 10:02:38
普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經驗

普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經驗

阿紿聊社會
2025-03-26 15:04:14
吉娜緊身衣照也太豐滿了吧,網友:都兜不住了

吉娜緊身衣照也太豐滿了吧,網友:都兜不住了

說真話的小陳
2025-03-30 16:03:59
為什么一再強調要敬畏自然?網友分享后背發涼,原來萬物皆有靈性

為什么一再強調要敬畏自然?網友分享后背發涼,原來萬物皆有靈性

史詩長歌
2024-11-07 07:45:02
美媒曬鮑爾默包機:這趟回LA的航班將成為史上最安靜的航程

美媒曬鮑爾默包機:這趟回LA的航班將成為史上最安靜的航程

直播吧
2025-05-04 11:00:12
街拍瑜伽褲姐妹,身材好

街拍瑜伽褲姐妹,身材好

東方不敗然多多
2025-04-13 13:04:26
確診僅1個月就離世!家屬:太突然了,還有6天就是他的生日

確診僅1個月就離世!家屬:太突然了,還有6天就是他的生日

魯中晨報
2025-05-04 21:20:17
張雨綺真空大方展示傲人胸部曲線,這才是人間尤物

張雨綺真空大方展示傲人胸部曲線,這才是人間尤物

傲嬌的馬甲線
2025-05-04 18:35:02
蘇迪曼杯:圣壇組合2-0韓國王牌,安洗瑩神情落寞見證國羽4連冠

蘇迪曼杯:圣壇組合2-0韓國王牌,安洗瑩神情落寞見證國羽4連冠

釘釘陌上花開
2025-05-04 18:35:42
一批突出問題暴露,必須引起高度重視!省委書記、省長假期開會部署

一批突出問題暴露,必須引起高度重視!省委書記、省長假期開會部署

政知新媒體
2025-05-04 11:05:30
國際熱錢瘋搶港元,匯率飆升至 7.75,香港能否扛住?

國際熱錢瘋搶港元,匯率飆升至 7.75,香港能否扛住?

小宇宙雙色球
2025-05-05 00:30:31
2025-05-05 06:59:00
RoboX
RoboX
關注智能汽車、機器人在內的具身智能前沿科技
132文章數 0關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

貴州游船側翻游客:看見船翻了 當時就哭了

頭條要聞

貴州游船側翻游客:看見船翻了 當時就哭了

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

家居
時尚
旅游
游戲
健康

家居要聞

黑白紋理 簡約低調空間

卷首語 | 今天,致敬青春,致敬自己!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

圣騎士要來了?制作人稱《暗黑4》仍有開發潛力

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昭通市| 资溪县| 米脂县| 图木舒克市| 远安县| 高唐县| 万载县| 米易县| 堆龙德庆县| 肇州县| 丹寨县| 白沙| 葵青区| 康乐县| 军事| 永济市| 花莲市| 石屏县| 韶关市| 林芝县| 剑河县| 大余县| 溧阳市| 鄂伦春自治旗| 泾川县| 佛山市| 稷山县| 富顺县| 泗洪县| 石家庄市| 永仁县| 锦州市| 连山| 靖西县| 武义县| 兰坪| 朝阳区| 江门市| 侯马市| 合江县| 柳林县|