網易首頁 > 網易號 > 正文申請入駐

機器人大神圓桌（上）：軟硬件的相愛相殺，以及數據的臨界探索

2025-04-09 22:55:57　來源: RoboX

北京舉報

分享至

好飯不怕晚，原來2025 GTC還有精彩內容有待發掘！

RoboX將一場主題為「人形機器人的崛起」的圓桌內容進行了翻譯和整理，供大家參考。此次的圓桌討論嘉賓包括：

Aaron Saunders——波士頓動力CTO
Bernt Bornich——1X創始人兼CEO
Deepak Pathak——Skild AI的CEO兼聯合創始人
Jim Fan——英偉達首席研究科學家/高級研究經理
Pras Velagapudi——Agility機器人 CTO

為何機器人開始突飛猛進？

【Jim Fan】-英偉達：

機器人作為與AI一樣古老的領域，之所以在過去發展得如此艱難，是因為符合莫拉維克悖論。

該悖論表明，一些對人類來說簡單的事情，對機器而言卻非常困難，反之亦然。那么，現在究竟發生了哪些變化呢？

一是模型方面。由于大型基礎模型如LLM以及ChatGPT的出現，我們現在擁有了能夠進行推理的模型，以及能理解計算機視覺、開放詞匯表及三維視覺世界的多模態模型。

在討論通用機器人之前，你需要先有一個優秀的視覺系統。隨著其他模型變得越來越好，我們可以更系統地應對機器人技術的問題。

二是數據方面。與LLM不同，就像Ilya Sutskever說的：“互聯網是AI的化石燃料”。

然而，機器人技術還沒有化石燃料，必須依靠生成數據，以及大規模收集數據。而仿真技術，尤其是GPU加速模擬技術的到來，真正讓這些問題變得更加可解——現在你可以在大約3小時的計算時間內，生成相當于10年的訓練數據。

三是硬件方面。一些杰出的創始人帶來的先進機器人硬件，不僅更優秀，價格也更親民。比如今年，我們看到硬件的價格大概在4萬美元左右，這差不多是一輛車的價格。而在2001年，NASA建造的Robonaut，作為最早的主要人形機器人之一，造價高達150萬美元。

這些條件，讓我們超越了數據悖論。

（Jim Fan）

【Aaron Saunders】-波士頓動力：

我認為仿真到現實的差距縮小，是一個重大進展——我們現在能夠以高于實時的速度，表示真實世界的物理特性，這能夠加速探索仿真方案，以開發新的AI技術。

另外，許多組件的商品化，消費電子行業的發展帶來了電池、攝像頭等技術的進步，這些技術用于感知、觀察世界和計算。

回顧過去10到15年，大多數機器人都裝滿了印刷電路板和電線，電池容量很小。現在這一切都改變了：我們可以放入大量的計算資源，安裝微小而高效的傳感器。

組件的商品化不僅僅是為了降低成本，更是將全球供應鏈中的「部件拼圖」組合在一起。

【Deepak Pathak】-Skild AI：

AI的本質就是為機器人而生的。如果你回顧圖靈最初的文獻，當他談論AI時，實際就是指向機器人的。

他提到，可以將機器人放在「教室」里，隨著學習時間的推移，它會成長為「成年人」，這是一個令人著迷的想法。

到目前為止，機器人技術主要屬于控制論的領域。

在二戰期間，控制論因其在飛機、導彈等方面的應用而大放異彩。后來由于圖靈的影響，機器人技術開始興起，人們開始思考工具有哪些。

但這與最初的精神并不一致，也不是孩子式的學習——在孩子學習走路時，你不會先教他們微積分，而是讓他們通過經驗來學習如何移動關節并學會行走。

因此，真正改變的是我們對待機器人的方式——從編程經驗轉向通過經驗學習

（Deepak Pathak）

【Bernt Bornich】-1X：

互聯網就像一個接近30年的「巨大人類實驗」，全世界的人們都在貢獻數據，創建了巨大的數據源，以便訓練AI。

現在我們要做的，是再次請求所有人，在接下來的30年里繼續貢獻，不過這次是讓你們自己變成機器人。

當然這不是真的，但目前已有的數據是推動AI前進的原因。而現在的問題是，我們如何利用現有的數據來引導機器人進步？因為只有達到一定水平，它們才能開始在現實世界中學習。

比如說，當你要求機器人從冰箱里拿一瓶可樂，如果它能做到一半的成功率，那就有了可行的實現路徑。因為在此基礎上，只要重復運行足夠多次，最終它就能非常擅長這一任務。

各種多模態LLM雖然還不能完全解決機器人問題，但這種方法可以使系統變得足夠有用，從而創建一個高效的數據飛輪，而不需要你對機器人做的每一件事都進行遠程操作。這也許也能通往通用人工智能，我們拭目以待。

（Bernt Bornich）

【Pras Velagapudi】-Agility Robotics：

機器人的兩大挑戰是：第一，硬件很難；第二，世界是非結構化的。

回顧AI和機器人技術的發展歷程，你會發現機器人技術的一大塊工作都是在解決硬件難題，包括微型化傳感器如MEMS、執行器和驅動技術以及能量存儲技術等都需要被攻克。

從AI的角度來看，我們基本上是從解決結構化問題，逐步過渡到解決非結構化的難題。從處理Query到API，再到簡化世界模型，直至現在的非結構化世界模型，每一個環節都在提升AI平臺，找到新的數據攝取方式。

目前，這些積累最終達到一個臨界點，我們可以著手解決與非結構化方式與世界互動的完整問題了。

（Pras Velagapudi）

如何看待基礎模型的爆發式增長

【Jim Fan】- 英偉達：

如何構建通用大腦呢？我認為主要有兩個原則：

第一個原則：模型本身要盡可能簡單，盡可能端到端。

以自然語言處理（NLP）領域舉例，在ChatGPT出現之前，NLP領域有點混亂——文本摘要、機器翻譯、代碼生成等都要用完全不同的數據Pipeline、訓練協議和模型架構，有時還不僅僅是單一模型。

然后，ChatGPT徹底改變了這一切，因為它很簡單。

它將任何文本映射到任何其他文本，可以統一所有的數據、所有的問題到一個模型中，這是機器人技術應該借鑒的地方。

第二個原則：數據Pipeline實際上會非常復雜。

數據是個大問題。對于GR00T而言，數據策略可以組織成一個金字塔。

頂端是真實世界中通過遠程操作收集的真實機器人數據，這是最高質量的數據。但這也相當有限，可擴展性不高。

金字塔中部是仿真的部分，類似ISSAC這樣的物理引擎可以生成大量數據。而在金字塔的底部，仍然是來自互聯網的所有多模態數據，但利用方式略有不同。

我們用它們來訓練視覺語言模型，這些模型可以成為視覺語言動作模型的基礎。因此，金字塔的最后一層實際上是超越傳統圖形引擎的神經模擬——你可以提示一個視頻生成模型，并要求它幻想出一個新的人形機器人軌跡。

視頻模型學習物理規律的能力非常強，以至于它能夠在像素層面給你提供物理上精確的軌跡。

【Aaron Saunders】-波士頓動力：

將產品交付給客戶時，我們需要確保系統和功能的安全性。

目前我們正處于構建數據集非常早期的階段，在追求終極的強大狀態的同時，不能把工具箱都扔掉。

我們必須通過應用工具來保障穩定——機器人技術有一大套積累了70年的工具箱，其中一些工具仍適用于解決現實世界的問題，尤其面對有潛在風險的機器人和功能時，一旦失去信任，就再也無法挽回了。

（Aaron Saunders）

【Bernt Bornich】-1X

通過早期和近期LLM的經驗教訓，會發現「多樣性」被低估了。

在LLM發展的早期，有很多公司嘗試訓練模型來創作詩歌。他們會用世界上最好的詩篇來訓練模型，但這實際上并不奏效。因為你需要在非常多樣化的數據上進行訓練，而不僅僅是與寫詩相關的數據。

這一點對于機器人技術來說，顯然也是成立的。在處理小規模數據集時，限制我們更多是數據的多樣性，而非數據量。

因此，關鍵在于如何盡可能多地涵蓋不同環境中的各種任務。最好還能包含盡可能多的噪音和動態因素，這樣你就能理解實際任務的要求。

我最喜歡的例子是打開洗衣機：我們會看到洗衣機的圓形入口，知道要把衣服放進去，然后嘗試打開它；如果打不開，可能會尋找卡扣，一切操作都很好理解。

而今天的機器人完全不具備這種能力，它們更像是在學習重復某種動作。這就是為什么要讓機器人廣泛應用于實際環境中，并獲取多樣化數據。我們認為這一切必須發生在人們中間，發生在家庭里——要在確保機器的能量不至于造成危險的前提下，考慮如何將這種方法與經典工具箱結合起來。

【Deepak Pathak】-Skild AI

我們要部署不同種類、形態的機器人，它們的共享大腦是什么？這里有兩個關鍵點：

第一點、當一個人類控制機器人時，他們不需要知道電機的具體細節。這可以證明，一個大腦可以使用來自任何地方的數據，來控制機器人。

第二點、現實中并沒有現成的數據，但人類有大量數據。我們就像是生物機器人，有運動神經元和感覺神經元。感覺神經元將信號從你的傳感器傳送到大腦，而運動神經元則將信號從大腦傳送到肌肉。

我們存在一個可以控制所有硬件的大腦，能夠生成機器人技術中非常關鍵的數據。關于人類肢體如何運作的知識，這些都可以用來補充仿真。

【Bernt Bornich】-1X

這些數據的確極其有用，但它與其他數據并不是互相排斥的。

【Pras Velagapudi】-Agility Robotics

作為一名經常遠程操作機器人的人員，我可以肯定地說，人腦非常擅長遠程操作各種平臺，但并非所有情況下都能達到相同的水平。

硬件確實可以造成差異，我曾遠程操控過1X機器人，那是一次很棒的體驗；另外我也操控過一些工業機器人，可體驗并不好。

可見，硬件起著重要作用，并且確實定義了某些性能特征。

基于這些差異，我們需要投入一定的精力來構建合適的硬件，使其易于控制，擁有合適的傳感能力，以及合適的慣性特性，使其在現實世界中能有效工作。

【Bernt Bornich】-1X

我們現在討論的主要是控制架構「自上而下」的方式，但我認為「自下而上」的學習方式也很有趣，比如學習靈巧性。

我們不知道如何建立一個快且好的遠程操作系統，來提供觸覺反饋等，但是機器人本身卻能很好地學習這些技能。

你可以給它一堆物體讓它把玩，然后在遠程操作界面上添加一個抽象層，指導機器完成任務，允許系統學習靈巧性。

【Aaron Saunders】-波士頓動力

當我們試圖將大腦與硬件分離時，如要視任務而定：當任務集只涉及質量無關緊要的對象時，那么可以將大腦與身體的很多部分分離。

但現實情況是，如今機器人的目標超出了這一范疇——如果希望機器人抬起大型、重型、復雜的物體，或者想要觸摸鋒利的金屬部件、處理高溫物體，甚至用機器人完全代替人類操作高危工作，那么大腦和硬件必須協同進化。

要知道，執行器的質量，和內部摩擦程度，對于在仿真中準確運行非常重要。

我認為還需要更多時間，才能完全理解像GR00T這樣的模型如何在A型機器人和B型機器人上部署。因為我還不認為我們有足夠的數據點來讓一個模型在所有不同類型的機器人上部署，并且還不會造成行為差異。

【Deepak Pathak】-Skild AI

也可能反過來，一種硬件可以搭載許多大腦。（是的，當然。）英偉達就是一個例子，一種硬件上有很多公司致力于構建大腦。

【JimFan】-英偉達

我想談談一個非常有趣、也極具挑戰性的話題——跨實體化。對于模型而言，跨實體化意味著什么？

我們不妨先思考一下自己，實際上人類非常擅長跨實體化。

當你開始玩一個游戲，其實就是在進行跨實體化。比如你在游戲中駕駛一輛車或扮演某個奇怪的角色，有時甚至是非人類的角色，你會逐漸掌握如何在游戲中控制那個身體。所以人類的大腦非常擅長跨實體化。

我同意Aaron的觀點，目前討論完全零樣本跨實體化還為時過早。這意味著你帶一個機器人過來，模型就能神奇地工作。

我們現在還無法做到這一點，但終將到達那里。實現這一目標的方法，就是擁有大量不同的機器人硬件，甚至更多的仿真機器人硬件。

以前，我們的研究小組做了一項非常有趣的工作——MetaMorph。我們在仿真中程序化生成了數千個簡單的機器人，它們有著不同的關節連接方式。有些看起來像蛇，有些像蜘蛛，非常奇特。然后我們對機器人的身體進行標記化，將其轉化為一系列整數。這樣就可以應用Transformer和注意力機制，通過一千個實體生成第一千零一個實體。

但這只是一個非常初步的實驗，不過我相信，如果我們能夠擁有一種通用描述語言，并且有各種不同類型的現實和仿真機器人，就可以對其進行標記化，從中獲取大量數據，從而形成一個實體宇宙和向量空間，也許新的機器人會在這個分布范圍內誕生。

不過，即使在同一代機器人內部，也存在跨實體化的問題，更不用說跨代際、跨公司了。所以這正在成為一個真正的難題，我們才剛剛觸及表面。

【Aaron Saunders】-波士頓動力

老實說，目前數據的多樣性還不足。如果你看看類人機器人領域，它們基本上都在處理相似的東西，也就是對人類身體的復制。而在波士頓動力，我們決定只為抓手設計三根手指。

這與完全仿人手的趨勢背道而馳，因為我們發現人類非常擅于將自己映射到三根手指上——你可以讓一名遠程操作員操作三指抓手，在經過幾小時的訓練后，他們幾乎能完成用五根手指所能做的所有事情。因此，我認為在這方面還有很大的探索空間。

由于大家都在努力打基礎，現在還不夠大膽。一旦這些模型開始展示出泛化能力，人們就會開始突破，這可能是好事也可能是壞事——我們可能會得到一些看起來讓人感到害怕的機器人。

但我認為，光是操作臂就存在如此豐富的機會，未來幾年的發展著實令人興奮。

【Jim Fan】- 英偉達

是的，Aaron，給我一千個不同的Atlas，我會為你解決這個問題。（好的，成交。）

（待續）

下半場的議題包括「當前硬件的最大挑戰」、「對2-5年內的發展預判」等，各位嘉賓的討論也會更加激烈。敬請關注RoboX，留意下期內容。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.