智東西
編譯 陳駿達
編輯 心緣
機器人發展的“核動力”究竟是什么?
智東西5月13日報道,近日,英偉達AI總監兼杰出科學家、Project GR00T(人形機器人項目)與GEAR實驗室聯合負責人Jim Fan用17分鐘時間,在紅杉AI Ascent大會上分享了他對具身智能領域未來面臨的核心挑戰和對應解法。
Jim Fan認為,大語言模型已突破傳統圖靈測試,但機器人在物理世界的表現仍遠未達到人類水平,數據是這一過程中的最大瓶頸。機器人需要的是物理交互的真實數據,而這些數據無法從網頁抓取,只能靠人類手動采集,效率極低。
面對這一挑戰,Jim Fan和英偉達團隊希望在仿真世界中找尋解法。在超高速仿真打造的數字孿生中,機器人可在2小時內完成相當于現實世界10年的訓練量,再將知識無縫遷移到物理世界。3D生成、紋理生成等生成式AI技術,則將進一步降低仿真訓練對人工數據的依賴。
當視頻生成模型構建的虛擬世界逐漸成型,機器人將能夠在無限可能的“夢境空間”中訓練,無需依賴人工建模,不僅成本極低,還通過提示詞自由創造反事實的訓練場景,進一步拓寬機器人的能力邊界。
未來,世界模型與仿真技術的深度融合,將推動機器人技術進入“仿真2.0”時代,為具身智能發展提供源源不斷的“核動力”。當機器人獲得操控物理世界的能力,并最終演化為無處不在的“環境智能”時,人類突破“物理圖靈測試”的臨界點就將到來。
以下是Jim Fan今年5月在紅杉AI Ascent大會上所發表演講的完整編譯(為提高可讀性,智東西在不違背原意的前提下進行了一定的增刪修改):
一、機器人尚未通過“物理圖靈測試”,數據成最大障礙
幾天前,有一篇博客文章引起了我的注意。這篇文章說,我們通過了圖靈測試,卻無人在意。圖靈測試曾經是計算機科學的圣杯,如果一臺機器能讓人無法通過對話分辨它是人還是機器,就算通過了測試。
現在,我們已經實現了這一目標,自然而然地就實現了。不過,當OpenAI o3-mini思考的時候多花了幾秒鐘,或者Claude無法調試代碼時,人們還是一樣會感到不滿。
我們已經習慣于把每一個大語言模型領域的突破都當作是稀松平常的事情。說實話,在座的各位(AI業內人士)是最難取悅的。
今天,我想提出一個新的概念,叫做“物理圖靈測試”。這個測試大概是這樣的:假設你在周日晚上舉辦了一個黑客馬拉松派對,家里一片狼藉。周一早上你想找人收拾殘局,再準備頓燭光晚餐哄伴侶開心。當你回家時,如果無法判斷這是人類還是機器人的勞動成果,這就算通過物理圖靈測試了。
那么我們現在離這個目標還有多遠?我們可以看幾個例子。這臺人形機器人看上去不太行,機器狗踩到香蕉皮就滑倒了,而這個做牛奶燕麥的機器人準確識別了牛奶,但其他都搞得一團糟。
那么,為什么解決物理圖靈測試如此困難呢?他們做大語言模型的研究人員很喜歡抱怨,最近Ilya把互聯網稱作是AI發展的“化石燃料”,而大語言模型預訓練的數據要用光了。不過,只要和機器人研究者共度一天,你就會知道這些做大語言模型研究的科學家都被“寵壞了”。
研究機器人的學者根本沒有所謂的“化石燃料”可用。在英偉達總部的這家小餐廳里,我們通過遙操作機器人收集數據。
而數據是長這樣的(下圖)。這是機器人關節的控制信號,連續的數值,隨著時間變化。從互聯網上可找不到這種數據,維基百科里沒有,YouTube里沒有,Reddit里也沒有。
我們必須親自收集這些數據,需要使用一種非常復雜且很昂貴的方法,叫做遙操作。讓一個人戴著一個VR頭盔,這個頭盔可以識別手部姿勢,并傳輸到機器人上。通過這種方式,操作者可以教會機器人各種操作,比如從烤面包機中拿起一片面包,然后倒上蜂蜜。
這是一個非常緩慢和痛苦的過程,基本上不具備可拓展性。機器人訓練燒掉的數據是“人類”,因為數據需要人類手工采集。更糟糕的是,每臺機器人每天理論上最多也就訓練24小時,而實際時間會更短。人會累,機器人可能比人還累。
二、仿真讓機器人實現“超人”表現,2小時完成10年訓練量
那么,我們該如何突破這個瓶頸?機器人研究的“核動力”是什么?我們不能永遠依賴“化石燃料”。答案在仿真世界。
我們可以脫離物理世界,然后在仿真世界中進行訓練,甚至可以讓機器人完成超人類的靈巧任務,比如轉筆。這對我來說已經是超人的技能了,我不會轉筆,而機器人至少在仿真世界中可以做得比我還好。
那么,我們如何訓練靈巧手做這樣一個復雜的任務呢?關鍵有兩點。
第一點是,必須以比現實快1萬倍的速度進行仿真。這意味著我們需要在單塊GPU上并行運行1萬個物理仿真環境。
第二點是,1萬個環境的副本不能完全相同,必須改變一些參數,如重力、摩擦和重量,我們稱之為域隨機化。
這便是所謂的仿真原則(Simulation Principle)。這一原則為什么有效?想象一下,如果一個神經網絡能夠控制機器人在一百萬個不同的世界中解決問題,那么它就很有可能解決第一百萬零一個世界中的問題,即我們的物理現實。換句話說,我們的物理世界只是這種訓練所涵蓋的各種可能性中的一種情況。
我們該如何應用這一原則呢?我們可以建立一個數字孿生(Digital Twin),即機器人和世界的1:1副本。在仿真世界中訓練,然后在真實世界里測試。仿真世界的知識可以直接遷移,無需調整。
這是我們嘗試過的最讓人印象深刻的案例。我們在仿真世界中訓練機器人在瑜伽球上行走,之后將其遷移到真實世界中??梢钥吹轿覀兊难芯繂T正在真實世界溜機器狗,畫面看上去超級奇怪,就像《黑鏡》的一集。我們的一位研究員還嘗試了讓真正的狗在瑜伽球上行走,狗是做不到的。
接下來,我們也可以將其應用于更復雜的機器人,如人形機器人。畫面中的人形機器人在學習行走,它們僅用了2小時的仿真時間,就完成了真實世界里耗時10年才能完成的訓練,之后我們可以將這些技能遷移到現實世界。而仿真的效果并不取決于本體。只要有機器人模型,進行仿真訓練,就可以行走。
三、從“數字孿生”到“數字表親”,仿真無需1:1復刻
除了讓機器人學會行走之外,我們還能做些什么呢?所以,正如我們控制我們的身體一樣,你可以跟蹤任何你想要的姿勢,跟蹤關鍵點,跟隨任意的速度向量。這被稱為人形機器人的全身控制問題。
這一問題非常困難,但我們可以在1萬個并行運行的仿真中進行訓練,然后直接將其轉移到真實機器人身上,無需任何微調。
在英偉達的實驗室,我們已經進行了很多訓練,可以看到機器人所做的運動是十分復雜的。可以模仿人類的敏捷動作,同時保持平衡。150萬個參數的神經網絡就可以準確地捕捉人體的下意識動作。
在這張體現速度與仿真多樣性的圖表,上述仿真可以被稱為“仿真1.0”,即數字孿生范式,是一個經典的矢量化物理引擎,運行速度可以達到每秒1萬幀到100萬幀。
但問題是,這一仿真的實現,必須依賴數字孿生。需要人工建模一個機器人,建立一個環境,這是非常繁瑣的工作,耗時耗力。想象一下,如果我們能將仿真中的部分事物用生成的方式呈現呢?
下圖中所有的3D資產都是由3D生成模型生成的。紋理是Stable Diffusion生成的,或者也可以使用任意的擴散模型。布局是通過提示詞指導大模型撰寫XML文件生成的。我們將這些元素組合起來,建立了一個叫做RoboCasa的框架。
RoboCasa是一個大規模仿真平臺,用于日常任務的仿真。在這個系統中,除了機器人本體之外,所有視覺元素都是由AI生成的。平臺支持靈活的場景組合,雖然其底層仍依賴于傳統物理引擎,但已經能夠支持大量復雜任務的訓練。
操作者可以在虛擬環境中進行遙操作。與傳統方式不同,這次操作完全在仿真環境中進行。系統可以回放仿真軌跡,并利用硬件加速的射線追蹤技術來呈現逼真的光影效果,甚至允許實時調整運動軌跡。
這種仿真遙操作帶來了顯著優勢:比如當需要演示“將杯子從A點移動到B點”時,操作者只需完成一次演示,系統就能自動生成各種變體,無需重復操作。
將所有這些技術整合后,我們就獲得了“仿真環境中的真人演示”方案。通過環境生成技術,我們可以將場景數量擴展N倍;通過運動生成技術,又能將演示數據擴展M倍。
實際效果對比顯示,第1列和第3列是真實機器人的操作視頻,而第2列和第4列則完全來自Robocasa仿真系統。雖然仔細觀察仍能發現某些紋理不夠真實,但整體效果已經非常接近。
我們將這種接近真實但又并非完全一致的仿真稱為“數字表親”(Digital Cousin)。它不同于追求完全一致的數字孿生,而是捕捉了關鍵特征。雖然這些仿真運行速度較慢,但它們采用了一種創新的混合架構:部分內容由AI生成,其余部分則交由傳統圖形管線處理。
四、世界模型+仿真技術,開啟可拓展的“仿真2.0”時代
讓我們來仿真這個場景:軟體、流體以及各種不同形態的物體。在傳統計算機圖形學中,要精確模擬這樣的場景需要藝術家或圖形工程師投入大量時間。
從圖形技術的發展歷程來看,實現下圖中從左到右的進步,我們花費了整整30年時間。
然而,視頻生成模型僅用一年就完成了同樣的跨越,成功展現了下圖中面條的形變等各種復雜元素。雖然在這個過程中可能損失了一些幽默感,但為了獲得Sora、Veo等最新生成模型的能力,這個代價是值得的。短短一年就能取得如此突破,這充分展現了規?;柧毢蛿祿寗臃椒ǖ膹姶罅α?。
還記得我開始時展示的視頻嗎?我騙了你們,這個視頻中沒有一個像素是真實的,完全是由一個定制模型生成的。我們選擇了一個通用的開源視頻生成模型,使用機器人實驗室收集的數據進行微調。畫面中的一切都是生成的。
還可以通過提示詞讓模型想象不同的未來場景,模擬各種反事實情況。注意,這兩個框架是完全相同的,但根據不同的語言提示,生成的視頻能夠準確理解并執行指令,即使這些動作在現實中從未發生過。
視頻擴散模型的強大之處在于:它不關心場景有多復雜,也不在乎是否存在流體或軟體等難以仿真的元素。
在同一個場景中,你可以要求機器人拿起不同的物品,而模型會準確地用正確的手勢抓取物體并放入籃子。所有這些細節都是生成的,包括反射效果、物體交互等,沒有一個真實像素。
我最欣賞的一個例子是那個彈奏尤克里里的機器人角色。實際上,視頻模型可能已經“見過”數百萬人類彈奏尤克里里的畫面,現在它只是將這些知識遷移到機器人手指的仿真上。盡管實際硬件可能無法完成這個動作,但視頻生成模型卻能完美呈現。
這就是“仿真2.0”。它具備驚人的多樣性,但目前運行速度還比較慢。我想將這一仿真稱之為“數字游民”,它已經漫游進了視頻擴散模型的夢境空間。
那么,什么是視頻擴散模型呢?本質上,它是一個將海量互聯網視頻數據壓縮成多維宇宙仿真的先進系統。就像《奇異博士》中的魔法世界一樣,這個模型可以在虛擬空間中實例化智能體,使它們能夠與任何環境中的對象進行交互。這體現了規模效應的強大威力。
雖然黃仁勛已經離場,但我相信他一定會對這個突破感到興奮。在傳統仿真系統(1.x系列)中,我們需要投入巨大的計算資源來實現擴展。然而,這種方法很快就會遇到瓶頸,因為人工系統的多樣性存在固有局限。
而全新的世界模型(仿真2.0版本)則完全不同——它的拓展能力隨著計算資源呈指數級增長。這正是新一代網絡超越傳統圖形工程師的關鍵所在。將這兩種技術相結合時,我們就獲得了推動下一代機器人系統發展的“核動力”,而且“買得越多,就省得越多”。
我們可以將這些數據輸入到視覺-語言-動作(VLA)模型中,這個模型能夠處理視覺像素和自然語言指令,并輸出精確的電機控制信號。在實際應用中,我們使用了今年三月GTC大會上黃仁勛主題演講中開源的GR00T N1模型。
令人驚喜的是,這個系統展現出了出乎意料的靈活性——比如它能夠優雅地握住香檳酒杯。不過,在訓練這個看似簡單的動作期間,我們失敗了很多次。這一系統在工業場景中同樣表現出色,可以精抓取工廠零件,還能實現多機器人協同作業。
需要特別強調的是,我們不僅會開源GR00T系列模型的當前版本,未來迭代的版本也將持續開源。這完全遵循黃仁勛提出的“開源與民主化物理AI”的發展理念。
五、“未來,所有可移動的物體都將實現自主化”
那么,物理AI之后的下一個前沿是什么?我認為將是“物理API”的革命??v觀人類五千年文明史,雖然工具不斷革新,社會持續進步,但我們準備晚餐的方式與古埃及時期相比并無本質區別。
在人類99%的歷史中,我們始終依賴人力勞動將原材料轉化為文明成果。直到最近50年,我們才開始使用高度專業化但功能單一的機器人系統——這些系統開發成本高昂,應用范圍有限。
而未來,我們將實現物理API的普及。就像今天的大模型API處理數字信息一樣,物理API將能夠操控物理世界的物質變化。
物理API將催生全新的經濟形態。該如何教會這些機器人做事情呢,語言本身是不夠的,我們可以打造“物理App Store”,培養“物理提示詞工程”、“技能經濟”等行業。
屆時,米其林大廚不必親臨廚房,只需將其烹飪技藝傳授給機器人,就能提供米其林級別的餐飲服務。正如黃仁勛所說的:“未來,所有可移動的物體都將實現自主化。”
想象這樣一個場景:你回到家中,迎接你的是整潔的沙發、燭光晚餐,以及伴侶溫馨的微笑——而不是因為沒洗衣服而引發的爭吵。這樣的愿景每天都在激勵著我前進。這些機器人將逐漸融入生活背景,成為環境智能的一部分。我們或許都不會注意到機器人通過物理圖靈測試的歷史性時刻,只會把那天當作生命中平凡的一天。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.