2023年開始,具生智能機(jī)器人行業(yè)開始急劇升溫,這股熱火一直持續(xù)到今年還未見退去的跡象。
據(jù)《圓周機(jī)器人》不完全統(tǒng)計(jì),2024年全球人形機(jī)器人行業(yè)共發(fā)生87起融資事件,已披露的融資總額超155億元。其中,71起發(fā)生在國內(nèi),融資總額將近70億元,單筆融資達(dá)億級(jí)的有26起。有興趣的朋友可以回看我們之前的內(nèi)容。累計(jì)80起!總額超150億!機(jī)器人2024融資“殺瘋了”
很多人奇怪的是,機(jī)器人其實(shí)并不算一個(gè)新興行業(yè),甚至說是古老的傳統(tǒng)行業(yè)也不為過,為什么這時(shí)候突然又火起來了?
最近,《圓周機(jī)器人》訪談了NVIDIA 機(jī)器人與邊緣計(jì)算副總裁 Deepu Talla ,他給出了2點(diǎn)思考:
1、他認(rèn)為生成式AI(GenAI)對(duì)于通用機(jī)器人的發(fā)展扮演了至關(guān)重要的角色。ChatGPT的出現(xiàn)讓大型語言模型(LLMs)顛覆了數(shù)字應(yīng)用領(lǐng)域。現(xiàn)在,這些技術(shù)在醫(yī)療、自動(dòng)駕駛等千行百業(yè)發(fā)揮作用,機(jī)器人產(chǎn)業(yè)自然也是其中的受益者。
2、仿真環(huán)境的改進(jìn)也對(duì)具身智能機(jī)器人的發(fā)展提供了足夠的開發(fā)環(huán)境。由于沒有很好的商業(yè)化落地場景,機(jī)器人很難實(shí)現(xiàn)大規(guī)模量產(chǎn),這導(dǎo)致其制造成本非常高昂。
此外,在物理世界中取得進(jìn)展同樣需要大量時(shí)間,因?yàn)橐磺卸甲裱罢鎸?shí)時(shí)間”(即我們所說的“墻鐘時(shí)間”)。以前,機(jī)器人技術(shù)的測試主要依賴于物理環(huán)境,這導(dǎo)致進(jìn)展非常緩慢。過去的一年里,NVIDIA通過 Omniverse技術(shù)打破這種物理空間的束縛。簡單點(diǎn)說就是給機(jī)器人提供一個(gè)虛擬的測試環(huán)境,讓它可以脫離現(xiàn)實(shí)的物理空間測試。這大大縮短了機(jī)器人的開發(fā)周期。
然而,即便如此,具身智能機(jī)器人的挑戰(zhàn)依然巨大。地平線副總裁蘇菁表示,如果自動(dòng)駕駛都做不好,有什么資格做機(jī)器人。業(yè)內(nèi)人士都知道,機(jī)器人比自動(dòng)駕駛要復(fù)雜得多,通用機(jī)器人更是皇冠上的明珠,讓人望而卻步。
破局者依然是英偉達(dá),CES 2025上,英偉達(dá)發(fā)布了針對(duì)機(jī)器人行業(yè)的“三臺(tái)計(jì)算機(jī)”:
1、第一臺(tái)計(jì)算機(jī)用于訓(xùn)練:這是用于訓(xùn)練AI模型的系統(tǒng)。訓(xùn)練通常在云端、數(shù)據(jù)中心或像NVIDIA DGX這樣的強(qiáng)大系統(tǒng)上進(jìn)行。這是構(gòu)建機(jī)器人“大腦”的關(guān)鍵步驟。
2、第二臺(tái)計(jì)算機(jī)用于仿真:一旦訓(xùn)練完成,就需要進(jìn)行測試。以往的標(biāo)準(zhǔn)是物理測試,但這種方式既慢又昂貴,還存在風(fēng)險(xiǎn)。更好的解決方案是引入一個(gè)“仿真層”,即“數(shù)字孿生”,在虛擬環(huán)境中完成測試。仿真允許在大規(guī)模、快速且安全的條件下運(yùn)行數(shù)千種場景測試,無需受到真實(shí)世界時(shí)間或成本的限制。
3、第三臺(tái)計(jì)算機(jī)用于部署:第三種系統(tǒng)安裝在機(jī)器人內(nèi)部,它就是操作物理機(jī)器人的“大腦”。對(duì)NVIDIA來說,這可以通過像Jetson或AGX這樣的系統(tǒng)來實(shí)現(xiàn)。
這三臺(tái)機(jī)器就是NVIDIA Isaac GR00T、Omniverse 和 Cosmos,主要應(yīng)用在機(jī)器人開發(fā)的三個(gè)不同階段:訓(xùn)練、測試和部署。
首先是Isaac GR00T Blueprint。機(jī)器人的開發(fā)需要大量的訓(xùn)練。但訓(xùn)練數(shù)據(jù)的獲取是個(gè)大難題。當(dāng)前的方法包括使用Apple Vision Pro或動(dòng)作捕捉套裝來記錄人類動(dòng)作的示范。但規(guī)模、效率、豐富度都非常低。
谷歌和特斯拉的數(shù)據(jù)顯示,采集數(shù)據(jù)的成本非常高。花費(fèi)了17個(gè)月、16個(gè)工程師以及13臺(tái)機(jī)器人,僅僅采集了13萬條數(shù)據(jù)。今天,特斯拉的這套設(shè)備,包括內(nèi)部的系統(tǒng)設(shè)備以及整個(gè)數(shù)據(jù)采集的過程,都是高昂的成本,費(fèi)用高達(dá)百萬。
于是,英偉達(dá)帶來了Isaac GR00T Blueprint,它的主要作用是合成運(yùn)動(dòng)生成,幫助開發(fā)者生成海量的合成運(yùn)動(dòng)數(shù)據(jù),以便通過模仿學(xué)習(xí)來訓(xùn)練人形機(jī)器人。通過真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的結(jié)合,行業(yè)能夠克服機(jī)器人技術(shù)中數(shù)據(jù)稀缺的問題。
很多已經(jīng)開始了實(shí)踐探索。銀河通用通過該平臺(tái)將各種 3D 固體資產(chǎn)、環(huán)境以及各類材質(zhì)和紋理素材相互融合,模擬機(jī)器人的運(yùn)行場景,探討機(jī)器人如何操作物體。
Deepu Talla也坦言,不管合成數(shù)據(jù)再怎么逼真,也無法和真實(shí)數(shù)據(jù)相比。他們通過算法手段將仿真與現(xiàn)實(shí)世界的差異縮小。例如,通過貝爾曼最優(yōu)性原則,采用預(yù)隨機(jī)化方式,對(duì)接觸面上的摩擦力、材質(zhì),以及物體的質(zhì)量中心、質(zhì)量大小和分布等問題進(jìn)行隨機(jī)處理。實(shí)際上,現(xiàn)實(shí)中存在諸多復(fù)雜因素,在仿真環(huán)境中處理這些因素比在真實(shí)環(huán)境中更具挑戰(zhàn)性。
Deepu Talla 表示:“Isaac 采用的是混合云架構(gòu)(hybrid cloud),云上和端側(cè)架構(gòu)一致,這種一致的架構(gòu)使得相同的軟件能夠在不同環(huán)境中工作,極大地簡化了部署和調(diào)整的過程。”目的就是為了保證端云一體化,模型的部署和修改更加靈活。
英偉達(dá)還帶來了Omniverse,一個(gè)基于多GPU技術(shù)的實(shí)時(shí)協(xié)作和模擬平臺(tái),被視為3D軟件生態(tài)的“連接樞紐”。基于Omniverse,英偉達(dá)搭建了數(shù)字孿生的“Mega工廠”,通過數(shù)字化方式仿真整個(gè)場景。每個(gè)機(jī)器人的動(dòng)作,比如在空間中的移動(dòng),都會(huì)改變環(huán)境,需要實(shí)時(shí)地仿真整個(gè)環(huán)境。
其實(shí)就是模擬機(jī)器人工作的環(huán)境。Mega將機(jī)器人、環(huán)境和傳感器集成在一個(gè)平臺(tái),可以進(jìn)行大規(guī)模的仿真。它是一個(gè)參考架構(gòu),允許開發(fā)者在大規(guī)模的場景下進(jìn)行實(shí)驗(yàn),并優(yōu)化機(jī)器人系統(tǒng)的性能。
NVIDIA在 CES 上還發(fā)布了 Cosmos 平臺(tái)。Deepu Talla 表示,“Cosmos 平臺(tái)擁有一系列開放的預(yù)訓(xùn)練世界基礎(chǔ)模型,專為生成具有物理感知的視頻和物理 AI 開發(fā)所需的世界狀態(tài)而設(shè)計(jì)。”
它包含自回歸模型和擴(kuò)散模型,有各種模型尺寸并適用于多種輸入數(shù)據(jù)格式。這些模型基于 1800 萬億個(gè)數(shù)據(jù)單元進(jìn)行訓(xùn)練,其中包括 200 萬小時(shí)的自動(dòng)駕駛、機(jī)器人、無人機(jī)拍攝的視頻以及合成數(shù)據(jù)。
除了幫助生成大型數(shù)據(jù)集外,Cosmos 還能通過將圖像從 3D 擴(kuò)展到真實(shí)場景,縮小仿真與現(xiàn)實(shí)之間的差距。將 Omniverse(一個(gè)用于構(gòu)建 3D 應(yīng)用程序和服務(wù)的應(yīng)用程序編程接口和微服務(wù)開發(fā)平臺(tái))與 Cosmos 相結(jié)合至關(guān)重要,通過其高度可控、物理精確的仿真提供關(guān)鍵保障,有助于最大限度地減少世界模型常見的幻覺問題。
而這個(gè)結(jié)合貫穿了機(jī)器人開發(fā)測試驗(yàn)證的各個(gè)環(huán)節(jié)。Deepu Talla介紹了Omniverse和GR00T在其中發(fā)揮的巨大作用。
數(shù)據(jù)生成:我們使用Omniverse和GR00T相關(guān)的工作流,例如GR00T-Mimic,將捕捉到的人類示范擴(kuò)展成更大的合成運(yùn)動(dòng)數(shù)據(jù)集。最后,基于 NVIDIA Omniverse 和 NVIDIA Cosmos 平臺(tái)構(gòu)建的 GR00T-Gen 工作流,會(huì)通過域隨機(jī)化和 3D 提升技術(shù),指數(shù)級(jí)擴(kuò)增這個(gè)數(shù)據(jù)集。
模型訓(xùn)練:GR00T提供了高效的技術(shù),幫助企業(yè)更快速地完成模型訓(xùn)練,從而加速收斂并節(jié)省成本。與此同時(shí),Cosmos專注于資源優(yōu)化,進(jìn)一步提升訓(xùn)練的速度和效果。
仿真測試:GR00T通過Isaac Labs進(jìn)行仿真測試來評(píng)估機(jī)器人策略,而Cosmos也支持在仿真環(huán)境中進(jìn)行測試,確保模型在實(shí)際應(yīng)用中的表現(xiàn)。Cosmos 還能通過將圖像從 3D 擴(kuò)展到真實(shí)場景,縮小仿真與現(xiàn)實(shí)之間的差距。
模型部署:在部署階段,GR00T能夠幫助機(jī)器人完成任務(wù)并適應(yīng)現(xiàn)實(shí)環(huán)境。Cosmos同樣支持實(shí)時(shí)場景下的機(jī)器人部署,確保高效運(yùn)行。
過去,機(jī)器人是一個(gè)相對(duì)傳統(tǒng)的行業(yè),更多的是機(jī)械工程的主導(dǎo)。按照Deepu Talla的理解,新技術(shù)的突破給機(jī)器人帶來了新的發(fā)展,使得通用具身智能機(jī)器人能夠在5-10年時(shí)間里實(shí)現(xiàn)巨大突破。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.