一身黑色皮衣的老黃站在英偉達GTC 2025的舞臺上,一口氣演講了兩個小時。退場前幾分鐘,一個亂入的機器人Blue,引起了全場騷動。
虎頭虎腦的Blue并不是第一次為老黃站臺,上一次是GTC 2024。短短一年時間,Blue肉眼可見的進化:黃仁勛夸它聰明時會驕傲,催促時還有點小生氣,可愛的樣子好像從《機器人總動員》里走出來的真實版瓦力。
演講中,黃仁勛揭秘了一種訓練機器人的新方式:完全實時仿真模擬,以及背后的人形機器人基礎模型:GR00T N1,并表示“機器人的時代已經到來”。
就在老黃走下舞臺的幾個小時后,他的老同事,群核科技創始人兼董事長黃曉煌在GTC大會上發布并開源了自主研發的空間理解模型SpatialLM,與空間智能解決方案SpatialVerse一起,組成了一對“神仙老師”,聯手讓機器人完成從認知理解到行動交互的完整閉環訓練。
和老同事兼領導見面后,黃曉煌發了條朋友圈:“總被調侃如果不賣英偉達股票用來創業,和創立群核科技的回報,哪個值錢?我覺得,從GPU高性能計算到今天具身智能訓練,創業一路受到Nvidia和老黃的思想的影響是畢生財富。談錢就沒意思了。”
杭州小龍發布“神仙老師”
這是一個客廳,這面是客廳的墻,這張是沙發……給SpatialLM“刷”一段視頻,它就能生成物理正確的3D場景布景,像人類環顧四周環境就能理解背后的空間結構一樣,能夠基于從視頻中提取的點云數據,準確認知和理解其中的結構化場景信息,并將它以腳本語言的形式呈現出來。
它的意義在于,突破了大語言模型對物理世界幾何與空間關系的理解局限,讓機器具備空間認知與推理能力,為具身智能等相關領域提供空間理解基礎訓練框架。
相比其他讓機器學習物理世界的方式,SpatialLM的過人之處,首先是更通用的數據輸入模式。不需要借助智能穿戴設備作為傳感器輸入數據,手機、相機拍攝的視頻都可以成為數據來源,大大降低了開發者的數據采集門檻。
SpatialLM基于視覺重建的3D結構化場景
其次,空間場景符合物理正確原則。所謂的物理正確,就是虛擬場景里反映的一切,都是符合物理基礎的。比如毛毯,看上去具有絨顆粒感;裝有熱水的玻璃杯,散發出騰騰熱氣;人坐在柔軟的沙發上,能看到接觸面壓出的褶皺。
SpatialLM具有創建物理正確的場景布局的“真”本事,背后是群核科技這家因為“杭州六小龍”而被大眾認識的科技公司,過去10多年積累下來的海量的3D數據和空間認知數據。作為一家空間智能企業,他們擁有目前全球最大的室內場景認知深度學習數據集。
大量物理正確的3D數拓和空間認真數據提供仿真支持
如果說SpatialLM模型“教”的是如何讓機器人更好地感知世界。那么去年群核科技發布的空間智能解決方案SpatialVerse,則通過合成數據方案為機器人搭建起接近物理真實的“數字道場”,幫助它們在仿真環境下完成例如疊被子、遞送水杯、開關冰箱門等行動的交互訓練。
英偉達GTC 2025群核科技現場展區
有了這對“神仙老師”,機器人將獲得從認知理解到行動交互的完整閉環訓練——既能“看懂”世界,又能學會行動決策,才能在真實世界里順利“上崗”,更好地完成人類指令。
老同事之間的不謀而合
嚴格說來,黃曉煌和黃仁勛的關系不只是同事。當年,在浙大完成本科學業后,他能夠遠赴美國伊利諾伊大學香檳分校(UIUC)攻讀計算機碩士,拿的就是英偉達全額獎學金。而他的研究方向,就是用GPU做高性能計算。
GTC 2025上,黃仁勛和黃曉煌合影
2010年,黃曉煌從UIUC碩士畢業,按部就班進入英偉達工作,并參與了CUDA開發。只不過當時在硅谷,英偉達還是一家不太起眼的小公司。
沒想到兜兜轉轉15年,英偉達成了當下全球最有影響力的科技公司,黃曉煌創立的群核科技也開啟了IPO征程,他們和黃仁勛正在眺望同一片和具身智能相關的星辰大海。
早在兩個月前的CES大會上,黃仁勛稱,“AI下一個前沿就是物理AI”。同時重磅官宣了世界基礎模型開發平臺——Cosmos。
Cosmos是一個能通過現在畫面,去預測未來畫面的模型。它可以從文本/圖像輸入數據,生成詳細的視頻,并通過將其當前狀態(圖像/視頻)與動作(提示/控制信號)相結合來預測場景的演變。它可以讓機器人準確地理解物理世界,和SpatialLM想要扮演的角色和達到的目標一樣。
本屆GTC上,英偉達還一口氣推出了兩個新的藍圖,由NVIDIA Omniverse?和Cosmos平臺提供支持,為開發人員提供大規模、可控的合成數據生成引擎,主要用于訓練后的機器人和自動駕駛汽車。
Cosoms與Omniverse搭配使用,虛實結合,讓虛擬世界的設計搬到現實世界訓練。
而本次GTC老黃重磅發布的Isaac Groot(GROOT N1),采用了雙系統架構,能夠在復雜環境中靈活應對各種任務,例如抓取、雙臂搬運、單臂與雙臂協作,以及多步復雜操作,適用于物料搬運、包裝和檢測等場景。
黃仁勛透露,GROOT N1模型已經被多家機器人制造商采用,包括Fourier GR-01、Agility Robotics、Boston Dynamics等,助力類人機器人進入更廣泛的商業應用場景。
而在空間和具身智能訓練上,目前群核科技也已經與硅谷頭部科技企業等在內的一批國內外具身智能企業達成合作。
讓機器人“看懂”
物理世界有多難?
如何讓掃地機器人分辨地板上的一坨狗屎和一堆形狀像屎的普通垃圾?這個問題曾難倒大多數掃地機器人公司。
早期掃地機器人通過碰撞實現轉向,最怕碰到的一個極端場景,就是家里寵物的糞便。因為掃地機器人的激光雷達不會識別寵物糞便,碰到之后不會停下來,常常把家里拖得到處都是。
剛開始,掃地機器人公司試圖用攝像頭替換激光雷達來識別寵物糞便,隨之而來的問題是:訓練的時候幾乎找不到一個充滿貓屎狗屎的真實場景做實驗。
早在疫情時,一家掃地機器人公司與群核科技合作,通過數據合成在數字世界完成了機器人對寵物糞便識別的訓練。
為了模擬真實寵物糞便的樣子,當時,群核科技做數據合成的設計師花了好幾天時間,專門研究各種形狀的貓屎和狗屎,最后因為合成得過于逼真,被其他設計師在微博吐槽:貓屎有必要做得這么逼真嗎?
就像棋手,只有經過無數次的廝殺,才能從一個小白變成下棋高手一樣,機器人在真正走進現實生活成為人類幫手之前,也要經過大量的學習和訓練。通過一遍遍感知、行動、反饋,從而形成動態學習能力。所以空間認知是機器人與現實交互的基礎能力。
SpatialLM運行原理
不過在訓練機器人的過程中,用真機在真實環境中進行數據采集存在很多問題。假如用一個真實的空間訓練一個機器人,那么每訓練一個場景都要蓋一個真實的房間,那這個成本實在太高了。
效率也是個問題。在物理世界里,時空是確定的。如果訓練一個機器人需要1天,那么訓練1萬次就得1萬天,時間沒有辦法壓縮。
另外,在現實世界里面,要找到各種各樣不同場景是非常困難的。如果我們想訓練一個機器人去火星上幫人類干活,沒有辦法先把一堆設備送到火星上去提前訓練。
合成數據可以解決多樣性問題。把訓練機器人的環境放到數字世界里,不僅時間可以被壓縮,物理世界里要用1萬天跑完的數據,數字世界里也許1天就可以跑完。仿真場景還可以無限泛化出海量的場景供機器人學習,從而實現“舉一反無數”。
這也是為什么不久前群核科技所在的杭州上城區宣布啟動具身智能虛擬訓練場共建計劃,專門為具身智能建了一座”學校”,目前已經確認加入的“老師”包括了政府方,企業方——群核科技、熾橙科技、特雷西能源科技等。
其中一份“教案”,就是群核科技旗下的”群核空間智能平臺”SpatialVerse。
把智能機器人投放到這個虛擬世界,它們就可以像人類一樣,去感知世界中的各種”東西”,比如“用多大力氣可以打開一個柜子”“撿起一個玩具從哪個角度可以放進筐里”“扭秧歌甩手帕要甩多高”等實踐經驗。
文 | 沈積慧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.