99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

銀河通用王鶴:VLA相當(dāng)于機(jī)器人的「義務(wù)教育」

0
分享至

在近日的北京智源大會上,北京大學(xué)助理教授、北京銀河通用機(jī)器人創(chuàng)始人兼CTO-王鶴,在備受關(guān)注的「具身智能與人形機(jī)器人」論壇上發(fā)表了演講,詳細(xì)介紹了VLA對于機(jī)器人智能發(fā)展的作用,以及銀河通用目前所做的工作。

RoboX對其演講內(nèi)容進(jìn)行了整理提煉,供大家參考。



簡述VLA

通用機(jī)器人的本質(zhì),是通過具身智能驅(qū)動高自由度的仿人本體。它不能只做某一件具體的事情,而是要服務(wù)千行百業(yè),千家萬戶。

面對這樣的目標(biāo),王鶴認(rèn)為,VLA(Vision-Language-Action Model)的應(yīng)用是一個重要轉(zhuǎn)折點(diǎn)。

他介紹稱,VLA的輸入是人類的自然語言指令,這也是實(shí)現(xiàn)通用的一個關(guān)鍵點(diǎn),比過去的復(fù)雜指令更加通用。

另一個重要的模態(tài)是視覺:視覺占到了人類日常信息輸入量的80%以上。所以要想實(shí)現(xiàn)通用機(jī)器人,先納入視覺模態(tài)是非常重要的。

模型的輸出是Action。在谷歌的RT-2框架中,模型直接生成Everyday Robot末端執(zhí)行器的瞬時三維平動和三維旋轉(zhuǎn)。該動作指令可通過逆運(yùn)動學(xué)(IK)求解器轉(zhuǎn)換為關(guān)節(jié)空間的目標(biāo)位姿,最終由PID/PD控制器驅(qū)動執(zhí)行機(jī)構(gòu)完成運(yùn)動控制。



王鶴表示,如果類比人體的運(yùn)動控制及腦部系統(tǒng),VLA用于實(shí)時生成軌跡,控制則交由機(jī)械臂,做IK后再基于positional(位置信息)執(zhí)行。所以VLA不是「小腦」,更多的是「大腦」。

今天的VLA強(qiáng)調(diào)快速的閉環(huán)反饋,它的頻率從剛開始的3赫茲,到現(xiàn)在最快可達(dá)50赫茲甚至更高的反饋頻率,這就是大腦中的快系統(tǒng)。而一些邏輯推理和長程規(guī)劃的東西,它會思考得更慢。

為何不能押寶真實(shí)數(shù)據(jù)?

目前,國際上訓(xùn)練VLA最主流的方式,是通過真機(jī)采集大量的遙操作數(shù)據(jù),例如特斯拉的遙操工廠、斯坦福大學(xué)的ALOHA等等。

“現(xiàn)在市場或政府都在討論要不要建大型的遙操場,到底要建多少才夠。我們可以先看一下自動駕駛使用的‘人類的遙操數(shù)據(jù)’——既然車就是機(jī)器人,那方向盤就是遙操的主臂,人就是遙操員。”

王鶴表示,如今的頭部車企,會有約百萬輛級別的車每天在路上跑。按照15-30秒是一個clip的標(biāo)準(zhǔn),日回流量為上億clips;而目前具身智能最大的數(shù)據(jù)集約為100萬-200萬clips的數(shù)據(jù)集。



車的自由度只有兩個:方向盤+油門剎車。而人形機(jī)器人的一條手臂就有六七個自由度,一只靈巧手有20個自由度,全身加起來有接近百個自由度。

如今的頭部人形機(jī)器人廠商,包括銀河通用,在真機(jī)數(shù)據(jù)采集這件事上,與汽車百萬臺的數(shù)量中間存在巨大差距,這就是為什么不能夠完全押寶真實(shí)數(shù)據(jù)。

“如果想押寶真實(shí)數(shù)據(jù),就得先把人形機(jī)器人量產(chǎn)到百萬千萬臺,然后再讓百萬千萬人去做數(shù)據(jù)采集。這一點(diǎn)會讓人形機(jī)器人或者VLA的發(fā)展陷入長期的無法落地的狀態(tài)。”

如何訓(xùn)練端到端VLA?

王鶴指出,在此背景下,最主要的學(xué)術(shù)觀點(diǎn)就是用合成仿真數(shù)據(jù)解決難題——銀河通用正在從機(jī)器人與物體間的交互,以及靈巧手抓取標(biāo)簽和軌跡中,研究視覺層面仿真和現(xiàn)實(shí)之間的差異(Sim2Real Gap),并且在仿真器中通過大量的強(qiáng)化學(xué)習(xí),自主探索靈巧手抓取的方式。



今年,銀河通用構(gòu)建了一個完全用合成數(shù)據(jù)訓(xùn)練的具身端到端VLA大模型。

王鶴稱,它背后是數(shù)10億級別的機(jī)械臂抓取的軌跡幀,每一幀都有VLA label。并且,這些數(shù)據(jù)覆蓋了桌面上可能出現(xiàn)的各種物體及相關(guān)信息:包括名字、材質(zhì)、形狀、堆放方式、光照背景,桌子顏色紋理,以及其他變量等。

與DeepSeek千億萬億級別的參數(shù)量不同,銀河通用的GraspVLA模型,是一個幾十億參數(shù)的端到端快系統(tǒng)。

該模型的訓(xùn)練特點(diǎn),是在輸出時用到了「具身思維鏈」:“比如‘拿起盒子’的動作,我們先輸出一個2D的Bounding Box(邊界框),再用該輸出去進(jìn)一步思考如何做6D Grasping Pose。這兩個輸出本質(zhì)上都是Auto-Regressive(自回歸模型)中的離散Token,基于它們,可以用Flow Matching的Action Expert,去輸出七自由度的Delta Action。就和Google RT-2一樣,Delta Action可實(shí)現(xiàn)瞬時平動,瞬時轉(zhuǎn)動和瞬時夾爪的閉合。”

王鶴表示,GraspVLA是第一次將2D Bounding Box、6D Grasping Pose引入作為思維鏈(CoT),最終輸出Delta Action的。



數(shù)據(jù)價值與測試效果

GraspVLA首先采用的就是合成數(shù)據(jù),由于這些數(shù)據(jù)將物體的2D Bounding Box標(biāo)簽、6D Grasping Pose的抓取標(biāo)簽,動作軌跡標(biāo)簽等融在一起合成,從而可以保證其一致性。

但是,合成數(shù)據(jù)畢竟不能囊括物理世界的一切信息,所以銀河通用也在使用互聯(lián)網(wǎng)的圖文視頻數(shù)據(jù)。這些數(shù)據(jù)也被加以注釋和描述,約有一億數(shù)據(jù)也做了Bounding Box的注釋,這些數(shù)據(jù)會與合成數(shù)據(jù)進(jìn)行混合訓(xùn)練。

“互聯(lián)網(wǎng)的很多數(shù)據(jù)沒有Action標(biāo)簽,只有Bounding Box標(biāo)簽,所以我們的模型就只訓(xùn)練到第一步Bounding Box,并不輸出CoT和Action。經(jīng)過這樣的混合訓(xùn)練,我們可將互聯(lián)網(wǎng)上所有的感知、視覺和語義全部吸納進(jìn)來。”



王鶴指出,經(jīng)過訓(xùn)練,銀河通用的VLA端到端模型產(chǎn)生了非常強(qiáng)的零樣本泛化能力——經(jīng)過與π0(PI發(fā)布的具身智能大模型)對比,在全新的環(huán)境中,π0需要在指定的測試環(huán)境中進(jìn)行一定的數(shù)據(jù)微調(diào)才能工作,而GraspVLA則完全不需要微調(diào),成功率還比前者更高。



“π0只用到了100萬到幾百萬規(guī)模的數(shù)據(jù)集,而且還是一個‘很臟’的數(shù)據(jù)集,包括一些跨本體、多形態(tài)的機(jī)械臂、人形、輪式混在一起。我們則是單一機(jī)械臂的大規(guī)模高質(zhì)量物理仿真數(shù)據(jù)集,對于光照背景、物體位置、平面高度、開放詞匯類別、閉環(huán)、魯棒性,都有充分的零樣本的泛化性。”

王鶴舉了一個「抓取玩具鴨」的案例,輸入的語言指令就是「抓一個鴨子」,同時隨機(jī)采取了各種干擾方式,夾爪還是成功夾起了目標(biāo)。他認(rèn)為,這足以證明GraspVLA不是一個開環(huán)的模型。



對于該模型的架構(gòu)和數(shù)據(jù),銀河通用也進(jìn)行了機(jī)制消融實(shí)驗。

“π0的模型只用仿真數(shù)據(jù),因此它直接輸出Action,成功率沒有想象的那么高,在真實(shí)世界只有20%。而我們的仿真數(shù)據(jù)用到了2D Bounding Box、6D Grasping Pose的全部標(biāo)簽,成功率在真實(shí)世界達(dá)到了93%。”

王鶴還表示,如果和π0.5這種多任務(wù)平行訓(xùn)練的模式相比,采用CoT的VLA成功率高了20%以上。

“上述成果都是基于全合成數(shù)據(jù)。如果你給我真實(shí)世界的動作數(shù)據(jù),只會讓我更強(qiáng)。”

在「零樣本泛化」層面,他舉了個例子——在針對某品牌礦泉水進(jìn)行訓(xùn)練時,貨架上一排擺了4瓶,一共5排;而測試時變成一排3瓶,一共4排,位置大小、高度、顏色,蓋子的直徑全變了。



“如果只是簡單記憶,肯定是會抓錯的,而我們現(xiàn)在能夠零樣本的泛化在新的飲品上。這就意味著,如果需要進(jìn)廠或進(jìn)店培訓(xùn),可以在一類樣品中只培訓(xùn)一個,它就自動在同類物體之間泛化,這樣的VLA才能成為老百姓或是工廠超市用得起的技術(shù)。”

VLA是「義務(wù)教育階段」

王鶴認(rèn)為,這種采用合成數(shù)據(jù)的具身端到端VLA訓(xùn)練新范式,相當(dāng)于人類的義務(wù)教育——它能將一項技能在十億百億規(guī)模的數(shù)據(jù)中進(jìn)行充分學(xué)習(xí),在徹底學(xué)會以后,就可以真實(shí)世界用很少量的數(shù)據(jù)進(jìn)行簡單培訓(xùn),這相當(dāng)于職業(yè)教育,讓機(jī)器人能夠舉一反三地執(zhí)行真實(shí)場景的任務(wù)。



他介紹稱,在「貨架取物」的任務(wù)中,過去是基于視覺,對抓取Pose進(jìn)行估計,再進(jìn)行軌跡執(zhí)行。這需要把商品放得稀疏一些,因為軌跡規(guī)劃必須要避障。



而在銀河通用的實(shí)際操作中,貨架上的商品種類繁多,形態(tài)各異,從瓶裝水到真空包裝的鹵蛋都有,而且燈光、展區(qū)、物品位置都和測試布置完全不一樣。“這一看就是閉環(huán)的模型。”他說道。

靈巧手+VLA的效果

除了展示的二指夾爪,銀河通用也對靈巧手進(jìn)行了長時間測試。

“今年我們用自研的合成管線,第一次將33種人類抓取模式全部覆蓋:使用剪刀的手勢、持針抓的手勢等等,這些數(shù)據(jù)全都能合成。“

王鶴說的這套基于數(shù)學(xué)優(yōu)化和物理仿真的全鏈路合成管線,能夠GPU并行地產(chǎn)生大量的靈巧手抓取數(shù)據(jù),覆蓋上千萬個不同的物體的抓取。而且還不僅限于抓取,還有各種各樣的操作。



例如疊衣服的任務(wù),從帽衫、跨欄、背心、長袖、短袖、無袖、長褲、短褲,各種紋理的衣物,都能夠大規(guī)模合成數(shù)據(jù),從而進(jìn)行非常長程的示范學(xué)習(xí)。

從王鶴演示的視頻來看,靈巧手在疊衣服過程中,即便面對種種干擾也還是繼續(xù)完成了任務(wù)。

另外,其合成數(shù)據(jù)還覆蓋了自然語言視覺、自然語言導(dǎo)航、尋物,跟隨人等等。其中,在復(fù)雜環(huán)境中,聽從復(fù)雜指令跟隨人的示范非常有趣:

“在從來沒見過的場景里,沒有SLAM,沒有定位建圖,機(jī)器人能在陌生環(huán)境中服從一個非常長的指令,例如Move to the man on the right side,then follow the man until you see a sofa。”

在示范視頻中,可以看到收到該指令的機(jī)器狗,跟隨一個人直到沙發(fā)邊,然后便停止跟隨。另一個案例中,即便人都在拐角處走出視野了,機(jī)器狗還能繼續(xù)轉(zhuǎn)彎跟隨,而且在商場的復(fù)雜環(huán)境中也沒有失誤。



“這就是端到端方案的效果。頭部車廠是單天回流1億條clips,可是總不能找100萬人去操作機(jī)器狗,所以這其中全合成數(shù)據(jù)。”

已開始常態(tài)化運(yùn)行

目前,這些VLA端到端模型的技術(shù),已經(jīng)在零售、接待、康養(yǎng)和工業(yè)領(lǐng)域中逐步落地。

例如在24小時藥店的貨架區(qū)和柜子存儲區(qū),銀河通用已經(jīng)部署了人形機(jī)器人進(jìn)行取貨工作,這樣的店已經(jīng)常態(tài)化運(yùn)行7家。

關(guān)于「全人形」的工作

全人形機(jī)器人無疑是更難的,而銀河通用也已經(jīng)在全人形上開展工作。

“現(xiàn)在我們基于強(qiáng)化學(xué)習(xí)端到端全身控制的遙操,不僅能蹲,還可以向前前傾,能抓握地面上的東西。我們也在各種各樣的環(huán)境中去做全身遙操,并且全時維持身體的平穩(wěn)。”



這就是銀河通用聯(lián)合清華大學(xué)弋力助理教授團(tuán)隊發(fā)布的OpenWBT,這是一款全開源、多機(jī)型、跨虛實(shí)人形機(jī)器人全身遙操作系統(tǒng)。

王鶴介紹稱,該方法將原子技能進(jìn)行編碼、解碼,再把中間串聯(lián)的連接,通過強(qiáng)化學(xué)習(xí)構(gòu)成技能組合。

“大家只需要大家用VR頭顯、手柄,筆記本就可以輕松搭建。它既能在真實(shí)世界里遙操,又能在仿真世界里遙操,還可以跨機(jī)型。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2024年,我國人均GDP降至全球第73名,那美、俄、印、日等國呢?

2024年,我國人均GDP降至全球第73名,那美、俄、印、日等國呢?

南生今世說
2025-07-04 03:14:33
1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

紀(jì)實(shí)文錄
2025-06-21 14:47:10
不用再海試了,福建艦甲板停滿艦載機(jī),閱兵前應(yīng)該會交付入役

不用再海試了,福建艦甲板停滿艦載機(jī),閱兵前應(yīng)該會交付入役

三叔的裝備空間
2025-07-03 17:32:17
昔日林彪死黨的那些夫人們,她們究竟是一群怎樣的人?

昔日林彪死黨的那些夫人們,她們究竟是一群怎樣的人?

霹靂炮
2025-05-20 15:10:31
矛盾再次升級!1票之差馬斯克或被驅(qū)逐出境,63歲奧巴馬強(qiáng)硬表態(tài)

矛盾再次升級!1票之差馬斯克或被驅(qū)逐出境,63歲奧巴馬強(qiáng)硬表態(tài)

史行途
2025-07-05 11:56:19
20億巨資造了個"鞋墊"?深圳新地標(biāo)酷似球鞋,網(wǎng)友:透氣孔亮了!

20億巨資造了個"鞋墊"?深圳新地標(biāo)酷似球鞋,網(wǎng)友:透氣孔亮了!

根基
2025-07-05 00:21:47
泰國二王子"奪儲失敗"遭驅(qū)逐出境!泰王派人包圍寺廟將其強(qiáng)送機(jī)場

泰國二王子"奪儲失敗"遭驅(qū)逐出境!泰王派人包圍寺廟將其強(qiáng)送機(jī)場

每日一見
2025-07-01 00:39:52
森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學(xué)費(fèi)

森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學(xué)費(fèi)

半解智士
2025-06-20 19:12:01
寧可臺灣不長草,也要解放臺灣島!

寧可臺灣不長草,也要解放臺灣島!

華山穹劍
2025-07-04 21:26:36
萬萬沒想到!義烏一頂 40 美元的帽子,讓美國人搶瘋了,年銷過億!

萬萬沒想到!義烏一頂 40 美元的帽子,讓美國人搶瘋了,年銷過億!

石辰搞笑日常
2025-07-04 08:28:30
仗打了1000多天,美國終于發(fā)現(xiàn)不對勁:原來中國三年前就選對了!

仗打了1000多天,美國終于發(fā)現(xiàn)不對勁:原來中國三年前就選對了!

來科點(diǎn)譜
2025-07-03 16:13:51
記者:比爾愿意就買斷合同達(dá)成合作,以加速離開太陽隊

記者:比爾愿意就買斷合同達(dá)成合作,以加速離開太陽隊

懂球帝
2025-07-05 06:08:11
反戈舊主!佩德羅:我非常了解弗魯米嫩塞,好好休息全力沖擊決賽

反戈舊主!佩德羅:我非常了解弗魯米嫩塞,好好休息全力沖擊決賽

雷速體育
2025-07-05 12:17:17
胡璉有多狡猾?淮海戰(zhàn)場跑路時副官提醒他方向反了,他卻狡黠一笑

胡璉有多狡猾?淮海戰(zhàn)場跑路時副官提醒他方向反了,他卻狡黠一笑

蛋糕不高
2025-06-28 20:34:17
費(fèi)大廚招服務(wù)員“本科以下勿擾”引熱議,現(xiàn)已改為“學(xué)歷不限” 涉事門店:此前招聘已撤下

費(fèi)大廚招服務(wù)員“本科以下勿擾”引熱議,現(xiàn)已改為“學(xué)歷不限” 涉事門店:此前招聘已撤下

紅星新聞
2025-07-04 23:20:07
海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

海參崴本該在1995年歸還中國,斯大林親筆簽名同意,后來為何黃了?

霹靂炮
2025-07-02 21:36:59
簽了!重新加盟湖人!NBA第三個交易否決權(quán)

簽了!重新加盟湖人!NBA第三個交易否決權(quán)

籃球?qū)崙?zhàn)寶典
2025-07-04 15:28:30
摩托羅拉造了臺1399的“三防機(jī)”,把所有網(wǎng)友整不會了

摩托羅拉造了臺1399的“三防機(jī)”,把所有網(wǎng)友整不會了

鋒潮評測
2025-07-04 17:59:55
難得一見的老照片,每張都很珍貴!

難得一見的老照片,每張都很珍貴!

霹靂炮
2024-08-26 23:36:01
《大漂亮法案》通過!將重塑庇護(hù)系統(tǒng),偷渡先罰5000美元,ICE“如虎添翼”,有望每年驅(qū)逐100萬人

《大漂亮法案》通過!將重塑庇護(hù)系統(tǒng),偷渡先罰5000美元,ICE“如虎添翼”,有望每年驅(qū)逐100萬人

大洛杉磯LA
2025-07-04 05:45:07
2025-07-05 14:48:49
RoboX
RoboX
關(guān)注智能汽車、機(jī)器人在內(nèi)的具身智能前沿科技
151文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

馬斯克吹上天的Cybertruck 為何"徹底失敗"

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

體育要聞

史上最真實(shí)的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲反擊!曝向具俊曄提出財產(chǎn)追回

財經(jīng)要聞

特朗普簽署 美國萬億減稅支出法來了

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀(jì)念版上市

態(tài)度原創(chuàng)

教育
時尚
游戲
手機(jī)
家居

教育要聞

華羅庚競賽題,三階幻方,難倒上萬考生

李若彤、鄭秀文低能量時期的“處方”!停滯時不妨試試它

韓網(wǎng)熱議AL不敵GEN:chovy打起精神來!Tarzan和shanks好可怕

手機(jī)要聞

10/10 滿分:iFixit 點(diǎn)贊 Fairphone 6 維修性

家居要聞

合理布局 三口之家的溫馨空間

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 遂川县| 株洲县| 潞城市| 恭城| 始兴县| 班玛县| 宁海县| 江门市| 美姑县| 太仓市| 津市市| 眉山市| 亚东县| 云林县| 天津市| 新巴尔虎左旗| 蛟河市| 上饶县| 巴东县| 临邑县| 新乡市| 钦州市| 潮安县| 定安县| 吉首市| 梅州市| 临湘市| 宜丰县| 探索| 西和县| 印江| 双柏县| 来宾市| 淮滨县| 溧水县| 廊坊市| 贵南县| 沙坪坝区| 获嘉县| 长阳| 开阳县|