99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

機器人動作領域突破!UniVLA模型實現跨模態AI機器人動作統一

0
分享至

還記得《星際穿越》中那臺能在無重力、塵暴甚至巨浪中切換形態、隨時理解庫珀指令的TARS多功能機器人嗎?

在銀幕里,我們羨慕TARS能聽懂人話、看懂環境、馬上給出最合適的動作;而在現實世界的實驗室里,“讓機器人既會看、又會聽、還能動”一直是跨模態人工智能的終極夢想。



過去幾年,Vision-Language-Action(VLA)模型似乎找到了鑰匙,卻又被不同機器人的形態和動作標注成本牢牢拽住:換一條機械臂、添一個關節,就得推倒重來。

這篇來自香港大學與OpenDriveLab團隊的新作UniVLA給出了科幻般的答案:與其費力教每臺機器人說出自己的動作,不如在千萬條人類和機器人視頻中,先悟出一種任務中心的潛在動作語言。



2025年5月15日,香港大學、OpenDriveLab、AgiBot共同在arXiv發布論文Learning to Act Anywhere with Task-centric Latent Actions,一場關于機器人學習的交響樂就此奏響。

論文提出了UniVLA,一位能夠指揮任何機器人樂手演奏統一樂譜的“總指揮”。如果你希望像樂迷一樣透徹感受這場演出,不妨隨我將技術術語化作音符,讓交響故事在你腦海中徐徐展開。

序曲:為什么需要“一張樂譜”?

想象一支由小提琴、薩克斯、手風琴甚至街頭架子鼓混搭而成的樂隊:每件樂器有不同的音域、指法和記譜法,要讓他們同時演奏同一首曲子,傳統方法會為每個樂器單寫分譜,事先標注每一拍該如何演奏。

機器人世界也面臨同樣困境:不同機械臂、移動平臺乃至人類示范的視頻之間,動作符號彼此不兼容,且大規模數據往往缺乏精準標簽,于是舊有方法只能在單一機體或小范圍領域內反復排練。

UniVLA的野心,是提煉一種跨機體、跨視角、無需動作注釋的任務中心潛在動作(task-centric latent actions),就像用一種統一簡譜把所有樂器的旋律都寫進去,讓任何機器人都能看譜即奏。

譜寫通用動作樂譜:潛在動作模型如何“聽音識譜”?

研究團隊先把互聯網與實驗室收集的海量視頻當作過往錄音,逐幀對比前后兩秒的畫面變化,用VQ-VAE把這些變化量化為離散音符。然而,原始錄音里既有主旋律,也混入了觀眾咳嗽、燈光閃爍等噪聲。為避免機器把鏡頭抖動也當作指令執行,論文設計了兩段式配器:

第一段配器:讓文字指令承擔高層語義,把任務無關卻視覺突兀的變化(例如路人經過)收進一個任務無關音軌;

第二段配器:在凍結上述音軌后,再單獨學習真正影響任務的動作音符,也就是task-centric latent actions,最終形成可覆蓋多環境動作的緊湊樂譜。

接著,研究者基于Prismatic-7B視覺語言模型,把圖像特征、語言指令與這些音符并列送入Transformer,讓模型像指揮一樣,聽懂視覺與文字后按拍子輸出下一段潛在動作。整個預訓練僅耗約960個A100 GPU小時,遠低于OpenVLA需要的21500個A100 GPU小時。

彩排與首演:UniVLA 的多場舞臺測試

在模擬排練廳:LIBERO基準



面對四個難度套件(Spatial、Object、Goal、Long),UniVLA 直接把樂譜拍在指揮臺上:Bridge版本在沒有額外人類視頻的情況下,平均成功率 92.5%,而在納入多模態OpenX與Ego4D后,完整版本飆至95.2%,把早先最佳的OpenVLA甩開近19個百分點。

在街角小型劇場:Room2Room導航



導航場景好比讓樂隊邊走邊奏,環境連續變化、步點細碎。即使每次只給 UniVLA一幀路況圖,它的演奏依然把Oracle成功率拉到47.1%,與一次性讀入整段歷史視頻的NaVid不相上下,但比OpenVLA高出29.6%。

在真實音樂節:現實機械臂實驗



團隊用Piper七自由度機械臂安排了掃臺面、疊漢諾塔等四首復雜曲目。UniVLA 在燈光突變、道具干擾、換新物體等場景下平均成功率 68.9%,而單任務Diffusion Policy或OpenVLA分別只有24.4%與20.0%左右。

更巧妙的是,潛在動作把12步序列一次性輸出,RTX 4090上推理頻率可達10 Hz,告別卡頓伴奏。

幕后花絮:潛在動作的“樂理”與可擴展性

潛在動作究竟像怎樣的音符?研究者把來自Bridge-V2、RT-1、人類Ego4D視頻等不同樂器標出的同一潛在動作并排,發現不論是機械臂抓取還是人手拿杯子,都獲得語義一致的抬-放旋律,顯示其跨機體的對齊能力。相比Genie那種把一切視覺變化都當動作的全頻錄音,UniVLA明確區分任務與無關背景,在 Ego4D數據上把LIBERO總成功率從82.3%提升到88.7%。

隨著訓練曲庫加入OpenX、Ego4D等新樂器,無論在R2R導航還是現實機械臂舞臺,UniVLA的表現都節節攀升,好比越大的交響團,和聲越飽滿。而在僅用10%示范譜例的小樣彩排中,它已能把LIBERO-Goal成功率推到86.3%,展現強勁的數據效率。

終章與余音:一位“總指揮”帶來的啟示

說到底,UniVLA給機器人學習世界帶來了一張新的通用簡譜。它告訴我們,當指令語言負責描繪情感主題,潛在動作承擔節奏骨架,機器就能在多樂器環境中即興協奏;當錄像比對與離散量化過濾掉噪音伴奏,模型便能在網絡海量視頻里識別真正有價值的動作符號。

未來,這份簡譜仍有提升空間:粒度是否可自適應變拍、語言注釋若從樂段變成整曲又會怎樣影響分工、如何把世界模型接入作曲環節生成完整樂章,都是值得期待的篇章。

如果想了解作者完整的思路和公式,可以閱讀原論文;機器人愛好者也可以直接打開代碼倉庫,給你的機器樂手發一張新樂譜,也許下一次動聽的協奏,就來自你的工作室。

論文地址:https://www.arxiv.org/abs/2505.06111

代碼倉庫:https://github.com/OpenDriveLab/UniVLA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又贏了?郭希寬走出法庭揮拳慶祝,李圣表態:對庭審表現很滿意

又贏了?郭希寬走出法庭揮拳慶祝,李圣表態:對庭審表現很滿意

振華觀史
2025-06-26 21:10:32
歐盟只給中國30天,必須解決稀土供應,否則馮德萊恩取消訪華?

歐盟只給中國30天,必須解決稀土供應,否則馮德萊恩取消訪華?

小鬼頭體育
2025-06-26 16:03:07
考場外跪謝爺爺的雙胞胎兄弟高考成績出爐,均超山東一段線,爺爺:孩子正選擇院校,后續將申請助學貸款

考場外跪謝爺爺的雙胞胎兄弟高考成績出爐,均超山東一段線,爺爺:孩子正選擇院校,后續將申請助學貸款

極目新聞
2025-06-26 11:20:33
恩怨已久!阿庫尼亞追打鄧弗里斯,此前世界杯時兩人就發生過口角

恩怨已久!阿庫尼亞追打鄧弗里斯,此前世界杯時兩人就發生過口角

直播吧
2025-06-26 12:53:07
雷軍:小米YU7要挑戰特斯拉Model Y 網友:可是你腳小啊

雷軍:小米YU7要挑戰特斯拉Model Y 網友:可是你腳小啊

華庭講美食
2025-06-24 12:28:39
青島經理:里斯兩年前就向開拓者推薦楊瀚森,為保護他,上賽季只讓他出席1次發布會

青島經理:里斯兩年前就向開拓者推薦楊瀚森,為保護他,上賽季只讓他出席1次發布會

雷速體育
2025-06-26 10:58:18
文班亞馬宣布退役,回歸少林?交易約基奇,圍繞楊瀚森重建?

文班亞馬宣布退役,回歸少林?交易約基奇,圍繞楊瀚森重建?

籃球神吐槽
2025-06-25 22:51:39
十大元帥的后代,誰的軍銜最高?

十大元帥的后代,誰的軍銜最高?

顧史
2025-06-23 21:36:45
清華退學男生考貴州第二,清華主動挽回:只要你回來,學分還作數!

清華退學男生考貴州第二,清華主動挽回:只要你回來,學分還作數!

熙熙說教
2025-06-26 18:57:43
一位退休干部坦言:農民的待遇比城市居民要好!我對此表示很認同

一位退休干部坦言:農民的待遇比城市居民要好!我對此表示很認同

明月讀書吧
2025-06-26 14:35:03
在麗江市市長、昆明市市長、玉溪市委書記、云南省副省長等職上,張祖林收受1.22億,被判無期!

在麗江市市長、昆明市市長、玉溪市委書記、云南省副省長等職上,張祖林收受1.22億,被判無期!

新京報
2025-06-26 17:29:20
Deepseek分析今年高考最難的10個省份,看看是否有你的家鄉?

Deepseek分析今年高考最難的10個省份,看看是否有你的家鄉?

悠閑歷史
2025-06-25 14:49:18
河南真慘!高考成績出爐:本科線人數不足44萬,500分只能上大專

河南真慘!高考成績出爐:本科線人數不足44萬,500分只能上大專

涵豆說娛
2025-06-26 15:01:45
格力24年老大地位被終結,擊敗它的是國內最大空調集團,日收10億

格力24年老大地位被終結,擊敗它的是國內最大空調集團,日收10億

小樾說歷史
2025-06-12 16:38:56
WTT常規賽:張本智和大逆轉勝國乒!0-2連扳3局,拒絕爆冷一輪游

WTT常規賽:張本智和大逆轉勝國乒!0-2連扳3局,拒絕爆冷一輪游

全言作品
2025-06-26 20:21:40
突發!智界全系降價!

突發!智界全系降價!

電動知家
2025-06-26 11:12:44
不管本事如何,到了五十歲,你必須擁有這三項能力

不管本事如何,到了五十歲,你必須擁有這三項能力

阿鄭的讀書日常
2025-06-23 09:37:08
不作不死,香港那個“大班冰皮月餅”倒閉了!

不作不死,香港那個“大班冰皮月餅”倒閉了!

薦史
2025-06-26 00:36:29
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

鬼菜生活
2025-06-17 12:39:27
山西省晉中市發生地震!

山西省晉中市發生地震!

魯中晨報
2025-06-26 11:20:02
2025-06-27 01:08:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
177文章數 145關注度
往期回顧 全部

科技要聞

小米YU7價格來了!標準版起售價25.35萬元

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

央視再揭茅臺鎮“年份酒”造假黑幕

汽車要聞

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

房產
教育
時尚
數碼
軍事航空

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

教育要聞

為啥現在厭學小孩越來越多?

感覺生活停滯不前的時候,試試這5個小方法獲得能量

數碼要聞

小米今日發布四款智能穿戴設備 AI眼鏡售價1999元

軍事要聞

滿足特朗普要求 北約峰會通過5%軍費目標

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 务川| 通江县| 夏河县| 松江区| 黄平县| 宁强县| 晋中市| 龙海市| 深泽县| 松潘县| 上饶市| 边坝县| 平山县| 防城港市| 白城市| 广平县| 潼关县| 剑川县| 正蓝旗| 乌鲁木齐市| 阿瓦提县| 宣武区| 陇川县| 屏山县| 奈曼旗| 肇东市| 库车县| 六枝特区| 原平市| 灵武市| 泽州县| 汝南县| 嵊泗县| 高安市| 高阳县| 绥德县| 揭西县| 望城县| 高邮市| 卓资县| 织金县|