網易首頁 > 網易號 > 正文申請入駐

機器人動作領域突破！UniVLA模型實現跨模態AI機器人動作統一

2025-05-22 17:33:16　來源: 至頂AI實驗室

北京舉報

分享至

還記得《星際穿越》中那臺能在無重力、塵暴甚至巨浪中切換形態、隨時理解庫珀指令的TARS多功能機器人嗎？

在銀幕里，我們羨慕TARS能聽懂人話、看懂環境、馬上給出最合適的動作；而在現實世界的實驗室里，“讓機器人既會看、又會聽、還能動”一直是跨模態人工智能的終極夢想。

過去幾年，Vision-Language-Action（VLA）模型似乎找到了鑰匙，卻又被不同機器人的形態和動作標注成本牢牢拽住：換一條機械臂、添一個關節，就得推倒重來。

這篇來自香港大學與OpenDriveLab團隊的新作UniVLA給出了科幻般的答案：與其費力教每臺機器人說出自己的動作，不如在千萬條人類和機器人視頻中，先悟出一種任務中心的潛在動作語言。

2025年5月15日，香港大學、OpenDriveLab、AgiBot共同在arXiv發布論文Learning to Act Anywhere with Task-centric Latent Actions，一場關于機器人學習的交響樂就此奏響。

論文提出了UniVLA，一位能夠指揮任何機器人樂手演奏統一樂譜的“總指揮”。如果你希望像樂迷一樣透徹感受這場演出，不妨隨我將技術術語化作音符，讓交響故事在你腦海中徐徐展開。

序曲：為什么需要“一張樂譜”？

想象一支由小提琴、薩克斯、手風琴甚至街頭架子鼓混搭而成的樂隊：每件樂器有不同的音域、指法和記譜法，要讓他們同時演奏同一首曲子，傳統方法會為每個樂器單寫分譜，事先標注每一拍該如何演奏。

機器人世界也面臨同樣困境：不同機械臂、移動平臺乃至人類示范的視頻之間，動作符號彼此不兼容，且大規模數據往往缺乏精準標簽，于是舊有方法只能在單一機體或小范圍領域內反復排練。

UniVLA的野心，是提煉一種跨機體、跨視角、無需動作注釋的任務中心潛在動作（task-centric latent actions），就像用一種統一簡譜把所有樂器的旋律都寫進去，讓任何機器人都能看譜即奏。

譜寫通用動作樂譜：潛在動作模型如何“聽音識譜”？

研究團隊先把互聯網與實驗室收集的海量視頻當作過往錄音，逐幀對比前后兩秒的畫面變化，用VQ-VAE把這些變化量化為離散音符。然而，原始錄音里既有主旋律，也混入了觀眾咳嗽、燈光閃爍等噪聲。為避免機器把鏡頭抖動也當作指令執行，論文設計了兩段式配器：

第一段配器：讓文字指令承擔高層語義，把任務無關卻視覺突兀的變化（例如路人經過）收進一個任務無關音軌；

第二段配器：在凍結上述音軌后，再單獨學習真正影響任務的動作音符，也就是task-centric latent actions，最終形成可覆蓋多環境動作的緊湊樂譜。

接著，研究者基于Prismatic-7B視覺語言模型，把圖像特征、語言指令與這些音符并列送入Transformer，讓模型像指揮一樣，聽懂視覺與文字后按拍子輸出下一段潛在動作。整個預訓練僅耗約960個A100 GPU小時，遠低于OpenVLA需要的21500個A100 GPU小時。

彩排與首演：UniVLA 的多場舞臺測試

在模擬排練廳：LIBERO基準

面對四個難度套件（Spatial、Object、Goal、Long），UniVLA 直接把樂譜拍在指揮臺上：Bridge版本在沒有額外人類視頻的情況下，平均成功率 92.5%，而在納入多模態OpenX與Ego4D后，完整版本飆至95.2%，把早先最佳的OpenVLA甩開近19個百分點。

在街角小型劇場：Room2Room導航

導航場景好比讓樂隊邊走邊奏，環境連續變化、步點細碎。即使每次只給 UniVLA一幀路況圖，它的演奏依然把Oracle成功率拉到47.1%，與一次性讀入整段歷史視頻的NaVid不相上下，但比OpenVLA高出29.6%。

在真實音樂節：現實機械臂實驗

團隊用Piper七自由度機械臂安排了掃臺面、疊漢諾塔等四首復雜曲目。UniVLA 在燈光突變、道具干擾、換新物體等場景下平均成功率 68.9%，而單任務Diffusion Policy或OpenVLA分別只有24.4%與20.0%左右。

更巧妙的是，潛在動作把12步序列一次性輸出，RTX 4090上推理頻率可達10 Hz，告別卡頓伴奏。

幕后花絮：潛在動作的“樂理”與可擴展性

潛在動作究竟像怎樣的音符？研究者把來自Bridge-V2、RT-1、人類Ego4D視頻等不同樂器標出的同一潛在動作并排，發現不論是機械臂抓取還是人手拿杯子，都獲得語義一致的抬-放旋律，顯示其跨機體的對齊能力。相比Genie那種把一切視覺變化都當動作的全頻錄音，UniVLA明確區分任務與無關背景，在 Ego4D數據上把LIBERO總成功率從82.3%提升到88.7%。

隨著訓練曲庫加入OpenX、Ego4D等新樂器，無論在R2R導航還是現實機械臂舞臺，UniVLA的表現都節節攀升，好比越大的交響團，和聲越飽滿。而在僅用10%示范譜例的小樣彩排中，它已能把LIBERO-Goal成功率推到86.3%，展現強勁的數據效率。

終章與余音：一位“總指揮”帶來的啟示

說到底，UniVLA給機器人學習世界帶來了一張新的通用簡譜。它告訴我們，當指令語言負責描繪情感主題，潛在動作承擔節奏骨架，機器就能在多樂器環境中即興協奏；當錄像比對與離散量化過濾掉噪音伴奏，模型便能在網絡海量視頻里識別真正有價值的動作符號。

未來，這份簡譜仍有提升空間：粒度是否可自適應變拍、語言注釋若從樂段變成整曲又會怎樣影響分工、如何把世界模型接入作曲環節生成完整樂章，都是值得期待的篇章。

如果想了解作者完整的思路和公式，可以閱讀原論文；機器人愛好者也可以直接打開代碼倉庫，給你的機器樂手發一張新樂譜，也許下一次動聽的協奏，就來自你的工作室。

論文地址：https://www.arxiv.org/abs/2505.06111

代碼倉庫：https://github.com/OpenDriveLab/UniVLA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.