還記得《星際穿越》中那臺能在無重力、塵暴甚至巨浪中切換形態、隨時理解庫珀指令的TARS多功能機器人嗎?
在銀幕里,我們羨慕TARS能聽懂人話、看懂環境、馬上給出最合適的動作;而在現實世界的實驗室里,“讓機器人既會看、又會聽、還能動”一直是跨模態人工智能的終極夢想。
過去幾年,Vision-Language-Action(VLA)模型似乎找到了鑰匙,卻又被不同機器人的形態和動作標注成本牢牢拽住:換一條機械臂、添一個關節,就得推倒重來。
這篇來自香港大學與OpenDriveLab團隊的新作UniVLA給出了科幻般的答案:與其費力教每臺機器人說出自己的動作,不如在千萬條人類和機器人視頻中,先悟出一種任務中心的潛在動作語言。
2025年5月15日,香港大學、OpenDriveLab、AgiBot共同在arXiv發布論文Learning to Act Anywhere with Task-centric Latent Actions,一場關于機器人學習的交響樂就此奏響。
論文提出了UniVLA,一位能夠指揮任何機器人樂手演奏統一樂譜的“總指揮”。如果你希望像樂迷一樣透徹感受這場演出,不妨隨我將技術術語化作音符,讓交響故事在你腦海中徐徐展開。
序曲:為什么需要“一張樂譜”?
想象一支由小提琴、薩克斯、手風琴甚至街頭架子鼓混搭而成的樂隊:每件樂器有不同的音域、指法和記譜法,要讓他們同時演奏同一首曲子,傳統方法會為每個樂器單寫分譜,事先標注每一拍該如何演奏。
機器人世界也面臨同樣困境:不同機械臂、移動平臺乃至人類示范的視頻之間,動作符號彼此不兼容,且大規模數據往往缺乏精準標簽,于是舊有方法只能在單一機體或小范圍領域內反復排練。
UniVLA的野心,是提煉一種跨機體、跨視角、無需動作注釋的任務中心潛在動作(task-centric latent actions),就像用一種統一簡譜把所有樂器的旋律都寫進去,讓任何機器人都能看譜即奏。
譜寫通用動作樂譜:潛在動作模型如何“聽音識譜”?
研究團隊先把互聯網與實驗室收集的海量視頻當作過往錄音,逐幀對比前后兩秒的畫面變化,用VQ-VAE把這些變化量化為離散音符。然而,原始錄音里既有主旋律,也混入了觀眾咳嗽、燈光閃爍等噪聲。為避免機器把鏡頭抖動也當作指令執行,論文設計了兩段式配器:
第一段配器:讓文字指令承擔高層語義,把任務無關卻視覺突兀的變化(例如路人經過)收進一個任務無關音軌;
第二段配器:在凍結上述音軌后,再單獨學習真正影響任務的動作音符,也就是task-centric latent actions,最終形成可覆蓋多環境動作的緊湊樂譜。
接著,研究者基于Prismatic-7B視覺語言模型,把圖像特征、語言指令與這些音符并列送入Transformer,讓模型像指揮一樣,聽懂視覺與文字后按拍子輸出下一段潛在動作。整個預訓練僅耗約960個A100 GPU小時,遠低于OpenVLA需要的21500個A100 GPU小時。
彩排與首演:UniVLA 的多場舞臺測試
在模擬排練廳:LIBERO基準
面對四個難度套件(Spatial、Object、Goal、Long),UniVLA 直接把樂譜拍在指揮臺上:Bridge版本在沒有額外人類視頻的情況下,平均成功率 92.5%,而在納入多模態OpenX與Ego4D后,完整版本飆至95.2%,把早先最佳的OpenVLA甩開近19個百分點。
在街角小型劇場:Room2Room導航
導航場景好比讓樂隊邊走邊奏,環境連續變化、步點細碎。即使每次只給 UniVLA一幀路況圖,它的演奏依然把Oracle成功率拉到47.1%,與一次性讀入整段歷史視頻的NaVid不相上下,但比OpenVLA高出29.6%。
在真實音樂節:現實機械臂實驗
團隊用Piper七自由度機械臂安排了掃臺面、疊漢諾塔等四首復雜曲目。UniVLA 在燈光突變、道具干擾、換新物體等場景下平均成功率 68.9%,而單任務Diffusion Policy或OpenVLA分別只有24.4%與20.0%左右。
更巧妙的是,潛在動作把12步序列一次性輸出,RTX 4090上推理頻率可達10 Hz,告別卡頓伴奏。
幕后花絮:潛在動作的“樂理”與可擴展性
潛在動作究竟像怎樣的音符?研究者把來自Bridge-V2、RT-1、人類Ego4D視頻等不同樂器標出的同一潛在動作并排,發現不論是機械臂抓取還是人手拿杯子,都獲得語義一致的抬-放旋律,顯示其跨機體的對齊能力。相比Genie那種把一切視覺變化都當動作的全頻錄音,UniVLA明確區分任務與無關背景,在 Ego4D數據上把LIBERO總成功率從82.3%提升到88.7%。
隨著訓練曲庫加入OpenX、Ego4D等新樂器,無論在R2R導航還是現實機械臂舞臺,UniVLA的表現都節節攀升,好比越大的交響團,和聲越飽滿。而在僅用10%示范譜例的小樣彩排中,它已能把LIBERO-Goal成功率推到86.3%,展現強勁的數據效率。
終章與余音:一位“總指揮”帶來的啟示
說到底,UniVLA給機器人學習世界帶來了一張新的通用簡譜。它告訴我們,當指令語言負責描繪情感主題,潛在動作承擔節奏骨架,機器就能在多樂器環境中即興協奏;當錄像比對與離散量化過濾掉噪音伴奏,模型便能在網絡海量視頻里識別真正有價值的動作符號。
未來,這份簡譜仍有提升空間:粒度是否可自適應變拍、語言注釋若從樂段變成整曲又會怎樣影響分工、如何把世界模型接入作曲環節生成完整樂章,都是值得期待的篇章。
如果想了解作者完整的思路和公式,可以閱讀原論文;機器人愛好者也可以直接打開代碼倉庫,給你的機器樂手發一張新樂譜,也許下一次動聽的協奏,就來自你的工作室。
論文地址:https://www.arxiv.org/abs/2505.06111
代碼倉庫:https://github.com/OpenDriveLab/UniVLA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.