在大語言模型(LLM)的訓練過程中,我們已經見證了一個令人矚目的現象:大語言模型能夠跨越語言差異,學習理解相同的知識。這背后,是模型對知識本質的深度抽象——將“機器人”與“ROBOT”這類表面符號的差異剝離,聚焦于它們所共同指向的概念:“一類通過編程與自動控制,能夠自主完成任務的智能體。”
這不禁引發了我們的思考:如果語言模型能夠做到跨語言抽象知識,那么具身智能是否也能做到跨任務、跨環境地抽象動作的本質?換句話說,我們是否可以讓機器人像大語言模型一樣,通過“觀看視頻”自主學習各類任務中動作的共性,忽略硬件差異、拍攝視角、環境細節,從而朝著通用控制的目標邁進?
最近,來自香港大學的團隊就基于這一思考提出了全新框架——UniVLA,一個跨本體、跨場景、跨任務的通用策略學習系統,就像為機器人安裝了“跨界大腦”,實現了從“看視頻”、“聽指令”到“動手操作”的通用控制。
論文標題: UniVLA: Learning to Act Anywhere with Task-centric Latent Actions 論文鏈接: https://www.arxiv.org/abs/2505.06111 代碼鏈接: https://github.com/OpenDriveLab/UniVLA
以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢,但依然存在諸多瓶頸:
對動作標簽強依賴:訓練時必須大量人工采集的真機示范數據,費時費力又難scale up。
缺乏通用性和跨平臺適配能力:換個機器人,動作空間就全得重來。
推理慢且精度不穩:自回歸預測方式對錯誤累積敏感,執行效率不高。
UniVLA 選擇了一條更具前瞻性的路徑:不再直接預測每一步動作,而是構建一個任務中心的潛在動作空間,在這個“中間表征”上統一訓練與泛化策略,不僅可以有效解決上述瓶頸,同時也能夠以更低的計算資源消耗實現更優的效果。
UniVLA 的核心創新在于構建了以任務為中心的潛在動作空間(Task-Centric Latent Action Space),徹底拋棄了對動作標簽的依賴,讓模型可以從海量無標簽視頻中也可以學習任務相關且高效泛化的動作表示,只在人類視頻數據(Ego4D)上預訓練,也可以在 LIBERO 仿真平臺上達到 SOTA 級別效果。經過預訓練后同一模型也可以同時完成操作和導航等任務,實現了通用的動作學習。
UniVLA - 跨本體、跨場景、跨任務的通用策略 一、為什么是潛在動作?因為它既“壓縮信息”,又“對齊知識”
傳統的通用模型如 OpenVLA 采用自回歸策略直接預測每一步動作,推理速度慢且魯棒性不強。UniVLA 則另辟蹊徑,將動作預測劃分為三個階段:
潛在動作學習:從海量跨領域視頻中“默默學習”,通過逆動力學建模并使用VQ-VAE進行離散化,依靠語言指令構建出對任務理解更強、更緊湊的潛在動作空間。
通用策略預訓練:借助 Prismatic-7B 等大模型架構,將視覺觀察與語言指令編碼為統一輸入,預測潛在動作序列,從而實現具身無關的通用策略。
動作解碼與部署:使用輕量化解碼器將潛在動作轉譯為真實機器人控制信號,作為下游的控制策略,從而能夠在多個機器人平臺上進行快速適配和部署,不論是何種機械臂,都能輕裝上陣,高效執行。
UniVLA 的前兩階段訓練策略
相比 OpenVLA 那種直接在動作空間里“硬解”的做法,UniVLA 的“隱式編碼”(Latent Encoding)策略有幾個顯著優勢:
不依賴動作標簽,泛化范圍大:只需視頻和語言,就能從互聯網視頻數據中學技能,提取動作。
壓縮維度,降低計算成本:動作空間被有效壓縮,推理速度從小于 5Hz 提升至 10Hz以上。
適配靈活,遷移效率高:由于潛在動作具有通用性,故只需輕量微調,就能部署到不同機器人上,下游數據效率拉滿。
OpenVLA,UniVLA 在計算效率和適配能力上表現出壓倒性優勢:預訓練GPU時長僅為其 1/20,卻在多個任務和平臺上實現性能的全面超越。
在 LIBERO、CALVIN 等多個操控基準測試中,UniVLA 展現出優越的通用性與任務適應能力,在四項評估指標中成功率平均提升達18.5%。此外,在單靠人類視頻預訓練(Ego4D)時,UniVLA 也能擊敗用大量真實機器人數據訓練的對手,在 LIBERO 中達到 SOTA 效果。
LIBERO 實驗結果
更重要的是,UniVLA 以其結構化的潛在動作空間設計,天然具備擴展性與數據可擴展性:無論是引入更多人類示范作為提取隱空間表征的與訓練,還是增加新的機器人平臺僅通過輕量微調即可遷移適配,實現跨具身、跨視角、跨任務的全面通用。
在真實機器部署中,受益于僅 12M 參數的簡單動作解碼器以及高效的隱空間動作表征,UniVLA 可以實現(閉環)10Hz 以上的實時推理控制,在多個任務中(如“清理案板”、“疊漢諾塔”等)展現出高精度、高魯棒的操作能力,平均成功率達到 80%以上,推理時延遠低于 OpenVLA,打通了通用大模型到落地應用的可能路徑。
UniVLA在真機實驗表現出色
同時在設計的若干泛化實驗中,面對各種泛化挑戰,它不僅不社恐,還能“快準穩”上手。通用的潛在動作空間+異構數據的預訓練,讓它不止是“聰明”,而且真·“通用”。
UniVLA 在不同泛化條件下的表現
多虧了 UniVLA 的 “潛在動作+通用訓練”,UniVLA 能夠充分在大量異構數據(操作、導航甚至人類視頻)中進行學習,并能夠有效容納足夠多的知識,照單全收,越學越強。
UniVLA 的異構數據擴展能力
少樣本情況下 UniVLA 性能優勢盡顯,在 LIBERO 長程任務基準上僅用 10% 數據(不到50條 demo,平均每個任務僅 5 條)擊敗了全量數據微調的 OpenVLA。
UniVLA 在少樣本情況下的表現
UniVLA 的方法不僅代表了視覺語言動作模型(VLA)領域的一次突破,更為“通用機器人智能”提供了新的思考與貢獻:從像素重建走向語義解耦的潛在動作學習、從高耗能預訓練走向輕量高效的跨本體適配、從單一機器人數據閉環走向人類視頻與多本體數據的開放協同。
來源: 公眾號【OpenDriveLab】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.