機器之心發布
機器之心編輯部
從 2023 年的 Sora 到如今的可靈、Vidu、通義萬相,AIGC 生成式技術的魔法席卷全球,打開了 AI 應用落地的大門。
無獨有偶,AIGC 生成式技術同樣在具身智能機器人大模型上帶來了驚人的表現。
“給我盛一碗熱騰騰的雞湯”,以前這句話能帶給你一個溫暖感人、栩栩如生的視頻。現在,如果你旁邊有一個機器人,這句話就能讓他真的給你盛一碗湯!
這背后的技術來自于清華大學叉院的 ISRLab 和星動紀元 ——ICML Spotlight 高分作品 AIGC 生成式機器人大模型 VPP(Video Prediction Policy)!利用預訓練視頻生成大模型,讓 AIGC 的魔力從數字世界走進具身智能的物理世界,就好比“機器人界的 Sora
VPP 利用了大量互聯網視頻數據進行訓練,直接學習人類動作,極大減輕了對于高質量機器人真機數據的依賴,且可在不同人形機器人本體之間自如切換,這有望大大加速人形機器人的商業化落地。
據悉,今年的 ICML2025,Spotlight 論文中稿難度極高,在超過 12000 篇投稿中,僅有不到 2.6% 的論文能獲此殊榮,VPP 就是其中之一。
VPP 將視頻擴散模型的泛化能力轉移到了通用機器人操作策略中,巧妙解決了 diffusion 推理速度的問題,開創性地讓機器人實時進行未來預測和動作執行,大大提升機器人策略泛化性,并且現已全部開源!
- 論文標題:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight
- 論文地址:https://arxiv.org/pdf/2412.14803
- 項目地址:https://video-prediction-policy.github.io
- 開源代碼:https://github.com/roboterax/video-prediction-policy
VPP 是機器人界的 “Sora”
目前 AI 大模型領域有兩種主流方法,基于自回歸的理解模型和基于擴散的生成模型,各自代表作分別為自回歸的 GPT 和生成式的 Sora:
- GPT 的思路演化到具身智能領域,就是以 PI( Physical Intelligence )為代表的 VLA 技術,他是從視覺語言理解模型(VLM)微調而來,擅長抽象推理和語義理解。
- 生成式的技術與機器人的碰撞,就誕生了 VPP 這樣的生成式機器人大模型。
然而,人工智能領域存在著著名的莫拉維克悖論(Moravec's paradox):高級推理功能反而容易(例如圍棋、數學題),下層的感知和執行反而困難(例如各種家務)。VLM 更擅長高層級的推理,而 AIGC 生成式模型更擅長細節處理。VPP 基于 AIGC 視頻擴散模型而來,在底層的感知和控制有獨特的優勢。
如圖所示,VPP 分成兩階段的學習框架,最終實現基于文本指令的視頻動作生成。第一階段利用視頻擴散模型學習預測性視覺表征;第二階段通過 Video Former 和 DiT 擴散策略進行動作學習。
1. 提前預知未來:讓機器人行動前做到 “心里有數”
以往機器人策略(例如:VLA 模型)往往只能根據當前觀測進行動作學習,機器人策略需要先理解指令和場景,再執行。VPP 能夠提前預知未來的場景,讓機器人 “看著答案” 行動,大大增強泛化能力。
VPP 視頻預測結果與機器人實際物理執行結果幾乎一致。能被視頻生成的,就能被機器人執行!
2. 高頻預測和執行:讓機器人執行速度 “更快一步”
AIGC 視頻擴散模型雖能生成逼真的視頻,但往往花費大量推理時間。星動紀元研究團隊發現,不需要精確地預測未來的每個像素,通過有效提取視頻模型中間層的表征,單步去噪的預測就可以蘊含大量未來信息。這讓模型預測時間小于 150ms,模型的預測頻率約 6-10hz,通過 action chunk size = 10,模型的控制頻率能超過 50Hz。
如圖所示,單步視頻擴散模型預測已經蘊含大量未來信息,足夠實現高頻預測(規劃)和執行。
3. 跨本體學習:讓機器人先驗知識流通 “暢通無阻”
如何利用不同本體的機器人數據是一個巨大的難題。VLA 模型只能學習不同維度的低維度 action 信息,而 VPP 可以直接學習各種形態機器人的視頻數據,不存在維度不同的問題。如果將人類本體也當作一種機器本體,VPP 也可以直接學習人類操作數據,顯著降低數據獲取成本。同時視頻數據也包含比低維度動作更加豐富的信息,大大提高模型泛化能力。
VPP 能學習跨本體的豐富視頻數據,相比之下,VLA 只能學習維度不一致的低維動作信號。
4. 基準測試領先:讓機器人性能 “一騎絕塵”
在 Calvin ABC-D 基準測試中,實現了 4.33 的任務完成平均長度,已經接近任務的滿分 5.0。相較于先前技術,VPP 實現了 41.5% 的顯著提升。
左圖為 Calvin ABC-D 任務的平均長度對比,右圖為 Real-World Dexterous Hand 任務的成功率對比。可以看出,VPP 方法在這兩項指標中均取得了最佳表現,在仿真環境任務完成平均長度達到 4.33,真機測試成功率為 67%,顯著優于其他方法。
5. 真實世界靈巧操作:讓機器人靈巧操作 “舉一反三”
在真實世界的測試中,VPP 模型展現出了驚人的多任務學習能力和泛化能力。在星動紀元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺,VPP 能使用一個網絡完成 100+ 種復雜靈巧操作任務,例如抓取、放置、堆疊、倒水、工具使用等,在雙臂人形機器人平臺能完成 50+ 種復雜靈巧操作任務。
6. 可解釋性與調試優化:讓機器人 “透明可控”
VPP 的預測視覺表示在一定程度上是可解釋的,開發者在不通過 real-world 測試情況下,通過預測的視頻來提前發現失敗的場景和任務,進行針對性的調試和優化。
而 VLA 模型是完全端到端的模型,開發者在調試優化中需要大量真實世界的測試來找到模型漏洞,需要花費大量的時間。
然而,就像在大模型領域 LLM 和生成式模型并存且互相借鑒融合的現狀一樣,VPP 作為首個 AIGC 生成式機器人大模型與 PI 等 VLA 大模型也會相互促進和借鑒。
相信在行業不斷開源優質模型與技術的有力推動下,機器人技術將會邁向一個嶄新的階段,而具身 AGI 也將沿著這條創新之路大步走來,與我們的距離越來越近,一個充滿無限可能的智能未來正在朝我們招手。
以下是 VPP 項目開源部署 Tips,供各位開發者參考:
- 所有實驗均使用一個節點(8 卡 A800/H100)完成;
- 詳細操作說明可在開源 GitHub 中找到;
- 實驗仿真平臺是標準 Calvin abc-d Benchmark;
- 實驗真機平臺為星動紀元仿人五指靈巧手星動 XHAND1 以及全尺寸人形機器人星動 STAR1。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.