網易首頁 > 網易號 > 正文申請入駐

機器人界「Sora」來了！清華、星動紀元開源首個AIGC機器人大模型

2025-05-07 15:51:15　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

機器之心編輯部

從 2023 年的 Sora 到如今的可靈、Vidu、通義萬相，AIGC 生成式技術的魔法席卷全球，打開了 AI 應用落地的大門。

無獨有偶，AIGC 生成式技術同樣在具身智能機器人大模型上帶來了驚人的表現。

“給我盛一碗熱騰騰的雞湯”，以前這句話能帶給你一個溫暖感人、栩栩如生的視頻。現在，如果你旁邊有一個機器人，這句話就能讓他真的給你盛一碗湯！

這背后的技術來自于清華大學叉院的 ISRLab 和星動紀元 ——ICML Spotlight 高分作品 AIGC 生成式機器人大模型 VPP（Video Prediction Policy）！利用預訓練視頻生成大模型，讓 AIGC 的魔力從數字世界走進具身智能的物理世界，就好比“機器人界的 Sora

VPP 利用了大量互聯網視頻數據進行訓練，直接學習人類動作，極大減輕了對于高質量機器人真機數據的依賴，且可在不同人形機器人本體之間自如切換，這有望大大加速人形機器人的商業化落地。

據悉，今年的 ICML2025，Spotlight 論文中稿難度極高，在超過 12000 篇投稿中，僅有不到 2.6% 的論文能獲此殊榮，VPP 就是其中之一。

VPP 將視頻擴散模型的泛化能力轉移到了通用機器人操作策略中，巧妙解決了 diffusion 推理速度的問題，開創性地讓機器人實時進行未來預測和動作執行，大大提升機器人策略泛化性，并且現已全部開源！

論文標題：Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight
論文地址：https://arxiv.org/pdf/2412.14803
項目地址：https://video-prediction-policy.github.io
開源代碼：https://github.com/roboterax/video-prediction-policy

VPP 是機器人界的 “Sora”

目前 AI 大模型領域有兩種主流方法，基于自回歸的理解模型和基于擴散的生成模型，各自代表作分別為自回歸的 GPT 和生成式的 Sora：

GPT 的思路演化到具身智能領域，就是以 PI（ Physical Intelligence ）為代表的 VLA 技術，他是從視覺語言理解模型（VLM）微調而來，擅長抽象推理和語義理解。
生成式的技術與機器人的碰撞，就誕生了 VPP 這樣的生成式機器人大模型。

然而，人工智能領域存在著著名的莫拉維克悖論（Moravec's paradox）：高級推理功能反而容易（例如圍棋、數學題），下層的感知和執行反而困難（例如各種家務）。VLM 更擅長高層級的推理，而 AIGC 生成式模型更擅長細節處理。VPP 基于 AIGC 視頻擴散模型而來，在底層的感知和控制有獨特的優勢。

如圖所示，VPP 分成兩階段的學習框架，最終實現基于文本指令的視頻動作生成。第一階段利用視頻擴散模型學習預測性視覺表征；第二階段通過 Video Former 和 DiT 擴散策略進行動作學習。

1. 提前預知未來：讓機器人行動前做到 “心里有數”

以往機器人策略（例如：VLA 模型）往往只能根據當前觀測進行動作學習，機器人策略需要先理解指令和場景，再執行。VPP 能夠提前預知未來的場景，讓機器人 “看著答案” 行動，大大增強泛化能力。

VPP 視頻預測結果與機器人實際物理執行結果幾乎一致。能被視頻生成的，就能被機器人執行！

2. 高頻預測和執行：讓機器人執行速度 “更快一步”

AIGC 視頻擴散模型雖能生成逼真的視頻，但往往花費大量推理時間。星動紀元研究團隊發現，不需要精確地預測未來的每個像素，通過有效提取視頻模型中間層的表征，單步去噪的預測就可以蘊含大量未來信息。這讓模型預測時間小于 150ms，模型的預測頻率約 6-10hz，通過 action chunk size = 10，模型的控制頻率能超過 50Hz。

如圖所示，單步視頻擴散模型預測已經蘊含大量未來信息，足夠實現高頻預測（規劃）和執行。

3. 跨本體學習：讓機器人先驗知識流通 “暢通無阻”

如何利用不同本體的機器人數據是一個巨大的難題。VLA 模型只能學習不同維度的低維度 action 信息，而 VPP 可以直接學習各種形態機器人的視頻數據，不存在維度不同的問題。如果將人類本體也當作一種機器本體，VPP 也可以直接學習人類操作數據，顯著降低數據獲取成本。同時視頻數據也包含比低維度動作更加豐富的信息，大大提高模型泛化能力。

VPP 能學習跨本體的豐富視頻數據，相比之下，VLA 只能學習維度不一致的低維動作信號。

4. 基準測試領先：讓機器人性能 “一騎絕塵”

在 Calvin ABC-D 基準測試中，實現了 4.33 的任務完成平均長度，已經接近任務的滿分 5.0。相較于先前技術，VPP 實現了 41.5% 的顯著提升。

左圖為 Calvin ABC-D 任務的平均長度對比，右圖為 Real-World Dexterous Hand 任務的成功率對比。可以看出，VPP 方法在這兩項指標中均取得了最佳表現，在仿真環境任務完成平均長度達到 4.33，真機測試成功率為 67%，顯著優于其他方法。

5. 真實世界靈巧操作：讓機器人靈巧操作 “舉一反三”

在真實世界的測試中，VPP 模型展現出了驚人的多任務學習能力和泛化能力。在星動紀元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺，VPP 能使用一個網絡完成 100+ 種復雜靈巧操作任務，例如抓取、放置、堆疊、倒水、工具使用等，在雙臂人形機器人平臺能完成 50+ 種復雜靈巧操作任務。

6. 可解釋性與調試優化：讓機器人 “透明可控”

VPP 的預測視覺表示在一定程度上是可解釋的，開發者在不通過 real-world 測試情況下，通過預測的視頻來提前發現失敗的場景和任務，進行針對性的調試和優化。

而 VLA 模型是完全端到端的模型，開發者在調試優化中需要大量真實世界的測試來找到模型漏洞，需要花費大量的時間。

然而，就像在大模型領域 LLM 和生成式模型并存且互相借鑒融合的現狀一樣，VPP 作為首個 AIGC 生成式機器人大模型與 PI 等 VLA 大模型也會相互促進和借鑒。

相信在行業不斷開源優質模型與技術的有力推動下，機器人技術將會邁向一個嶄新的階段，而具身 AGI 也將沿著這條創新之路大步走來，與我們的距離越來越近，一個充滿無限可能的智能未來正在朝我們招手。

以下是 VPP 項目開源部署 Tips，供各位開發者參考：

所有實驗均使用一個節點（8 卡 A800/H100）完成；
詳細操作說明可在開源 GitHub 中找到；
實驗仿真平臺是標準 Calvin abc-d Benchmark；
實驗真機平臺為星動紀元仿人五指靈巧手星動 XHAND1 以及全尺寸人形機器人星動 STAR1。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.