99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

機器人界「Sora」來了!清華、星動紀元開源首個AIGC機器人大模型

0
分享至

機器之心發布

機器之心編輯部

從 2023 年的 Sora 到如今的可靈、Vidu、通義萬相,AIGC 生成式技術的魔法席卷全球,打開了 AI 應用落地的大門。

無獨有偶,AIGC 生成式技術同樣在具身智能機器人大模型上帶來了驚人的表現。

“給我盛一碗熱騰騰的雞湯”,以前這句話能帶給你一個溫暖感人、栩栩如生的視頻。現在,如果你旁邊有一個機器人,這句話就能讓他真的給你盛一碗湯!



這背后的技術來自于清華大學叉院的 ISRLab 和星動紀元 ——ICML Spotlight 高分作品 AIGC 生成式機器人大模型 VPP(Video Prediction Policy)!利用預訓練視頻生成大模型,讓 AIGC 的魔力從數字世界走進具身智能的物理世界,就好比“機器人界的 Sora

VPP 利用了大量互聯網視頻數據進行訓練,直接學習人類動作,極大減輕了對于高質量機器人真機數據的依賴,且可在不同人形機器人本體之間自如切換,這有望大大加速人形機器人的商業化落地。



據悉,今年的 ICML2025,Spotlight 論文中稿難度極高,在超過 12000 篇投稿中,僅有不到 2.6% 的論文能獲此殊榮,VPP 就是其中之一。

VPP 將視頻擴散模型的泛化能力轉移到了通用機器人操作策略中,巧妙解決了 diffusion 推理速度的問題,開創性地讓機器人實時進行未來預測和動作執行,大大提升機器人策略泛化性,并且現已全部開源!



  • 論文標題:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight
  • 論文地址:https://arxiv.org/pdf/2412.14803
  • 項目地址:https://video-prediction-policy.github.io
  • 開源代碼:https://github.com/roboterax/video-prediction-policy

VPP 是機器人界的 “Sora”

目前 AI 大模型領域有兩種主流方法,基于自回歸的理解模型和基于擴散的生成模型,各自代表作分別為自回歸的 GPT 和生成式的 Sora:

  • GPT 的思路演化到具身智能領域,就是以 PI( Physical Intelligence )為代表的 VLA 技術,他是從視覺語言理解模型(VLM)微調而來,擅長抽象推理和語義理解。
  • 生成式的技術與機器人的碰撞,就誕生了 VPP 這樣的生成式機器人大模型。



然而,人工智能領域存在著著名的莫拉維克悖論(Moravec's paradox):高級推理功能反而容易(例如圍棋、數學題),下層的感知和執行反而困難(例如各種家務)。VLM 更擅長高層級的推理,而 AIGC 生成式模型更擅長細節處理。VPP 基于 AIGC 視頻擴散模型而來,在底層的感知和控制有獨特的優勢。

如圖所示,VPP 分成兩階段的學習框架,最終實現基于文本指令的視頻動作生成。第一階段利用視頻擴散模型學習預測性視覺表征;第二階段通過 Video Former 和 DiT 擴散策略進行動作學習。



1. 提前預知未來:讓機器人行動前做到 “心里有數”

以往機器人策略(例如:VLA 模型)往往只能根據當前觀測進行動作學習,機器人策略需要先理解指令和場景,再執行。VPP 能夠提前預知未來的場景,讓機器人 “看著答案” 行動,大大增強泛化能力。



VPP 視頻預測結果與機器人實際物理執行結果幾乎一致。能被視頻生成的,就能被機器人執行!

2. 高頻預測和執行:讓機器人執行速度 “更快一步”

AIGC 視頻擴散模型雖能生成逼真的視頻,但往往花費大量推理時間。星動紀元研究團隊發現,不需要精確地預測未來的每個像素,通過有效提取視頻模型中間層的表征,單步去噪的預測就可以蘊含大量未來信息。這讓模型預測時間小于 150ms,模型的預測頻率約 6-10hz,通過 action chunk size = 10,模型的控制頻率能超過 50Hz。

如圖所示,單步視頻擴散模型預測已經蘊含大量未來信息,足夠實現高頻預測(規劃)和執行。



3. 跨本體學習:讓機器人先驗知識流通 “暢通無阻”

如何利用不同本體的機器人數據是一個巨大的難題。VLA 模型只能學習不同維度的低維度 action 信息,而 VPP 可以直接學習各種形態機器人的視頻數據,不存在維度不同的問題。如果將人類本體也當作一種機器本體,VPP 也可以直接學習人類操作數據,顯著降低數據獲取成本。同時視頻數據也包含比低維度動作更加豐富的信息,大大提高模型泛化能力。



VPP 能學習跨本體的豐富視頻數據,相比之下,VLA 只能學習維度不一致的低維動作信號。

4. 基準測試領先:讓機器人性能 “一騎絕塵”

在 Calvin ABC-D 基準測試中,實現了 4.33 的任務完成平均長度,已經接近任務的滿分 5.0。相較于先前技術,VPP 實現了 41.5% 的顯著提升。



左圖為 Calvin ABC-D 任務的平均長度對比,右圖為 Real-World Dexterous Hand 任務的成功率對比。可以看出,VPP 方法在這兩項指標中均取得了最佳表現,在仿真環境任務完成平均長度達到 4.33,真機測試成功率為 67%,顯著優于其他方法。

5. 真實世界靈巧操作:讓機器人靈巧操作 “舉一反三”

在真實世界的測試中,VPP 模型展現出了驚人的多任務學習能力和泛化能力。在星動紀元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺,VPP 能使用一個網絡完成 100+ 種復雜靈巧操作任務,例如抓取、放置、堆疊、倒水、工具使用等,在雙臂人形機器人平臺能完成 50+ 種復雜靈巧操作任務。



6. 可解釋性與調試優化:讓機器人 “透明可控”

VPP 的預測視覺表示在一定程度上是可解釋的,開發者在不通過 real-world 測試情況下,通過預測的視頻來提前發現失敗的場景和任務,進行針對性的調試和優化。



而 VLA 模型是完全端到端的模型,開發者在調試優化中需要大量真實世界的測試來找到模型漏洞,需要花費大量的時間。

然而,就像在大模型領域 LLM 和生成式模型并存且互相借鑒融合的現狀一樣,VPP 作為首個 AIGC 生成式機器人大模型與 PI 等 VLA 大模型也會相互促進和借鑒。

相信在行業不斷開源優質模型與技術的有力推動下,機器人技術將會邁向一個嶄新的階段,而具身 AGI 也將沿著這條創新之路大步走來,與我們的距離越來越近,一個充滿無限可能的智能未來正在朝我們招手。

以下是 VPP 項目開源部署 Tips,供各位開發者參考:

  1. 所有實驗均使用一個節點(8 卡 A800/H100)完成;
  2. 詳細操作說明可在開源 GitHub 中找到;
  3. 實驗仿真平臺是標準 Calvin abc-d Benchmark;
  4. 實驗真機平臺為星動紀元仿人五指靈巧手星動 XHAND1 以及全尺寸人形機器人星動 STAR1。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李蘭迪瀑布腹肌照三天霸榜!網友扒出兩年前舊照驚現判若兩人

李蘭迪瀑布腹肌照三天霸榜!網友扒出兩年前舊照驚現判若兩人

情感大頭說說
2025-05-07 11:45:16
國乒教練組大調整!王曼昱新教練人選爆冷,馬龍陳夢亮相品牌活動

國乒教練組大調整!王曼昱新教練人選爆冷,馬龍陳夢亮相品牌活動

二月侃事
2025-05-07 16:00:05
謝爾頓蒙特卡洛打傷人事件升級,當事人宣布和美國人永遠絕交

謝爾頓蒙特卡洛打傷人事件升級,當事人宣布和美國人永遠絕交

網球之家
2025-05-07 13:19:24
涉嫌內幕交易!A股百億市值公司實控人遭立案調查,公司緊急回應:與本公司股票無關

涉嫌內幕交易!A股百億市值公司實控人遭立案調查,公司緊急回應:與本公司股票無關

21世紀經濟報道
2025-05-07 22:09:14
車企集體噤聲!一紙禁令后,新勢力銷售們賣車套路變了

車企集體噤聲!一紙禁令后,新勢力銷售們賣車套路變了

雷科技
2025-05-07 18:26:02
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
Makiyo自爆愛玩女女!多人運動「沒有固定床伴」 點名薔薔同歡

Makiyo自爆愛玩女女!多人運動「沒有固定床伴」 點名薔薔同歡

ETtoday星光云
2025-05-06 16:06:14
俄媒:拉脫維亞和立陶宛禁止武契奇乘機飛越其領空前往俄羅斯,扎哈羅娃怒了

俄媒:拉脫維亞和立陶宛禁止武契奇乘機飛越其領空前往俄羅斯,扎哈羅娃怒了

環球網資訊
2025-05-07 22:37:36
迎戰舊主!阿什拉夫2021年從國米轉會巴黎,國米隨即簽下鄧弗里斯

迎戰舊主!阿什拉夫2021年從國米轉會巴黎,國米隨即簽下鄧弗里斯

直播吧
2025-05-08 05:40:13
開除黨籍10年后,翟崇碧再次被查

開除黨籍10年后,翟崇碧再次被查

新京報政事兒
2025-05-07 14:41:51
黃仁勛最新涉華表態

黃仁勛最新涉華表態

環球時報國際
2025-05-08 00:18:10
遠華集團總裁賴昌星,在獄中對董文華的描述,聽后讓人咋舌

遠華集團總裁賴昌星,在獄中對董文華的描述,聽后讓人咋舌

蘭姐說故事
2025-02-17 22:00:03
注意 | 天津將啟用無人機攝錄!60個點位→

注意 | 天津將啟用無人機攝錄!60個點位→

天津人
2025-05-07 18:06:04
女演員陳麗君落淚道歉:以后一定會讓嘴和腦子站在同一戰線!此前稱“賈寶玉是長子長孫”引爭議

女演員陳麗君落淚道歉:以后一定會讓嘴和腦子站在同一戰線!此前稱“賈寶玉是長子長孫”引爭議

魯中晨報
2025-05-07 11:40:06
2025年養老金調整將至,浙江省和上海市養老金調整會區別大嗎?

2025年養老金調整將至,浙江省和上海市養老金調整會區別大嗎?

暖心人社
2025-05-07 22:39:57
全球第一大電視尺寸竟是32寸 中國幾乎淘汰了

全球第一大電視尺寸竟是32寸 中國幾乎淘汰了

快科技
2025-05-06 22:52:10
信息量能大到讓人震驚的一句話!網友:你壓到我頭發了……

信息量能大到讓人震驚的一句話!網友:你壓到我頭發了……

特約前排觀眾
2025-04-29 00:20:03
網友:一覺睡醒,高書記又出招了!

網友:一覺睡醒,高書記又出招了!

丫頭舫
2025-05-07 15:56:30
金融監管總局中層人事調整

金融監管總局中層人事調整

新浪財經
2025-05-07 08:29:04
“汽車狂人”李書福突發!上市不到一年時間,便欲匆匆退市極氪,博裕投資、寧德時代等背后機構資金被套牢,吉利控股品牌整合漸入高潮

“汽車狂人”李書福突發!上市不到一年時間,便欲匆匆退市極氪,博裕投資、寧德時代等背后機構資金被套牢,吉利控股品牌整合漸入高潮

金融界
2025-05-07 18:35:44
2025-05-08 07:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10453文章數 142303關注度
往期回顧 全部

科技要聞

蘋果宣布重大計劃 谷歌市值蒸發1500億美元

頭條要聞

美媒:特朗普政府敦促烏克蘭接收被美驅逐第三國公民

頭條要聞

美媒:特朗普政府敦促烏克蘭接收被美驅逐第三國公民

體育要聞

未來是你們這些年輕人的,但現在還不行!

娛樂要聞

出道15年零緋聞,被劉濤贊揚演技的他

財經要聞

信息量巨大,這次放水完全不一樣

汽車要聞

《臺州宣言》再進一步 吉利汽車將全資控股極氪

態度原創

教育
手機
健康
親子
時尚

教育要聞

清一色泰國、菲律賓留學博士到高校任教,說不是水博,誰相信呢?

手機要聞

蘋果埃迪?庫伊:AI 狂飆突進,iPhone 未來 10 年內恐被淘汰

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

萌娃知識分享!

從 “白粥姐” 到 “妖妃” 逆襲!王楚然靠美貌殺回內娛頂流?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清水河县| 龙海市| 保山市| 河西区| 龙岩市| 灵川县| 泰和县| 鄢陵县| 鸡西市| 雷州市| 怀远县| 九龙县| 巴楚县| 岗巴县| 甘谷县| 丹阳市| 柳河县| 胶南市| 舟山市| 夏河县| 萨迦县| 金川县| 孟村| 铜山县| 泸定县| 朝阳县| 南平市| 新化县| 龙口市| 吉隆县| 汨罗市| 红安县| 辽中县| 湘阴县| 甘洛县| 慈溪市| 突泉县| 青河县| 云浮市| 通山县| 时尚|