智東西
編譯 李水青
編輯 心緣
智東西6月25日報道,今日凌晨,谷歌推出首個設備機器人模型Gemini Robotics On-Device,進一步將Gemini 2.0的多模態推理和現實世界理解能力帶入物理世界。
今年3月,谷歌推出了其最強VLA(視覺語言動作)模型Gemini Robotics。今日推出的Gemini Robotics On-Device是Gemini Robotics經過優化的版本,也是其首個可供微調的VLA模型,可在本地機器人設備上運行,具備強大的通用靈活性和任務泛化能力。
如視頻所示,Gemini Robotics On-Device將AI引入機器人,可以開箱即用地處理各種復雜的雙手操作任務,如疊衣服、拉開袋子等。
同時,谷歌還推出Gemini Robotics SDK,幫助開發者評估Gemini Robotics 在設備上的性能,包括在MuJoCo物理模擬器中進行測試。開發者只需50-100個演示即可完成模型評估,讓機器人學習新技能。
該模型一經發布引起近30萬社交平臺X用戶圍觀,有用戶稱:“這些設備內置模型讓Gemini Robotics穩穩地走上了成為‘機器人界的安卓’的道路。最終,OEM(集成)廠商只需專注于打造最優秀的機器人硬件,Gemini只需作為‘大腦’即可。”
一、專為靈巧操作設計,能讓機器人拉開袋子、疊衣服
Gemini Robotics On-Device是一個為雙臂機器人設計的基礎模型,可以最大限度地減少計算資源需求。它基于Gemini Robotics的任務泛化和靈活性功能,并且具備以下特點:
1、專為靈巧操作的快速實驗而設計。
2、通過微調來適應新任務,提高性能。
3、經過優化,可在本地運行并實現低延遲推理。
Gemini Robotics On-Device在廣泛的測試場景中實現了強大的視覺、語義和行為泛化,遵循自然語言指令,可以順暢完成諸如拉開袋子、疊衣服等高度靈巧的任務。所有這些都是在機器人上直接操作時完成的。
在谷歌的評估中,Gemini Robotics On-Device在完全本地運行時表現出強大的泛化性能。下圖是其與谷歌Gemini Robotics旗艦模型和之前最好的設備模型進行比較的結果,Gemini Robotics On-Device在Visual Gen、Semantic Gen、Action Gen三項測試中均獲得最高分。
在更具挑戰性的分布式任務和復雜的多步驟指令方面,Gemini Robotics On-Device模型的表現也優于其他設備端替代方案。下圖是Gemini Robotics On-Device的指令跟蹤性能評估結果,其與旗艦Gemini Robotics模型和之前最好的設備模型相比得分都更高。
更多詳情可閱讀谷歌今年3月發布的Gemini Robotics技術報告《Gemini Robotics: Bringing AI into the Physical World(Gemini Robotics:將 AI 帶入物理世界)》。
報告地址:https://arxiv.org/pdf/2503.20020
二、首個可供微調的VLA模型,適用機械臂、人形機器人等多種形態
Gemini Robotics On-Device是谷歌首個可供微調的VLA模型。
雖然許多任務可以直接運行,但開發者也可以選擇調整模型,使其應用??獲得更佳性能。Gemini Robotics On-Device能夠快速適應新任務,只需50-100次演示即可完成,這充分表明了該設備端模型能夠將其基礎知識推廣到新任務的能力。
谷歌展示了Gemini Robotics On-Device在涉及微調至新模型的任務上如何超越目前最佳的設備端 VLA。他們測試了該模型,涉及了七項不同難度的靈巧操作任務,包括拉開午餐盒拉鏈、畫卡片和倒沙拉醬等。
下圖展示了Gemini Robotics On-Device的任務適應性能,其中包含近100個示例。
谷歌還進一步調整了Gemini Robotics On-Device,使其適用于不同的機器人。雖然其僅針對ALOHA機器人訓練了該模型,但他們能夠進一步將其適配到雙臂Franka FR3機器人和Apptronik的Apollo人形機器人。
在雙臂Franka上,該模型可以執行通用指令,包括處理以前未見過的物體和場景、完成折疊衣服等靈巧的任務,或執行需要精確度和靈巧性的工業皮帶組裝任務。
在Apollo人形機器人上,谷歌調整了模型,使其適應截然不同的形態。同樣的通用模型可以遵循自然語言指令,并以通用的方式操控不同的物體,包括之前從未見過的物體。
谷歌正根據其人工智能原則開發所有Gemini Robotics模型,并應用涵蓋語義和物理安全的整體安全方法。
結語:大模型加速落地物理世界
Gemini Robotics On-Device標志著強大的機器人模型在易訪問和適應性方面邁出重要一步,有望幫助機器人開發者應對重要的延遲和連接挑戰。
值得一提的是,Gemini Robotics SDK支持開發者根據自身需求調整模型,進一步加速創新。下一步,我們有望看到更多機器人開發者利用這些新工具構建具有創新應用的機器人。
來源:谷歌
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.