今天,Gemini 家族迎來了一個新成員:Gemini Robotics On-Device。
這是谷歌 DeepMind 首個可以直接部署在機器人上的視覺-語言-動作(VLA)模型,可以幫助機器人更快、更高效地適應新任務和環境,同時無需持續的互聯網連接。
從名字也能看出來,Gemini Robotics On-Device 屬于 Gemini Robotics 系列。該模型于今年三月發布,基礎模型是具備多模態推理能力的 Gemini 2.0。
據介紹,Gemini Robotics On-Device 展現出了強大的通用靈活性和任務泛化能力,并且經過優化,可在機器人機體上高效運行。
由于該模型無需數據網絡即可運行,因此它對延遲敏感型應用非常有用,可確保在連接中斷或零連接的環境中保持穩健性。
對此,網友自然是好評多多:
對于開發者,谷歌還將發布 Gemini Robotics SDK,可用于輕松評估 Gemini Robotics On-Device 在其任務和環境中的表現。另外,開發者還可使用該 SDK 在 DeepMind 的 MuJoCo 物理模擬器中測試該模型,并快速將其適應到新領域 —— 只需 50 到 100 個演示即可。
順帶一提,加州大學伯克利分校、谷歌 DeepMind、多倫多大學、劍橋大學聯合推出的 MuJoCo Playground 剛剛獲得了今年的機器人科學與系統會議(RSS 2025)杰出演示論文獎
- 論文標題:Demonstrating MuJoCo Playground
- 論文地址:https://www.roboticsproceedings.org/rss21/p020.pdf
模型功能和性能
Gemini Robotics On-Device 是用于雙臂機器人的基礎模型,其設計目標是最大限度地減少計算資源需求。它基于 Gemini Robotics 的任務泛化和靈活性能力,并且:
- 針對快速運行靈巧操作實驗而設計。
- 可通過微調來提升性能,從而適應新任務。
- 經過優化,可在本地運行并實現低延遲推理。
DeepMind 進行了不少視覺、語義和行為泛化能力實驗,整體來看,Gemini Robotics On-Device 在這些廣泛的測試場景中表現強大:能夠遵循自然語言指令,并完成諸如拉開袋子拉鏈或折疊衣服等高度靈巧的任務 —— 所有這些操作均可直接在機器人上運行完成。
即使是本地運行的 On-Device 模式,Gemini Robotics On-Device 也表現出了相當不俗的泛化性能。
可以看到,相比之前最佳的本地端機器人模型,Gemini Robotics On-Device 的優勢非常明顯。
在更具挑戰性的分布外任務和復雜的多步驟指令方面,Gemini Robotics On-Device 也優于其他本地端方案。
當然,如果開發者無需嚴格要求在本地運行模型,也可以使用 Gemini Robotics 模型。對該模型我們就不過多贅述了,詳情可參閱技術報告:
https://arxiv.org/pdf/2503.20020
可適應新任務,可跨具身泛化
Gemini Robotics On-Device 也是 DeepMind 推出的首個可供微調的 VLA 模型。雖然許多任務可以開箱即用,但開發者也可以選擇調整該模型,從而獲得更佳性能。
該模型只需 50 到 100 個演示即可快速適應新任務,這表明該模型能夠將其基礎知識泛化到新任務。
DeepMind 在七項不同難度的靈巧操作任務上測試了該模型,包括拉開午餐盒拉鏈、畫卡片和倒沙拉醬。
下圖展示了 Gemini Robotics On-Device 模型的任務適應性能,其中使用的示例少于 100 個。
他們還研究了讓 Gemini Robotics On-Device 模型適應不同的機器人。訓練時,他們采用的是 ALOHA 機器人,但實驗表明能夠進一步將其調整用于雙臂 Franka FR3 機器人和 Apptronik 的 Apollo 人形機器人。
在雙臂機器人 Franka 上,該模型可以執行通用指令,包括處理之前未見過的物體和場景、完成諸如折疊連衣裙之類的靈巧任務,或執行需要精準度和靈活性的工業皮帶裝配任務。
Apollo 人形機器人則是完全不同的機器人形態,而該模型也能相當好的適應。同一個通用模型可以遵循自然語言指令,并以通用方式操控不同的物體,包括之前未見過的物體。
DeepMind 表示:「Gemini Robotics On-Device 標志著在使強大的機器人模型更易于獲得和適應方面邁出了一步?!?/p>
看起來,我們離真正的具身智能時代又更近了一步。
Gemini 模型的其它更新
除了 Gemini Robotics On-Device,谷歌 DeepMind 還進行了一個可能不受免費用戶歡迎的更新:下調免費可用額度。
博主 @ai_for_success 發現,Gemini 2.5 Flash 的免費可用額度從每日 500 次請求腰斬到了每日 250,而 Gemini 2.0 Flash 的免費可用額度更是從 1500 膝斬至 200。
https://x.com/ai_for_success/status/1937493142279971210
谷歌 AI Studio 和 Gemini API 產品負責人 Logan Kilpatrick 回應稱這是他們的策略:「隨著新模型的推出,降低或取消上一代模型的免費套餐。」
另外,谷歌今天還宣布在谷歌 AI Studio 和 Gemini API 中推出了圖像生成模型 Imagen 4 和 Imagen 4 Ultra。
目前我們已經可以在谷歌 AI Studio 中免費試用它們。
這里我們也簡單測試了一下,讓 Imagen 4 Ultra 生成了一張包含貓、機器人與外星人的彩色水墨畫:
https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/
https://x.com/GoogleAI/status/1937554536966619399
https://x.com/OfficialLoganK/status/1937620224758759750
文中視頻鏈接:
https://mp.weixin.qq.com/s/mjZAAvVtPevYDD5HfexN6g
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.