在影視作品里,我們看過太多機器人失控的場面。一些應對方案的段子也早已爛熟于心:斷網、拔電、重啟三連,一鍵送它回爐重造。
但現在,這一套流程可能不太管用了。
今天,Google DeepMind 推出了一款全新機器人控制模型——Gemini Robotics On-Device。這款大模型能在機器人本地運行,集視覺識別、語言理解和動作執行于一體。
而它最大亮點在于,即使完全離線,它也能理解人類指令,流暢完成任務。
比起諸如 ChatGPT、Gemini 等擅長聊天、寫作、答題的大模型,Gemini Robotics On-Device 則給機器人裝上了一個真正的「大腦」,讓其也能具備類似的理解力和執行力。
它本質上是一個專為雙臂機器人打造的 VLA 基礎模型,顧名思義,Vision(視覺)+Language(語言)+Action(動作),三者結合,看得見、聽得懂、動得了,是它的基本素養。
舉例而言,你可以對機器人發出請求:「請把這件衣服疊好,再放進背包里,拉上拉鏈。」過去這需要提前編寫程序、分解動作,現在 Gemini On-Device 可以直接理解這句話的意思,然后一步一步執行下來。
那既然聯網也能跑,為什么還要費勁折騰本地運行?答案不外乎速度和穩定性。
機器人若需將數據傳至云端、等待服務器分析再返回結果,必然產生延遲。在醫療操作、災難救援、工廠自動化等任務中,延遲容錯空間幾乎為零。何況,現實中許多地方網絡條件差,甚至完全無網。
實際上,讓機器人順利應對復雜、動態的現實任務,一直是 AI 領域最難啃的骨頭之一。
從公開視頻看,Gemini On-Device 已能勝任多種常見場景,如疊衣、拉鏈、抓取陌生物體并放置到指定位置。而這一切得益于它的學習機制。
▲強大的泛化能力
它不需要從零開始進行長時間訓練,開發者僅需提供 50 至 100 次人工演示,如親自操控機器人疊衣,模型便能迅速學會并獨立操作。
在更具挑戰性的分布式任務或復雜的多步驟指令執行中,Gemini Robotics On-Device 的表現依然優于目前其他本地運行的替代方案。
而且,它的適配性也很強。
雖然 Gemini Robotics On-Device 最初在 Google 自研的 ALOHA 雙臂機器人平臺上進行訓練的 ,但稍加適配,它也能穩定運行于 Franka FR3 工業機械臂。
甚至結構迥異的人形機器人 Apollo 也能絲滑運行,同一個通用模型通過少量學習,就習慣了完全不同的身體形態。
理想情況下,開發者無需為每種新機器人重新訓練一個 AI,只需訓練一次通用模型,之后通過輕量級的遷移學習即可部署到各式各樣的機器人平臺上。這種「一模多用」的能力將有望加速機器人技術的普及和應用。
當然,理想歸理想,它也還有短板。
隨著機器人智能與自主性提升,安全要求也隨之提高。Gemini On-Device 雖然能執行動作,但它并不能合理判斷你給的任務是否安全,因此,必須為模型加裝「安全栓」。
DeepMind 給出的建議是,開發者可以給模型接入 Google Gemini Live API 接口,讓系統先判斷這個指令合不合理,再決定是否執行;同時在動作層面設置物理限制,如力度、角度、速度,以防意外。
此外,模型多步驟邏輯規劃能力仍有提升空間。
像做三明治、整理桌面這這類需要先后邏輯、順序安排的操作,目前還不在它的舒適區。這和它所基于的 Gemini 2.0 架構有關,未來隨著升級到 2.5,這部分能力可能也會補齊。
另一個現實挑戰,是數據。
雖然它只需幾十次演示就能上手,但最理想的示范,是由真人實際操控機器人時采集的真實數據,而不是虛擬模擬。這類數據訓練出來的效果,更快、更準,也更穩定。
▲技術報告地址:https://arxiv.org/pdf/2503.20020
據項目負責人 Carolina Parada 介紹,這是 Google 首次發布完全脫離云端運行的機器人 AI 模型,也是首個供開發者根據自身需求進行微調的版本。
目前,DeepMind 向「可信測試者」開放了 Gemini Robotics On-Device 的 SDK 和模型訪問權限。如果你是做機器人開發、工業自動化,或智能系統研究的開發者,現在就可以申請試用。
附上申請鏈接:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.