谷歌 DeepMind 于 6 月 24 日正式發布了 Gemini Robotics On-Device 模型,這是一個專為機器人設計的人工智能系統,最大的特點是可以完全在機器人設備本地運行,無需依賴云端連接,從而賦予機器人前所未有的自主性與靈活性。
此前,包括谷歌在內的許多機器人系統,都采用一種混合架構:在機器人上部署一個較小的模型以處理快速響應,同時將需要復雜推理和規劃的“重腦力活”交由云端強大的服務器處理。這種方式雖然可行,但其弊端也顯而易見。它不僅對網絡連接的穩定性和速度提出了極高要求,任何網絡延遲或中斷都可能導致機器人反應遲緩甚至停擺;同時,將傳感器數據(尤其是來自家庭或醫療等隱私敏感環境的視覺數據)上傳至云端,也引發了持續的隱私和安全顧慮。
新發布的 Gemini Robotics On-Device 模型,正是為了解決這些核心痛點而生。它是一個完全集成的視覺語言動作(VLA,vision-language-action model)模型,能夠同時處理視覺輸入、自然語言指令和動作輸出。這一切復雜的“思考”過程,如今都可以在機器人自身的計算單元上完成。
谷歌 DeepMind 的機器人技術主管 Carolina Parada 在介紹中解釋道,這一進步得益于 Gemini 模型本身強大的多模態理解能力。“這就像 Gemini 能夠寫詩、總結文章、編寫代碼一樣。”她表示,“它同樣能夠生成機器人的動作。”這種生成式的 AI 能力,使得機器人不再局限于通過強化學習對特定任務進行漫長而刻板的訓練,而是能夠對全新的、從未見過的指令和場景進行泛化理解和響應,極大地提升了機器人的通用性。
與前代需要云端協同的 Gemini Robotics 系統相比,On-Device 模型在自主性上實現了質的飛躍。它讓機器人擺脫了網絡的束縛,能夠在網絡信號不佳甚至完全沒有網絡的“離線”環境中獨立工作。這為其在一些特殊場景的應用打開了想象空間,例如在偏遠地區的勘探、信號被屏蔽的工廠車間,或是在對數據隱私有極高要求的醫療保健環境中輔助病人。在這些場景下,本地化處理不僅保證了操作的連續性和可靠性,也確保了所有敏感數據都保留在設備本地,最大限度地保護了隱私。
在性能方面,即使完全在本地運行,Gemini Robotics On-Device 在多項泛化能力基準測試中,其表現也已非常接近需要云端支持的、更強大的旗艦版 Gemini Robotics 模型,并顯著優于之前的其他本地化模型。它不僅能完成像折疊衣物、整理手提袋這類日常任務,甚至可以應對“系鞋帶”這種對機器人來說歷來是巨大挑戰的精細操作。
圖丨基準測試結果(來源:DeepMind)
更值得關注的是該模型的可適應性和通用性。谷歌強調,Gemini Robotics On-Device 是其首個開放給開發者進行微調的機器人 VLA 模型,開發者可以根據自己的特定需求和應用場景,對模型進行定制化訓練。研究表明,僅需 50 到 100 個新的任務演示(通常通過遙操作機器人完成),模型就能快速學習并掌握新技能,展現出強大的“快速任務適應”能力。
為了證明其跨平臺的通用性,谷歌展示了該模型在不同物理機器人上的應用成果。雖然模型最初主要在谷歌自家的 ALOHA 雙臂機器人上進行訓練,但團隊成功地將其適配到了多種第三方機器人上,包括德國 Franka Emika 公司的雙臂協作機器人,以及由 Apptronik 公司開發的備受矚目的人形機器人 Apollo。在演示中,Apollo 機器人在接收到“把黑色 T 恤放進禮品袋”或“把魔方放進禮品袋”等指令后,能夠準確地識別目標物體并完成相應的操作。
不過,除了對其能力的贊許,許多網友也對其安全性產生了擔憂。當一個強大的 AI 模型被賦予了控制物理實體的能力后,如何確保其行為安全、可控、可預測,便成為重中之重。Parada 坦言,生成式 AI 在輸出上存在一定的隨機性,這在聊天機器人中可能只是生成一些無傷大雅的怪異文本,但對于一個物理機器人而言,則可能引發嚴重的安全問題。
對此,谷歌強調,他們發布的 On-Device 模型本身只是一個核心的 VLA,并不包含完整的安全框架。谷歌建議并推薦開發者復制其內部團隊所采用的多層安全策略。這包括將本地模型與標準的 Gemini Live API 連接,利用其內建的安全層進行語義和內容審查,以過濾掉不安全或不恰當的指令。同時,至關重要的是,開發者需要在機器人硬件層面部署一個低級別的安全控制器,對機器人的動作范圍、力度等關鍵參數進行實時監控和限制,作為最后一道防線。谷歌也鼓勵開發者利用其發布的語義安全基準和進行“紅隊演練”(red-teaming),在部署前充分暴露和修復模型的潛在安全漏洞。
目前,谷歌已經啟動了一個“受信任的測試者計劃”,邀請感興趣的開發者和研究人員申請使用全新的 Gemini Robotics On-Device 模型及其配套的軟件開發工具包。該工具包還集成了 MuJoCo 物理模擬器,方便開發者在部署到真實機器人之前,在虛擬環境中進行大量的測試和調試。
從長遠來看,這次發布的模型還只是一個開始。Parada 透露,當前的 Gemini Robotics 模型是基于 Gemini 2.0 版本構建的,而谷歌的機器人團隊通常比核心的 Gemini 模型開發進度晚一個版本。考慮到最新的 Gemini 2.5 的性能提升,其下一代機器人模型的性能也有望將獲得提升。
參考資料:
1.https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.