網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

給機(jī)器人裝上“離線大腦”+“安卓系統(tǒng)” 谷歌端上“自家最強(qiáng)”VLA模型

2025-06-26 15:58:10　來(lái)源: 財(cái)聯(lián)社

上海舉報(bào)

分享至

《科創(chuàng)板日?qǐng)?bào)》6月26日訊 日前，谷歌宣布推出“自家最強(qiáng)大的視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型”Gemini Robotics On-Device，作為一款面向雙臂機(jī)器人的通用基礎(chǔ)模型，Gemini Robotics On-Device專(zhuān)為減少計(jì)算資源消耗而設(shè)計(jì)。

其具備通用靈巧操作能力和任務(wù)泛化能力，即支持靈巧操作任務(wù)的快速實(shí)驗(yàn)、可通過(guò)微調(diào)適應(yīng)新任務(wù)，以提升性能。

更重要的是，這款模型可以完全在機(jī)器人設(shè)備本地離線運(yùn)行。谷歌表示，由于運(yùn)行時(shí)無(wú)需依賴(lài)數(shù)據(jù)網(wǎng)絡(luò)，這一模型非常適用于對(duì)延遲敏感的應(yīng)用場(chǎng)景，并能在網(wǎng)絡(luò)連接不穩(wěn)定甚至完全中斷的環(huán)境中穩(wěn)定運(yùn)行——換言之，即使是在完全斷網(wǎng)的情況下，搭載這款模型的機(jī)器人設(shè)備也能做到“看得見(jiàn)、聽(tīng)得懂、做得了”。

Gemini Robotics On-Device在多種測(cè)試場(chǎng)景中實(shí)現(xiàn)了強(qiáng)大的視覺(jué)、語(yǔ)義和行為泛化能力，能理解自然語(yǔ)言指令，并完成拉開(kāi)拉鏈、折疊衣物等高靈巧度任務(wù)。

除了離線運(yùn)行之外，Gemini Robotics On-Device的另一大亮點(diǎn)便是“能微調(diào)”。

十幾年前安卓系統(tǒng)正式面世，提供了高度開(kāi)放的架構(gòu)，讓開(kāi)發(fā)者和廠商們定制系統(tǒng)。如果說(shuō)安卓系統(tǒng)是“讓手機(jī)更懂用戶(hù)”，那么谷歌這次的Gemini Robotics On-Device就是“讓機(jī)器人更懂任務(wù)”。

Gemini Robotics On-Device模型是谷歌首個(gè)對(duì)外開(kāi)放可供微調(diào)的VLA模型，開(kāi)發(fā)者可以選擇對(duì)該模型進(jìn)行適配，以提升具體應(yīng)用場(chǎng)景中的性能。據(jù)谷歌介紹，Gemini Robotics On-Device可快速適應(yīng)新任務(wù)，僅需50-100個(gè)示范樣本即可顯示出良好的泛化能力。

谷歌在七個(gè)不同難度級(jí)別的靈巧操作任務(wù)中測(cè)試了該模型，包括拉上便當(dāng)盒拉鏈、抽卡和倒沙拉醬等操作。

圖|Gemini Robotics On-Device任務(wù)適應(yīng)性能

并且，谷歌還將Gemini Robotics On-Device模型適配到了Franka FR3雙臂機(jī)器人和Apollo人形機(jī)器人等不同的機(jī)器人實(shí)體上。

在雙臂 Franka 機(jī)器人上，該模型可以執(zhí)行通用指令，包括處理以前未見(jiàn)過(guò)的物體和場(chǎng)景、完成折疊衣服等靈巧任務(wù)，或執(zhí)行需要高精確度和靈巧性的工業(yè)傳送帶組裝任務(wù)。

在Apollo人形機(jī)器人上，谷歌對(duì)該模型進(jìn)行了適應(yīng)性調(diào)整，以適配顯著不同的實(shí)體形態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.