《科創(chuàng)板日?qǐng)?bào)》6月26日訊 日前,谷歌宣布推出“自家最強(qiáng)大的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型”Gemini Robotics On-Device,作為一款面向雙臂機(jī)器人的通用基礎(chǔ)模型,Gemini Robotics On-Device專(zhuān)為減少計(jì)算資源消耗而設(shè)計(jì)。
其具備通用靈巧操作能力和任務(wù)泛化能力,即支持靈巧操作任務(wù)的快速實(shí)驗(yàn)、可通過(guò)微調(diào)適應(yīng)新任務(wù),以提升性能。
更重要的是,這款模型可以完全在機(jī)器人設(shè)備本地離線運(yùn)行。谷歌表示,由于運(yùn)行時(shí)無(wú)需依賴(lài)數(shù)據(jù)網(wǎng)絡(luò),這一模型非常適用于對(duì)延遲敏感的應(yīng)用場(chǎng)景,并能在網(wǎng)絡(luò)連接不穩(wěn)定甚至完全中斷的環(huán)境中穩(wěn)定運(yùn)行——換言之,即使是在完全斷網(wǎng)的情況下,搭載這款模型的機(jī)器人設(shè)備也能做到“看得見(jiàn)、聽(tīng)得懂、做得了”。
Gemini Robotics On-Device在多種測(cè)試場(chǎng)景中實(shí)現(xiàn)了強(qiáng)大的視覺(jué)、語(yǔ)義和行為泛化能力,能理解自然語(yǔ)言指令,并完成拉開(kāi)拉鏈、折疊衣物等高靈巧度任務(wù)。
除了離線運(yùn)行之外,Gemini Robotics On-Device的另一大亮點(diǎn)便是“能微調(diào)”。
十幾年前安卓系統(tǒng)正式面世,提供了高度開(kāi)放的架構(gòu),讓開(kāi)發(fā)者和廠商們定制系統(tǒng)。如果說(shuō)安卓系統(tǒng)是“讓手機(jī)更懂用戶(hù)”,那么谷歌這次的Gemini Robotics On-Device就是“讓機(jī)器人更懂任務(wù)”。
Gemini Robotics On-Device模型是谷歌首個(gè)對(duì)外開(kāi)放可供微調(diào)的VLA模型,開(kāi)發(fā)者可以選擇對(duì)該模型進(jìn)行適配,以提升具體應(yīng)用場(chǎng)景中的性能。據(jù)谷歌介紹,Gemini Robotics On-Device可快速適應(yīng)新任務(wù),僅需50-100個(gè)示范樣本即可顯示出良好的泛化能力。
谷歌在七個(gè)不同難度級(jí)別的靈巧操作任務(wù)中測(cè)試了該模型,包括拉上便當(dāng)盒拉鏈、抽卡和倒沙拉醬等操作。
圖|Gemini Robotics On-Device任務(wù)適應(yīng)性能
并且,谷歌還將Gemini Robotics On-Device模型適配到了Franka FR3雙臂機(jī)器人和Apollo人形機(jī)器人等不同的機(jī)器人實(shí)體上。
在雙臂 Franka 機(jī)器人上,該模型可以執(zhí)行通用指令,包括處理以前未見(jiàn)過(guò)的物體和場(chǎng)景、完成折疊衣服等靈巧任務(wù),或執(zhí)行需要高精確度和靈巧性的工業(yè)傳送帶組裝任務(wù)。
在Apollo人形機(jī)器人上,谷歌對(duì)該模型進(jìn)行了適應(yīng)性調(diào)整,以適配顯著不同的實(shí)體形態(tài)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.