7月22日,字節(jié)跳動Seed官方公眾號宣布推出一款名為GR-3的全新Vision-Language-Action Model(VLA,視覺-語言-動作)模型。據(jù)稱,該模型擁有強(qiáng)大的泛化能力、對抽象概念的理解以及精細(xì)操作柔性物體的能力。
GR-3:多樣數(shù)據(jù)訓(xùn)練 高效解讀指令
GR-3模型的核心優(yōu)勢在于其出色的泛化能力和對抽象概念的理解。與傳統(tǒng)的VLA模型不同,GR-3通過少量的人類數(shù)據(jù)即可實(shí)現(xiàn)高效微調(diào),從而快速且低成本地遷移至新任務(wù),認(rèn)識新物體。這一特性使得GR-3在面對未知環(huán)境和物體時,依然能夠保持高效穩(wěn)定的操作性能。
具體而言,GR-3采用了Mixture-of-Transformers(MoT)的網(wǎng)絡(luò)結(jié)構(gòu),將“視覺-語言模塊”和“動作生成模塊”緊密結(jié)合,形成了一個擁有40億參數(shù)的端到端模型。這種設(shè)計使得GR-3能夠直接根據(jù)攝像頭捕捉的畫面和收到的語言指令,迅速計算出下一步的動作。例如,在聽到“收拾餐桌”的指令后,GR-3能夠自動完成“打包剩菜、收拾餐具、倒垃圾”等一系列連續(xù)動作。
GR-3的另一大亮點(diǎn)在于其三合一的數(shù)據(jù)訓(xùn)練法。傳統(tǒng)的機(jī)器人模型往往依賴于大量的機(jī)器人軌跡數(shù)據(jù)進(jìn)行訓(xùn)練,而GR-3則突破了這一局限,通過結(jié)合遙操作機(jī)器人數(shù)據(jù)、人類VR軌跡數(shù)據(jù)以及公開可用的圖文數(shù)據(jù),實(shí)現(xiàn)了對模型性能的顯著提升。
遙操作機(jī)器人數(shù)據(jù)為GR-3提供了基礎(chǔ)的操作能力,確保其在完成“撿杯子”、“掛衣服”等基礎(chǔ)任務(wù)時的穩(wěn)定性和準(zhǔn)確性。人類VR軌跡數(shù)據(jù)的引入,則使得GR-3能夠以極低的成本快速學(xué)習(xí)新任務(wù)。通過VR設(shè)備采集的人類軌跡數(shù)據(jù),GR-3在效率上比傳統(tǒng)遙操作數(shù)據(jù)收集方法快了近一倍。此外,公開可用的圖文數(shù)據(jù)極大地提升了GR-3的泛化能力,使其能夠認(rèn)識更多物體,理解更復(fù)雜的抽象概念。
ByteMini機(jī)器人:GR-3的“靈活軀體”
為了充分發(fā)揮GR-3模型的強(qiáng)大能力,字節(jié)跳動Seed團(tuán)隊(duì)還設(shè)計了一款名為ByteMini的通用雙臂移動機(jī)器人。ByteMini機(jī)器人擁有22個全身自由度,以及獨(dú)特的手腕球形設(shè)計,使其能夠像人類一樣靈活操作。在狹小空間內(nèi),ByteMini能夠完成各種精細(xì)操作,如收納盒、抽屜內(nèi)的物品整理等。
ByteMini機(jī)器人搭載了全身運(yùn)動控制系統(tǒng),動作既快速又穩(wěn)定,同時避免了傳統(tǒng)機(jī)器人那種“硬邦邦”的碰撞感。在抓取紙杯等易碎物品時,ByteMini能夠自動調(diào)整力度,避免捏碎物品。此外,ByteMini還配備了多顆攝像頭,其中手腕攝像頭負(fù)責(zé)捕捉細(xì)節(jié),頭部攝像頭則負(fù)責(zé)觀察全局,確保機(jī)器人能夠“眼觀六路”,準(zhǔn)確執(zhí)行各項(xiàng)任務(wù)。
在實(shí)際應(yīng)用中,GR-3模型展現(xiàn)出了卓越的性能。在通用拾取放置任務(wù)中,GR-3面對訓(xùn)練中未見過的物品和環(huán)境時,依然能夠保持高指令遵循率和成功率。例如,在從未見過的臥室書桌、超市柜臺等場景中,GR-3的性能幾乎無衰減,展現(xiàn)出了強(qiáng)大的環(huán)境適應(yīng)和泛化能力。
在長程餐桌清理任務(wù)中,GR-3僅憑“收拾餐桌”這一總指令,就能自主完成全流程操作,平均完成度超過95%。同時,GR-3還能嚴(yán)格跟隨人類發(fā)出的分步指令,準(zhǔn)確執(zhí)行各項(xiàng)任務(wù)。在柔性衣物精細(xì)操作任務(wù)中,GR-3同樣表現(xiàn)出了出色的靈活性和魯棒性。無論是長袖還是短袖衣物,GR-3都能穩(wěn)定地完成掛衣服任務(wù)。
持續(xù)探索,邁向通用機(jī)器人“大腦”
字節(jié)跳動Seed團(tuán)隊(duì)計劃進(jìn)一步擴(kuò)大模型規(guī)模和訓(xùn)練數(shù)據(jù)量,提升GR-3對未知物體的泛化能力。同時,團(tuán)隊(duì)還將引入強(qiáng)化學(xué)習(xí)(RL)方法,突破現(xiàn)有模仿學(xué)習(xí)的局限,讓機(jī)器人在實(shí)際操作中不斷“試錯”,從成功和失敗中自主學(xué)習(xí)調(diào)整動作與策略(比如物體滑落時如何快速重新抓取等)。
GR-3模型的發(fā)布,無疑為機(jī)器人技術(shù)的發(fā)展注入了新的活力。字節(jié)跳動Seed團(tuán)隊(duì)期望,通過持續(xù)的研究和探索,GR-3能夠成為邁向通用機(jī)器人“大腦”的重要一步。展望未來,他們希望機(jī)器人操作大模型能夠真正進(jìn)入人們的日常生活,成為幫助人類處理各種事務(wù)的通用機(jī)器人助手。
(經(jīng)濟(jì)觀察網(wǎng) 萬佳/文)
免責(zé)聲明:本文觀點(diǎn)僅代表作者本人,供參考、交流,不構(gòu)成任何建議。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.