基于“慢思考”與“快思考”相結(jié)合,以“動作鏈”來提升長時序任務(wù)的成功率,正在成為當前具身智能通用大模型的主流方向。繼美國初創(chuàng)企業(yè)Physical Intelligence與FigureAI后,中國初創(chuàng)企業(yè)智元機器人提出了自己的通用具身基座大模型。
昨日,智元機器人發(fā)布了首個通用具身基座大模型智元啟元大模型(Genie Operator-1,簡稱GO-1),并公布了其技術(shù)報告,用到了去年底開源的現(xiàn)實世界機器人數(shù)據(jù)集AgiBot World。今天,智元還展示了新款人形機器人靈犀X2,它的同系列上一代機型已經(jīng)全棧開源。
GO-1由VLM(視覺語言模型,20億參數(shù)規(guī)模)+MoE(混合專家)組成,智元稱之為ViLLA(Vision-Language-Latent-Action)架構(gòu),具有采訓(xùn)推一體,小樣本快速泛化、“一腦多形”的跨本體應(yīng)用、持續(xù)進化、人類視頻學習等優(yōu)勢。
GO-1的預(yù)訓(xùn)練數(shù)據(jù),包括互聯(lián)網(wǎng)上大規(guī)模收集的多視角的視覺-語言數(shù)據(jù)、人類第一人稱視角的Ego4D數(shù)據(jù)、跨機器人平臺數(shù)據(jù),以及最為核心的AgiBot World數(shù)據(jù)。后者由100多臺智元機器人收集,包含百萬條軌跡,總時長為2976小時,涵蓋家庭、零售、工業(yè)、餐廳和辦公等數(shù)百個現(xiàn)實世界場景約217個具體任務(wù)。
相比傳統(tǒng)的Open X-Embodiment (OXE) 數(shù)據(jù)集,它專注于長時序任務(wù),多為30秒至2分鐘之間,可以幫助機器人更好地學習多步驟、連續(xù)性強的復(fù)雜任務(wù)。長時序任務(wù)是人形機器人應(yīng)用落地的關(guān)鍵。與數(shù)字世界的現(xiàn)實任務(wù)需要多步推理類似,物理世界的現(xiàn)實任務(wù)也多由一串動作序列構(gòu)成。
人形機器人在識別當前場景,理解用戶指令后,類似“思維鏈”,要從中構(gòu)建起“動作鏈”。GO-1的視覺-語言-潛在動作框架(ViLLA),相比傳統(tǒng)的視覺-語言-動作(VLA),最大的區(qū)別就在于預(yù)測潛在動作標記(latent action tokens)。
在整個框架中,VLM模型可以接收多視角圖片、力覺信號(通過視觸覺傳感器間接)、語言輸入等多模態(tài)信息,進行通用的場景感知和指令理解,比如理解“掛衣服”對應(yīng)的任務(wù)要求。
然后,Latent Planner(潛層規(guī)劃器)通過建模當前幀與歷史幀的變化,預(yù)測潛在動作序列,比如“靠近衣架、抓取衣物、掛上”等。
最后由Action Expert(動作專家)結(jié)合當前機器人狀態(tài)(如關(guān)節(jié)位置),生成低級控制信號(如關(guān)節(jié)角度、速度),比如將“抓取衣物”轉(zhuǎn)化為具體的手指閉合和手臂移動指令。
這提升了任務(wù)的成功率。智元機器人測試了五種不同復(fù)雜度的任務(wù)后發(fā)現(xiàn),相比當前開源的最優(yōu)模型RDT-1B,GO-1的成功率大幅提升,尤其是在視覺魯棒性(如光線變化、對象位置變化或背景干擾)的“倒水”與“補貨飲料”任務(wù)上。如果沒有潛在動作預(yù)測,GO-1的平均成功率還要下降12個百分點。
智元機器人還發(fā)現(xiàn),隨著預(yù)訓(xùn)練AgiBot World數(shù)據(jù)集規(guī)模的增長,GO-1成功率呈對應(yīng)可預(yù)測的冪律關(guān)系,說明擴展定律仍在起效,具備持續(xù)優(yōu)化的潛力。
智元機器人并不是第一個提出兩個系統(tǒng)分層的框架,以及潛在動作預(yù)測的具身智能初創(chuàng)企業(yè)。在上個月,F(xiàn)igureAI發(fā)布通用視覺-語言-動作模型Helix,同樣引入了相似機制。
Helix由系統(tǒng)2(S2)和 系統(tǒng)1(S1)構(gòu)成。前者也是一個VLM模型(70億參數(shù)規(guī)模),經(jīng)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,用于場景和語言理解,可對不同的物體和場景進行泛化;后者是基于潛層條件的視覺運動Transformer,用于實時執(zhí)行和調(diào)整動作。
這種解耦的架構(gòu),允許兩個系統(tǒng)在各自的最佳時間尺度上運行。S2可以“慢思考”高水平的目標,將任務(wù)拆解為連續(xù)潛在向量(Latent Vector),再由S1“快思考”輸出動作序列。
在這一機制下,與早期的機器人系統(tǒng)相比,Helix能夠?qū)崟r完成持續(xù)性、需要配合的精密操作,而無需任何特定任務(wù)示范或大量手動編程。Helix基于500小時高質(zhì)量監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練。FigureAI很渴望看到,在將Helix擴展1000倍甚至更多后,人形機器人會發(fā)生什么。
在這之前,去年10月,美國具身智能初創(chuàng)企業(yè)Physical Intelligence發(fā)布具身智能大模型π0時,就采用了一個30億參數(shù)的VLM模型(30億參數(shù)規(guī)模)和動作專家的框架,并提出該領(lǐng)域的研究前沿包括長時推理與規(guī)劃等。
今年2月,該公司又進一步提出了分層交互式機器人學習系統(tǒng)(Hi robot),該系統(tǒng)首先對復(fù)雜提示和用戶反饋進行推理,以推斷出完成任務(wù)的最佳下一步,然后通過低級動作執(zhí)行該步驟。
具身智能領(lǐng)域的競爭,已經(jīng)從“具身”或“智能”各自發(fā)展,逐步走向垂直整合。今年,F(xiàn)igureAI結(jié)束了與OpenAI的短暫合作,希望掌握自己的命運。“我們不能外包人工智能,就像我們不能外包硬件一樣,”公司創(chuàng)始人布雷特·阿德科克(Brett Adcock)說,“要在現(xiàn)實世界中大規(guī)模解決具身智能,必須垂直整合機器人AI?!?/p>
以往,中國的人行機器人圍繞國內(nèi)供應(yīng)鏈優(yōu)勢,普遍側(cè)重“具身”與動作控制模型的研發(fā)。現(xiàn)在,智元機器人邁出了加入這場垂直整合的戰(zhàn)局的第一步。
參考:
1,AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems
2,Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.