作者| 子川
來(lái)源|AI先鋒官
蕪湖!機(jī)器人 開(kāi)始走出實(shí)驗(yàn)室,走進(jìn)家庭,能做家務(wù)了。
只需要一句話,能讓兩臺(tái)Figure機(jī)器人協(xié)作完成雜貨收納、開(kāi)關(guān)冰箱、甚至還能精準(zhǔn)抓取圓形的蘋(píng)果。
尤其是兩機(jī)器人傳遞物品時(shí)抬頭的那一對(duì)望,機(jī)器人仿佛有了意識(shí),“這難道就是獨(dú)屬于機(jī)器人的心電感應(yīng)?”
而這就是Figure AI的最新研究成果——視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型Helix。
一款端到端的通用模型,真正意義上的“機(jī)器人通用大腦”,它能讓兩臺(tái)搭載Helix的機(jī)器人共享同一模型,通過(guò)語(yǔ)言指令進(jìn)行分工合作。
和其他機(jī)器人不同的是,F(xiàn)igure這款大腦(Helix)更聰明。
它能讓Figure具備協(xié)作的能力。例如一臺(tái)識(shí)別需冷藏的食品并傳遞給另一臺(tái),另一臺(tái)則是接住并放到冰箱里面。
同時(shí)Figure的AI能通過(guò)攝像頭實(shí)時(shí)觀察環(huán)境,它會(huì)把冷藏的物品和不需冷藏的物品分類,即使沒(méi)人教過(guò)它。
除此之外,Figure還有一個(gè)顯著的特點(diǎn),那就是不用訓(xùn)練。
傳統(tǒng)機(jī)器人每學(xué)一個(gè)新任務(wù)(比如抓杯子),都需要工程師重新編程。
但Figure的AI系統(tǒng)(Helix模型)只需學(xué)會(huì)“抓取”的邏輯,就能直接處理成千上萬(wàn)種不同形狀的物體,甚至包括從未見(jiàn)過(guò)的物品。
比如面對(duì)從未接觸過(guò)的物品(如玻璃杯、積木),Helix也可以通過(guò)自然語(yǔ)言指令輕松抓取。
據(jù)介紹,F(xiàn)igure搭載的Helix模型可以像人類一樣思考,處理任何家具用品。
看到這里,不禁好奇,它到底是怎么能聽(tīng)懂人話并能快速得干活的。
這其實(shí)得歸公于Figure自研的Helix模型,其采用了雙系統(tǒng)架構(gòu),“系統(tǒng) 1、系統(tǒng) 2”VLA 模型。
以前的方法會(huì)面臨一個(gè)問(wèn)題:VLM主干網(wǎng)絡(luò)具有通用性但速度慢,機(jī)器人視覺(jué)運(yùn)動(dòng)策略速度快但通用性又不足。
而Helix通過(guò)兩個(gè)配合的系統(tǒng)解決了這個(gè)難題:
系統(tǒng) 2 (S2):一個(gè)機(jī)載互聯(lián)網(wǎng)預(yù)訓(xùn)練的 VLM,可以以7-9 Hz 的頻率運(yùn)行,用于場(chǎng)景理解和語(yǔ)言理解,從而實(shí)現(xiàn)跨對(duì)象和上下文的廣泛概括。
系統(tǒng) 1 (S1):一種快速反應(yīng)的視覺(jué)運(yùn)動(dòng)策略,將 S2 產(chǎn)生的潛在語(yǔ)義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動(dòng)作。
這種設(shè)計(jì)讓兩個(gè)系統(tǒng)各司其職:S2負(fù)責(zé)接受任務(wù)并思考,S1則是負(fù)責(zé)快速執(zhí)行,從而讓機(jī)器人在復(fù)雜環(huán)境中能夠靈活操作。
不過(guò),目前 Helix 仍還處在比較早期的階段。
Helix主要是用于Figure上半身控制,包括機(jī)器人手腕、軀干、頭部及單根手指的200Hz高速連續(xù)控制,協(xié)調(diào)動(dòng)作如人類般流暢。
值得一提的是,Helix 是史上第一個(gè)在本地 GPU 運(yùn)行的機(jī)器人 VLA 模型,無(wú)需云端算力支持,就能直接部署。
而且,新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,無(wú)需任何特定的微調(diào)。
在發(fā)布Helix之前,F(xiàn)igure和OpenAI上演了一場(chǎng)分手戲碼。
在兩周之前,F(xiàn)igure AI的創(chuàng)始人Brett Adcock在X平臺(tái)上單方面發(fā)文稱:決定和OpenAI分手。
分手的理由很簡(jiǎn)單,發(fā)現(xiàn)彼此并不般配。
值得一提的是,幾天前有消息傳出,F(xiàn)igure AI正在洽談新一輪15億美元的融資,預(yù)計(jì)由Align Ventures和Parkway Venture Capital領(lǐng)投。
如果交易完成,公司估值將達(dá)到395億美元,F(xiàn)igure AI將躋身全球估值最高的十大未上市初創(chuàng)公司之列。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.