新智元報道
編輯:編輯部
【新智元導讀】WAIC大會上,這個機器人憑驚艷實力引起了層層圍觀!疊衣服、分揀物品、聽指令取貨,他們研發(fā)的Mech-GPT多模態(tài)大模型和「眼腦手」系統(tǒng),讓機器人的高難度操作性能暴增。現(xiàn)在,這家公司已經(jīng)成為市占率連續(xù)五年的行業(yè)冠軍了。
最近,馬斯克的「擎天柱賣爆米花」再次讓具身智能進入大眾視野。
特斯拉主題餐廳最近試營業(yè),Optimus在餐廳上崗,裝爆米花的動作嫻熟流暢,引得大批人類圍觀——
現(xiàn)在的具身智能,已經(jīng)進化成這樣了嗎!
注意看他的眼睛和手,尤其是手中的盒子沒有被捏扁變形,「眼睛」還會隨著動作向你看來。
這些擬人的、連貫的動作對于機器人「大腦」是很大的挑戰(zhàn)。
而在世界人工智能WAIC大會上,我們終于見到了又實用、又通用、速度又快的具身機器人!
而且,不僅有人形,還有單臂、雙臂等各式各樣的形態(tài)。
這些機器人都來自同一個展臺——梅卡曼德機器人。
在梅卡曼德自研的Mech-GPT多模態(tài)大模型加持下,不管是何種樣態(tài)的機器人,都夠高效地執(zhí)行各種精細的動作和高難度的復雜任務。
對于前者,下面這個機器人輕松地擺出「承讓」和「ok」的手勢。
對于后者,那場景可就多了:
比如,擺在這個雙臂機器人面前的,便是典型的柔性物體——一件衣服。
想要把它疊好的難點在于,這一個長序列任務,需要機器人連續(xù)不斷地完成一系列指令。
而且在動作做下去后,柔性物體會產(chǎn)生很難預測的結(jié)果,這就對機器人隨機應變的能力提出了極高的要求。
不過,雙臂機器人最終十分順利地完成了這個長序列復雜柔性疊衣服任務。
4倍速
更進一步的,機器人還能自主分揀海量的隨機真實物體,具備對各種各樣真實貨品泛化操作的能力。
可以看到,下面這個雙臂機器人,它的面前現(xiàn)在準備了9個分類框和幾十種物體,如此復雜的貨品,它都能做到絲滑地操作和分類。
更神奇的是,如果我們把標簽換掉,它甚至還能根據(jù)情況隨機應變。
在這個過程中,它既展現(xiàn)出了廣泛物品的識別能力,也展現(xiàn)出了對廣泛物品的操作能力,以及對文字的識別和常識分類的能力。
有趣的是,這個過程中它不僅在完成收集物體的任務,同時也在為自己收集大量數(shù)據(jù),讓自己的能力不斷提升。
而且在現(xiàn)場,這家公司絲毫不怕讓觀眾親身體驗。展位上早已擺滿琳瑯滿目的小物件,信心十足地等待現(xiàn)場觀眾的測試。
現(xiàn)場的人們可以隨意用自然語言發(fā)出頗有難度的指令,比如讓下面這個單臂機器人「把物品放到對應的紙上」。
在聽到自然語言的命令后,機器人搭載的百億參數(shù)大模型就會綜合語言輸入、視覺輸入,準確認識到自己該執(zhí)行什么任務。
另外,它還可以從貨架上準確無誤地取貨。
觀眾在服務臺ipad上下單選擇相應飲料,機器人收到訂單后,就會行駛至貨架處,取回對應飲料,回到服務臺遞給觀眾,贏得滿堂喝彩。
2倍速
在這場備受矚目的世界人工智能大會上,為何這家機器人公司能有如此充足的底氣,大膽展示自家產(chǎn)品?
自然是因為,他們家的機器人,性能足夠硬核。
具身智能,從哪里突破?
從上面這些驚人的demo可以看出,具身智能應用需要具有極高的豐富性和實用性。
比如,在機器人的速度、節(jié)拍、任務泛化性和物體泛化性上,都需要有極其優(yōu)異的表現(xiàn),才能絲滑地完成各種多樣化的任務。
而梅卡曼德的機器人之所以能在這么多項指標上都表現(xiàn)亮眼,正是因為它的「眼腦手」充分做到了一體化。
手:Mech-Hand五指靈巧手
首先,就是Mech-Hand五指靈巧手。
它的設計緊湊,靈活度高,穩(wěn)定性好。
再加上可以搭配泛化的AI抓取算法,就可以毫不費力地精細抓取各類物體了,比如抓一個燈泡、一個雞蛋,或者敲鍵盤。
這些動作中包括了「捏、拿、摸、點、放、提、拽、拉、按、寫、拔」等幾乎所有「人類手」能完成的操作。
眼:Mech-Eye高精度3D相機
梅卡曼德機器人的「眼」,就是Mech-Eye高精度3D相機了。
這個「眼睛」搭配自研先進AI成像算法,因此可以對透明、反光的物體進行高質(zhì)量成像。
這些3D相機具有多種型號的設計,可以滿足不同場景下小體積、大視野、高精度、抗環(huán)境光等要求。
比如,它可以「看見」各類常見的復雜、真實物體。
還能「看見」各種顏色/細節(jié)豐富的各種真實貨品。
腦:Mech-GPT多模態(tài)大模型
梅卡曼德機器人的「腦」,就是Mech-GPT多模態(tài)大模型。
梅卡曼德通過自研AI大模型,可以讓機器人具備類人的學習、理解和推理能力。
機器人可以理解自然語言指令及復雜環(huán)境,還能自主執(zhí)行復雜任務。
只要我們發(fā)出指令,它便能準確完成「把食肉動物放到最大的容器里」等任務。
如果告訴它你餓了,它還會在思考后,主動遞給你一只香蕉。
正是因為「眼腦手」的配合,才讓機器人具備了高階的智能,能夠理解人在說什么,還能從人類的自然語言中推理出我們究竟想要什么,從而完美完成任務。
實用場景廣泛
從機器人的貨架取貨場景,我們可以看出,正是因為有了「眼腦手」和人形機器人的綜合配合,它的速度才能這么快,效率才能這么高,才能在多種常見的使用場景中發(fā)揮作用。
從以上的種種demo中,我們可以清晰地感覺到:「眼腦手」和不同形態(tài)機器人配合后,使用的場景太豐富了!
比如疊衣服和GPT單臂的「眼腦手」功能,都體現(xiàn)了機器人在豐富居家場景中的可用性:處理多樣且復雜的任務。
而機器人在貨架上取貨,則屬于零售和商超場景,而且效率很高。因此在未來,它們非常有希望運用到千行百業(yè)中。
而且,現(xiàn)在梅卡曼德的機器人已經(jīng)在工業(yè)場景大規(guī)模落地了。
這套系統(tǒng)早已不是實驗里的樣品,而是真正落地在了汽車制造等工業(yè)現(xiàn)場,已經(jīng)廣泛服務數(shù)十家車企
通過高精度的3D相機、人工智能軟件和工業(yè)機器人的結(jié)合,讓它能在不到2秒鐘內(nèi)就能抓取一件物體,對海量物體的抓取和操作,都是自主執(zhí)行的。
這樣的速度,讓它完全可以替代人類員工完成任務了。
而在醫(yī)療、工業(yè)等領域,因為對透明物體識別和抓取上料有超強的泛化性,它也有了超多的用武之地。
下面的場景,就體現(xiàn)出了梅卡曼德機器人對于透明物體強大的識別能力。
注意,這個過程中可不僅是攝像頭,而是采用了很多AI技術,否則機器人不可能如此準確地識別這些難度極高的全透明物體。
更令人印象深刻的是,梅卡曼德技術迭代非常快,在AI等前沿技術上,他們一直在不斷升級。
具身智能大混戰(zhàn),為何他們率先上桌?
8年里,梅卡曼德通過「眼手腦」的戰(zhàn)略和AI技術的不斷迭代,讓自家的領域覆蓋了工業(yè)、物流、重工等多個行業(yè)。
用創(chuàng)始人、CEO邵天蘭的話說,這是一個「既要、又要、還要、也要」的過程:要有靠譜的硬件,有通用的AI算法,有落地快的部署能力,還有完善的培訓、技術支持、合作伙伴網(wǎng)絡,總之,這是在拼一整張「行業(yè)地圖」。
然而,他們卻扛住了壓力,連續(xù)五年做到了市占率第一,成為全球「AI+機器人」領域最大的獨角獸之一。
怎么做到的?這就要講到,創(chuàng)始人的獨特眼光了。
十幾年前,邵天蘭開始了一段孤勇的逆行之路:在清華本科畢業(yè)生中,他是唯一一個選擇去德國學機器人的人。這個選擇,在當時看來十分非主流。
那時,AlphaGo剛剛擊敗李世石,讓他看到一個時代正在眼前開啟。
在他看來,真正改變行業(yè)格局的,正是AI。不是要做單一控制的機器人動作,而是讓機器人真正具備感知、理解、決策能力。
這也就是為什么梅卡曼德不做機器人「本體」,而是專注去打造「眼」「手」「腦」。
服務這么多行業(yè),需要瘋狂定制嗎?答案是否定的。梅卡曼德靠的恰恰就是極致標準化的產(chǎn)品+通用的AI算法。
原因在于,「眼」和「大腦」是共性的,個性的只是手腳動作而已。
在宜家,一把椅子只要幾十塊,但找木匠定制就要上千。而梅卡曼德,走的就是「宜家模式」。
未來十年,機器人進入家庭
10年前的自動駕駛已經(jīng)證明:誰先把業(yè)務跑起來,誰就能先積累數(shù)據(jù)、驗證模型,就能笑到最后。
今天的具身智能機器人,也是如此。
而現(xiàn)在,梅卡曼德已經(jīng)上桌了。
這家由清華海歸團隊在2016年創(chuàng)辦的公司,才短短9年,就成為了全球為數(shù)不多的,真正把具身智能機器人做成跨行業(yè)、多場景、大規(guī)模落地的佼佼者。
他們的機器人已經(jīng)在全球的15000多個場景落地,服務了超過100家的《財富》五百強客戶,業(yè)務遍布了50多個國家和地區(qū)。
根據(jù)第三方咨詢公司高工機器人產(chǎn)業(yè)研究所和睿工業(yè)的市場統(tǒng)計數(shù)據(jù),梅卡曼德機器人在細分領域,已經(jīng)在2020-2024年連續(xù)五年市場占有率排名第一。
工廠上料、快遞分揀、廚房助手……機器人助理,已經(jīng)成為下一個時代的標配。
甚至根據(jù)邵天蘭的說法,指望機器人養(yǎng)老,可能比指望孩子更靠譜一點。
在他的設想中,90后在退休之前,就能看到機器人達到L4、L5的級別。
同時他也堅信:讓機器人進入家庭,未來十年一定會實現(xiàn)。
而梅卡曼德「眼+腦+手」的三重開掛,正在讓這種可能性越來越近。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.