在本次2024 世界機器人大會上,有一場十人對談,堪稱人形機器人「史上最大Penal」,其中干貨量巨大,適宜業(yè)內(nèi)外共同了解這一新行業(yè)的發(fā)展現(xiàn)狀。
這十人包括:
主持:張建偉(中國工程院外籍院士,德國國家工程院院士,德國漢堡大學教授)
對話嘉賓:
甘中學(智昌科技集團股份有限公司董事長兼總經(jīng)理,復旦大學教授)
任雷(月泉仿生公司聯(lián)合創(chuàng)始人,吉林大學唐敖慶講席教授)
許多(小米集團技術委副主席、手機部副總裁、機器人公司總經(jīng)理)
程昊(加速進化科技有限公司董事長)
張世璞(Noetix Robotics聯(lián)合創(chuàng)始人、首席執(zhí)行官)
冷曉琨(樂聚(深圳)機器人有限公司董事長)
郭彥東(智平方創(chuàng)始人兼首席執(zhí)行官)
李博陽(大連蒂艾斯科技發(fā)展股份有限公司聯(lián)合創(chuàng)始人、總裁)
趙同陽(眾擎機器人創(chuàng)始人兼首席執(zhí)行官)
以下為RoboX提煉出的討論內(nèi)容,本期主題主要圍繞技術進展,以及瓶頸挑戰(zhàn);下期內(nèi)容的關鍵詞為中外差距、產(chǎn)學研問題,以及1-5年預測。敬請關注。
關于技術進展與思路
張建偉:本屆世界機器人大會中,有27個人形機器人相關展覽。今年一年全球估計有數(shù)百億美元的相關投資,據(jù)統(tǒng)計現(xiàn)在已經(jīng)有100多家初具規(guī)模的人形機器人。那么,在群雄共爭的情況下,大家如何能將獨特技術突顯出來,如何進行合作,避免重復開發(fā)?
任雷:我們(月泉仿生)原創(chuàng)的「仿生拉壓體機器人原理與技術」,是基于對人體20多年的深入理解,揭示出人體骨骼肌肉的智能原理。
從成果來看,我們第一代「仿生拉壓體行走機器人」可以像人一樣大步走,步速和步長非常接近于人。同時,其單位行走距離消耗的總能量已經(jīng)逼近人體,是人體的1.38倍。而波斯頓動力的Atlas是高達人體的一百倍,弘達的Asmo也是人體的32倍。
另外,該技術也已應用到了手和手臂上,我們現(xiàn)在做的仿生靈巧手,自由度已接近于人的生理自由度數(shù)了,成功率也接近于人手。它可以玩轉筆,魔方,穿針引線等等。
許多:相對于傳統(tǒng)工業(yè)設備,人形機器人最大的改變是從固定機變成了浮動機,導致我們無法對它和環(huán)境的接觸做固定點校準,但同時又要實現(xiàn)很高的精度,這對范式的挑戰(zhàn)很大,我們(小米機器人)也會在這方面進行研發(fā)。
在收集數(shù)據(jù)層面,以靈巧手舉例,現(xiàn)在市場中普通的靈巧手還都在3萬元以上。如果能出現(xiàn)高精度又便宜的手和眼鏡,那會加速功能訓練,讓端到端模型和人形機器人加速落地。
程昊:我們希望機器人小一點,輕一點,甚至一個人就可以在上面開發(fā)算法、操作。
這次(加速進化科技)展臺的特點就是做了機器人踢足球,這也是為數(shù)不多搞機器人對抗的,我們覺得機器人要敢摔,不然很多問題暴露不出來。
張世璞:松延動力專注高自由度解決方案,同時縮小物理仿真和模擬上做Sim2Real的gap。未來三年內(nèi),我們希望把人形本體或者多自由度本體在服務市場進行商業(yè)化。
冷曉琨:從2022年到現(xiàn)在,無論是從本體、控制,還是具身智能學習上,技術路線都有趨同的趨勢。
所以去年我們(樂聚機器人)發(fā)布夸父人形機器人時,定位就是要做人形機器人+產(chǎn)業(yè)生態(tài)——將本體和操作系統(tǒng)、平臺做好之后,和上下游伙伴加深合作。
郭彥東:現(xiàn)在多了非常多的人形機器人,這種趨勢很合理,因為以前的機器人是為專用場景、專用任務設計的設備,它一定是多種多樣的;而現(xiàn)在我們的愿景是通過AI和足夠泛化的本體技術,承擔更多任務。這就一定會有更多資源導向于這種全新品類,我們叫它通用人工智能機器人。
像我這樣在主機廠待過的人,會有一個共識:不太可能有一家企業(yè)把機器人的所有核心技術全部都自己搞定,這樣很難和市場上最好的分門別類的企業(yè)競爭。
(圖片說明:摘自2024 WRC嘉賓Marc Raibert 演講PPT)
李博陽:我們(EX機器人)始終堅持要做可以與人進行細膩交互的機器人產(chǎn)品,現(xiàn)階段已將人形機器人和大模型做了深度融合。我們更強調(diào)情感AI以及有角色的NPC大模型,讓它更像一個人。
要做的工作包括面部表情和情緒的識別、表達,包括其多模態(tài)模型實際上更接近于人的五感,甚至結合了周邊采集設備的第六感的多模態(tài)分析。
趙同陽:(眾擎機器人)成立不到一年,理念是先做一款能大家用得起,用得好的機器人。此次帶來的雙足機器人價格只有38000多元,比友商9萬多的價格還是要低不少。
還需解決哪些瓶頸?
甘中學:如果把機器人分成三類來看,可分為跑會跳的、心靈手巧的,帶有情感的。
目前對于工業(yè)界和服務界來說,一個比較關鍵的技術就是心靈手巧技術,只有把心靈手巧做好,才能在工業(yè)界實現(xiàn)大部分復雜動作,以及在服務界做好護理工作。
目前我們在能跑會跳上很多做得不錯了,但是在手的實用性上,不管是特斯拉還是國內(nèi)做的,都與人的動作相差很遠。
任雷:距離落地能用上,還有很多的問題需要解決。一個是能耗問題,一個是手和手臂問題,后者是真正決定機器人能完成什么任務的關鍵技術。
我們距離人手水平還差得非常多,這就是為什么我們提出要按照人的肌肉骨骼作用原理來做。我們把關節(jié)完全放開了,而且采用磁極電驅(qū)人工肌肉驅(qū)動,例如膝關節(jié)自由度高達12了。臏骨和大腿也有六個自由度。如果能夠重現(xiàn)人體自然的行走步態(tài),能耗也會有顯著下降。
還有一件事情必須在批量生產(chǎn)之前解決,就是人機物理接觸安全性的問題,這非常重要。如果是金屬的剛性部件,高速運動起來和人近距離接觸會非常危險,而且對于貴重儀器設備以及家電家具都是不友好的,所以我們認為一定要采用剛柔耦合的結構解決問題。
機器人的理想狀態(tài)是,當它和人接觸起來,感覺就像另外一個人,你不會有任何恐懼感。
許多:要進入規(guī)模化應用,應達到三方面的平衡:
第一個是精度,決定了它能不能有效完成以及完成的成功率。
第二個是速度,決定了你的效率。
第三個是負載,負載決定了它能干多少工作,尤其是汽車工廠。汽車工廠的部件涵蓋各種重量,這對通用本體其壓力很大。
在核心技術上,還是要解決三個核心部件問題:
第一還是眼:現(xiàn)在大部分人還是想用純視覺,IGBT解決。但是到底數(shù)據(jù)規(guī)模到多少,它的精度才能提升?這點現(xiàn)在大家講不清楚。
至少現(xiàn)在到一億條生成數(shù)據(jù)訓的純視覺模型,其精度還是在厘米級,沒有像我們期待的亞毫米級。我覺得這個時候其實還是需要主動雙目的,因為它能提供穩(wěn)定的亞毫米空間點云信息。而主動雙目的機器視覺的部件要怎么去做,其實是今天產(chǎn)業(yè)界非常核心的一個問題。
第二個是靈巧手的問題:從工業(yè)角度看起來,三指比較合適,五指是有點多余了,因為五指的可靠性現(xiàn)在看起來用推桿電機的方式是難以做好的。現(xiàn)在的靈巧手還是很容易壞的,負載一大,基本上就壞了。
第三,小臂的技術:現(xiàn)在大臂負載大概7到10公斤是沒有問題的,但小臂讓整個載動能力急劇下降,因為小臂要去協(xié)同速度和精度。在小臂設計上,其實我很期待任雷老師的臂給我們?nèi)ミm用,因為現(xiàn)在看起來,用傳統(tǒng)諧波的方式做的小臂有非常多的問題。
程昊:我感覺我們正處于第一輪的技術-產(chǎn)品-市場匹配階段,在這一輪中,從電驅(qū)的關節(jié)和算力的主控,構型標準等都在形成統(tǒng)一,這是第一輪的成熟,接下來就看把它包裝成一個什么產(chǎn)品。
第二輪可能就是更高的技術,然后它能做出更好的產(chǎn)品,能滿足更復雜的需求,這需要一輪一輪來。
張世璞:我們公司在1.0版本的時候,就能讓機器人穩(wěn)定行走和跑,不出任何問題。但是當進行強化學習和迭代的過程中,又會暴露新的問題,
因此我們在想,能不能借鑒車企的影子模式,這樣無論是在量產(chǎn)階段,還是對于研發(fā)體系量化,都能持續(xù)發(fā)現(xiàn)bug到底在哪。
大家都在談算法是黑盒,但其實研發(fā)在某種程度上來講,它的范式也存在一個黑盒,所以我覺得可能影子模式是一個比較好的解法。
第二點是在商業(yè)化的過程中,不管是去工廠還是2C,自動駕駛都是最重要的一環(huán),因為不可能再讓一個人拿著手柄去遙控機器人,而且在移動位置時,它的姿態(tài)也要發(fā)生變化,所以怎樣能夠把感知、視覺和強化學習結合在一起,才能讓它很魯棒地做到自動駕駛,也是一個挑戰(zhàn)。
冷曉琨:今年我們銷量最高的場景還是科研、高校這些場景,大概有100多臺。
但現(xiàn)在我們在工業(yè)場景中,反倒是遇見了一些新的問題,并且這些問題不是人形機器人公司能搞定的。
第一,能源問題。其實現(xiàn)在我們大部分的人形機器人,連續(xù)續(xù)航作業(yè)時間大概也就一個半小時,兩個小時已經(jīng)是極限了,這是接下來雙足人形機器人進入產(chǎn)業(yè)化的一個很大的問題。
第二,電機的功率密度問題。現(xiàn)在是用100公斤的機械臂拉一個10公斤的物品,如果有一天10公斤的機械臂能拉動100公斤物品的時候,很多控制包括智能算法會有一個很大的提升。
同樣的,人形機器人是一個欠驅(qū)動的系統(tǒng),所以說對于電機的功率密度問題也是一個很大的需求點。但是現(xiàn)在電機功率密度的提升每次都是在2%、5%左右,很難有質(zhì)的突破。
我認為,能源和電機這兩個問題,接下來會較長時間的卡住人形機器人的發(fā)展。
郭彥東:我可能對這個問題有不完全一樣的思考。我覺得作為一家機器人公司,更多要思考的是怎樣去研發(fā)能夠量產(chǎn)的技術,而不是怎么去量產(chǎn)已有的技術。
要想在量產(chǎn)中使用通用智能機器人,首要思考的問題與在實驗室是非常不一樣的。
在機器人不做大規(guī)模量產(chǎn)的時候,大家可能不會覺得泛化操作是一定要做的問題,包括端到端的架構,如果只是做一個原形,用代碼去實現(xiàn)效率是更高的。
但隨著設備量的增大,隨著環(huán)境的多變,隨著適應操作的任務越來越多,那要寫的代碼就越來越多。其實大家討論「需不需要做端到端」這樣的問題,如果放在要批量化的前提下,就很容易有一個非常有傾向性的答案。
李博陽:實際上,做任何的智能決策也好,感知是第一步。我覺得現(xiàn)在機器人感知的能力,還有很大的欠缺,不光是廣泛說到的空間和環(huán)境感知,可能還包括它對自身本體狀態(tài)的感知,以及它跟客戶、使用者之間的關系的感知。
現(xiàn)在的感知階段,是從語音、傳感器一些方式上去獲取了一些信息,但是與人類相比,還遠遠不夠。
從機器人廠商來講,我們對于批量化主要考慮的就是做取舍。
不過現(xiàn)在考慮成本問題還過早,因為現(xiàn)在還是一個百花齊放的階段,要先考慮怎么能讓機器人在應用場景下「可用」,并且賣的出去,然后再考慮去降成本。
趙同陽:我認為人形機器人分為四大塊:優(yōu)秀的本體、高動態(tài)的控制算法、更具泛化性的具身智能,以及接近人的通用人工智能。但目前每一塊的落地都還有巨大的挑戰(zhàn)。
首先在本體這一塊,現(xiàn)在大家都用電動方案,不管是電機、減速機還是控制器,其實都還屬于傳統(tǒng)行業(yè)。雖已在機械臂行業(yè)經(jīng)過驗證,但是在人形機器人上應用還是第一次。
要想做到工業(yè)級別的人形機器人,成本至少需要10萬到12萬元。我們希望它接近于汽車,具有10-15年的壽命,所以耐久性、可靠性還是非常具有挑戰(zhàn)性的。
現(xiàn)在很多機器人走起來還是咵咵響、小碎步、彎著腿,這都不是我們希望看到的。行走不僅是一門技術,還是一門藝術。要達到藝術級別,我認為至少還需要1-2年的時間。
另外,機器人不僅有很好的軀體,還需要有足夠有趣的靈魂。從最近的百模大戰(zhàn)可以發(fā)現(xiàn),很多公司都在做一個大而全的東西,感覺它更像是百科全書。但我們有時需要機器人是一個萬能的上帝嗎?不是的。
現(xiàn)在很多大模型,它的服務器上面可能就住著一個萬能的上帝,全面但是雷同。我們希望大模型以后的發(fā)展,是每個機器人都擁有性格,是有趣的靈魂。
(未完待續(xù))
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.