中國第一波具身智能落地悄然展開,場景和技術(shù)路線與海外有所不同。
文|趙艷秋
編|牛慧
在山東某大型家電廠的產(chǎn)線上,數(shù)臺白色機械臂低頭忙碌,在焊點間精準(zhǔn)落下,一臺臺高端洗衣機的金屬骨架拼接成型。幾個月前,這道工序還需要工程師手動調(diào)試數(shù)天。如今,八臺具身智能機械手臂接入“數(shù)字大腦”,四小時內(nèi)便完成對新型號洗衣機的全部適配。
家電廠家接受度很高,這些手臂總計幾十萬,確實提高了生產(chǎn)效率。”華龍迅達(dá)產(chǎn)品人士告訴數(shù)智前線。這套系統(tǒng)的“大腦”來自華為云盤古多模態(tài)大模型,負(fù)責(zé)任務(wù)拆解規(guī)劃,小腦則由華龍迅達(dá)基于開源模型自主研發(fā),負(fù)責(zé)具體操作。“產(chǎn)線的數(shù)據(jù)是稀缺的。接下來,要在實際生產(chǎn)中邊跑邊學(xué),讓它更聰明。”
點焊場景演示
在這背后是一次具身智能對工業(yè)柔性制造的重構(gòu)嘗試。在6月前后舉辦的兩場大會——北京智源大會和華為開發(fā)者大會上,具身智能成為焦點。與會者看到的不再是重復(fù)單一運動的機器人,而是一個個開始逐步能適應(yīng)變化、做出決策、主動執(zhí)行的“新物種”。業(yè)界正在迎來一次智能躍遷。
但這場躍遷,還遠(yuǎn)未抵達(dá)終點。北京智源研究院院長王仲遠(yuǎn)說,具身大模型仍處在“GPT-3 之前”的技術(shù)探索階段。“仿真數(shù)據(jù)、強化學(xué)習(xí)、大小腦融合等方向都還在摸索,尚未形成統(tǒng)一方法論,產(chǎn)業(yè)落地還有很多關(guān)口要過。”
“我們這個產(chǎn)業(yè)不是一個懸浮的產(chǎn)業(yè)。”銀河通用創(chuàng)始人兼CTO王鶴說,“如果只講故事,不做落地,長期來看對行業(yè)傷害很大。我們需要學(xué)術(shù)界和產(chǎn)業(yè)界一起,把幾件事真的做好。”
01
中國制造業(yè)將迎來“具身智能”變革
國內(nèi)第一波產(chǎn)業(yè)落地已在多個制造與服務(wù)場景中悄然展開。它們比特斯拉等海外巨頭的應(yīng)用場景更多元,甚至也更復(fù)雜。
在華為云聯(lián)合華為制造部研發(fā)的展示中,雙臂機器人正在完成手機“彩盒包裝”的最后一道工序。這個工序目前仍全靠人工,正在嘗試由具身智能來完成。
“彩盒里不只有手機,還有說明書、耳機、充電器等。由于產(chǎn)線來料是無序的,配件的擺放也不是千篇一律,它的裝備步驟每一次都不太一樣。”華為云人士解釋,“他們探索的將是一個能理解環(huán)境、規(guī)劃動作、執(zhí)行決策的系統(tǒng)。”
為何“柔性”制造如此關(guān)鍵?千尋智能聯(lián)合創(chuàng)始人高陽給出一個解釋:“目前工業(yè)機器人年出貨量只有54萬臺,為什么這么少?因為它不好用,每個機器人進廠后,都需要對機器人進行2~3個月的編程。”換句話說,機器人的“智能”是人為設(shè)定好的。
類似問題也在汽車行業(yè)發(fā)生。沖壓與噴涂車間雖高度自動化,但一旦車型更換,換線至少耗時六個月。“具身智能如果能根據(jù)車型自動調(diào)整生產(chǎn)參數(shù),就像人一樣柔性工作,將極大縮短周期。”華為云人士說。
為此,美的旗下的庫卡機器人已在機械臂的機柜中開始預(yù)留算力接口,提前為“具身智能化”做準(zhǔn)備。
具身智能不僅落地工業(yè),也在走進生活場景。
“你在某平臺下單藥品時,很可能已經(jīng)是我們的人形機器人在備貨。”銀河通用機器人創(chuàng)始人兼CTO王鶴展示了一家24小時藥店中機器人操作的視頻:機器人穿梭在開架區(qū)與密集貨架間,自主取貨、放入柜中,快遞員隨后取走。
北京已有7家在常態(tài)化運行,今年底北上深要部署100家。”王鶴說,“24小時店三班倒,人工成本一年70多萬元,我們機器人就是把成本降到比這更低。”
中東某七星級酒店的禮品店中,機器人則充當(dāng)接待員,吸引著顧客來購物。
具身智能的目標(biāo)不一定替代已有的機械臂,通過一年多的產(chǎn)業(yè)調(diào)研,智源研究院院長王仲遠(yuǎn)發(fā)現(xiàn),像物流分揀、激光打碼等重復(fù)而枯燥的工序,每天十余小時、人力疲勞度高、甚至存在安全隱患,正是具身智能最適合的第一波切入點
具身智能也可能是中國制造出海的關(guān)鍵。“其實中國公司到美國、歐洲建廠大都不賺錢,人工費太高、原材料貴,”清華大學(xué)孫富春教授說,“唯一的辦法,就是把機器人帶過去,通過云邊端遠(yuǎn)程操作,這是下一步具身智能要面臨的重要問題。”
然而,真正的落地遠(yuǎn)不只是“亮相”這么簡單:
靈巧手的成本非常高昂,帶傳感器的可能十幾萬元,但壽命只有幾千次。”一位從業(yè)者直言。
人形機器人“走得穩(wěn)”也是挑戰(zhàn):眾擎機器人創(chuàng)始人趙同陽展示了一個場景,讓人形機器人從一棟樓的A點走到B點,搭乘電梯、換層到達(dá)另一棟樓,“理論上可以,但現(xiàn)實中沒有一家能真正做到。”
另一個關(guān)鍵點在于壽命。汽車的壽命在10至15年之間,而目前機器人平均壽命在2年左右。“我們預(yù)計5年內(nèi)能做到機械壽命10~15年。”趙同陽說。
安全標(biāo)準(zhǔn)也成為進廠門檻,比如電池須滿足工業(yè)級防火防爆標(biāo)準(zhǔn),三元鋰電、蓄電池就不行
與此同時,另一場更基礎(chǔ)的反思也正在展開:在具身智能的模型訓(xùn)練中,我們采用怎樣的路徑可以得到更強的泛化性?我們與海外采取的方法有怎樣的不同?這關(guān)乎底層技術(shù)未來演化的路線圖。
02
GPT之后,機器人還缺一顆真正的大腦
在大模型火爆之前,機器人只能完成一件事——送餐、打螺絲或搬運物料。它們像訓(xùn)練有素的操作員,卻只會一種“本能”。但現(xiàn)在,業(yè)界正在嘗試打破這種局限。
“2022年之前,具身智能面臨的是單一任務(wù)、單一場景、單一本體。”北京智源研究院具身多模態(tài)大模型中心主任仉尚航說。轉(zhuǎn)折點出現(xiàn)在ChatGPT橫空出世的那年,機器人開始擁有“更聰明的大腦”。
具身智能的熱潮,本質(zhì)是大模型與機器人技術(shù)的融合。多模態(tài)大模型帶來了更強的泛化能力,推動機器人從“專才”向“通才”演化。但“通才”并不好做。業(yè)界認(rèn)為,具身智能的挑戰(zhàn),遠(yuǎn)超智能駕駛
仉尚航舉例,當(dāng)前,具身智能主要走三種技術(shù)路線:端到端的VLA模型(Vision-Language-Action)、大小腦架構(gòu),以及世界模型
其中,VLA模型最直觀,它接收人類的語言和視覺輸入,輸出行動指令,構(gòu)成一個快速閉環(huán)。銀河通用機器人創(chuàng)始人王鶴認(rèn)為:“VLA是非常有希望的。”
但在清華大學(xué)孫富春教授看來,VLA還不夠。
“李飛飛特別強調(diào)視覺的作用,提出的空間智能,是在三維空間中感知、推理和行動的能力。”但VLA缺乏能判別物理屬性,利用物理規(guī)律做事的要素,也缺少了足夠的控制軌跡。孫富春說,“這正是我們構(gòu)建世界模型的原因。”
所謂世界模型,是一個全要素模型,空間智能僅僅是世界模型向視覺空間的一個投影。孫富春團隊計劃訓(xùn)練一組包含200萬條軌跡、52TB數(shù)據(jù)量的大模型,目標(biāo)是在各類工廠中實現(xiàn)高度泛化的具身智能。他們的對標(biāo)對象,是英偉達(dá)構(gòu)造了120萬條軌跡,32個TB數(shù)據(jù)量的世界模型。
第三種路徑是“大腦+小腦”模式,這是國內(nèi)提出的形象說法,大腦負(fù)責(zé)任務(wù)規(guī)劃,小腦負(fù)責(zé)具體執(zhí)行。優(yōu)勢在于模塊化、可解釋性,更容易落地。但也有門檻。“不是所有多模態(tài)大模型都能勝任大腦。”仉尚航說,“比如GPT-4o做機器人大腦就不理想,因為缺乏長程規(guī)劃和空間理解能力。”
在大小腦技術(shù)路線上,北京人形機器人創(chuàng)新中心唐劍博士認(rèn)為,“卡點”主要有兩個:一個是大腦如何精準(zhǔn)規(guī)劃各類任務(wù),并且能對復(fù)雜任務(wù)精準(zhǔn)拆解和規(guī)劃十幾步甚至幾十步,是比較難的。另一是具身小腦的技能庫。兩者都需要具備強大泛化能力,因為任務(wù)有千千萬。
高陽也給出了他們對具身智能泛化性的分級。他認(rèn)為L3是非常重要的節(jié)點,因為它是在特定環(huán)境下完全自主,也是一個比較難的節(jié)點。
業(yè)界在逐步取得進展。如在這次北京智源大會上,智源研究院發(fā)布了具身大腦 RoboBrain 2.0與跨本體協(xié)作框架 RoboOS 2.0。通過它,全球開發(fā)者只需一鍵即可將大腦模型與在相同本體上開發(fā)的不同機器人小腦技能對接,無需適配過程。RoboOS 2.0與RoboBrain 2.0已全面開源
北京人形機器人創(chuàng)新中心唐劍博士也透露,他們計劃推出統(tǒng)一開發(fā)平臺“慧思開物”,幫助開發(fā)者用一種方式,開發(fā)所有機器人任務(wù)。該創(chuàng)新中心曾研發(fā)在今年機器人馬拉松競賽上奪冠的天工機器人。他們在具身小腦技能庫上,目前能支持30余種技能目標(biāo)是支持超100種。
有業(yè)界人士認(rèn)為,最終的“大腦”、“小腦”競爭,都會收斂到有大模型研發(fā)能力的公司,“因為太燒錢了,它是長在多模態(tài)模型的基礎(chǔ)上”。
“未來5-10年,大小腦融合的模型可能會成熟,但不是今天,原因很簡單,數(shù)據(jù)受限。”王仲遠(yuǎn)說,而能夠真正實現(xiàn)跨本體的小腦模型,也還需要硬件在一輪一輪的產(chǎn)業(yè)迭代中淘汰和收斂。
03
沒有好數(shù)據(jù),機器人就學(xué)不會動手
盡管大腦架構(gòu)和技術(shù)路線正在快速演化,但所有路線最終都繞不開一個共識:數(shù)據(jù),這是具身智能最難啃的骨頭。
“我們面臨最大的痛點是數(shù)據(jù)。”千尋智能聯(lián)合創(chuàng)始人高陽直言,無論是質(zhì)量還是數(shù)量。他們提出了具身智能的Scaling Law,引起業(yè)界關(guān)注。
“大語言模型有Scaling Law。我們也研究具身智能,采集大約4萬個現(xiàn)實世界軌跡,并做了大約1.5萬次現(xiàn)實的機器人測試。”高陽說,“簡而言之,結(jié)論是具身智能同樣滿足Scaling Law,每多采10倍數(shù)據(jù),機器人錯誤率就會降低大約10倍。如果你想從99%的成功率提高到99.9%,意味著你要多采10倍數(shù)據(jù),成本也是指數(shù)級上升。”
如果按照上述的Scaling Law,銀河通用王鶴認(rèn)為,像VLA部署到車廠,一定要保證成功率在4個9以上,因為車廠每停工1分鐘要扣1萬元。如果押寶真實數(shù)據(jù),那可能要先把機器人量產(chǎn)到百萬級,雇上千萬人采數(shù)據(jù)。這是一個無法落地的路線。現(xiàn)實的做法一定要有大量合成數(shù)據(jù),直接做到幾個9,再用真實數(shù)據(jù),目前沒有達(dá)到。“我們做零售,也是因為無法在今天真的做到4個9。”
高陽坦言,不像大語言模型,數(shù)據(jù)直接可用,清洗相對簡單。具身智能的數(shù)據(jù),現(xiàn)在有幾種方式:互聯(lián)網(wǎng)視頻、遙操作(本體模仿人類動作)、仿真生成……但具身智能還得深入物理世界采集摸索。“我感覺宏觀路線是清晰的,但具體到每一個數(shù)據(jù)源,怎么處理、怎么做最好,很多工程細(xì)節(jié)仍沒有那么清楚。”
具身智能的數(shù)據(jù)技術(shù)存在幾大問題:現(xiàn)實世界的數(shù)據(jù)難以大規(guī)模獲取、成本高昂、精度不一。而強化學(xué)習(xí)在現(xiàn)實中的樣本效率“非常低下”。仿真器雖是替代方案,卻因難以完美還原現(xiàn)實環(huán)境而存在“鴻溝”。
數(shù)據(jù)難的另一個根源,是硬件不統(tǒng)一。
具身智能這么多家,每家機器人本體的自由度、傳感器數(shù)量都不一樣,數(shù)據(jù)根本不通用。”眾擎機器人創(chuàng)始人趙同陽提出問題。他擔(dān)憂目前一些地方建設(shè)的數(shù)據(jù)采集中心,“你采的我不能用,我采的你也用不了。”
“就像我們的電腦,大家都能用Windows或iOS,是因為它的硬件是統(tǒng)一的,都有USB接口、都有鍵盤、屏幕,屏幕的分辨率也有標(biāo)準(zhǔn)。硬件統(tǒng)一之后,它的算法就更容易統(tǒng)一,大家都能基于一套東西開發(fā)。”而機器人硬件本體的收斂,還需要時間。
統(tǒng)一的“Action Space”(動作空間)或?qū)⑹瞧凭株P(guān)鍵。北大計算機學(xué)院長聘副教授、初創(chuàng)公司北京智在無界盧宗青認(rèn)為,大語言模型之所以能爆發(fā),是因為輸入輸出統(tǒng)一。而機器人控制的維度五花八門,要構(gòu)建具身智能生態(tài),必須先統(tǒng)一Action Space,才會有用之不完的數(shù)據(jù)。
在現(xiàn)實數(shù)據(jù)受限的背景下,王鶴團隊也在嘗試突破一條新的路徑:純合成數(shù)據(jù)訓(xùn)練VLA(視覺-語言-動作)模型。今天國際上最主流的VLA訓(xùn)練方式是通過真機采集大量遙操作數(shù)據(jù),像特斯拉建立了遙操工廠,特斯拉機器人做電池,光電池就采了10萬條數(shù)據(jù),這個路徑?jīng)]人用得起。
王鶴團隊的模型參數(shù)量在幾十億量級,通過合成訓(xùn)練具備了零樣本泛化能力,比如機器人抓鴨子的視頻,打了迪斯科燈、有人手伸過來搶玩具,機械臂也能實時響應(yīng)。
他強調(diào),這是全球首個不依賴任何真實動作數(shù)據(jù)預(yù)訓(xùn)練的端到端VLA模型。“合成數(shù)據(jù)是義務(wù)教育,真實數(shù)據(jù)是上崗培訓(xùn)。”如果提供真實世界的動作數(shù)據(jù),將讓模型更強,而且遙操的量是今天人形機器人可以支持的。
北京智源研究院走的路線,也是讓機器人學(xué)習(xí)互聯(lián)網(wǎng)數(shù)據(jù),再通過少量真實世界數(shù)據(jù)訓(xùn)練它的能力。在北京智源研究院,數(shù)智前線看到了針對一項技能,比如疊衣服的多種數(shù)據(jù)采集方式,有真人遙操作,也有電腦上的合成數(shù)據(jù)。
王仲遠(yuǎn)還提到,他們在與機器人本體硬件公司交流時,企業(yè)認(rèn)為要展示硬件機器人的上限,同時也要降低成本。“如果機器人每臺售價不是幾十萬,而是幾百元,那么數(shù)據(jù)采集量以及模型提升速度會大幅提升。”
“具身智能的‘小組賽’還沒結(jié)束,遠(yuǎn)沒有到‘淘汰賽’。”王仲遠(yuǎn)說。不過,中國業(yè)界的動作很快,制造業(yè)的豐富場景、政策支持,學(xué)界和產(chǎn)業(yè)界的合作在日趨緊密,提出了一些有別于海外的新路徑。
眾擎機器人趙同陽介紹,今年他們的人形機器人大概能出貨兩三千臺。“我估計友商也能出兩三千臺。馬斯克說,三年之內(nèi),他們的出貨量有30萬臺。我們在中國市場調(diào)研了,缺乏理論數(shù)據(jù)和能力的支撐,我認(rèn)為這三年出3萬臺,我們是能做到的。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.