2024年已經(jīng)過(guò)去,但2024年最后幾個(gè)月的車(chē)圈動(dòng)向,給2025年留下了很多遐想空間。
相比于“飛行汽車(chē)”在汽車(chē)領(lǐng)域的長(zhǎng)周期提及和迭代,2024年最后一個(gè)月,“具身智能”這個(gè)詞在車(chē)圈出現(xiàn)頻次非常之高。12月26日,廣汽發(fā)布了人形機(jī)器人GoMate,比亞迪也宣布招募具身智能團(tuán)隊(duì)。小鵬、長(zhǎng)安、奇瑞、上汽、北汽、東風(fēng),都在2024年組建團(tuán)隊(duì)或者和創(chuàng)業(yè)公司簽約聯(lián)合開(kāi)發(fā)。而賽力斯和小米則稍早一點(diǎn),在2023年開(kāi)始動(dòng)作。華為和寧德時(shí)代、地平線(xiàn)、速騰(參數(shù)丨圖片)聚創(chuàng)、科大訊飛等供應(yīng)商,也在投資機(jī)器人業(yè)務(wù)。
事實(shí)上,這也不是一個(gè)全新領(lǐng)域,只不過(guò)車(chē)圈剛介入而已。自2023年英偉達(dá)CEO黃仁勛高呼“AI的下一個(gè)浪潮將是具身智能”,這個(gè)概念就火了。而特斯拉2024年10月展示的機(jī)器人,研發(fā)至少啟動(dòng)兩三年了。兩年時(shí)間,中美有關(guān)具身智能的創(chuàng)業(yè)公司多如牛毛,就在車(chē)企當(dāng)回事的時(shí)候,非頭部具身智能創(chuàng)業(yè)公司拿融資已經(jīng)很困難了。
具身智能≠人形機(jī)器人
那么問(wèn)題來(lái)了,“具身智能”是否就是“人形機(jī)器人”?后者已經(jīng)在科幻片里出現(xiàn)好幾十年了,而前者只能追溯到幾年前。兩者在外觀形態(tài)上可能有少許交集,但概念上完全不是一回事。
具身智能(Embodied Intelligence)之所以看著別扭,多少帶點(diǎn)翻譯腔,但確實(shí)是目前最為簡(jiǎn)潔的描述。
雖然具身智能沒(méi)有共識(shí)的定義,但不妨礙大家爭(zhēng)著給它定義。斯坦福大學(xué)AI學(xué)者李飛飛給出的定義是:“具身的含義,不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。”
這個(gè)定義不那么易懂,但可以看出,具身智能必須與物理執(zhí)行能力有關(guān),是不是人形倒不重要(但應(yīng)有實(shí)體,而非單純的代碼)。我們可以將其簡(jiǎn)單理解為一種認(rèn)知-行為智能,就像自動(dòng)駕駛是某種意義上的認(rèn)知-空間智能一樣。
假設(shè),我們支使一個(gè)“具身智能”去“倒掉廚房垃圾”,這個(gè)指令的理解和執(zhí)行對(duì)人類(lèi)來(lái)說(shuō)再簡(jiǎn)單不過(guò),但對(duì)于機(jī)器人卻很復(fù)雜。后者應(yīng)該將其拆解為一系列“子指令”——運(yùn)動(dòng)到廚房,搜索并辨識(shí)垃圾,分類(lèi)裝袋(獲取袋子是另一個(gè)任務(wù)分支),確認(rèn)無(wú)遺撒,抓握提起,打開(kāi)房門(mén),乘電梯下樓,搜索定位垃圾桶,移動(dòng)到位,分類(lèi)放入,原路返回。
圖:目前的機(jī)器人只能在特定場(chǎng)景中執(zhí)行固定任務(wù)
這些動(dòng)作牽扯的技術(shù)棧非常廣,包括語(yǔ)音識(shí)別、自然語(yǔ)言辨識(shí),指令拆解,任務(wù)目標(biāo)辨識(shí)、3D姿態(tài)穩(wěn)定、機(jī)械移動(dòng)、執(zhí)行評(píng)估反饋等,更別提可能的任務(wù)分支。這就是本世紀(jì)初炒作了一陣子的人形機(jī)器人概念,最后偃旗息鼓的原因。因?yàn)槿藗儼l(fā)現(xiàn),根本寫(xiě)不出通用機(jī)器人的代碼。機(jī)器人只能在特定場(chǎng)景中執(zhí)行固定任務(wù),比如掃地機(jī)器人、跳舞機(jī)器人、工業(yè)噴漆機(jī)器人(機(jī)械臂)等。
好消息是,現(xiàn)在的大模型訓(xùn)練帶來(lái)了新靈感。大家都看到了VLM(視覺(jué)和自然語(yǔ)言處理模型)、LLM(大語(yǔ)言模型)可以辨識(shí)模糊語(yǔ)義(人類(lèi)也擅長(zhǎng)辨識(shí)模糊語(yǔ)義),也可以教會(huì)AI在從未定義過(guò)的場(chǎng)景中做自主決策。再往前一步,走到物理執(zhí)行層面,即解決本體與環(huán)境互動(dòng)問(wèn)題,那不就做出具身智能來(lái)了嗎?有人將具身智能訓(xùn)練(多模態(tài)輸入增強(qiáng)模型對(duì)物理現(xiàn)實(shí)的理解),描述成為智能注入靈魂(主觀性),確實(shí)有些道理。
具身智能依然處于初級(jí)階段
和大模型不同,發(fā)展到具身智能階段,就不應(yīng)該等著人類(lèi)“填喂”給它數(shù)據(jù)并訓(xùn)練它(雖然初始可能這么做),它應(yīng)該主動(dòng)獲取數(shù)據(jù),并自我訓(xùn)練,然后擴(kuò)張自己的能力。這里面的主動(dòng)性,也是區(qū)別具身智能和人形機(jī)器人的關(guān)鍵。
順便說(shuō)一句,人類(lèi)與環(huán)境互動(dòng),多數(shù)時(shí)候無(wú)須中央算力(大腦)。我們的小腦、肢體關(guān)節(jié)、皮膚,都能瞬時(shí)完成與環(huán)境互動(dòng),當(dāng)然前提是我們對(duì)特定環(huán)境熟悉(自我訓(xùn)練)。
現(xiàn)在這股風(fēng)吹到了汽車(chē)圈,除了特斯拉投資比較早,似乎也做出了產(chǎn)品(是否擁有典型的具身智能,尚存疑問(wèn)),跟進(jìn)的基本都是中國(guó)車(chē)企,這一現(xiàn)象很有意思。
諸多的券商投研報(bào)告,都很樂(lè)意用數(shù)字來(lái)描述某新興產(chǎn)業(yè)的未來(lái)市場(chǎng)價(jià)值,動(dòng)輒百億千億,還得是美元。這種餅畫(huà)多了,報(bào)告都看得麻木。但毫無(wú)疑問(wèn),具身智能如果做成,商業(yè)前景無(wú)疑廣闊,遠(yuǎn)超智能駕駛的商業(yè)價(jià)值,甚至還能和汽車(chē)產(chǎn)業(yè)掰一下手腕。
圖:具身智能產(chǎn)業(yè)發(fā)展歷程
現(xiàn)在全球汽車(chē)產(chǎn)業(yè)大概價(jià)值30多萬(wàn)億人民幣(2023年數(shù)據(jù)),而其帶動(dòng)的上游產(chǎn)業(yè)鏈,解決的就業(yè)崗位和周邊產(chǎn)業(yè),其經(jīng)濟(jì)乘數(shù)效應(yīng),在所有工業(yè)門(mén)類(lèi)中無(wú)出其右。
相比而言,具身智能如果以產(chǎn)業(yè)標(biāo)準(zhǔn)來(lái)看,依然處于相當(dāng)初級(jí)的階段,即長(zhǎng)期不招投資人待見(jiàn)的“備胎”學(xué)術(shù)門(mén)類(lèi),只不過(guò),現(xiàn)在窺見(jiàn)了可能的技術(shù)路徑,具備了工程化的可行性(即工程當(dāng)中的“可研”)。
但如果從投資角度來(lái)看,又完全不一樣了。一個(gè)具備廣泛應(yīng)用前景的商業(yè)模式,投資人會(huì)急切地尋找投資標(biāo)的,搶著將支票塞到創(chuàng)始人口袋里。這種事,10年前已經(jīng)看到多次了。只有當(dāng)?shù)谝徊▌?chuàng)業(yè)企業(yè)在PPT和demo做出來(lái)之后裹足不前,耗盡前期資金,才能迫使部分投資人冷靜下來(lái)。
做個(gè)不完全嚴(yán)謹(jǐn)?shù)谋扔鳎壳暗木呱碇悄埽瑹o(wú)論投資還是技術(shù)階段,可能相當(dāng)于智駕產(chǎn)業(yè)在2016年時(shí)的狀態(tài)。
智駕護(hù)城河已變淺
一個(gè)依然處于雛形的產(chǎn)業(yè),為何依然讓諸多車(chē)企紛紛投資?
理由與投資飛行汽車(chē)有相似之處。畢竟智駕和具身智能,對(duì)大模型投資是貫通的。兩者的軟件(感知、視覺(jué)、算法、規(guī)控策略)技術(shù)路徑相近,硬件上電池、電機(jī)、控制芯片要求差不太多(具身智能對(duì)環(huán)境工況要求稍低),何況兩者都是大模型的商業(yè)變現(xiàn)途徑。智駕對(duì)空間控制精度的要求不及具身智能,但智駕對(duì)于時(shí)間精度的要求又往往高于后者。總之,兩者在技術(shù)和工程上,彼此映照。
換言之,智駕相當(dāng)于具身智能的子集,理論上具身智能可以替代任何人類(lèi)非創(chuàng)造性勞動(dòng)。
對(duì)于現(xiàn)在的主流車(chē)企而言,投了上萬(wàn)張算力卡構(gòu)建大模型,廣泛部署了用戶(hù)端數(shù)據(jù)采集能力,招募了如此龐大而高成本的人力資源,為什么不順帶進(jìn)入具身智能領(lǐng)域?
再進(jìn)一步分析,現(xiàn)在智駕收斂到“端到端”路徑,加之車(chē)企同時(shí)在組織人馬自研,智駕公司的商業(yè)道路收窄,拿到車(chē)企的長(zhǎng)期訂單越來(lái)越困難(除了少數(shù)供應(yīng)商),而相關(guān)知識(shí)的擴(kuò)散速度超出了此前的估計(jì),智駕產(chǎn)業(yè)的護(hù)城河正在日益變淺。
圖:智駕與具身智能的大模型投資是貫通的
業(yè)內(nèi)普遍的共識(shí)是,L4目標(biāo)(Robotaxi)無(wú)法用端到端路線(xiàn)解決。現(xiàn)在致力于L4的商業(yè)變現(xiàn)的公司,仍陷在虧損的爛泥坑里,原因并非是L2+那種規(guī)模效應(yīng)不足的問(wèn)題,而是技術(shù)上沒(méi)有徹底走通。所以,車(chē)企智駕起步普遍晚于創(chuàng)業(yè)公司(除了特斯拉),而入局之后才認(rèn)識(shí)到智駕的商業(yè)變現(xiàn)存在瓶頸
既然投資如此龐大,那么做具身智能也就成為必然選擇。車(chē)企的意圖,恐怕嘗試?yán)眉扔匈Y源(人力和技術(shù)資產(chǎn))開(kāi)辟第二商業(yè)戰(zhàn)場(chǎng)。
有意思的是,2024年12月,小米、地平線(xiàn)、百度等負(fù)責(zé)智駕的高管,紛紛離職創(chuàng)立或者加入具身智能公司。技術(shù)出身的智駕研發(fā)一線(xiàn)高管,對(duì)行業(yè)趨勢(shì)的認(rèn)知,想必更敏感一些。
兩者技術(shù)至少部分相通,智駕的商業(yè)想象力正在走弱,而具身智能則顯得前途無(wú)量,轉(zhuǎn)投新業(yè)態(tài)太正常不過(guò)。
無(wú)共識(shí)階段才是最大機(jī)會(huì)
即便智駕與具身智能投資邏輯一貫而通,但業(yè)內(nèi)更愿意強(qiáng)調(diào)二者的差異性。
前者,智駕車(chē)輛行為由規(guī)則兜底,依靠數(shù)據(jù)驅(qū)動(dòng)迭代;后者,學(xué)習(xí)的是生物體,通過(guò)長(zhǎng)期與環(huán)境交互,進(jìn)化出復(fù)雜的行為模式。也就是說(shuō),具身智能因此也必須重點(diǎn)提升自主性和適應(yīng)性。
很多公司的智駕部署量,現(xiàn)在已經(jīng)達(dá)到幾十萬(wàn)甚至百萬(wàn),海量數(shù)據(jù)來(lái)源不成問(wèn)題。數(shù)據(jù)和訓(xùn)練是智駕成長(zhǎng)的基石。具身智能也需要數(shù)據(jù)輸入,數(shù)據(jù)量嚴(yán)重偏少,且現(xiàn)在還看不到具身智能主動(dòng)攝取數(shù)據(jù)的管道。
有些公司(譬如蔚來(lái)),希望透過(guò)構(gòu)造世界模型,形成解釋現(xiàn)實(shí)世界的認(rèn)知框架,并最終解決智駕的預(yù)測(cè)問(wèn)題(基于對(duì)物理和交通規(guī)則,預(yù)測(cè)未來(lái)幾秒,是人開(kāi)車(chē)的普遍思維模式)。世界模型的本質(zhì),是AI構(gòu)造AI。準(zhǔn)確地說(shuō),是AI構(gòu)造“經(jīng)驗(yàn)庫(kù)”。
現(xiàn)在,也有人試圖用世界模型,分層解決具身智能的執(zhí)行精度問(wèn)題。簡(jiǎn)言之,就是VLM疊加物理世界的運(yùn)行常識(shí),但根據(jù)LLM做高級(jí)決策(像人那樣,用直覺(jué)實(shí)現(xiàn)從模糊語(yǔ)義到精確執(zhí)行),這樣就能避免使用大量數(shù)據(jù)訓(xùn)練。但是,如此直接輸出動(dòng)作,泛化能力可能相當(dāng)有限。
打個(gè)比方,我們從桌面拿起一本厚重的書(shū),大腦不會(huì)給肢體輸出各個(gè)手指應(yīng)該張開(kāi)多大角度,每根手指發(fā)力多少的指令。我們甚至無(wú)須根據(jù)重量和靜摩擦力感知來(lái)微調(diào),因?yàn)槲覀兊慕?jīng)驗(yàn)庫(kù)已經(jīng)非常適應(yīng)這一任務(wù)。若換做拿起紙杯咖啡,就不會(huì)用同樣的力度,因?yàn)樵缇椭罆?huì)把杯子捏變形。我們不愿意教具身智能識(shí)別所有物體(也做不到),我們希望它自己悟出合適的拾取方式。
圖:目前所能看到的機(jī)器人表演,可能都不是嚴(yán)格意義的具身智能
我們懷疑,現(xiàn)在看到的很多機(jī)器人做家政表演,開(kāi)發(fā)人員都在幾個(gè)有限動(dòng)作數(shù)據(jù)上“過(guò)擬合”了而已,根本無(wú)法適應(yīng)泛在場(chǎng)景。所以,從嚴(yán)格意義講,這并不算具身智能。無(wú)法擺脫對(duì)海量訓(xùn)練數(shù)據(jù)的依賴(lài),具身智能就不會(huì)獲得泛在能力。
盡管技術(shù)實(shí)現(xiàn)存在多個(gè)瓶頸,具身智能仍然具有潛在的非凡商業(yè)價(jià)值。現(xiàn)在,具身智能從定義到技術(shù)路徑,再到首批應(yīng)用場(chǎng)景,都沒(méi)有形成共識(shí)。而無(wú)共識(shí)階段恰恰是最佳創(chuàng)業(yè)階段,很多資本都有在發(fā)展初期布局的宏大意圖。
車(chē)企自然也不例外。如今車(chē)企憑借優(yōu)勢(shì)資源大規(guī)模進(jìn)入,短期內(nèi)可能緩解了具身智能行業(yè)投資焦慮,但從長(zhǎng)期來(lái)看,則有可能將多數(shù)具身智能的創(chuàng)業(yè)公司收編或者擠出這一行當(dāng),重演智駕的發(fā)展規(guī)律。
注:圖片部分來(lái)源網(wǎng)絡(luò),如有侵權(quán),聯(lián)系刪除。
低空經(jīng)濟(jì) 還在夢(mèng)想階段日產(chǎn)+本田 尚未清晰的效率之戰(zhàn)雷克薩斯國(guó)產(chǎn) 能復(fù)刻特斯拉嗎
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.