2024年已經(jīng)過去,但2024年最后幾個月的車圈動向,給2025年留下了很多遐想空間。
相比于“飛行汽車”在汽車領(lǐng)域的長周期提及和迭代,2024年最后一個月,“具身智能”這個詞在車圈出現(xiàn)頻次非常之高。12月26日,廣汽發(fā)布了人形機器人GoMate,比亞迪也宣布招募具身智能團隊。小鵬、長安、奇瑞、上汽、北汽、東風,都在2024年組建團隊或者和創(chuàng)業(yè)公司簽約聯(lián)合開發(fā)。而賽力斯和小米則稍早一點,在2023年開始動作。華為和寧德時代、地平線、速騰(參數(shù)丨圖片)聚創(chuàng)、科大訊飛等供應(yīng)商,也在投資機器人業(yè)務(wù)。
事實上,這也不是一個全新領(lǐng)域,只不過車圈剛介入而已。自2023年英偉達CEO黃仁勛高呼“AI的下一個浪潮將是具身智能”,這個概念就火了。而特斯拉2024年10月展示的機器人,研發(fā)至少啟動兩三年了。兩年時間,中美有關(guān)具身智能的創(chuàng)業(yè)公司多如牛毛,就在車企當回事的時候,非頭部具身智能創(chuàng)業(yè)公司拿融資已經(jīng)很困難了。
具身智能≠人形機器人
那么問題來了,“具身智能”是否就是“人形機器人”?后者已經(jīng)在科幻片里出現(xiàn)好幾十年了,而前者只能追溯到幾年前。兩者在外觀形態(tài)上可能有少許交集,但概念上完全不是一回事。
具身智能(Embodied Intelligence)之所以看著別扭,多少帶點翻譯腔,但確實是目前最為簡潔的描述。
雖然具身智能沒有共識的定義,但不妨礙大家爭著給它定義。斯坦福大學(xué)AI學(xué)者李飛飛給出的定義是:“具身的含義,不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。”
這個定義不那么易懂,但可以看出,具身智能必須與物理執(zhí)行能力有關(guān),是不是人形倒不重要(但應(yīng)有實體,而非單純的代碼)。我們可以將其簡單理解為一種認知-行為智能,就像自動駕駛是某種意義上的認知-空間智能一樣。
假設(shè),我們支使一個“具身智能”去“倒掉廚房垃圾”,這個指令的理解和執(zhí)行對人類來說再簡單不過,但對于機器人卻很復(fù)雜。后者應(yīng)該將其拆解為一系列“子指令”——運動到廚房,搜索并辨識垃圾,分類裝袋(獲取袋子是另一個任務(wù)分支),確認無遺撒,抓握提起,打開房門,乘電梯下樓,搜索定位垃圾桶,移動到位,分類放入,原路返回。
圖:目前的機器人只能在特定場景中執(zhí)行固定任務(wù)
這些動作牽扯的技術(shù)棧非常廣,包括語音識別、自然語言辨識,指令拆解,任務(wù)目標辨識、3D姿態(tài)穩(wěn)定、機械移動、執(zhí)行評估反饋等,更別提可能的任務(wù)分支。這就是本世紀初炒作了一陣子的人形機器人概念,最后偃旗息鼓的原因。因為人們發(fā)現(xiàn),根本寫不出通用機器人的代碼。機器人只能在特定場景中執(zhí)行固定任務(wù),比如掃地機器人、跳舞機器人、工業(yè)噴漆機器人(機械臂)等。
好消息是,現(xiàn)在的大模型訓(xùn)練帶來了新靈感。大家都看到了VLM(視覺和自然語言處理模型)、LLM(大語言模型)可以辨識模糊語義(人類也擅長辨識模糊語義),也可以教會AI在從未定義過的場景中做自主決策。再往前一步,走到物理執(zhí)行層面,即解決本體與環(huán)境互動問題,那不就做出具身智能來了嗎?有人將具身智能訓(xùn)練(多模態(tài)輸入增強模型對物理現(xiàn)實的理解),描述成為智能注入靈魂(主觀性),確實有些道理。
具身智能依然處于初級階段
和大模型不同,發(fā)展到具身智能階段,就不應(yīng)該等著人類“填喂”給它數(shù)據(jù)并訓(xùn)練它(雖然初始可能這么做),它應(yīng)該主動獲取數(shù)據(jù),并自我訓(xùn)練,然后擴張自己的能力。這里面的主動性,也是區(qū)別具身智能和人形機器人的關(guān)鍵。
順便說一句,人類與環(huán)境互動,多數(shù)時候無須中央算力(大腦)。我們的小腦、肢體關(guān)節(jié)、皮膚,都能瞬時完成與環(huán)境互動,當然前提是我們對特定環(huán)境熟悉(自我訓(xùn)練)。
現(xiàn)在這股風吹到了汽車圈,除了特斯拉投資比較早,似乎也做出了產(chǎn)品(是否擁有典型的具身智能,尚存疑問),跟進的基本都是中國車企,這一現(xiàn)象很有意思。
諸多的券商投研報告,都很樂意用數(shù)字來描述某新興產(chǎn)業(yè)的未來市場價值,動輒百億千億,還得是美元。這種餅畫多了,報告都看得麻木。但毫無疑問,具身智能如果做成,商業(yè)前景無疑廣闊,遠超智能駕駛的商業(yè)價值,甚至還能和汽車產(chǎn)業(yè)掰一下手腕。
圖:具身智能產(chǎn)業(yè)發(fā)展歷程
現(xiàn)在全球汽車產(chǎn)業(yè)大概價值30多萬億人民幣(2023年數(shù)據(jù)),而其帶動的上游產(chǎn)業(yè)鏈,解決的就業(yè)崗位和周邊產(chǎn)業(yè),其經(jīng)濟乘數(shù)效應(yīng),在所有工業(yè)門類中無出其右。
相比而言,具身智能如果以產(chǎn)業(yè)標準來看,依然處于相當初級的階段,即長期不招投資人待見的“備胎”學(xué)術(shù)門類,只不過,現(xiàn)在窺見了可能的技術(shù)路徑,具備了工程化的可行性(即工程當中的“可研”)。
但如果從投資角度來看,又完全不一樣了。一個具備廣泛應(yīng)用前景的商業(yè)模式,投資人會急切地尋找投資標的,搶著將支票塞到創(chuàng)始人口袋里。這種事,10年前已經(jīng)看到多次了。只有當?shù)谝徊▌?chuàng)業(yè)企業(yè)在PPT和demo做出來之后裹足不前,耗盡前期資金,才能迫使部分投資人冷靜下來。
做個不完全嚴謹?shù)谋扔鳎壳暗木呱碇悄埽瑹o論投資還是技術(shù)階段,可能相當于智駕產(chǎn)業(yè)在2016年時的狀態(tài)。
智駕護城河已變淺
一個依然處于雛形的產(chǎn)業(yè),為何依然讓諸多車企紛紛投資?
理由與投資飛行汽車有相似之處。畢竟智駕和具身智能,對大模型投資是貫通的。兩者的軟件(感知、視覺、算法、規(guī)控策略)技術(shù)路徑相近,硬件上電池、電機、控制芯片要求差不太多(具身智能對環(huán)境工況要求稍低),何況兩者都是大模型的商業(yè)變現(xiàn)途徑。智駕對空間控制精度的要求不及具身智能,但智駕對于時間精度的要求又往往高于后者。總之,兩者在技術(shù)和工程上,彼此映照。
換言之,智駕相當于具身智能的子集,理論上具身智能可以替代任何人類非創(chuàng)造性勞動。
對于現(xiàn)在的主流車企而言,投了上萬張算力卡構(gòu)建大模型,廣泛部署了用戶端數(shù)據(jù)采集能力,招募了如此龐大而高成本的人力資源,為什么不順帶進入具身智能領(lǐng)域?
再進一步分析,現(xiàn)在智駕收斂到“端到端”路徑,加之車企同時在組織人馬自研,智駕公司的商業(yè)道路收窄,拿到車企的長期訂單越來越困難(除了少數(shù)供應(yīng)商),而相關(guān)知識的擴散速度超出了此前的估計,智駕產(chǎn)業(yè)的護城河正在日益變淺。
圖:智駕與具身智能的大模型投資是貫通的
業(yè)內(nèi)普遍的共識是,L4目標(Robotaxi)無法用端到端路線解決。現(xiàn)在致力于L4的商業(yè)變現(xiàn)的公司,仍陷在虧損的爛泥坑里,原因并非是L2+那種規(guī)模效應(yīng)不足的問題,而是技術(shù)上沒有徹底走通。所以,車企智駕起步普遍晚于創(chuàng)業(yè)公司(除了特斯拉),而入局之后才認識到智駕的商業(yè)變現(xiàn)存在瓶頸
既然投資如此龐大,那么做具身智能也就成為必然選擇。車企的意圖,恐怕嘗試利用既有資源(人力和技術(shù)資產(chǎn))開辟第二商業(yè)戰(zhàn)場。
有意思的是,2024年12月,小米、地平線、百度等負責智駕的高管,紛紛離職創(chuàng)立或者加入具身智能公司。技術(shù)出身的智駕研發(fā)一線高管,對行業(yè)趨勢的認知,想必更敏感一些。
兩者技術(shù)至少部分相通,智駕的商業(yè)想象力正在走弱,而具身智能則顯得前途無量,轉(zhuǎn)投新業(yè)態(tài)太正常不過。
無共識階段才是最大機會
即便智駕與具身智能投資邏輯一貫而通,但業(yè)內(nèi)更愿意強調(diào)二者的差異性。
前者,智駕車輛行為由規(guī)則兜底,依靠數(shù)據(jù)驅(qū)動迭代;后者,學(xué)習(xí)的是生物體,通過長期與環(huán)境交互,進化出復(fù)雜的行為模式。也就是說,具身智能因此也必須重點提升自主性和適應(yīng)性。
很多公司的智駕部署量,現(xiàn)在已經(jīng)達到幾十萬甚至百萬,海量數(shù)據(jù)來源不成問題。數(shù)據(jù)和訓(xùn)練是智駕成長的基石。具身智能也需要數(shù)據(jù)輸入,數(shù)據(jù)量嚴重偏少,且現(xiàn)在還看不到具身智能主動攝取數(shù)據(jù)的管道。
有些公司(譬如蔚來),希望透過構(gòu)造世界模型,形成解釋現(xiàn)實世界的認知框架,并最終解決智駕的預(yù)測問題(基于對物理和交通規(guī)則,預(yù)測未來幾秒,是人開車的普遍思維模式)。世界模型的本質(zhì),是AI構(gòu)造AI。準確地說,是AI構(gòu)造“經(jīng)驗庫”。
現(xiàn)在,也有人試圖用世界模型,分層解決具身智能的執(zhí)行精度問題。簡言之,就是VLM疊加物理世界的運行常識,但根據(jù)LLM做高級決策(像人那樣,用直覺實現(xiàn)從模糊語義到精確執(zhí)行),這樣就能避免使用大量數(shù)據(jù)訓(xùn)練。但是,如此直接輸出動作,泛化能力可能相當有限。
打個比方,我們從桌面拿起一本厚重的書,大腦不會給肢體輸出各個手指應(yīng)該張開多大角度,每根手指發(fā)力多少的指令。我們甚至無須根據(jù)重量和靜摩擦力感知來微調(diào),因為我們的經(jīng)驗庫已經(jīng)非常適應(yīng)這一任務(wù)。若換做拿起紙杯咖啡,就不會用同樣的力度,因為早就知道會把杯子捏變形。我們不愿意教具身智能識別所有物體(也做不到),我們希望它自己悟出合適的拾取方式。
圖:目前所能看到的機器人表演,可能都不是嚴格意義的具身智能
我們懷疑,現(xiàn)在看到的很多機器人做家政表演,開發(fā)人員都在幾個有限動作數(shù)據(jù)上“過擬合”了而已,根本無法適應(yīng)泛在場景。所以,從嚴格意義講,這并不算具身智能。無法擺脫對海量訓(xùn)練數(shù)據(jù)的依賴,具身智能就不會獲得泛在能力。
盡管技術(shù)實現(xiàn)存在多個瓶頸,具身智能仍然具有潛在的非凡商業(yè)價值。現(xiàn)在,具身智能從定義到技術(shù)路徑,再到首批應(yīng)用場景,都沒有形成共識。而無共識階段恰恰是最佳創(chuàng)業(yè)階段,很多資本都有在發(fā)展初期布局的宏大意圖。
車企自然也不例外。如今車企憑借優(yōu)勢資源大規(guī)模進入,短期內(nèi)可能緩解了具身智能行業(yè)投資焦慮,但從長期來看,則有可能將多數(shù)具身智能的創(chuàng)業(yè)公司收編或者擠出這一行當,重演智駕的發(fā)展規(guī)律。
注:圖片部分來源網(wǎng)絡(luò),如有侵權(quán),聯(lián)系刪除。
低空經(jīng)濟 還在夢想階段日產(chǎn)+本田 尚未清晰的效率之戰(zhàn)雷克薩斯國產(chǎn) 能復(fù)刻特斯拉嗎
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.