對高附加值的探索和追逐,永遠是一個產業的圣杯。
自成立以來,特斯拉一直沒有停止過對自動駕駛技術的探索。馬斯克的想法很簡單:既然人類可以通過大腦操控汽車,那只要給汽車配備一個類似的“AI大腦”,那么汽車同樣可以自動行駛。具備智能能力的汽車,將史無前例地成為人類信息系統的組成部分,從而具備全新價值。
不久前,馬斯克宣布將于2025年6月在得克薩斯州奧斯汀推出基于純人工智能的全自動駕駛(FSD)服務,僅依靠攝像頭、自研AI芯片及AI軟件就能夠實現L4-L5級別的自動駕駛。
能夠受益于AI技術,使價值得到長足提升的產業,并不只有汽車產業本身。另一個更值得期待的產業是人形機器人。
馬斯克認為人形機器人的需求會超過汽車,未來人形機器人的數量可能達到200-300億。長期來看,他判斷特斯拉未來的價值可能會來自于人形機器人Optimus。
今年初,很多人為春晚扭秧歌的人形機器人所驚艷,各種人形機器人翻跟頭、跳舞的視頻火爆全網。隨著新鮮感褪去,人們開始對人形機器人的本質價值提出了疑問。
如今,隨著具身智能技術的發展,更多具備智能移動操作能力的人形機器人開始走向應用場景,走向產線開始打工。
尤其是大洋彼岸的人形機器人公司,比如去年特斯拉讓Optimus 開始進廠打工,學會了分裝電池,即使失敗,也能自主糾正。
Agility Robotics外派由八臺Digit組成的搬磚小分隊,在大型展會上賺外快。在年底成功拿到汽車供應商舍弗勒的訂單,環球務工即將啟動。今年五月,它們公布了一項全新成就: Digit已經在第一個商業化客戶,物流巨頭GXO的場景中完成了第30萬件商品的流程履約。
老網紅波士頓動力Atlas也沒閑著,它們開始在現代汽車的工廠里搬運零部件,并強調是自主操作。
另外一家成立僅3年的創業公司Figure AI,它們的CEO Brett Adcock放出了一段長達一小時的視頻,展示了Figure 02不間斷分揀物流包裹的能力。
在國內,“人形機器人第一股”優必選跟多家新能源車企合作,其工業人形機器人Walker S1在比亞迪長沙工廠與無人車協同作業,打通物流最后10米,實現“真無人物流”。
在北汽與華為聯合打造的行政級純電豪華旗艦轎車生產基地——享界超級工廠,Walker S1在總裝車間執行儀表線物料檢測任務,智能化檢測準確率達99%。它還獲得奧迪一汽首個人形機器人“offer”,執行空調泄漏檢測任務。
今年3月,優必選在極氪5G智慧工廠開展了全球首例多臺、多場景、多任務的人形機器人協同實訓,從單體自主向群體智能進化。
密集實訓之后,優必選拿到人形機器人行業第一個公開的車廠訂單——所涉及的產品主要是工業人形機器人Walker S1與商用版人形機器人Walker C,相關產品將用于汽車工廠的生產制造和商用接待等環節。這是人形機器人企業在工廠制造業場景全球首次簽署小批量人形機器人采購合同。
在極氪工廠里協同搬運的優必選工業人形機器人Walker S1
人形機器人并非新概念,但在一個又一個人形機器人走向產線背后,似乎再次證明了“智能”的重要性——它正在給人形機器人的產業化,甚至是人形機器人的價值提升這件事上猛踩油門。
會思考的靈魂
拋開社交媒體上花式空翻的小視頻,人形機器人的走紅并非一個孤立事件,而是人工智能產業進步的自然結果。
“具身智能”這一概念的提出可以一路追溯到1950年,英國科學家圖靈在論文《計算機器與智能》(Computing Machinery and Intelligence)中提出,將人工智能融入機器人等物體實體,就可以賦予其感知、學習和與環境交互的能力。
無論是當時還是現在,人工智能算法的結構都取材自人腦的運作方式,但由于其消耗的數據規模和吞噬的算力實在太大,導致以神經網絡為代表的技術路徑,長期處于“理論上完美但無法落地”的尷尬境地。
即便在集成電路產業高速發展的21世紀初,人工智能的種種設想對產業界而言,依然屬于一個科幻級別的規模,這也造就了它長達半個多世紀的萬馬齊喑。
2012年,新任諾獎得主Geoffrey Hinton帶著兩個學生參加ImageNet圖像識別大賽,以84%的識別準確率奪得冠軍。此后,神經網絡從多種技術路線中脫穎而出,成為人工智能的唯一解。
2017年,Google八位AI科學家公開了Transformer架構,開啟了大模型時代,人工智能開始具備“生成”與“決策”的能力。在這種情況下,把人工智能帶入真實物理世界這個命題,就自然而然擺上了產業界的日程表。
按照黃仁勛的說法,“我們正處于生成式人工AI階段,將走向智能體AI時代,隨后是物理AI時代。”
實際上,無論是ChatGPT這類聊天機器人,還是基于大模型能力的各類AI Agent,已經可以視為具備感知和決策能力的機器人,只不過這類“機器人”局限在數字環境,但人形機器人需要與真實的物理世界交互,甚至投入到真實的工業場景里,參與生產活動,這都是程序和代碼力所不能及的地方。
也就是說,人形機器人的背后,是計算機科學和精密制造這兩門產業的結合。
日本曾是一個不折不扣的機器人大國,2000年,本田第一代人形機器人ASIMO橫空出世,雖然行動略顯笨拙,但為具身智能留下了許多遐想。
2014年奧巴馬訪問日本,曾與ASIMO機器人親密互動。但四年之后,本田卻悄悄解散了ASIMO開發團隊,在人形機器人爆發的前夜默默下了牌桌。
2014年,奧巴馬訪日期間與本田ASIMO互動
究其原因,日本制造業的強大如同硬幣兩面,一面是發達的機械制造和汽車工業,另一面則是產業結構性偏科,在互聯網、云計算等未能跟上節奏,導致計算機科學人才供給不足,演化為人工智能時代的追趕乏力。
被裝進歷史故紙堆的ASIMO機器人,恰恰體現了人形機器人最關鍵的變量:智能化。
傳統機器人大多針對特定需求或者單一場景設計,程序相對固定,操作簡單追求高效,比如焊接、分揀、運輸等等。與其說機器人,倒不如說更接近“自動化設備”。
而人形機器人在理想狀態下,可以自己理解物理世界各種物體、語言和文字的含義,并自主規劃和決策,即“具身智能”。
卡內基梅隆大學計算機科學院院長Martial Hebert曾總結日美兩國在機器人上的差異性:日本擅長機器人的物理特性開發,美國擅長機器人的思維開發。
這句話隱含的意思是,美國的生產制造能力或許已經不是全球頂尖,但其計算機科學產業依然是世界一流。
2022年,備受期待的特斯拉機器人Optimus“真人”亮相,居然要依靠三名壯漢攙扶。兩個月后ChatGPT橫空出世,Tesla Bot成了一塊無人問津的背景板。
但這種滑稽景象,也很容易掩蓋特斯拉在軟件層面的積累。
特斯拉Optimus分揀電池,搬運11公斤的電池托盤
早期的Optimus沿用了和特斯拉汽車完全相同的芯片與傳感器,內部甚至運行著完全一樣的自動駕駛算法。特斯拉前AI總監Andrej Karpathy曾回憶,當時機器人以為自己是一輛車,識別的是可駕駛空間,實際上是行走范圍[1]。
但得益于在自動駕駛領域的經驗總結,Tesla Bot在短短幾年內就從真人Cosplay進化到了進廠打工。特斯拉還專門打造了超算中心Dojo,用來訓練自動駕駛和具身智能算法。
2022年,三名壯漢攙扶特斯拉Optimus機器人登臺
優必選的Walker S1批量下工廠,背后也是中國制造業與計算機科學產業經歷多年積累溢出效應的一種體現。行業普遍認為,當前人形機器人較為接近自動駕駛的L2階段,還需要在真實的場景中,不斷學中干干中學。
比起科幻級別的技術演示或是前后空翻的宣傳視頻,能在工業場景中得到廣泛的應用,恐怕是校準一家人形機器人公司的核心參照系。
技術的價值
一項技術的價值高低,在學術界與產業界很可能會得到截然不同的回答。
原因在于,學術界審視技術價值的標尺是未來的科研趨勢,但產業界更關注的是與市場有關的產業化。如果一項技術無法被市場接受,那么學術層面再先進的技術,恐怕在復雜的市場中也不值一提。網紅公司波士頓動力則是這種分化尺度的完美體現。
2016年,波士頓動力毫無征兆的發布了一則新款Atlas機器人的演示視頻,視頻中Atlas熟練的行走跳躍,尤其是被推倒在地后,仍能自主起身繼續完成工作,整個過程栩栩如生,帶給公眾的震撼不亞于2022年底ChatGPT的問世。
這條視頻的Youtube播放量累計超過4000萬。2017年,Atlas再接再厲,用一個精彩的后空翻再度把波士頓動力送上全球熱搜。
但也就是在2017年,投資方谷歌卻選擇在波士頓動力風頭正盛時將其甩賣。按照彭博的說法,谷歌管理層的核心分歧在于商業化。
波士頓動力Atlas表演后空翻,2017年
谷歌對機器人的布局可以追溯到2013年代號為“Replicant(復制人)”的項目,這個項目由“安卓之父”安迪·魯賓親自帶隊,核心目標是打造一個編程平臺,從而推動機器人普及,最終在機器人身上復刻安卓系統的成功[4]。
為了這個龐大計劃,谷歌瘋狂掃貨,一口氣收購了九家機器人初創公司,Atlas問世不到半年,波士頓動力就被谷歌收入囊中。
有了谷歌坐鎮,波士頓動力的技術水平與日俱增,但反面則是孱弱的商業化能力。由于缺少應用場景,波士頓動力只能靠少量軍方和政府部門訂單維持生活,逐漸耗盡了谷歌的耐心[4]:“我們不可能用30%的資源去投入一個需要10年以上的項目。”
波士頓動力的蹉跎半生在諸多產業都能找到相似的影子,其原因也大多趨同:一項技術的商業價值,取決于它被應用在哪里。
晶體管技術在美國誕生,同樣長期棲身政府采購市場,反倒是索尼的TR-55收音機瞄準更大的消費市場,使得晶體管大放異彩。
特斯拉早期使用的18650電芯與筆記本電腦的鋰電池技術同源,但在不同的終端設備上,鋰電池的有著天差地別的市場定位。
無人機是一個最典型的例子,以2013年為分水嶺,在這之前,無人機幾乎隔絕在普通消費品市場門外,在這之后大疆發布航拍一體機,將無人機和攝影功能牢牢捆綁,當年貢獻營收近1億美元,無人機也由此走進大眾視野。
大疆的成功之處在于,將無人機與影像這個具體應用場景綁定,放大了無人機作為一項技術的商業價值。前紅杉資本董事長邁克爾·莫里茨對大疆的評價是:它就是在天上飛行的Apple II。
衡量技術進步性的恐怕是專業期刊,但只有真實的應用場景,才能為一項技術公允的定價。
同樣的道理,如果人形機器人只是旋轉跳躍后空翻,那無論它的動作有多優雅自然,其對應的商業價值也許只能與工藝品等量齊觀。從這個角度看,便不難理解為什么人形機器人但凡能干活總是想去汽車工廠打工。
優必選工業人形機器人Walker S1進行極氪汽車充電質檢任務
一方面,人形機器人和自動化設備最明顯的區別在于“通用性”:
舉一個不太恰當但好理解的例子:送餐機器人執行“把外賣送到1203號房”這個任務時,并不理解什么是“外賣”和“1203號房”,只是根據軟件系統既定的指令和路線規劃完成任務,但人形機器人可以像人類外賣員一樣,自行完成規劃、決策和執行。
在具體工業場景,這種通用性會帶來成本指數級的降低。而汽車生產,恰恰是一個既復雜又標準化的生產場景。
汽車生產可以簡單劃分為四大環節——沖壓、焊裝、涂裝和總裝。以自動化程度標桿特斯拉上海工廠為例,前三大工藝車間的自動化率達到95%,總裝車間的工作最復雜,自動化程度最低,所需工人也就更多。
當噴涂好漆的白車身進入到總裝車間,通常需要人工參與組裝玻璃、輪胎、座椅等零部件。除了擰螺絲,還要對各部分進行質檢。另外,總裝流水線多是采用柔性化生產,對應按訂單生產的多元化需求,雙/三班生產屢見不鮮。
但同時,由于總裝環節高度細分,大量裝配環節經過深度拆解,又呈現標準化的特點。人形機器人可走可彎可動手,既能巡邏質檢又能貼車標。在不重新設計產線的前提下,可以執行多種任務。
去年,優必選Walker S1還進入比亞迪工廠,與無人車協同作業,完成了從分揀、搬運到配送的室內外一體化的作業,讓真無人物流照進現實。
考慮到汽車工業極強的規模效應,不光是機器人需要在整車工廠練手,整車廠對機器人的需求也與日俱增。
當一個又一個人形機器人走向汽車生產線,一場軟件對硬件的全面改造再次上演。
真正的賽點
特斯拉機器人最初在2021年的AI Day亮相,但以PPT畫餅形勢呈現。也許是擔心在場觀眾干看PPT無聊,馬斯克請來了一位身著緊身衣的皮套人,模仿Tesla Bot尬舞了一段。
2021年,在AI Day上模仿機器人的皮套人
皮套人的亮相引來了一連串冷嘲熱諷,其中就包括波士頓動力。在后者展示新款機器人的視頻中,機器人以一種靈活到有些詭異的方式從地上站起來,波士頓動力則在配文中陰陽怪氣:“我們保證這不是一個穿著緊身衣的人。”
然而,波士頓動力的第一代Atlas卻在去年4月正式退休,特斯拉畫餅多年的Optimus反而讓產業界魂牽夢縈。
原因在于,在真實的工業場景中,機器人不僅需要學會怎么“運動”,更需要學會如何“思考”。
前面提到的優必選Walker S1在極氪工廠里的協同作業案例,體現了這一點。在這個案例中,多臺人形機器人在總裝車間、SPS儀表區、質檢區和車門裝配區等工位,開展分揀、搬運和裝配等多項任務協同作業。
這里的重點在于協同。從單機智能到多機協同,背后是一項名為“群體智能”的技術。
所謂“群體智能”,核心是通過軟件算法的應用,解決機器人之間的協同問題,實現1個中央總指揮官統籌管理N個人形機器人。
汽車生產環節眾多,一個環節出問題,很容易影響整個生產流程的效率。人形機器人進廠打工,動作的精確、決策的自主只是新手村技能點,多的是意想不到的難題,比如如何實現對機器人的靈活調度,從而優化生產效率。
優必選工業人形機器人Walker S1在極氪5G智慧工廠執行柔軟物體靈巧操作任務
為此,優必選提出了人形機器人群腦網絡(BrainNet)軟件架構,并設計人形智能網聯中樞( Internet of Humanoids ,IoH),為群體智能的落地提供了可借鑒的路徑。
簡單理解,每臺人形機器人都基于群腦網絡這個大腦做任務,智能網聯中樞相當于中央大腦,可以調用API讓人形機器人執行不同的任務。同時,群腦網絡由云端協同的推理型節點和技能型節點靈活鏈接,形成群體維度下的超級大腦和智能小腦。
其中,超級大腦基于多模態推理大模型,這一推理大模型基于DeepSeek-R1深度推理技術,借助其數據處理和智能決策能力,實現多臺人形機器人之間復雜任務的高效拆解、調度與協同。相比OpenAI o1,DeepSeek-R1的優勢在于成本更低且推理效率更高。
智能小腦則基于Transformer模型,利用跨場景融合感知技術和多機協同控制技術,支持多機并行分布式學習,能夠加速技能生成與遷移。
去年底,優必選的Walker S1進入極氪智慧工廠開啟第二階段實訓,搬運速度提升約25%,還完成了質量檢查等新任務。
優必選工業人形機器人Walker S1正在進行分揀工作
在優必選的諸多產業實踐中,群體智能扮演的角色,是如何通過軟件算法,讓智能化能力貫穿成規模的人形機器人,提高工業生產的效率。Marc Andreessen在2011年預言的“軟件吞噬一切”,含金量還在提高。
如前文所述,人形機器人是計算機科學和精密制造這兩門產業的結合的產物,衡量機器人企業競爭力的標尺,也許是在真實場景中體現的軟硬件結合的能力。
“軟件定義硬件”對科技行業的滲透幾乎無孔不入,從功能機到智能手機,從燃油車到智能電動車,硬件的附加值逐漸被軟件奪權,產品的差異化優勢也在不斷向軟件傾斜。
一個不爭的事實是,在硬件主導的時代,制造能力常被視為壁壘,進入軟硬件逐漸融合的時代,合縱連橫的生態成為了更高的壁壘。因為生產制造的價值總會被規模攤薄,而軟件的附加值卻有近乎無限的延展空間。
人形機器人依然是一個技術高速迭代、產業化方興未艾的領域,但決定它未來的,既不是短視頻里的雜技動作,也不是PPT上五花八門的指標,而是一條又一條生產線上,無數工程與算法組成的進步。
全文完,感謝您的耐心閱讀。
參考資料
[1]With Andrej Karpathy from OpenAI and Tesla,No Priors
[2]野心與潰退:日本半導體輸在了哪里,遠川研究所
[3]硅谷鋼鐵俠:埃隆·馬斯克的冒險人生,阿什利·萬斯
[4]Google’s Andy Rubin Pursues ‘Replicant’ Robots,The Information
[5]Flipping the Script with Atlas,Boston Dynamics
作者:黃主任
編輯:李墨天
責任編輯:李墨天
封面圖片來自ShotDeck
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.