網易首頁 > 網易號 > 正文申請入駐

用大白話，講一下人形機器人背后的大棋

2025-03-27 12:30:07　來源: 星海情報局

北京舉報

分享至

　　在春晚上跳秧歌的宇樹機器人不會想到，

　　僅僅過了一個多月，

　　自己就已經在“節目效果”上落后了。

　　擊敗它的，是一臺來自深圳的“眾擎機器人”——絲滑流暢的斧頭幫舞蹈過于完美，以至于讓很多質疑中國科技發展水平的人表示這肯定是CG合成或者AI生成。

　　他們不得不面對這樣的一個艱難的選擇：要么承認中國機器人技術先進，要么承認中國AI技術先進，要么承認中國CG制作先進。

　　后來為了應對這些質疑，眾擎專門拿出了第三視角的錄像畫面和訓練花絮。結果卻更令人感到驚艷——眾擎的這款機器人對舞蹈動作的學習，似乎并不是依靠手動輸入的程序指令，而是像人類一樣，一邊看著舞蹈老師的示范，一邊自己模仿。

　　這是什么？

　　這就是“端到端”啊！

　　今天能跟著舞蹈老師學跳舞，

　　明天就能跟著工人師傅學著打螺絲，

　　后天就能跟著特種兵學戰術動作。

　　這背后的想象空間，哎呀，過癮吶！過癮！

　　實際上，從2024年底開始，中國的機器人企業便開始了密集的新款機器人產品的宣發——云深處的輪足機器狗可以在崎嶇的南方山地中隨意穿梭，“華為天才少年”彭志暉的智元機器人已經開始在進行家務勞動訓練。

　　這么一看，宇樹機器人單純的扭秧歌，確實在節目效果上就落后太多了。

　　不過，人家宇樹也沒閑著，你們愛怎么跳舞就怎么跳舞，人家一個機器人側空翻視頻，就又一次證明了自己的實力——這動作對于機器人的動作算法、機械性能、平衡能力的要求是相當高的。

　　雖然2025年到現在才過去了不到三個月，但再往后的九個月時間里，關于機器人的新聞一定不會少。

　　更細思極恐的是：這一切，其實都已經被計劃好了——早在2021年12月的《“十四五”機器人產業發展規劃》里就已經提出了“到2025年，我國要成為全球機器人技術創新策源地”，在2023年工信部的《人形機器人創新發展指導意見》中，也提出“到2025年，人形機器人創新體系初步建立，“大腦”“小腦”“肢體”等一批關鍵技術取得突破，確保核心部組件安全有效供給。”

　　只能說，出來混，說要搞出來，那就要搞出來。非如此，就顯不出咱們的手段。

　　今天，我們就來徹底聊聊中國的人形機器人產業。

　　人形機器人的價值有多大？

　　人形機器人的地位，濃縮成一句話就是：這是一個官方認證的“顛覆性產品”。

　　不要低估了“顛覆性產品”這個詞，雖然最近這幾年，“顛覆性產品”這個詞已經被很多企業給玩兒壞了，搞得隨便什么一個產品的發布會都要說幾聲“顛覆”、道幾句“炸裂”，好像不用這些大詞就不足以表達產品的先進一樣。

　　但是，在嚴謹且克制的官方話語體系中，“顛覆性產品”這個詞的含金量并沒有打絲毫折扣——在2023年的那份，《人形機器人創新發展指導意見》中工信部一共列出了四類“顛覆性產品”——前三個分別是電腦、智能手機、新能源汽車，第四個就是人形機器人。

　　官方口徑里的“顛覆性產品”，那就一定是顛覆性的產品。因為想達到工信部的“顛覆性產品”標準，要求是相當高的，從電腦、智能手機、新能源汽車的發展歷程來看，它們無一例外都滿足以下三條標準：

　　這款產品，必須能深刻地改變整個中國社會。

　　這款產品，必須能拉動萬億人民幣的市場。

　　這款產品，必須能培養出至少五家千億元市值的頭部大廠。

　　言下之意就是：這款產品的普及程度一定極高、銷量一定極為巨大，高到社會上大多數人都會用到，否則談不上深刻改變整個社會。而超高的銷量，也就意味著背后有漫長的產業鏈，不僅是幾個龍頭集成商的事兒，更是背后成百上千家供應商的事業。

　　回想一下電腦、智能手機、新能源汽車這些年帶來的變化，我們就能感受到工信部所說“顛覆性產品”的含金量——人形機器人是一個能培育出像華為、小米、比亞迪這樣的超級大廠的賽道，是一個能讓現在本就如日中天的大廠們更上一個臺階的賽道，是一個能夠養活包括軟件、硬件、應用在內各種配套產業的賽道

　　也只有這樣的賽道，才配得上“科技競爭新高地、未來產業新賽道、經濟發展新引擎”的描述。

　　為什么一定要做成人形？

　　那么，人形機器人憑什么能有這么大能量呢？

　　憑什么可以被安上如此高的價值呢？

　　很簡單，因為“人形”。

　　“人形”并不是一個簡單的外觀問題，背后的含義那是相當深刻。

　　“人形”的真正含義是：不論在工業生產場景還是在日常生活場景，都能提供超強的通用性。

　　以工業生產場景為例，人形機器人幾乎是實現“智能制造”“柔性制造”的必要條件。

　　眾所周知，人是最精密的機器，因為人的行動是“三維”的。

　　假設你現在有一個生產筷子的工廠，生產工序的最后一步就是把十根筷子塞進一個圓筒里并擰上蓋子。

　　如果是人工操作，那么這道工序就非常容易——點出來十根筷子、一把抓起、在桌面上懟一下對齊、塞進圓筒、擰好蓋子——這就是人工操作的優勢，簡單直白、清楚明確，干就完了。

　　這種簡單到極致、高效到極致的操作，就是人類三維動作的優勢。

　　不過，雖然人類的動作兼具了簡潔和高效，但人類實在太脆弱了——“整理筷子”這個動作，做一次兩次不算個事兒，那如果要做1000次2000次呢，要是每天連續不停做好幾個小時呢？人類的小胳膊小腿兒，還能扛住嗎？

　　這個時候，就要選擇“自動化流水線”了。

　　自動化流水線的優勢很好理解。它是機器，可以24小時不間斷運行，不知疲倦，而且速度比人類快得多。但劣勢則在于，它是“二維”的——一個人類可以輕松完成的動作，機器想做到往往需要拆分為多個步驟。

　　還是以“整理筷子”為例，一個自動化流水線想完成這個在人類看來非常簡單的動作可能需要如下流程：

　　用振動盤整理散亂的筷子，

　　用計數器點出十根筷子，

　　用夾具抓取10根筷子、同時將圓筒固定好，

　　筷子和圓筒對齊后，把筷子塞進圓筒里，

　　最后用伺服電機配合夾具擰緊蓋子。

　　雖然一個動作拆成好幾個步驟看上去不怎么優雅，但這樣做的效率也可以很高。只是，這種把“簡單的事情變復雜”的行為卻有一個相當大的弊端——自動化流水線是高度定制化的，整理筷子的流水線是沒辦法用在整理盤子上的，想用來生產新產品，很多時候就需要重新設計、建造生產線。

　　你工廠的SKU但凡多一點，牽連的生產線升級費用那就是一大筆錢。

　　而這種弊端，和“柔性制造”“智能制造”的大趨勢完全矛盾。

　　說到底，傳統的自動流水線，它還是“結構化”的——哪怕現在有不少企業生產的“柔性制造”能力很強，本質上也不過就是把好幾套動作、好幾種硬件融合在一起而已。

　　它可能真的學了不少姿勢，

　　但其實身體并不靈活。

　　寫到這里，我們就能知道“人形機器人”的價值了。因為人形，所以它的動作也是三維的、是不需要展開成為多個二維動作的——面對生產不同產品的任務，人形機器人只需要在軟件層面改變動作方式即可，不需要像傳統自動流水線那樣完全另起爐灶。

　　相比起傳統流水線，人形機器人是“非結構化”的。

　　理論上來說，只要算法、硬件足夠強大，人形機器人就能做到和人一樣的靈活——別看它現在沒學幾種姿勢，但它身段足夠靈活，以后總是能學會的。

　　那么，對于制造業企業來說這意味著什么呢？

　　首先就是響應速度可以很快，可以非常快地適應市場需要。

　　其次就是極大程度降低改造和升級的成本。

　　傳統自動流水線的建設流程是相當長的，非標自動化這個行業主打的就是一個卷，你得親身去工廠和工廠老板談，知道人家到底想要的是什么，然后展開設計、建造、調試，后期還有維護和修理在等著你......總之整個周期可以說是相當長，也相當死板。

　　而且傳統自動流水線的設計往往也都是“一次性”的，很多流水線在設計的時候沒有什么模塊化的概念，遇到升級改造就得推翻重來，舊有設計不能重復使用，設計成本和出錯的概率大大增加。

　　最終結果就是：一旦市場有變，需要在產品上加點什么新功能、新部件，那原來設計好的東西很可能就廢了。

　　以杭州某企業為例，2023年底的時候，這家企業曾經開發過一種AI攝像機。本來風平浪靜的，結果正好迎頭趕上了AI行業火爆，市場對AI算力的需求提高，產品的性能需要翻倍。但遺憾的是，這家企業的生產線依舊是傳統的自動流水線，改造時間極為漫長，企業不得不推遲發布時間，被對手搶了先機，原本的市場份額丟了許多。

　　而如果是成熟的人形機器人，這種事情就很好處理——因為三維的人形機器人是沒必要展開那么多二維動作的，改造生產線的必要性也就沒有那么高。

　　甚至，對于人形機器人來說，生產流程改造什么的，很大程度上在軟件層面上就可以解決——幾個程序員就能搞定的事兒，沒必要停機。

　　基于上述種種優勢，我們有理由認為：對于未來的制造業而言，人形機器人是不可缺少的一環。

　　奧迪一汽已經開始讓人形機器人進廠了

　　人形機器人的成本，阻礙了推進

　　雖然人形機器人的前景遠大，可眼前的問題簡單卻又難以跨越：

　　三個字，不賺錢。

　　說“不賺錢”其實有點不全面，現在靠人形機器人賺錢的路子倒也有，只是匹配不了這么高的價值——在當下這個階段，出租機器人，讓這些機器人去參加展覽、演出、當吉祥物，遠比讓他們進工廠打螺絲賺得多——官方定價9.9萬元的宇樹G1機器人，在二手交易平臺的租賃價格最高一度達到每天1.5萬元，目前依舊穩定在8000元左右，并且供不應求。

　　某種程度上，這種“提供情緒價值”的吉祥物表演階段也是機器人發展的必經之路了——1973年日本早稻田大學就已經開發出了全尺寸的人形機器人Wabot-1，本田也在1986年開始研發機器人的雙足結構，后期更是推出了Asimo機器人。日本人雖然起了個大早，但最終也沒有攻克成本問題——Asimo的租金每年高達2000萬日元，提供情緒價值都太貴了，只能讓本田自己放在展會上秀一下肌肉。

　　而后面波士頓動力的阿特拉斯、特斯拉的擎天柱也是一樣，雖然技術上都有不小突破，但連大規模商用的邊都摸不到

　　由此可見，成本降不下來，人形機器人就沒有普及的可能。

　　對于人形機器人來說，其發展規律一定是先進廠打工，再到尋常百姓家里干活兒。原因很簡單，1000萬砸在工廠里很多時候也就是聽個響，甚至不夠建一條產線，但對消費者來說這就是天文數字。而且工業場景比起家里還是簡單、單調太多了，短期內更適合還沒有進化到完全體的人形機器人發揮作用。

　　只不過，以目前的情況來看，今天的機器人哪怕是進廠，成本也過于高昂了些。

　　一家工廠購買機器人，大概率是要求人形機器人的購買、折舊、維護等綜合成本小于雇傭人類工人。但當下人形機器人的價格比起用工成本還是太高了——能上產線的機器人，價格在幾十萬到數百萬，不把這個價格打下來，機器人進廠打工就只能存在于PPT上。

　　人形機器人這么高的成本是怎么來的？

　　制造成本是一方面，但真正阻擋人形機器人進一步發展的，終究還是訓練成本。

　　2013年波士頓動力的阿特拉斯就已經在機械性能上做到了相當高的程度，足以完成許多高難度動作。但在軟件層上，阿特拉斯只能根據預先設定的“行為庫”里的動作進行運動。

　　強如阿特拉斯，也只會那么幾種姿勢而已。

　　阻擋阿特拉斯更進一步的，表面上看是動作的靈活與豐富，本質上其實是數據和算法——人形機器人想要學會和人一樣做事情，數據和算法是相當重要的。我們能看到的是機器人在前臺的表演，看不到的是背后的數據和訓練。

　　隨便一個簡單的動作，哪怕只是撿起一個東西，背后就需要采集上百條高質量的數據。如果想讓機器人在工廠里發揮作用，那數據條數是千億起步。

　　以特斯拉的Optimus（擎天柱）機器人訓練為例——為了訓練它，特斯拉專門聘請了幾十位動作捕捉人員，要求他們每天都要走七個小時，以保證能給機器人喂足夠多的數據。但這其實遠遠不夠，因為如果想讓機器人能在工廠里干活兒，訓練數據的時長在百萬小時，總成本五億美元起步且不保證100%成功。

　　要注意，這還只是機器人廠商自己組織的訓練，某種程度上只能說是“基礎課”。而最終投入實用，不同工廠、不同崗位的行動自然也不同，機器人還得在補修“專業課”。而更進階的“專業課”學費，那就要購買機器人的工廠來自己支付了。

　　不難想象，面對現階段如此高昂的機器人訓練成本，工廠們大概率是不愿意買單的。

　　畢竟，人形機器人的自動控制可比自動駕駛難太多了，不僅需要考慮水平面上的運動軌跡，還需要考慮三維空間里的物體運動。如果只是依靠人類的遙控和動作捕捉，根本就沒辦法提供足夠的數據。

　　谷歌當初在一個廚房的場景里死磕了17個月，最后也就采集了13萬條數據，機器人在這個熟悉的環境里表現得非常優秀，但只要換個環境，立刻就崩盤了——成功率從97%暴跌到了30%。

　　過少的數據，導致現在人形機器人的功能不能“泛化”，不能適應場景的切換。

　　所以，對于當前階段人形機器人的發展來說，最急需解決的就是訓練成本問題——如何找到一種高效的訓練方法，使得人形機器人可以低成本、快速掌握崗位所需的諸多技能。

　　而這，恰好就撞到了各大企業的槍口上。

　　大廠們正在大力投入機器人

　　人形機器人的核心系統，大概可以分成“大腦”“小腦”“肢體”三部分，“大腦”負責的是讓機器人理解指令、規劃行動；“小腦”負責根據規劃控制動作；“肢體”則是各種機械結構來具體執行動作。

　　或者，你也可以把大腦小腦統一歸結為上半身，肢體運動什么的統一歸結為下半身。

　　宇樹、眾擎這些新銳的機器人企業，

　　有一個算一個，其實研究的都是“下半身”。

　　而真正能讓機器人發揮出強大威力的，

　　還得是“上半身”。

　　而不論是“大腦”“小腦”，其實最后歸根結底，都還是要靠AI實現的——這恰恰就是中國科技企業的優勢領域了。

　　實際上，中國的科技企業，從阿里、騰訊到京東、美團，從華為、小米到大疆、比亞迪、塞力斯......有一個算一個，都已經在布局人形機器人了，區別只在于具體以什么樣的形式進行布局。

　　像阿里、百度、騰訊這些大公司，雖然都開始布局這個領域，但基本上沒有自己動手造機器人的身體，而是更愿意掏錢投資相關企業，或者利用自己擅長的數據技術，專門研究機器人的"大腦"——也就是那些復雜的算法和模型。

　　說白了，這些互聯網公司更看重的是機器人的"軟件"部分，而不是"硬件"部分。他們覺得，與其費勁去造機器人的外殼和零件，不如專注于讓機器人變得更聰明、更智能。這些互聯網公司現在就開始布局，為未來做準備。不過，他們的做法更像是"幕后軍師"，而不是"前線戰士"。

　　不過，值得一提的是，當前互聯網巨頭們在人形機器人領域的目光主要還是聚焦于通用的大模型上。現在技術還不能讓機器人像人類一樣直接感知周圍環境并自主做出決策和行動，它們更多是依賴外部設備來獲取信息。

　　國內幾大互聯網公司，比如百度、阿里、騰訊，都推出了自己的多模態大模型，比如百度的“文心”、阿里的“通義”、騰訊的“混元”。這些模型雖然能處理多種類型的數據，但還做不到讓機器人“活”起來，真正與環境互動。

　　不過，國內企業也在努力向“具身智能”方向發展，也就是讓機器人擁有更接近人類的感知和行動能力。

　　以字節為例，字節跳動在機器人領域的探索從2020年就開始了，他們利用自己在互聯網行業積累的數據優勢，開發了各種大模型。2024年，字節還發布了GR-2具身大模型——GR-2具身大模型的亮點在于它像嬰兒一樣學習復雜任務。

　　預訓練階段，它“觀看”了3800萬個互聯網視頻和500億個tokens，涵蓋家庭、戶外等場景，具備多任務學習和環境適應能力。微調階段，通過機器人軌跡優化視頻生成和動作預測，展現出強大的多任務學習能力，在100多個任務中平均成功率高達97.7%。

　　阿里通過“通義千問”大模型成功將AI技術應用于工業機器人，Qwen2系列模型開源后下載量超4000萬，衍生模型達5萬，并達成千萬級商業訂單。阿里積極投資AI大模型企業，覆蓋月之暗面、MiniMax等頭部項目。2024年5月，阿里通過“杭州灝月”增持人形機器人企業逐際動力，成為其第二大股東，強調技術落地與盈利性。

　　小米則不走尋常路，自主研發人形機器人。2022年推出首款全棧仿生機器人Cyber One，標志著小米進軍人形機器人領域。

　　雖未量產，但Cyber One已逐步融入小米自有制造系統。2024年6月，小米機器人公司遷至亦莊工廠，Cyber One開始分階段落地，向特斯拉那樣的工業制造路線靠攏。

　　野心最大的，也許就是騰訊了。

　　別說這些互聯網企業了，車企甚至都開始入局了。

　　2024年，車企紛紛進軍人形機器人領域，廣汽推出Go Mate，小鵬發布Iron，小米有Cyber One，奇瑞有Mornine，比亞迪有“堯舜禹”。就在這兩天，靠著問界火起來的塞力斯也加入了戰局，布局方式包括但不限于投資（如吉利）、自研（小鵬、小米、廣汽）和合作開發（奇瑞）。

　　其實這也很好理解，車企在人形機器人領域具有天然優勢，因其與自動駕駛技術相似，涉及“感知+決策+執行”。AI芯片、電機、傳感器等技術可直接復用，自有工廠則為機器人落地提供了理想場景。跨界角逐已成必然趨勢。

　　就在今天，3月26日，一汽奧迪宣布國產機器人開始進廠打工，vivo也官宣成立機器人實驗室。

　　總而言之就是，人形機器人已經成功勾引到了中國幾乎所有上臺面的大型科技企業。

　　結尾：人形機器人

　　依舊是中美之間的競賽

　　科技的發展，是有規律可循的。

　　這就像是游戲里的科技樹，你必須點亮前置科技，才能點亮后面的科技。

　　人形機器人的前置科技是AI，AI的前置科技是互聯網。

　　日本雖然是最先開始人形機器人探索的國家，但很遺憾，日本的人形機器人從始至終就沒有和智能化沾邊——因為日本人沒有點亮互聯網和AI的科技樹，只能在機電領域死磕。

　　但中美兩國則不同，互聯網、AI都是中美兩國的優勢領域，所以人形機器人最終的競爭，也一定是中美兩國企業之間的對轟。

　　美國那邊有波士頓動力、有特斯拉、有FigureAI，我們這邊有宇樹、智元、眾擎、優必選......實際上，全球150多家機器人企業，超過80家都在國內，剩下的70幾家不用想，基本也在北美了。

　　今年往后的幾個月，中美兩國的人形機器人企業一定都會整出來各種狠活兒，因為融資規模擺在這，各路資本都已經開始投資人形機器人了。

　　在我看來，中國一定會率先在人形機器人上做出實質性的突破——原因無他，因為論起工業數據，論起工業場景，誰又能和世界第一工業國一較高下呢？

　　·····End·····

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.