機器之心發布
機器之心編輯部
從春晚舞臺上扭秧歌、轉手絹,到穩健完整跑完半程馬拉松…… 過去半年,一系列炫酷的表演,把人們對機器人的認知從想象拉進了現實。
但當 AI 圈、車圈、互聯網圈大佬們紛紛躋身到具身智能時,每個人都繞不開以下幾個靈魂拷問:具身智能還有哪些技術瓶頸?到底怎么落地?應該先從哪些場景開始落地?要解決用戶哪些真實需求?能夠做到怎樣的量產成本…… 在行業的「iPhone 時刻」真正到來前,沒有人能夠精準給出上述問題的全部答案。
把創新技術轉化為具有商業價值的實際產品,固然需要長期的探索實踐。如何盡可能縮短這條探索路徑的周期、降低成本,反而是現在具身智能賽道玩家更加關注的話題。
去年以來,面向具身智能機器人的計算開發平臺,成為國內外平臺型企業爭相布局的全新賽道。英偉達推出 Jetson Thor,高通、英特爾緊隨其后。在國內,脫胎于地平線的地瓜機器人,去年亮相的 RDK S100 算控一體化開發者套件也在本月正式發布。所有企業的目標只有一個,「征服」每一個機器人開發者和廠商。
在一眾產品當中,RDK S100 的 80 TOPS 算力并不算「拔尖」,但卻已經覆蓋了 20 + 頭部具身智能客戶合作,50 + 合作伙伴正在開展測評,幾乎成為英偉達之外的最佳選擇。「算控一體」的獨創設計、精準的算力卡位,以及完善的本地支持,RDK S100 瞄準的正是具身智能未來三年有望最先實現量產突破的應用場景。
大小腦,當前機器人走向具身智能更可行方案
任何軟件要有與之匹配的最佳硬件,才能發揮出最好的效果。這種軟硬結合的理念已經深入到所有科技產品和解決方案的設計當中。從第一性原理出發,由需求驅動產品設計,面向具身智能的計算平臺需要解答兩個簡單又關鍵的問題:要支持什么樣的模型、要提供多大的算力。模型結構決定了硬件架構,應用場景決定了算力大小。
具身智能的定義很簡單,讓機器人能夠和人一樣感知周圍事物、思考決策方案,再做相應動作。實現這一能力,目前行業存在一體化端到端和分層模型兩條技術路徑。
一體化端到端 / VLA 模型具有通用性強、可自動適應環境變化等優勢,但需要海量數據訓練、消耗大量計算資源。分層決策模型可控性更強、數據要求相對較低,且可解釋性高,但泛化性相對較弱。
「兩者并非選擇題,而是不同階段的不同路徑。」在地瓜機器人開發者生態副總裁胡春旭看來,兩種路徑都會存在。按照智元機器人對具身智能技術演進路線從 G1 至 G5 等級的劃分來看,分層決策大小腦模型解決的是 G2 到 G3 的過程,而端到端則是解決 G4 到 G5 的技術。
無論大小腦還是一腦多用,胡春旭表示地瓜機器人都會通過不同產品平臺來支撐不同技術路徑。明年,地瓜機器人將推出大算力的產品方案,服務基于端到端模型方案的更高階產品開發。而就當下來看,「大小腦,是當前機器人走向具身智能的更可行方案。」
大腦負責「算」,也就是感知決策,小腦負責「控」,即運動控制。如同人腦一樣,緊密協同、分工明確。然而,包括英偉達 Jetson Thor 在內的市面上大部分方案,均采用算控分離方案。大小腦由不同的開發板控制,需要借助外部連線,不僅會導致系統成本上升,大小腦之間的通信延遲,也會限制機器人的性能上限。
圍繞大小腦的構建思路,RDK S100 最大的特點就在于采用了 CPU+BPU+MCU 的超級異構,在行業內率先實現了單 SoC 上的「算控一體」,單個開發套件就能實現具身智能機器人「感知 - 決策 - 執行」的閉環。其中 CPU 和 BPU 對應大腦,MCU 對應小腦。「我們認為這是在具身機器人里實現大小腦的最佳計算平臺。」
CPU 采用 6 核 A78AE 核心,負責邏輯處理和任務調度。
BPU 負責處理各類感知、決策等所有和強 AI 任務。得益于與已經在車端驗證的 Nash 納什架構,RDK S100 的 BPU 天然對 CNN 和 Transformer 架構有更佳的性能效率,同時總體 ONNX 標準算子支持數量達 160+,加速各種視覺 / 點云檢測、LLM、VLM 等模型的性能表現。
MCU 采用 4 核 R52 + 核心,負責運動控制,提供高幀率、低延遲的關節實時控制能力。其中兩個核心采用鎖步方式運行,保證代碼在兩個 MCU 中并行運行、互為冗余,從而提升機器人控制系統的安全性,降低因硬件故障等導致的安全問題發生概率。
「算控一體」的好處還在于 CPU、BPU、MCU 三者之間可以根據任務需求調度。例如在進行運控處理時,CPU 和 BPU 也會參與動態調度,在大腦和小腦功能之間靈活切換,真正做到「超級異構」。
但這樣的架構設計,也帶來了更高的系統復雜度。為了不把 CPU、BPU、MCU 核間的調度難題留給開發者,地瓜機器人還設計了一套共享內存的高效核間通信機制,并包裝成一套 SDK。開發者無需關心某個功能在 MCU 側跑還是在 CPU 側跑,只需要調用 SDK,就能自動完成核間的功能調度,更易用,性能表現也更佳。
回到第二個問題,要提供多大的算力?算力不是越大越好,需要的是與場景匹配的最佳算力。
胡春旭介紹,在定義 RDK S100 之前,地瓜機器人與業內做不同形態機器人的 50 家公司進行深度交流,挖掘共性需求。團隊發現,未來三年之內有望最快實現量產突破的場景不會是人形機器人,更可能是四足、輪足機器人甚至機械臂或物流車。這些產品會有著相對明確的應用場景,經過評估,百 TOPS 左右的算力就能很好滿足,也非常適合大小腦架構的應用。
從這一點來看,RDK S100 以最適合大小腦的架構設計,為近兩三年最可能的落地場景,提供了最匹配的算力規格,精準卡位滿足開發者切實需求。
RDK S100 正在跑通機器人落地全圖景
心理學家弗洛伊德曾提出著名的「冰山理論」—— 顯性部分只是表象,隱性部分才是本質。
冰山理論在自動駕駛和機器人行業都十分適用。開發平臺的硬件本體只是「冰山一角」,背后涉及的算法、數據、系統優化、應用適配等大量系統性工程支持,則是決定產品能否落地的「水下根基」。
地瓜機器人在冰山之下的工作,基本圍繞著開發者的核心訴求展開:以最快的速度,實現最好的性能表現。通過軟硬一體、端云協同全鏈路開發基礎設施,縮短機器人從開發到落地的整個周期。
為了幫助開發者以最快速度部署端側算法,地瓜機器人通過 ModelZoo 算法倉中提供了感知、決策、行動等 110 種以上模型,同時還給出了每個模型的性能指標,快速做出選擇。
針對平臺遷移需求,地瓜機器人配套全新的工具鏈,可快速完成算法量化、模型調優,在 RDK S100 上快速部署。
針對具身智能開發普遍面臨高質量數據匱乏的難題,地瓜機器人一方面以端云一體的數據閉環工具鏈,覆蓋從數據采集、標注,到訓練和部署的整個鏈路;另一方面,更以 Sim2Real 系統化方案,通過仿真的方式,幫助開發者進行各類場景下的數據生成,為解決高質量數據缺失難題提供有效的解決方案。高效的數據閉環可以大幅提高迭代效率,讓機器人快速成長,甚至從第一天一個 3 歲小孩的水平,到第十天變成一個穩重的老司機。
這些全面的基礎設施支持不僅賦能于開發者,地平線與生態伙伴也在深度實踐,目前已基于 RDK S100 跑通了多種場景,構建了多種應用方案示例,并且全部向開源社區開放。
比如,在宇樹 G1 人形機器人上實現各種運動姿態的高效精準控制,而且通過把模型放在 BPU 上推理,占用率僅為 2%;相較純 CPU 推理,CPU 的占用降低了 250%,顯著縮短了響應延遲。
又比如,在宇樹 Go2 四足機器人上復現 CoRL 2022 獲獎論文《Walk These Ways》中的多種仿生步態,讓機器狗可以靈活做出四足騰躍、彈躍行進、對角步態、同側踱步等動作,而且各種地形都能穩健應對。
此外,在 HugggingFace 的 LeRobot 全開源雙臂方案上復現 ACT Policy 端到端具身智能算法,實現零卡頓雙臂自主疊衣。而且包括 3D 打印、各種元器件、RDK S100 機器人開發者套件在內,整套方案成本不超過 5 千元。
這些場景的跑通,印證了 RDK S100 有潛力支持機器人在商業清潔、智能家居、工業制造、物流倉儲、零售服務領域實現規模化的落地應用。
據介紹,目前 20 多家與地瓜機器人合作的頭部具身智能客戶中,有些已經在做量產開發,甚至基本已到達了量產狀態,廣泛覆蓋人形、半人形、四足機器狗以及各種智能化方案商。
如何激發具身智能產業爆發?
隨著「大小腦」分層架構、一體化端到端技術路線在自動駕駛領域相繼得到驗證,具身智能的技術路徑有望進一步收斂。技術范式的統一,也將給計算平臺的設計提出了更明確的思路。
面向具身智能的計算平臺架構在中短期內將呈現雙線并行的發展態勢,以滿足大小腦分層模型架構的「算控一體」中等算力方案,以及面向端到端、VLA 模型的大算力方案。這兩種方案,將共同構成支撐具身智能落地的關鍵基礎設施。
地瓜機器人想要扮演的角色,正如英偉達建立的 CUDA 生態那樣,以通用的軟硬件基礎設施底座來支撐機器人領域中的各種可能。甚至在軟硬件之外,還會提供產業維度的資源支持。比如地心引力計劃,會從硬件層面的優惠,到軟件層面的技術支持,再到整個產業鏈的引薦,以及資本的對接,為國內的機器人開發者提供最友好、最全面的生態資源服務。目前,該計劃已匯聚了超過 200 家初創公司,初具規模。
如此來看,這套策略就像守株待兔,提供足夠肥沃的土地、氧氣,以及外部資源,讓養分足夠多、樹樁足夠多,未來就一定會有越來越多的兔子撞上來。至于哪個兔子先撞到哪個樹樁里,并不是關鍵問題,只要又快又多,或許就能撞出一個「iPhone 時刻」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.