全球人形機器人產業正迎來“大腦”技術革命,2025年開年短短三個月內,美國機器人初創公司Figure AI和谷歌DeepMind都先后公布了各自的通用具身智能大模型,同時,中西部首個人形機器人創新中心——成都人形機器人創新中心,也發布了國內首個基于3DSGs的人形機器人規劃推理執行系統Raydiculous—1。
谷歌DeepMind、Figure AI與成都創新中心正以不同技術路徑爭奪產業標準話語權,人形機器人的“腦”力角逐已經拉開帷幕。
谷歌Deep Mind:具身大模型的“通用智能野心”
谷歌DeepMind于2025年3月發布的基于Gemini 2.0的全新機器人AI模型——Gemini Robotics和Gemini Robotics-ER,在機器人泛化能力和空間推理方面表現出色,適配多形態機器人平臺,目標構建類似安卓的通用機器人生態。
Gemini Robotics主要有三個方面的提升:
泛化性:Gemini Robotics是一款基于視覺-語言-動作(VLA)的端到端模型,能夠處理全新的、訓練中從未遇到過的任務。例如,向機器人展示一個小型玩具籃球和籃網,并指示“灌籃”,盡管此前從未接觸過這些物體,但仍然理解了指令并完成了動作。Deep Mind稱其泛化能力比現有模型提高了一倍。
交互性:建立在Gemini 2.0基礎上的Gemini Robotics擁有良好的語言理解能力。例如,用戶通過自然語言指令“將香蕉放入透明容器”進行指示,機器人就能夠識別出目標并完成任務,即使容器移動后也能實時調整路徑。
靈巧性:Gemini Robotics能夠精確操作復雜多步驟任務,如雙臂協作折紙、將零食放入密封袋。
而Gemini Robotics-ER是一款視覺-語言模型(VLM),專注于增強空間推理能力。例如,面對咖啡杯時,它能識別適合抓取的杯把位置,并規劃安全的接近路徑。
Figure AI:端到端融合的“仿人類直覺”
硅谷明星企業Figure AI專注通用人形機器人研發,在終止與OpenAI合作后,2025年2月發布了一款名為Helix的端到端視覺-語言-動作(VLA)通用控制模型,泛化能力、動作精度與實時性都顯著提升,已在寶馬工廠進行小規模試點。主要有以下特點:
雙系統架構:Helix采用“系統1(S1)+系統2(S2)”架構,S2系統通過視覺語言模型解析指令,規劃任務目標。(如“整理工具箱”分解為“定位-分類-收納”),S1系統以毫秒級響應生成動作(如抓取易碎物品)。
跨物體泛化:Figure AI表示,Helix可直接部署在機器人自帶的低性能芯片上,利用預訓練的常識知識遷移實現跨物體泛化,而非依賴物體特征庫,例如通過“沙漠”語義關聯識別仙人掌玩具。
多機器人協作:Helix能夠同時支持兩臺機器人協作,共享神經網絡權重和實時環境感知數據,例如,兩臺機器人默契完成冰箱物品分類,甚至主動調整受力點協同搬運重物。
成都創新中心:人形機器人的“中國方案”
成都人形機器人創新中心是中西部首個人形機器人創新中心,成立之初就將“大腦”技術作為核心攻關方向。憑借“根技術創新”,成立不到一年就形成了眾多國際一流國內頂尖階段性成果。2024年已發布全國首個基于視覺擴散架構任務生成模型(R-DDPRM),國內首個機器人多模態模型(RRMM)+雙臂協作系統(RTACS),國內首個基于擴散架構高速推理模型(R-DDIRM)。
2025年3月,重磅發布了全國首個無需人工干預、無需遙控的自主完成跨空間人形機器人任務規劃推理執行系統Raydiculous—1,能夠完成動態環境下的長周期復雜任務(如從客廳到廚房取物,再到臥室整理),突破單一場景限制。這一成果在歐美團隊采用的對算力強依賴的端到端VLA架構之外驗證了新的基于3DSGs技術路徑,具有“跨場景”“長視野”“輕量型”的特點。
跨場景:相比于前面提到的FigureAI展示其機器人在“單一空間”的任務推理執行系統。成都人形機器人創新中心發布的Raydiculous—1系統通過構建三維場景圖(3DSGs),使機器人能夠理解“廚房”“臥室”等空間邏輯,并實現跨空間(如廚房-走廊-臥室)的連續任務執行。例如,機器人可自主穿越多個房間完成取物、操作等任務。結合VSLAM導航技術,系統能實時感知環境變化(如房門開啟/關閉、物體位置移動),并通過自主學習機制調整路徑規劃。在實測中,機器人成功處理了中途環境突變的情況,驗證了其跨場景魯棒性。
長視野:與在單一空間里面完成任務規劃相比,系統采用長視野(Long Horizon)任務規劃引擎,可在規劃層完成任務的分解,具備自主學習與理解場景和任務、長視野規劃任務的特性。例如,機器人在臥室時,就能夠完成“走到門口→打開門→走到廚房→打開冰箱→取出飲品→關閉冰箱門→返回臥室”的整套動作任務規劃。通過分層任務規劃機制,機器人將復雜任務拆解為導航、感知、執行等子模塊,并協調各模塊完成遠距離的連續動作序列。這種“化整為零”的架構使其在跨空間任務中仍能保持高效性。
輕量型:與谷歌和Figure AI依賴云端大模型的VLA(視覺-語言-動作)框架不同,成都創新中心的方案采用將計算負載分散至視覺建圖、語義理解等專業化模塊,端側推理功耗大幅降低,響應時間毫秒級(無網絡延遲)。通過模塊化設計(如調用VSLAM導航與感知模型),系統避免了千卡集群的算力依賴,中等消費級顯卡即可支持,硬件成本僅為同類方案的1/3,更適用于家庭服務、教育陪伴等消費級場景。
技術路徑對比
總結一下,谷歌DeepMind基于通用大模型(如Gemini),強化了空間推理和泛化能力,適配多硬件平臺,依賴云端算力,目標打造“機器人安卓生態”。Figure AI的Helix模型采用端到端融合的方式,通過雙系統架構(快思考與慢思考協同),專注工業場景的實時響應與高精度操作。而成都創新中心基于3DSGs技術,構建輕量化本地化系統(Raydiculous-1),通過模型小型化降低算力需求,通過網絡結構降低數據依賴,為家庭服務、養老醫療等民生領域提供更優解決方案。
他們的核心差異在于:
算力需求方面,谷歌依賴云端千卡集群,成都本地化部署模型則大幅降低功耗,成本優勢顯著;聯網需求方面:Figure與成都致力于減少云端依賴,谷歌需聯網協作;規劃能力方面,成都方案具有長視野跨空間的規劃能力,能夠完成長周期的復雜任務,有著“更低成本、更高安全、更強適應”的技術優勢。
盡管技術路徑不完全相同,三家團隊在基礎架構層面均采用“規劃-執行”分層策略(即高層任務解析與底層動作控制的協同框架),均致力于提升機器人在日常事務與家務勞動中的能力,通過人工智能與機器人技術的融合,推動機器人完成任務的全智能化與自主化。
▍結語:誰將定義人形機器人的未來?
這場“腦”力角逐的本質,是不同技術路線對同一目標(通用具身智能)的求解,同時也是技術路徑與產業生態的雙重競爭。人形機器人“大腦”技術不僅是算法競賽,更是國家高端制造能力的試金石。成都的實踐證明,通過根技術創新(如無圖導航、擴散任務模型、3DSGs架構),中國完全可能繞開歐美技術霸權,在家庭、養老、醫療、特種作業等領域開辟萬億美元級市場,為全球市場提供高經濟性、高可靠性的新選擇。這場終局之戰的勝者,必將屬于那些以技術自主性為矛、以產業生態為盾的破局者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.