網易首頁 > 網易號 > 正文申請入駐

10項評測痛打GPT-4o！智源重磅開源全球最強具身智能大腦

2025-07-14 13:27:00　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 定慧

【新智元導讀】最強具身大腦，寶座易主！在10項評測中，國產RoboBrain 2.0全面超越GPT-4o。這次，智源研究院開源了具身大腦RoboBrain 2.0 32B版本以及跨本體大小腦協同框架RoboOS 2.0單機版。不僅問鼎評測基準SOTA，還成功刷新跨本體多機協作技術范式！

近日，智源研究院發布具身大腦RoboBrain 2.0 32B版本以及跨本體大小腦協同框架RoboOS 2.0單機版。

RoboBrain 2.0，作為集感知、推理與規劃于一體面向真實物理環境的「通用具身大腦」，32B版本憑借時空認知能力的突破，在多項權威具身智能基準上全面刷新紀錄，此前發布的7B版本，具備緊湊高效的模型結構，其輕量化設計完美適配邊緣設備部署需求，能在低資源環境下穩定運行，同時相比主流的開閉源模型性能依舊強勁。

RoboOS 2.0作為全球首個具身智能SaaS開源框架，創新性集成MCP協議與無服務器架構，實現輕量化部署，打通智能大腦與異構本體協同通路。

同步推出單機版產品線及RoboSkill技能商店，通過深度集成實現機器人技能模塊智能匹配與一鍵適配功能，標準化接口有效消除廠商與硬件適配流程差異。

同步推出開箱即用鏡像，支持「三行指令」極速部署，全面賦能開發者高效構建智能機器人系統。

具身大腦與跨本體大小腦協同框架雙擎聯動，將有效推動機器人從「單機智能」邁向「群體智能」，加速具身智能技術從實驗室走向真實場景，形成開放、高效、智能協同的具身智能生態體系。

RoboBrain 2.0突破三大能力瓶頸

當前主流AI模型在應對真實物理環境時，普遍存在三大核心瓶頸：空間理解精度不足、時間依賴建模薄弱、長鏈推理能力欠缺。

RoboBrain 2.0則在這三大關鍵能力上實現全面突破，顯著提升了對復雜具身任務的理解與執行能力。

空間理解：
- 精確點定位和邊界框預測：能夠根據復雜指令在圖像中定位物體或區域。
- 空間關系理解：理解物體之間的相對位置和方向。
- 空間推理：支持基于場景圖的實時構建和更新，進行復雜的三維空間推理。
時間建模：
- 長期規劃：能夠進行多步任務規劃，支持長期目標的實現。
- 閉環交互：支持基于反饋的動態調整，適應動態環境。
- 多智能體協作：能夠協調多個智能體的行為，完成復雜任務。
長鏈推理：
- 鏈式推理：能夠進行多步推理，支持復雜任務的逐步解決。
- 因果邏輯：能夠從復雜指令中提取因果邏輯，并與環境狀態對齊。
- 決策透明性：能夠生成推理過程的詳細解釋，支持決策的透明性和可解釋性。

RoboBrain能力概覽圖

RoboBrain 2.0采用模塊化的編碼器-解碼器架構，為復雜的具身任務實現了感知、推理和規劃的統一。

與專注于通用靜態視覺問答（VQA）的傳統視覺-語言模型（VLMs）不同，RoboBrain 2.0在保持強大通用VQA能力的同時，專門針對具身推理任務，如空間感知、時間建模和長鏈因果推理。

該架構將高分辨率圖像、多視圖輸入、視頻幀、語言指令和場景圖編碼為統一的多模態標記序列，以進行全面處理。

RoboBrain 2.0模型架構圖

RoboBrain 2.0刷新性能基準

RoboBrain 2.0依托全面且多樣化的多模態數據集，融合高分辨率圖像、多視角視頻序列、場景圖、3D場景數據及復雜自然語言指令，全面賦能機器人在具身環境中的感知、推理與行動能力。

該多模態數據集聚焦三大核心領域，為復雜物理場景提供有力支持。

通用多模態理解：整合標準視覺問答、區域級查詢、OCR視覺問答及多輪視覺對話，優化語言表達的多樣性與語義一致性，通過豐富的視覺-語言交互數據，提升模型對復雜任務的理解與響應能力，適應從簡單問答到多輪對話的多樣場景。
空間感知：支持高精度物體定位、邊界框預測及對象功能性識別，覆蓋室內外復雜視覺場景與3D空間推理，助力機器人精準解析物體關系、空間屬性及場景上下文，應對遮擋、多視角變化等挑戰，滿足高精度定位與交互需求。
時間建模：通過多模態數據支持長程任務規劃、閉環反饋機制及多智能體協作，強化模型在動態環境中的任務分解、動作序列預測及實時交互能力，確保在復雜物理場景中實現連續決策、靈活協作與高效任務執行。RoboBrain 2.0以卓越的多模態感知、精細的空間推理及強大的長時規劃能力，賦能機器人在具身環境中進行交互推理、多智能體協作及高效任務規劃，助力復雜物理場景的智能感知與決策。

RoboBrain 2.0訓練數據集

RoboBrain 2.0采用三階段遞進式訓練流程。

第一階段：基礎時空學習（Foundational Spatiotemporal Learning）

在第一階段，RoboBrain 2.0專注于構建其在空間感知和時間理解方面的基礎能力。模型通過大規模多模態數據集進行訓練，這些數據集涵蓋了密集標注的圖文數據、視頻問答以及指代表達理解任務。通過這一階段的訓練，模型能夠處理靜態圖像和視頻流，掌握物體的基本空間關系和運動事件，為后續更復雜的任務奠定了堅實的基礎。

第二階段：具身時空增強（Embodied Spatiotemporal Enhancement）

在第二階段，RoboBrain 2.0通過引入高分辨率多視圖圖像、第一人稱視頻數據以及導航和交互任務，進一步增強其在具身任務中的時空建模能力。模型學習處理長序列的時空信息，支持多智能體協調、長期規劃和動態環境中的適應性決策。這一階段的訓練使模型能夠更好地將歷史視覺信息與當前指令相結合，從而在動態交互環境中實現更連貫的長期規劃和穩健的場景理解。

第三階段：具身情境中的推理鏈訓練（Chain-of-Thought Reasoning in Embodied Contexts）

在第三階段，RoboBrain 2.0通過監督微調和強化微調，進一步提升其在復雜具身任務中的推理能力。模型使用多輪推理示例進行訓練，這些示例涵蓋了長期任務規劃、操作預測、閉環交互、時空理解以及多機器人協作等任務。通過這一階段的訓練，模型能夠生成推理鏈，支持復雜任務的逐步推理和決策，從而在具身情境中實現更高效、更準確的推理和規劃能力。

RoboBrain 2.0采用FlagEvalMM框架，全面驗證空間與時間推理能力。

空間推理：在BLINK（83.95）、CV-Bench（85.75）、Where2Place（73.59）等9項基準測試中，RoboBrain-32B/7B-2.0屢獲SOTA，精準實現物體定位、邊界框預測及空間參照，超越Gemini、GPT-4o等基線。
時間推理：在多機器人規劃（80.33）、Ego-Plan2（57.23）、RoboBench（72.16）中，展現卓越長程規劃、閉環反饋及多智能體協作能力，領跑Qwen2.5-VL、Claude等模型。

RoboBrain 2.0-32B在BLINK-Spatial、RoboSpatial、RefSpatial-Bench、Where2Place、EgoPlan2和Multi-Robot-Plan等空間與時間推理基準上均取得最佳表現

RoboBrain 2.0 7B模型分別以83.95分和85.75分登頂BLINK和CV-Bench基準測試。RoboBrain 2.0 32B模型在RoboSpatial、RefSpatial-Bench以及SAT、Where2Place和ShareRobot-Bench上實現SOTA突破

RoboBrain 2.0 7B模型在Multi-Robot Planning以81.50分拔得頭籌；RoboBrain 2.0 32B以 80.33分緊隨其后；RoboBrain 2.0 32B在Ego-Plan2（57.23分）登頂，大幅領先GPT-4o等基線；RoboBrain 2.0 7B模型則在RoboBench以72.16分奪魁，雙模型憑借優異表現刷新性能上限

RoboBrain 2.0與RoboOS 2.0雙引擎

實現具身群體智能

依托跨本體大小腦協作框架RoboOS 2.0的多本體規劃能力，RoboBrain 2.0已實現多智能體間協作執行任務，支持商超廚房居家等多場景部署。

跨本體具身大小腦協作框架RoboOS 2.0是全球首個基于具身智能SaaS平臺、支持無服務器一站式輕量化機器人本體部署的開源框架。同時，RoboOS 2.0也是全球首個支持MCP的跨本體具身大小腦協作框架，旨在構建具身智能領域的「應用商店」生態。

RoboOS 2.0實現了大腦云端優化推理部署與小腦技能的免適配注冊機制，顯著降低開發門檻，典型場景下，相關代碼量僅為傳統手動注冊方式的1/10。

RoboOS 2.0框架（SaaS+MCP模式）。RoboOS是面向多機器人協作的「大腦-小腦」分層系統，包含三大核心組件：(a)基于云計算的具身大腦模型，負責高級認知與多智能體協同；(b)分布式小腦模塊群，專司機器人專項技能執行；(c)實時共享內存機制，強化環境態勢感知能力

相較于1.0，RoboOS 2.0對端到端推理鏈路進行了系統級優化，整體性能提升達30%，全鏈路平均響應時延低至3ms以下，端云通信效率提升27倍。在功能層面，新增了多本體時空記憶場景圖（Scene Graph）共享機制，支持動態環境下的實時感知與建模；同時引入多粒度任務監控模塊，實現任務閉環反饋，有效提升機器人任務執行的穩定性與成功率。

RoboOS多機協作實現流程包含四個關鍵階段：首先通過分層任務分解將復雜任務逐級拆解，隨后基于網絡拓撲結構進行子任務動態分配，再由分布式智能體集群并行執行各子任務，最后通過實時共享內存機制動態更新環境狀態與任務進度

基于RoboOS 2.0協作框架，可充分發揮RoboBrain 2.0強大的空間理解、時序規劃與閉環推理能力的同時，一鍵下載并部署來自全球開發者創建的相同型號機器人本體的小腦技能，完成大小腦的全鏈路無縫整合。

RoboBrain 2.0可通過像素級空間理解，支持下游小腦模型高精度抓取、搬運、放置等操作，同時，根據實時感知任務執行狀態調整執行計劃，適應動態環境變化，實現閉環反饋機制。

RoboBrain 2.0與RoboOS 2.0全面開源

共建具身智能生態圈

目前，RoboBrain 2.0及RoboOS 2.0已全面開源，模型權重、訓練代碼與評測基準全部可用。

RoboBrain 2.0：

Page：https://superrobobrain.github.io

GitHub：https://github.com/FlagOpen/RoboBrain2.0

ArXiv：https://arxiv.org/abs/2507.02029

Checkpoint-7B：https://huggingface.co/BAAI/RoboBrain2.0-7B

Checkpoint-32B：https://huggingface.co/BAAI/RoboBrain2.0-32B
RoboBrain2.0的FlagRelease多芯片鏡像：

https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS
https://huggingface.co/FlagRelease/RoboBrain2.0-32B-FlagOS

https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS-Ascend

RoboOS 2.0：

Page：https://flagopen.github.io/RoboOS

GitHub：https://github.com/FlagOpen/RoboOS

GitHub單機輕量版：https://github.com/FlagOpen/RoboOS/tree/stand-alone

GitHub技能商店：https://github.com/FlagOpen/RoboSkill

ArXiv：https://arxiv.org/abs/2505.03673

RoboBrain 2.0及RoboOS 2.0一經開源，便在全球社交媒體和技術社區引發廣泛熱議。

目前，智源研究院已與全球20余家機器人企業與頂尖實驗室建立戰略合作關系，誠邀全球開發者、研究者與產業伙伴加入RoboBrain 2.0和RoboOS 2.0的開源社區，共筑開放繁榮的具身智能生態。

參考資料：

https://superrobobrain.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.