始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
隨著多模態大語言模型快速發展,其在通用任務中表現出色,但在具身場景長程操作任務上仍存在明顯短板,例如難以拆解復雜指令、識別可操作區域及規劃行動軌跡。對此,智源團隊研發了RoboBrain—專為機器人操作設計的統一具身多模態模型。
RoboBrain基于ShareRobot數據集訓練,該數據集包含102個場景、12種機器人本體等多維度信息。通過多階段訓練策略,RoboBrain實現任務規劃、可操作區域感知和軌跡預測能力融合,將抽象指令轉化為具體動作序列。
在多個具身場景基準測試中,RoboBrain取得領先性能,為機器人執行復雜長程操作任務提供了解決方案,推動通用人工智能在機器人領域的實際應用。目前已上線始智AI-wisemodel開源社區,歡迎體驗。
模型地址
https://wisemodel.cn/models/BAAI/RoboBrain
01.
前言
近年來,多模態大語言模型(MLLMs)的快速發展顯著推動了通用人工智能(AGI)的研究進程。通過利用互聯網上的海量多模態數據并結合自監督學習技術,MLLMs 在視覺感知和理解人類語言指令方面展現出卓越的能力。然而,盡管 MLLMs 在通用任務中表現出色,其在具身場景中的應用仍面臨巨大挑戰,尤其是在長程操作任務(long-horizon manipulation tasks)中。
圖1RoboBrain具備完成長程操作任務的三項核心能力:任務規劃能力、可操作區域感知能力和軌跡預測能力。基于構建的ShareRobot數據和通用多模態數據,RoboBrain經過精心設計的多階段訓練,在多個具身場景基準中取得了最先進的性能,實現了從抽象指令理解到具象動作表達的認知跨越。
在具身場景中,長程操作任務是機器人執行復雜任務的核心能力之一。這類任務通常涉及多個步驟和長時間的交互,例如“在廚房中準備一杯茶”或“在倉庫中完成物品分揀”。這些任務不僅要求機器人能夠理解抽象指令,還需具備將指令轉化為具體動作的能力。具體而言,長程操作任務的成功執行依賴于以下三種核心能力:
任務規劃能力(Planning)
機器人需要將復雜的抽象指令分解為可執行的子任務,例如“提起茶壺并將水倒入杯子”需要分解為“接近茶壺并提起”、“將茶壺移動到壺嘴對準杯子的位置”以及“傾斜茶壺倒水”等步驟。
可操作區域感知能力(Affordance Perception)
機器人必須準確識別對象的可操作區域,例如茶壺的把手或壺嘴,以確保動作的精確性。
軌跡預測能力(Trajectory Prediction)
機器人需要根據任務指令預測從起點到目標位置的完整路徑,例如從當前位置到茶壺把手的移動軌跡。
然而,現有 MLLMs 在這些方面存在顯著不足。例如,面對“提起茶壺并將水倒入杯子”的任務,MLLMs 可能無法準確分解任務步驟,或無法識別茶壺的可抓取區域,甚至無法預測從起點到目標位置的完整路徑。這些局限性主要源于當前缺乏專門為MLLMs和機器人長程操作任務設計的大規模、細粒度數據集。
為了填補這一空白,智源提出了ShareRobot——一個專門為機器人操作任務設計的高質量異構數據集。ShareRobot 標注了多維信息,包括任務規劃、對象可操作區域和末端執行器軌跡,為機器人能力的提升提供了堅實基礎。
基于ShareRobot,開發了RoboBrain,這是一個從抽象指令到具象表達的統一具身多模態大腦模型,旨在增強機器人在長程操作任務中的能力。通過精心設計的數據比例、多階段訓練策略以及長視頻和高分辨率圖像輸入,RoboBrain 實現了從抽象任務指令到具象動作表達的認知跨越,展現了其在機器人實際應用中的潛力。
主要貢獻總結如下:
1、提出了RoboBrain,一個為機器人操作設計的統一具身多模態大腦模型,實現了任務規劃-可操作區域感知-軌跡預測的三維能力融合,通過將抽象指令(如"準備一杯茶")映射為具象動作序列(如抓取、對準、傾倒與相應的可操作區域與軌跡),增強了其在具身長程操作任務中的能力。
2、精心設計了機器人數據與通用多模態數據的訓練數據比例,采用多階段訓練策略,并結合長視頻和高分辨率圖像輸入,使RoboBrain具備了長歷史幀記憶和高分辨率圖像感知能力,進一步增強了其在場景感知和操作規劃中的能力。
3、提出了ShareRobot,一個大規模、高質量、細粒度的異構數據集,包含102個場景、跨12種機器人本體、107種原子任務以及百萬級問答對,標注了包括任務規劃、對象可操作區域和末端執行器軌跡的多維信息,填補了現有數據的不足。
4、綜合實驗結果表明,RoboBrain 在多種具身場景基準測試中實現了最先進的性能,展現了其在機器人實際應用中的潛力。
圖2ShareRobot數據集的生成過程。數據集標注了多維信息,包括任務規劃、對象可操作區域和末端執行器軌跡。任務規劃首先通過原子任務進行標注,然后通過構建問答對進行增強。可操作區域和軌跡根據具體指令在圖像上進行標注。
02.
ShareRobot:具身大腦的數據基石
為了實現具身大腦從抽象任務指令到具象動作表達的轉化能力,智源開發了名為 ShareRobot的一個大規模、高質量、細粒度的異構數據集,專門用于機器人操作任務,旨在提升具身大腦在任務規劃、可操作區域感知和軌跡預測方面的能力。
ShareRobot具備了以下的特點:
大規模。ShareRobot 包含1,028,060 個問答對,是當前最大的開源任務規劃、可操作區域感知和軌跡預測數據集,能夠支持機器人模型從抽象任務指令到具象動作表達的深入理解。
高質量。在從Open-X-Embodiment 數據集中篩選數據時,制定了嚴格的篩選標準,包括高分辨率、準確的描述、任務執行成功狀態、可見的可操作區域以及清晰的運動軌跡。基于這些標準,驗證了51,403 個實例,確保了數據的質量。
細粒度。與Open X-Embodiment 數據集僅提供高層任務描述不同,ShareRobot 中的每個數據點都包含與單幀圖像關聯的詳細低層規劃指令。這種細粒度標注增強了模型在正確時刻精確執行任務的能力。
多樣化。與RoboVQA等數據集有限的場景相比,ShareRobot 包含 102 個場景、12 種機器人形態和 107 種原子任務類型。這種多樣性使MLLMs能夠從多樣化的現實場景中學習,增強其在長程任務規劃中的魯棒性。
易擴展。數據生成流程設計具有高度可擴展性,能夠隨著新機器人形態、任務類型和環境的發展輕松擴展,確保 ShareRobot 數據集能夠支持日益復雜的操作任務。
圖3ShareRobot數據集的多樣性。數據集包括 (a) 23個數據源,(b) 12種跨本體數據和 (c) 107種原子任務類型。
03.
RoboBrain:具身多模態大模型
智源的目標是讓具身多模態大腦模型能夠理解抽象指令,同時具備任務規劃、輸出對象可操作區域和操作軌跡的能力,從而促進模型實現從抽象任務指令到具象動作表達的認知跨越。因此,基于ShareRobot和其他機器人數據,以及大規模的開源多模態數據,采用多階段訓練策略來開發這樣一種具身多模態大模型RoboBrain。
3.1 模型架構
RoboBrain由三個模塊組成:用于任務規劃的基座模型、用于可操作區域感知的A-LoRA模塊和用于軌跡預測的T-LoRA模塊。在推理時,模型首先會感知視覺輸入并根據輸入的指令,分解為一系列可執行的子任務,然后執行可操作區域感知和軌跡預測。RoboBrain的推理流程如圖4所示。
基座模型。利用LLaVA作為RoboBrain的基礎架構,主要包括三個模塊:視覺編碼器(ViT)、投影層(Projector)和大語言模型(LLM),采用SigLIP、MLP和Qwen2.5-7B-Instruct。給定圖像或視頻作為視覺輸入,ViT將其編碼為視覺特征,然后通過Projector映射到LLM的語義空間,生成視覺標記序列。最后,LLM基于人類語言指令和視覺標記序列以自回歸方式生成可執行的子任務序列。
圖4RoboBrain的模型架構。單圖、多圖和視頻結合文本指令輸入到模型中,以訓練基座大腦模型。此外,通過A-LoRA和T-LoRA對RoboBrain進行微調,以賦予RoboBrain可操作區域感知和軌跡預測的能力。在推理時,模型首先會感知視覺輸入并根據輸入的指令,分解為一系列可執行的子任務,然后執行可操作區域感知和軌跡預測。
A-LoRA模塊。智源將可操作區域建模為2D邊界框,表示末端執行器與物體接觸的區域。在基座模型的基礎上添加了針對可操作區域感知的LoRA模塊,以賦予模型基于指令輸出2D邊界框的能力。
T-LoRA模塊。智源將軌跡定義為一系列2D坐標,表示末端執行器或手在整個過程中的運動路徑。在基座模型的基礎上添加了軌跡預測的LoRA模塊,以賦予模型基于指令輸出一系列2D坐標點的能力。
圖5RoboBrain每個訓練階段的詳細配置
3.2 模型訓練
智源將訓練過程分為兩個階段:Phase1和Phase2。Phase1專注于通用多模態能力的訓練,旨在開發一個具備強大多模態數據理解和指令跟隨能力的基礎多模態大語言模型;Phase2則專注于增強具身大腦的三大核心能力,即任務規劃能力(Planning)、可操作區域感知能力(Affordance Perception)和軌跡預測能力(Trajectory Prediction)。
在Phase1中,構建了一個具備通用多模態理解和視覺指令跟隨能力的基礎模型,這為增強模型在Phase2的三個核心能力奠定了基礎。首先,智源利用 LCS-558K 數據集的圖像-文本數據訓練Projector,以對齊視覺特征和語言模型的語義特征。
接著,使用400萬高質量的圖像-文本數據對模型進行整體訓練,以提升其多模態通用知識理解能力。最后,進一步使用320萬單圖像數據和160萬來自 LLaVA-OneVision的數據進行訓練,旨在增強 RoboBrain 的指令跟隨能力,并提升其對高分辨率圖像和視頻的理解能力。
在Phase2中,在Phase1構建的強大基礎模型之上,進一步開發了一個更強大的機器人操作規劃模型。具體來說,希望RoboBrain能夠理解復雜的抽象指令,支持歷史幀信息和高分辨率圖像的感知,并輸出對象可操作區域,同時預測潛在的操作軌跡。
為此,智源收集了130萬條機器人數據,以提升模型的機器人操作規劃能力。這些數據主要來源于 RoboVQA-800K、MMScan-224K、3RScan-43K、ScanQA-25K、SQA3D-26K以及本文提出的ShareRobot-200K子集。這些數據集包含了大量場景掃描圖像數據、長視頻數據和高分辨率數據,能夠提升模型感知多樣化環境的能力。
此外,ShareRobot數據集中細粒度的高質量規劃數據進一步增強了RoboBrain的機器人操作規劃能力。為了緩解災難性遺忘問題,從Phase1中篩選了約170萬條高質量的圖像-文本數據,并與Phase2收集的機器人數據混合進行訓練,從而對模型進行整體微調。
隨后,智源進一步增強了模型根據指令感知對象可操作區域和預測操作軌跡的能力,利用ShareRobot數據集中標注的可操作區域和軌跡數據,通過引入 LoRA 模塊進行訓練,以實現模型感知可操作區域和預測軌跡的能力。
通過這一系列精心設計的訓練策略,RoboBrain在任務規劃、可操作區域感知和軌跡預測方面展現出了強大的能力,為具身大腦的實際應用提供了有力支持。
04.
實驗結果
任務規劃。選取了RoboVQA、OpenEQA以及從ShareRobot數據集中提取的測試集作為任務規劃能力的評估基準,并與當前6個領先的MLLMs進行對比,包括GPT-4V,Claude3,LLaVA1.5,LLaVA-OneVision-7b,Qwen2-VL-7b和RoboMamba。
實驗結果表明,RoboBrain在3個基準中均超越了所有基線模型,尤其在OpenEQA和ShareRobot上表現尤為突出,這得益于RoboBrain在機器人理解任務和長視頻感知中的優秀能力。在RoboVQA中,RoboBrain的BLEU-4分數超過第二名18.75分,展示了其在復雜長程任務規劃中的能力。
可操作區域感知。采用平均精度(AP)指標來評估模型的可操作區域感知性能,該指標綜合了不同閾值設置下的精度-召回曲線。在AGD20K可操作區域感知測試集上,RoboBrain的表現顯著優于其他模型,分別超越Qwen2-VL和LLaVA-NeXT14.6分和17.3分,驗證了其在理解指令和物體物理屬性方面的能力。
軌跡預測。為評估真實軌跡與預測軌跡之間的相似性,采用了離散 Fréchet 距離(DFD)、Hausdorff 距離(HD)和均方根誤差(RMSE)三項指標進行綜合評估。通過對模型不同變體的比較,RoboBrain 在 DFD、HD 和 RMSE 指標上均表現出顯著改進,尤其是最終模型的誤差較基線模型分別下降了 42.9%、94.2% 和 31.6%,進一步驗證了其在軌跡預測任務中的高精度和穩定性。
總體而言,RoboBrain 在任務規劃、可操作區域感知和軌跡預測等多個評估任務中均展現了卓越的性能,充分證明了其在機器人操作規劃中的強大能力。這些實驗結果不僅凸顯了 RoboBrain 的技術優勢,也為其在具身場景中的廣泛應用提供了有力支持,展現了其在未來機器人領域的巨大潛力。
圖6RoboBrain在3個具身任務規劃基準中均超越了所有基線模型,展示了其在復雜長程任務規劃中的能力。
圖7RoboBrain在可操作區域預測上的性能。RoboBrain 的表現顯著優于其他模型,分別超越 Qwen2-VL 和 LLaVA-NeXT 14.6分和17.3分,驗證了其在理解物體物理屬性方面的能力。
圖8RoboBrain在軌跡預測上的性能。最終模型的誤差較基線模型分別下降了 42.9%、94.2% 和 31.6%,進一步驗證了其在軌跡預測任務中的高精度和穩定性。
05.
可視化
圖9展示了RoboBrain在多輪對話中的推理過程。RoboBrain能夠解讀人類指令和視覺圖像,以生成基于實時圖像反饋的行動計劃和評估。此外,它還可以預測每一步的軌跡并感知相應的可操作區域。
圖9RoboBrain在多輪對話中的推理過程。
圖10展示了 RoboBrain 在多個機器人任務中的任務規劃結果,包括“澆灌植物(Water plants)”“將鍋放入抽屜(Put the pot in the drawer)”以及“將相同顏色的積木分類到不同角落(Cluster blocks of the same color into different corners)”三個任務。RoboBrain成功完成了詳細且正確的規劃,不僅為每個任務生成了詳細的規劃步驟,還為每一步提供了相應的解釋和推理依據。
從這些案例中可以看出,RoboBrain 能夠有效利用環境信息和交互對象的狀態——無論是從第一人稱還是第三人稱視角捕捉的圖像——生成針對不同類型機器人操作任務的任務規劃。以“將相同顏色的積木分類到不同角落”任務為例,RoboBrain 不僅在第1步和第2步中分析了桌面上每種顏色積木的數量,還在第3步“將積木移動到指定位置形成集群”中提供了詳細的子步驟規劃。
具體來說,它將四種不同顏色的積木分別規劃到“左上角”“右上角”“左下角”和“右下角”四個目標位置。這一任務規劃案例充分展示了 RoboBrain 在任務泛化能力的卓越表現,同時也驗證了ShareRobot數據集以及多階段訓練策略的有效性。
圖10 RoboBrain在任務規劃中的案例。
圖11展示了 RoboBrain在可操作區域感知方面的可視化結果。每個子圖下方的文字描述了任務指令,而紅色邊界框則代表 RoboBrain 模型預測的可操作區域。結果表明,RoboBrain 能夠基于人類指令和視覺信息,有效地提供合理的可操作區域。
例如,在“用瓶子喝水(drink with the bottle)”的指令下,RoboBrain 能夠判斷瓶蓋處于關閉狀態,從而為瓶蓋區域提供可操作信息。這充分體現了 RoboBrain 在理解抽象指令方面的強大能力。
圖11 RoboBrain在可操作區域感知中的案例
在圖12中,展示了RoboBrain基于起點生成的軌跡預測可視化結果。圖中,紅色到紫色的漸變曲線代表真實軌跡,而綠色到藍色的漸變曲線則表示 RoboBrain 預測的軌跡。
為清晰起見,圖中省略了路徑點。這些案例表明,無論末端執行器的軌跡復雜度如何,RoboBrain 都能基于視覺觀察和任務指令準確預測 2D 軌跡。這些預測與真實軌跡的結構高度一致,且具備可執行性。
此外,RoboBrain的預測通常能夠捕捉軌跡的關鍵特征,從而生成比真實軌跡更平滑、更高效的路徑。這種優化可能源于機器人實際軌跡中存在的固有性質,例如在類似操作場景下可能包含冗余路徑點。
通過從大規模具身數據集中學習,并結合大語言模型的推理能力,RoboBrain 能夠推斷出高效且優化的執行路徑。第三行的可視化結果進一步表明,RoboBrain 避免了過擬合問題,能夠在不同場景中表現出良好的泛化能力,生成既可行又合理的軌跡。
圖12 RoboBrain在軌跡預測中的案例
06.
結論
在本文中,智源針對MLLMs在具身場景中的局限性,特別是長程操作任務的挑戰,提出了ShareRobot——一個高質量、細粒度的異構數據集。ShareRobot 涵蓋了任務規劃、對象可操作區域以及末端執行器軌跡等多維信息的精細標注,為機器人能力的提升提供了堅實基礎。
基于這一數據集,開發了RoboBrain,這是一個能實現從抽象指令理解到具象動作表達的統一具身多模態大腦模型。RoboBrain通過融合通用多模態數據和機器人數據,采用多階段訓練策略,并結合長視頻和高分辨率圖像輸入,顯著增強了機器人在復雜任務中的感知和規劃能力。
RoboBrain 的核心創新在于其實現了任務規劃、可操作區域感知和軌跡預測的三維能力融合。通過將抽象指令(如“準備一杯茶”)映射為具象動作序列(如抓取、對準、傾倒及相應的可操作區域與軌跡),RoboBrain 在具身長程操作規劃任務中展現了卓越的性能。
此外,智源精心設計了機器人數據與通用多模態數據的訓練比例,采用多階段訓練策略,使 RoboBrain 具備了長歷史幀記憶和高分辨率圖像感知能力,進一步提升了其在場景感知和操作規劃中的表現。
大量實驗結果表明,RoboBrain 在多種具身場景基準測試中均實現了最先進的性能,充分驗證了其在機器人實際應用中的潛力。未來,智源將進一步優化 RoboBrain 的各項能力,提升其作為具身大腦模型的泛化性和魯棒性,并將其應用于更廣泛的真實場景中,為機器人技術的發展提供更強有力的支持。
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.