全球AI領導者英偉達在“GTC 2025”開發者大會上宣布,開源人形機器人通用大模型GR00T N1。
該模型能夠處理多模態數據,包括語言、圖像、視頻,可在家務、工廠等多樣化環境中執行復雜操作任務。
值得一提的是,GR00T N1的核心架構采用了模擬人類思維的“快慢思考”模式,可以讓機器人的做法、思維更像人類,從而提升動作指令準確率。
開源地址:https://huggingface.co/nvidia/GR00T-N1-2B
GR00T N1的核架構的設計靈感來源于人類的快慢思維處理方式,使用了擴散變換器模塊(System 1)和視覺-語言模塊(System 2),能將復雜的任務分解為兩大塊實現高效處理。
視覺-語言模塊是 GR00T N1 的“大腦”,負責處理和理解輸入的圖像與語言指令。這是一個在互聯網規模數據上預訓練的模型,具備強大的視覺和語言處理能力。
當機器人接收到任務指令時,例如“拿起紅色蘋果并將其放入籃子”,視覺-語言模塊會首先對輸入的圖像進行編碼,將場景中的物體、背景等視覺信息轉化為一系列的圖像tokens。
還會對語言指令進行處理,將指令中的關鍵詞、語義結構等轉化為文本標記(text tokens)。這些圖像和文本標記隨后被送入Eagle-2 VLM 的中間層進行聯合編碼,生成包含任務語義和視覺上下文信息的特征表示。
這些特征表示不僅包含了對任務目標的理解,還融合了對環境的感知,為后續的動作生成提供了豐富的語義信息。
擴散變換器模塊(System 1)則相當于 GR00T N1 的“四肢”,負責根據視覺-語言模塊提供的信息生成具體的動作指令。它基于擴散變換器(DiT)架構,通過動作流匹配技術進行訓練。該模塊接收來自視覺-語言模塊的特征表示,以及機器人自身的狀態信息(如關節位置、末端執行器姿態等),并將其與動作標記(action tokens)結合。
在訓練過程中,模型會學習如何從帶有噪聲的動作標記中逐步去除噪聲,最終生成符合任務要求的動作序列。這一過程類似于人類在執行任務時的快速反應機制,能夠根據當前的感知信息和任務目標,迅速做出相應的動作調整。
擴散變換器模塊在生成動作時,會考慮機器人的物理特性,如關節的運動范圍、末端執行器的抓取能力等,確保生成的動作在物理上是可行的,并且能夠高效地完成任務。
在實際運行中,這兩個模塊緊密協作。視覺-語言模塊通過深度理解任務指令和環境信息,為擴散變換器模塊提供清晰的任務目標和環境上下文;擴散變換器模塊則根據這些信息,快速生成精確的動作指令,驅動機器人完成各種高難度任務。
訓練數據方面,GR00T N1采用了新穎的“數據金字塔”結構,能將不同來源的數據按照規模和實體特異性進行分層,能充分利用大規模數據的泛化能力,同時確保模型在真實機器人執行任務時的準確性和適應性。
在數據金字塔的底層,是大規模的網絡數據和人類視頻數據。這些數據提供了廣泛的視覺和行為先驗知識,幫助模型學習人類的自然動作模式和任務語義。例如,Ego4D 數據集包含了大量日?;顒拥牡谝蝗朔Q視角視頻,涵蓋了各種人類與物體的交互場景。
這些視頻數據雖然沒有直接的動作標簽,但通過其中的視覺信息和語言描述,模型可以學習到豐富的任務語義和自然的動作模式。
中間層是通過物理仿真和神經生成模型產生的合成數據。這些數據的生成方式多樣,能夠顯著增加訓練數據的多樣性和規模。而DexMimicGen是一個重要的合成數據生成工具,可以從少量人類演示中自動生成大規模的機器人操作軌跡。通過將人類演示分解為對象中心的片段,然后對這些片段進行轉換和組合,DexMimicGen 能夠生成新的演示數據,從而為模型提供豐富的訓練樣本。
數據金字塔的頂層則是真實機器人硬件收集的數據。雖然這些數據的規模相對較小,但它們提供了模型在實際執行任務時的關鍵反饋。真實機器人數據的收集通常需要大量的時間和人力,但它們對于模型的訓練至關重要。這些數據確保了模型能夠適應真實機器人的物理特性和執行環境,從而在實際應用中表現出色。
例如,GR00T N1 的研發團隊收集了大量 Fourier GR-1 人形機器人的操作數據,這些數據涵蓋了各種桌面操作任務,為模型提供了豐富的實際操作樣本。
本文素材來源英偉達,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.