3月10日,智元發布首個通用具身基座模型——智元啟元大模型GO-1。相比目前已有的最優模型,GO-1在五種不同復雜度任務上測試成功率大幅度領先,其中平均成功率提高了32%,并且在 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務表現尤為突出。
智元GO-1在復雜任務中的高成功率源于其Vision-Language-Latent-Action (ViLLA) 架構。據了解,該架構由智元開創性采用,是由VLM(多模態大模型) + MoE(混合專家)兩種組成,其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。
在推理時,VLM、Latent Planner和Action Expert三者協同工作,實現與外部環境的交互和任務智能化判斷。
其實從行業來看,全球具身機器人普遍處在“低齡階段”,機器人只能在實驗室內執行單一任務,并且很多執行動作更多是預設程序,具身機器人只是根據編程命令執行動作,不能與外部環境交互,無法自主執行命令,智能化水平低。
但智元GO-1發布后,具身機器人可在ViLLA 架構的加持下,具備人類視頻學習、小樣本快速泛化、一腦多形、持續進化四大特征,不僅讓大模型更理解人類的行為、大幅度降低訓練成本,而且還能再不同機器人形態中遷移,在實際執行中迭代學習。
智元GO-1帶給具身機器人的新特征,將極大推動具身機器人行業的發展,未來具身機器人將從依賴特定任務的工具,向著具備通用智能的自主體發展,在商業、工業、家庭等多領域發揮更大的作用,通向更加通用全能的智能未來。
作為全球具身機器人行業領先者,智元始終致力于推動具身機器人行業發展。
2024年年底,智元推出了 AgiBot World,包含超過100萬條軌跡、涵蓋217個任務、涉及五大場景的大規模高質量真機數據集,收錄了八十余種日常生活中的多樣化技能,包括抓取、放置、推、拉等基礎操作,以及攪拌、折疊、熨燙等交互動作,為行業解決了全域真機數據獲取難,訓練成本高的難題。
未來已來,機器人服務人類的時代已經不遠,而作為具身機器人行業領先者,智元不斷實現突破,讓科幻電影中的畫面逐步照進現實。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.