在2025年“六一”兒童節前夕,一段機器狗在超市中自主陪母子逛街、提包攜物并靈活穿梭的視頻引發關注。這段視頻展示了銀河通用最新發布的產品級端到端導航大模型——TrackVLA。該技術具備純視覺環境感知、語言指令驅動及自主推理能力,無需遙控或提前建圖,即可實現機器人在復雜環境中的智能交互與運動。
“海淀區內已經集聚具身智能企業297家、人形機器人整機企業22家,擁有一批國內外知名專家和學者。”記者從中關村科學城管委會獲悉,中關村今年還發布了人形機器人的十大典型落地場景,我國人形機器人產業正從“單點突破”進入“生態共建”的新階段。
機器狗視頻。受訪者提供
記者獲悉,TrackVLA 是銀河通用推出的產品級導航大模型,純視覺環境感知、自然語言指令驅動、端到端輸出語言和機器人動作,是一個由仿真合成動作數據訓練的“視覺-語言-動作”(Vision-Language-Action, VLA)大模型。它讓機器人擁有“聽→看→懂→走”的閉環運動能力。一雙眼睛看世界、一個智能“大腦”做推理,無需提前建圖、無需搖操控制,真正實現語言驅動、泛化感知、自主推理、智能交互與運動。
傳統機器人通常以“指令理解→環境感知→目標識別→路徑規劃”模塊化的形式單獨處理分解的子任務,有的甚至還要對工作環境提前構建地圖,而TrackVLA把這些能力通過一個統一的模型完成。
研發人員介紹,TrackVLA用一個大模型集成了感知能力、推理能力、運動能力和交互能力。可在復雜工作環境中清晰辨明服務對象,提供智能專屬服務,從而實現產品級的交互體驗。TrackVLA讓機器人不再需要提前建圖,而是像人一樣可以在不同環境中自主導航。哪怕是沒見過的商場、電梯、游樂區,它都能像人類一樣依靠模型內嵌的環境理解知識“現學現走”。
“從陪伴兒童到守護老人,從商場巡邏到室內物流,機器人在泛服務場景中的應用路徑已經被銀河通用帶到公眾面前。具身智能真正具備了‘看得懂、想得明白、動得起來’的一體化能力——即由視覺感知(眼)、智能決策(腦)到物理執行(腿)的全鏈路閉環,為具身大模型走向現實世界奠定了通用能力基礎。”銀河通用有關研發人員介紹。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.