網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

全球首個零售VLA大模型來了！還開源OpenWBT讓機器人遙操門檻暴降

2025-06-09 14:14:18　來源: 量子位

北京舉報

分享至

允中發(fā)自凹非寺
量子位 | 公眾號 QbitAI

6月6日-7日，2025 北京智源大會召開。作為全球具身智能領域最具影響力的學術與產(chǎn)業(yè)雙棲盛會，本次大會匯聚了頂尖科研機構、技術領軍企業(yè)和開源社群。

北京大學助理教授、銀河通用機器人創(chuàng)始人及CTO、智源學者王鶴博士受邀出席開幕式圓桌論壇。

銀河通用具身大模型機器人Galbot一同登上主論壇舞臺，面向全球觀眾直播展示最新技術成果。這是Galbot的全球直播首秀，全程無遙操，無需場景數(shù)據(jù)預采集。

此次主論壇直播，零距離展現(xiàn)了銀河通用具身大模型驅動機器人產(chǎn)業(yè)落地的硬實力。

以下是此次發(fā)布的核心成果：

端到端具身大模型GroceryVLA亮相主論壇

開幕式現(xiàn)場，銀河通用機器人Galbot G1登上主論壇舞臺，面向全球觀眾直播展示最新技術成果，零距離展現(xiàn)了銀河通用具身大模型驅動機器人產(chǎn)業(yè)落地的硬實力。

機器人在王鶴博士的語音指令下自主、精確的移動到準確位置并將飲料從貨架取出，全程無遙操、自主推理、并且無事先采集場景數(shù)據(jù)。

此次Galbot G1展示的貨架精準取貨，背后的技術正是銀河通用團隊最新研發(fā)的端到端具身大模型GroceryVLA。

可在現(xiàn)場搭建的1:1還原的真實商超場景中，實現(xiàn)復雜貨架抓取與交付的全流程自主執(zhí)行。

它所展現(xiàn)的，并非一次臨時編排的演示流程，而是一次面向真實商業(yè)場景的能力展示：

從感知到動作、從語言指令到精準操作，全部依靠模型自主完成。其穩(wěn)定、高效的表現(xiàn)，迅速引發(fā)現(xiàn)場學術專家、行業(yè)人士與媒體的圍觀與熱議。

也正因其在真實復雜環(huán)境中的卓越表現(xiàn)，這臺Galbot作為代表獲智源大會主辦方直接邀請，成為本屆大會唯一登上主論壇主舞臺，面向產(chǎn)業(yè)應用的具身大模型系統(tǒng)，在全場矚目下完成全球直播發(fā)布。

在智源大會主展區(qū)，銀河通用展示了兩臺“性格”迥異的具身大模型Galbot“迎賓機器人”和“售貨機器人”，憑借鮮明互動風格與真實應用能力，吸引了大量觀眾駐足圍觀，成為全場最受關注的技術展區(qū)之一。

據(jù)王鶴博士介紹，銀河通用機器人正通過與零售業(yè)態(tài)合作伙伴廣泛合作，年內計劃開設100家店。

作為全球首個面向零售行業(yè)的端到端具身VLA大模型，GroceryVLA標志著銀河通用在具身智能領域的重大技術突破。

以下是GroceryVLA五大核心能力的詳解，揭示其為何能夠穩(wěn)定適配商超復雜環(huán)境、實現(xiàn)高度通用的自主操作。

（一）強適用性

GroceryVLA采用端到端模型架構，突破傳統(tǒng)“視覺+軌跡規(guī)劃”方案，在緊密排布、涵蓋數(shù)十種SKU的真實貨架環(huán)境中，自主識別并完成商品抓取。

無需路徑規(guī)劃，即可在幾乎無空隙的貨架上穩(wěn)定作業(yè)，展現(xiàn)出卓越的操作效率與靈活性，標志著端到端大模型驅動的閉環(huán)控制已具備商用能力。

（二）高度通用性

模型無需針對每種商品包裝單獨調參，支持軟包裝（如袋裝面包、鹵蛋）、硬盒、塑料瓶、透明果凍杯等多樣形態(tài)商品的精準抓取，實現(xiàn)了跨品類的統(tǒng)一抓取策略。

無論是剛性包裝還是柔性物體，都能精準取放，滿足全品類零售場景需求。

（三）跨場景泛化能力

基于大規(guī)模仿真數(shù)據(jù)和多場景訓練，模型可直接泛化至全新環(huán)境。

此次展會為其首次異地實戰(zhàn)部署，面對光照變化、貨物隨機擺放等復雜條件依然表現(xiàn)穩(wěn)定。

主論壇全球直播首秀更實現(xiàn)全程無遙控、無場地預采，全面展現(xiàn)其卓越的零樣本泛化能力。

（四）自主決策能力

面對貨架上多個相似商品，GroceryVLA能夠基于任務需求動態(tài)判斷最優(yōu)抓取目標，區(qū)別于傳統(tǒng)靜態(tài)“指定抓”策略。

系統(tǒng)按照指定順序精準執(zhí)行，展現(xiàn)出高級任務理解與靈活調度能力，確保多樣化操作流程有條不紊。

（五）強抗干擾性

在抓取過程中，模型具備實時閉環(huán)策略調整能力，能夠快速響應現(xiàn)場人為干擾，如貨物被移走、增加或推擠，甚至抓取動作中瓶子被碰倒后重新扶正，保障任務連續(xù)高效完成，展現(xiàn)出真正具備商業(yè)落地價值的魯棒性和實用性。

無論是面對主論壇舞臺高強度燈光和復雜場地條件干擾，還是在展區(qū)人流密集穿梭環(huán)境中，GroceryVLA所驅動的Galbot始終穩(wěn)定完成了從視覺感知、目標識別到自主抓取交付的全流程閉環(huán)操作，全面展現(xiàn)出模型的工程穩(wěn)定性與實際可用性。

這一表現(xiàn)，不僅是銀河通用技術自信的體現(xiàn)，更意味著其具身智能產(chǎn)品已具備真正面向商業(yè)落地的能力。

OpenWBT開源系統(tǒng)正式發(fā)布，推動人形機器人真正“工作起來”

除了推動Galbot在更廣泛的零售場景的穩(wěn)定商業(yè)落地外，銀河通用也在持續(xù)關注人形機器人的技術進展。

在人形機器人領域，穩(wěn)定易用且支持全身動作的遙操作系統(tǒng)長期缺失，成為制約數(shù)據(jù)采集、高質量大模型訓練及商業(yè)應用落地的關鍵瓶頸。

傳統(tǒng)系統(tǒng)部署繁瑣、兼容性差，且多局限于上半身動作，難以覆蓋真實工作場景所需的完整人類工作空間。

基于此，銀河通用聯(lián)合清華大學弋力助理教授團隊正式發(fā)布OpenWBT ——全球首款全開源、多機型、跨虛實人形機器人全身遙操作系統(tǒng)。

OpenWBT創(chuàng)新實現(xiàn)了小時級快速部署，用戶僅憑一副VR眼鏡與一臺普通電腦，便可從零完成系統(tǒng)搭建與調試，迅速解鎖人類級操作自由度。

OpenWBT在技術上的具備三大核心突破詳解如下：

快速部署能力

系統(tǒng)設計注重易用性，初學者僅需一副VR眼鏡和一臺普通電腦，最多僅需數(shù)小時內即可完成系統(tǒng)搭建與調試，顯著降低部署門檻，同時可以輕松適配室內外各種環(huán)境。

多機型兼容性

現(xiàn)已支持Unitree G1、H1兩多款機器人，涵蓋不同自由度與身高規(guī)格，實現(xiàn)對完整人類工作空間的高效覆蓋，滿足多樣化機器人硬件需求。

對虛實遙操的靈活支持

不僅支持對真實物理機器人的實時遙控，還兼容虛擬仿真環(huán)境遙操作，方便大規(guī)模數(shù)據(jù)采集和基于仿真數(shù)據(jù)的泛化訓練，促進模型高效迭代。

在動作控制方面，OpenWBT將機器人運動拆分為“走路、蹲下、彎腰、觸達”等基礎“原子技能”，每項技能均在真實環(huán)境中經(jīng)過穩(wěn)定訓練與驗證。

通過先進的技能融合算法，系統(tǒng)能夠自動組合原子動作，形成連貫復雜的任務序列，實現(xiàn)機器人“碰天觸地”的全身動作協(xié)調能力。

OpenWBT的全面開源發(fā)布，是銀河通用致力于構建開放共享具身智能生態(tài)的重要成果。

作為全球首個標準化、模塊化的人形機器人全身遙操作框架，OpenWBT極大降低了行業(yè)技術門檻，為科研機構和產(chǎn)業(yè)界提供了穩(wěn)定高效的訓練與測試平臺。

該項目推動了開放共享的社區(qū)生態(tài)建設，促進更多研究機構和企業(yè)的協(xié)同參與，加速具身智能技術的積累與迭代，助力人形機器人從實驗室走向實際應用，實現(xiàn)產(chǎn)業(yè)創(chuàng)新與共贏發(fā)展。

展望未來，銀河通用將繼續(xù)秉持技術創(chuàng)新與開放合作并重的發(fā)展理念，引領人形機器人從“實驗室探索”邁向“廣泛應用”，實現(xiàn)機器人真正“工作起來”，深化具身大模型技術與產(chǎn)業(yè)協(xié)作的融合應用，推動更多行業(yè)場景智能化升級，助力構建更加智能、高效、可持續(xù)的未來社會。

同時，銀河通用期待與更多合作伙伴攜手共進，共同譜寫具身智能新時代的輝煌篇章。

立即體驗OpenWBT：

https://github.com/GalaxyGeneralRobotics/OpenWBT

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.