網易首頁 > 網易號 > 正文申請入駐

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機性能提升32%

2025-06-26 13:40:58　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】中科院自動化所提出BridgeVLA模型，通過將3D輸入投影為2D圖像并利用2D熱圖進行動作預測，實現了高效且泛化的3D機器人操作學習。實驗表明，BridgeVLA在仿真和真實場景中均展現出卓越的性能和數據效率，僅需3條軌跡即可在基礎任務中達到96.8%的成功率。

近年來，視覺-語言-動作（VLA）模型在機器人操作任務中大放異彩，成為推動通用機器人操作的重要引擎。

但現有的VLA模型，大多只以2D信息作為輸入，且需要大量的機器人數據進行微調；

反觀以PerAct，RVT-2為代表的3D操作策略，通常僅需要10條軌跡就能夠取得不錯的效果，因此，一個很自然的想法是，是否能將現有的2D VLA升級為3D VLA，使其同時兼具2D VLA的效果以及3D操作策略的效率？

中科院自動化所的研究人員提出的BridgeVLA給出了肯定的回答！

論文鏈接：https://www.arxiv.org/abs/2506.07961

項目主頁：https://bridgevla.github.io/home_page.html

實驗表明，BridgeVLA僅需采集3條軌跡就能在基礎設置中實現96.8%的任務成功率。

在多種泛化性設置中，比如未見過的干擾物、高度、光照、物體種類以及未見過的物體技能組合等，BridgeVLA展現出碾壓式的性能，相較于基線模型取得了32%的性能提升。

在仿真中，BridgeVLA屠榜了主流3D機器人操作基準，在RLBench、COLOSSEUM、GemBench等三個仿真基準中均取得了最先進的性能。

2D VLA的泛化，3D Policy的效率，這下全部打包帶走！

縮小VLM和VLA之間的遷移差距

圖1. BridgeVLA統一輸入與輸出的方案，兼顧泛化性與高效性

近來，OpenVLA、pi0等2D VLA架構在機器人領域取得了廣泛關注，它們借助預訓練多模態大模型強大的表征能力，將自然語言指令、圖像觀測與動作預測串聯在一起，展現出很強的泛化能力。

然而，這類型2D VLA所帶來的代價同樣很大：為了讓模型真正學會每個任務，往往需要上百條專家演示。這其中的數據收集、清洗與標注需要高昂的人力成本，很難在更大規模的工業場景下落地。

與此同時，研究者們發現，如果直接在3D空間中學習動作策略，憑借3D輸入蘊含的顯式空間結構信息，模型只需極少的軌跡就能掌握操作技能，具有很高的數據效率。

因此，理論上來講，將3D信息和VLA相結合是有可能構造出一個高性能且高效率的3D VLA模型的。然而，當前已有的3D VLA模型卻并未實現上述期待。

BridgeVLA的研究團隊發現，這背后有兩個方面的原因：

1）這些方案輸出形式割裂。大多數3D VLA方法把動作輸出建模為 token 序列，這樣的做法割裂了動作輸出與觀測輸入之間的空間對應關系，難以充分利用三維幾何信息。

2）這些方案的輸入和預訓練多模態大模型的輸入分布不匹配。預訓練VLM是以2D 圖像作為輸入的，而這與微調階段的3D 輸入分布差異巨大，導致直接遷移效果不佳。

基于這些觀察，BridgeVLA的研究團隊提出：如果將3D輸入與動作輸出都統一到2D空間，同時將預訓練階段的輸入和輸出也統一到2D空間的話，將可以同時繼承2D VLA的泛化能力與3D操作策略的數據效率。

BridgeVLA是如何設計的？

圖2. BridgeVLA 2D熱度圖預訓練與3D動作微調結構圖

BridgeVLA的訓練流程主要分為兩個階段：首先是2D 熱度圖預訓練，然后是3D動作微調。預訓練階段主要用于提升模型的空間感知能力，使其具備從圖像和語言描述中精準定位目標區域的能力；而微調階段則通過三視角圖像進行動作預測，完成具體的 3D 操作策略學習。

傳統的預訓練多模態大模型在預訓練階段主要通過預測token 序列來完成分類或生成任務，而這樣的token序列并不具備任何的空間結構。

為了使模型具備空間定位能力，BridgeVLA 設計了一種熱度圖預訓練方式，訓練模型根據文本指令預測關于目標對象位置的概率熱度圖，并使用了 RoboPoint 中的目標檢測數據集進行預訓練。

在模型結構上，BridgeVLA使用了由SigLIP視覺編碼器和Gemma Transformer構成的PaliGemma作為VLM主干。

預訓練時，模型的輸入為圖像與其對應的文本描述（如圖中紅色的杯子在哪），然后通過PaliGemma提取特征，最后使用一個可學習的上采樣模塊生成與原圖同分辨率的熱度圖。

整個過程采用交叉熵損失進行監督訓練。這種預訓練策略使VLM獲得了空間感知能力，能夠根據語言描述在圖像中精準定位目標區域，為后續下游3D操作策略學習提供幫助。

在微調階段，模型的目標是根據3D點云和語言指令輸出合理的機器人動作。

具體來說，BridgeVLA首先從頂部、正面和右側三個方向將點云渲染為三幅2D圖像，并將其作為輸入送入經過重新預訓練的 VLM 主干網絡。模型隨后會為每個視角生成一張2D 熱度圖。

為了保持微調與預訓練的一致性，VLM 的輸入中不包含機器人狀態或其他非視覺信息，從而避免輸入分布偏移。通過結合深度圖和相機參數，三個熱度圖可以被反投影，從而得到末端執行器的位置估計。

末端執行器的旋轉姿態和夾爪開閉狀態則通過額外引入的MLP進行預測。

泛化性能與采樣效率的兼得

BridgeVLA在多個主流3D操作榜單上都取得了最先進的性能。在RLBench中成功率達88.2%，相較于基準模型提升了6.8%

而在環境出現顏色、材質、物體大小等12種干擾的COLOSSEUM環境中相較于之前SoTA方法提升了7.3%，在同樣極具挑戰的GemBench環境中，即使面對全新位置、全新物體的考驗，BridgeVLA也取得了最佳的50%的成功率。

這些實驗都證明了BridgeVLA具備很強的泛化能力，充分利用了預訓練多模態模型中蘊含的豐富視覺與語言先驗知識。

圖3. BridgeVLA 在RLBench上的實驗結果

圖4. BridgeVLA 在COLOSSEUM上的實驗結果

圖5. BridgeVLA 在GemBench上的實驗結果

BridgeVLA同時在真機實驗中進行了大規模實驗，BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響，同時也具有一定的組合泛化能力、和全新物體的泛化能力，這都得益于預訓練骨干網絡中蘊含的先驗特征。

同時BridgeVLA也證明了其極高的數據效率，僅僅使用3條軌跡就可以達到96.8%的基礎任務成功率，幾乎與使用10條軌跡訓練的版本持平，結果表明BridgeVLA不僅泛化能力強，而且對數據要求極低，非常適合在真實機器人系統中部署與擴展。

圖6. BridgeVLA 在真機實驗上的實驗結果

BridgeVLA通過統一預訓練的輸入輸出到二維圖像空間，建立起了一個高性能且高數據效率的3D VLA新范式。

可以預見，未來將有更多類似的探索推動 VLA 模型持續演進，邁向新的高度。

參考資料：

https://bridgevla.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

中科院&字節Seed BridgeVLA，斬獲CVPR 2025 workshop冠軍！

機器之心Pro 2025-06-24 10:46:46
0 跟貼 0
多模態AI黑馬刷榜后再造神器：一個產品搞定圖片視頻播客生成

量子位 2025-06-24 21:48:33
0 跟貼 0

宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0

人形機器人折算替代的人力成本回報周期可達一年

財聯社 2025-05-17 21:07:45
0 跟貼 0
國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
1020 跟貼 1020

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

波士頓動力電動Atlas機器人進廠打工！「汽車組裝首秀」，當實驗室的科幻狂想照進現實流水線！

新智元 2025-06-01 01:36:14
527 跟貼 527
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0

具身智能機器人“飛燕”在商湯技術交流日展區與展示實時視覺能力

智東西 2025-04-11 14:27:24
0 跟貼 0
AI秒懂短視頻，快手大模型Keye-VL理解力爆表！技術細節全開源

新智元 2025-06-26 11:51:13
0 跟貼 0
不止會跳舞，還會做家務，掃地、做飯、關窗簾？擎天柱機器人又進化了

新智元 2025-06-01 01:36:14
0 跟貼 0
“沒有機器人出生就會奔跑” 在磕磕絆絆中看見未來的影子

每日經濟新聞 2025-04-19 23:08:42
0 跟貼 0
沒有智能全是人工162億美元估值印度AI獨角獸暴雷

財聯社 2025-05-30 17:15:00
0 跟貼 0
給機器人裝上“離線大腦”+“安卓系統” 谷歌端上“自家最強”VLA模型

財聯社 2025-06-26 15:58:10
0 跟貼 0
面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了

機器之心Pro 2025-06-26 16:02:44
0 跟貼 0
會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0
谷歌首個！機器人有了“離線大腦”，沒網也能干活

機器之心Pro 2025-06-25 19:36:06
0 跟貼 0
人民大學&字節Seed：利用μP實現Diffusion Transformers高效擴展

機器之心Pro 2025-06-26 16:32:21
0 跟貼 0
宇樹科技王興興：人形機器人目前尚未到達大批量應用的時間節點

每日經濟新聞 2025-06-26 17:11:33
0 跟貼 0
手術刀尖的“AI革命”，當機器人與人類共同握住生命的脈搏

每日經濟新聞 2025-04-18 18:13:14
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
最低調的機器人天團，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0
ET-SEED：提升機器人操作泛化能力的

機器之心Pro 2025-03-06 16:15:18
0 跟貼 0
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
0 跟貼 0
王杰高：從投資視角看人形機器人三大潛力方向

財聯社 2025-05-18 21:21:16
0 跟貼 0
北京人形機器人天團來了！

智東西 2025-02-19 16:29:42
0 跟貼 0
頂流機器人天團匯聚無錫，上演十八般武藝

財聯社 2025-04-25 11:58:56
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
何愷明官宣入職谷歌DeepMind！

智東西 2025-06-26 11:18:13
4 跟貼 4
小扎AI復仇進行時！OpenAI蘇黎世辦公室被端，650億儲備金狂燒不止

新智元 2025-06-26 17:58:31
0 跟貼 0
天工不止造物,也能修bug:Skywork-SWE給代碼智能體補上軟件工程課

機器之心Pro 2025-06-20 10:50:40
0 跟貼 0
細節厘米級還原、實時渲染，MTGS方法突破自動駕駛場景重建瓶頸

機器之心Pro 2025-04-02 14:22:12
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
OceanBase全面擁抱AI新進展：OB Cloud支持十億級多類型向量數據

量子位 2025-06-26 13:25:14
0 跟貼 0
剛剛，OpenAI蘇黎世辦公室被Meta一鍋端，三名ViT作者被挖走

機器之心Pro 2025-06-26 14:56:39
0 跟貼 0
WAIC 2025倒計時30天！40+大模型、50+AI終端、60+智能機器人即將重磅登場

財聯社 2025-06-26 17:12:08
0 跟貼 0
家政機器人上線，陌生環境秒懂指令，網友：哪里賣？

機器之心Pro 2025-05-06 18:16:58
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

12956文章數 66078關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

數碼

旅游

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

3D VLA新范式！CVPR冠軍方案BridgeVLA，真機性能提升32%

奧特曼剛警告完 Meta就挖走OpenAI三名大將

特朗普：我批準了伊朗導彈襲擊美軍基地

特朗普：我批準了伊朗導彈襲擊美軍基地

蓄謀已久的開拓者，就是最適合楊瀚森的球隊

倪妮，怎么突然下桌了？

免除蘇寧易購5億債務的神秘人是誰？

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

呼吸科專家破解呼吸道九大謠言！

聯想小天+Win11 AI雙賦能！ThinkPad T14 Gen6重塑智能辦公標準

熱聞|清明假期將至，熱門目的地有哪些?

滿足特朗普要求 北約峰會通過5%軍費目標

智界全系2萬元現金減免豪華智能限時普惠

滿足特朗普要求北約峰會通過5%軍費目標