99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

3D VLA新范式!CVPR冠軍方案BridgeVLA,真機性能提升32%

0
分享至


新智元報道

編輯:LRST

【新智元導讀】中科院自動化所提出BridgeVLA模型,通過將3D輸入投影為2D圖像并利用2D熱圖進行動作預測,實現了高效且泛化的3D機器人操作學習。實驗表明,BridgeVLA在仿真和真實場景中均展現出卓越的性能和數據效率,僅需3條軌跡即可在基礎任務中達到96.8%的成功率。

近年來,視覺-語言-動作(VLA)模型在機器人操作任務中大放異彩,成為推動通用機器人操作的重要引擎。

但現有的VLA模型,大多只以2D信息作為輸入,且需要大量的機器人數據進行微調;

反觀以PerAct,RVT-2為代表的3D操作策略,通常僅需要10條軌跡就能夠取得不錯的效果,因此,一個很自然的想法是,是否能將現有的2D VLA升級為3D VLA,使其同時兼具2D VLA的效果以及3D操作策略的效率?

中科院自動化所的研究人員提出的BridgeVLA給出了肯定的回答!


論文鏈接:https://www.arxiv.org/abs/2506.07961

項目主頁:https://bridgevla.github.io/home_page.html

實驗表明,BridgeVLA僅需采集3條軌跡就能在基礎設置中實現96.8%的任務成功率。

在多種泛化性設置中,比如未見過的干擾物、高度、光照、物體種類以及未見過的物體技能組合等,BridgeVLA展現出碾壓式的性能,相較于基線模型取得了32%的性能提升。

在仿真中,BridgeVLA屠榜了主流3D機器人操作基準,在RLBench、COLOSSEUM、GemBench等三個仿真基準中均取得了最先進的性能。

2D VLA的泛化,3D Policy的效率,這下全部打包帶走!

縮小VLM和VLA之間的遷移差距


圖1. BridgeVLA統一輸入與輸出的方案,兼顧泛化性與高效性

近來,OpenVLA、pi0等2D VLA架構在機器人領域取得了廣泛關注,它們借助預訓練多模態大模型強大的表征能力,將自然語言指令、圖像觀測與動作預測串聯在一起,展現出很強的泛化能力。

然而,這類型2D VLA所帶來的代價同樣很大:為了讓模型真正學會每個任務,往往需要上百條專家演示。這其中的數據收集、清洗與標注需要高昂的人力成本,很難在更大規模的工業場景下落地。

與此同時,研究者們發現,如果直接在3D空間中學習動作策略,憑借3D輸入蘊含的顯式空間結構信息,模型只需極少的軌跡就能掌握操作技能,具有很高的數據效率。

因此,理論上來講,將3D信息和VLA相結合是有可能構造出一個高性能且高效率的3D VLA模型的。然而,當前已有的3D VLA模型卻并未實現上述期待。

BridgeVLA的研究團隊發現,這背后有兩個方面的原因:

1)這些方案輸出形式割裂。大多數3D VLA方法把動作輸出建模為 token 序列,這樣的做法割裂了動作輸出與觀測輸入之間的空間對應關系,難以充分利用三維幾何信息。

2)這些方案的輸入和預訓練多模態大模型的輸入分布不匹配。預訓練VLM是以2D 圖像作為輸入的,而這與微調階段的3D 輸入分布差異巨大,導致直接遷移效果不佳。

基于這些觀察,BridgeVLA的研究團隊提出:如果將3D輸入與動作輸出都統一到2D空間,同時將預訓練階段的輸入和輸出也統一到2D空間的話,將可以同時繼承2D VLA的泛化能力與3D操作策略的數據效率。

BridgeVLA是如何設計的?


圖2. BridgeVLA 2D熱度圖預訓練與3D動作微調結構圖

BridgeVLA的訓練流程主要分為兩個階段:首先是2D 熱度圖預訓練,然后是3D動作微調。預訓練階段主要用于提升模型的空間感知能力,使其具備從圖像和語言描述中精準定位目標區域的能力;而微調階段則通過三視角圖像進行動作預測,完成具體的 3D 操作策略學習。

傳統的預訓練多模態大模型在預訓練階段主要通過預測token 序列來完成分類或生成任務,而這樣的token序列并不具備任何的空間結構。

為了使模型具備空間定位能力,BridgeVLA 設計了一種熱度圖預訓練方式,訓練模型根據文本指令預測關于目標對象位置的概率熱度圖,并使用了 RoboPoint 中的目標檢測數據集進行預訓練。

在模型結構上,BridgeVLA使用了由SigLIP視覺編碼器和Gemma Transformer構成的PaliGemma作為VLM主干。

預訓練時,模型的輸入為圖像與其對應的文本描述(如圖中紅色的杯子在哪),然后通過PaliGemma提取特征,最后使用一個可學習的上采樣模塊生成與原圖同分辨率的熱度圖。

整個過程采用交叉熵損失進行監督訓練。這種預訓練策略使VLM獲得了空間感知能力,能夠根據語言描述在圖像中精準定位目標區域,為后續下游3D操作策略學習提供幫助。

在微調階段,模型的目標是根據3D點云和語言指令輸出合理的機器人動作。

具體來說,BridgeVLA首先從頂部、正面和右側三個方向將點云渲染為三幅2D圖像,并將其作為輸入送入經過重新預訓練的 VLM 主干網絡。模型隨后會為每個視角生成一張2D 熱度圖。

為了保持微調與預訓練的一致性,VLM 的輸入中不包含機器人狀態或其他非視覺信息,從而避免輸入分布偏移。通過結合深度圖和相機參數,三個熱度圖可以被反投影,從而得到末端執行器的位置估計。

末端執行器的旋轉姿態和夾爪開閉狀態則通過額外引入的MLP進行預測。

泛化性能與采樣效率的兼得

BridgeVLA在多個主流3D操作榜單上都取得了最先進的性能。在RLBench中成功率達88.2%,相較于基準模型提升了6.8%

而在環境出現顏色、材質、物體大小等12種干擾的COLOSSEUM環境中相較于之前SoTA方法提升了7.3%,在同樣極具挑戰的GemBench環境中,即使面對全新位置、全新物體的考驗,BridgeVLA也取得了最佳的50%的成功率。

這些實驗都證明了BridgeVLA具備很強的泛化能力,充分利用了預訓練多模態模型中蘊含的豐富視覺與語言先驗知識。


圖3. BridgeVLA 在RLBench上的實驗結果


圖4. BridgeVLA 在COLOSSEUM上的實驗結果


圖5. BridgeVLA 在GemBench上的實驗結果

BridgeVLA同時在真機實驗中進行了大規模實驗,BridgeVLA可以很好的克服干擾物、不同高度、不同光照條件、不同背景的影響,同時也具有一定的組合泛化能力、和全新物體的泛化能力,這都得益于預訓練骨干網絡中蘊含的先驗特征。

同時BridgeVLA也證明了其極高的數據效率,僅僅使用3條軌跡就可以達到96.8%的基礎任務成功率,幾乎與使用10條軌跡訓練的版本持平,結果表明BridgeVLA不僅泛化能力強,而且對數據要求極低,非常適合在真實機器人系統中部署與擴展。


圖6. BridgeVLA 在真機實驗上的實驗結果

BridgeVLA通過統一預訓練的輸入輸出到二維圖像空間,建立起了一個高性能且高數據效率的3D VLA新范式。

可以預見,未來將有更多類似的探索推動 VLA 模型持續演進,邁向新的高度。

參考資料:

https://bridgevla.github.io/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
火箭還能再造奇跡?杜蘭特剛加盟,籃網成提款機!

火箭還能再造奇跡?杜蘭特剛加盟,籃網成提款機!

最美不過相遇
2025-06-25 14:09:22
醫生忠告:若是確診了糖尿病,這5物馬上停止食用,不要害了自己

醫生忠告:若是確診了糖尿病,這5物馬上停止食用,不要害了自己

王曉愛體彩
2025-06-25 12:39:30
特朗普稱應赦免內塔尼亞胡

特朗普稱應赦免內塔尼亞胡

財聯社
2025-06-26 07:46:27
43歲王寶強也沒想到,15歲兒子和14歲女兒,已經開始為他爭光了

43歲王寶強也沒想到,15歲兒子和14歲女兒,已經開始為他爭光了

橘子大娛社
2025-06-23 20:25:03
以色列內部大亂!議員公開喊話特朗普:快來叫停這場屠殺!

以色列內部大亂!議員公開喊話特朗普:快來叫停這場屠殺!

起喜電影
2025-06-26 17:31:51
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
普京將通過視頻形式出席金磚峰會

普京將通過視頻形式出席金磚峰會

觀察者網
2025-06-26 12:10:05
扁擔女孩劉燕高考成績引發熱議,網友紛紛關注!

扁擔女孩劉燕高考成績引發熱議,網友紛紛關注!

再遇歷史
2025-06-26 11:43:52
臺軍要求金門、馬祖、東沙島部隊必須“獨立作戰”“自生自滅”

臺軍要求金門、馬祖、東沙島部隊必須“獨立作戰”“自生自滅”

大道無形我有型
2025-06-25 19:24:36
滅了三大文明古國的雅利安人,前來華夏挑釁,被商朝扔進了殉葬坑

滅了三大文明古國的雅利安人,前來華夏挑釁,被商朝扔進了殉葬坑

文史道
2024-05-27 06:45:02
成績公布后第一個倒霉蛋出現了!考了701分,因一個決定錯過清北

成績公布后第一個倒霉蛋出現了!考了701分,因一個決定錯過清北

新語愛八卦
2025-06-26 17:20:06
從歐洲糧倉到戰爭廢墟:63%烏克蘭人開始懷念亞努科維奇

從歐洲糧倉到戰爭廢墟:63%烏克蘭人開始懷念亞努科維奇

任紀煙
2025-06-09 19:39:20
西媒:德保羅讓馬競頭疼,俱樂部欲將其出售,他卻鐵心要留隊

西媒:德保羅讓馬競頭疼,俱樂部欲將其出售,他卻鐵心要留隊

雷速體育
2025-06-26 11:44:18
說法︱是“煙”還是“毒”?警惕這種新型毒品

說法︱是“煙”還是“毒”?警惕這種新型毒品

人民網
2025-06-26 12:11:58
又一金融巨頭爆雷!比恒大還多1.14萬億,而他竟變成“老賴”

又一金融巨頭爆雷!比恒大還多1.14萬億,而他竟變成“老賴”

星辰夜語
2025-06-20 15:40:08
選秀專家:艾頓的交易肯定要來了,開拓者是我最沒想到會選楊瀚森的球隊

選秀專家:艾頓的交易肯定要來了,開拓者是我最沒想到會選楊瀚森的球隊

雷速體育
2025-06-26 10:36:22
雙胞胎姐妹同天嫁給雙胞胎兄弟,又同天生下二胎男寶

雙胞胎姐妹同天嫁給雙胞胎兄弟,又同天生下二胎男寶

現代快報
2025-06-26 15:49:22
費城探花簽選埃奇庫姆!前5升前3多賺近千萬 大帝獲防守尖兵輔佐

費城探花簽選埃奇庫姆!前5升前3多賺近千萬 大帝獲防守尖兵輔佐

顏小白的籃球夢
2025-06-26 08:30:39
伊萬卡一家現身貝佐斯婚禮!盛裝打扮氣質一絕!全家顏值都很高

伊萬卡一家現身貝佐斯婚禮!盛裝打扮氣質一絕!全家顏值都很高

巧百搭
2025-06-26 16:10:24
2025-06-26 18:47:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12956文章數 66078關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

特朗普:我批準了伊朗導彈襲擊美軍基地

頭條要聞

特朗普:我批準了伊朗導彈襲擊美軍基地

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

健康
數碼
旅游
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

數碼要聞

聯想小天+Win11 AI雙賦能!ThinkPad T14 Gen6重塑智能辦公標準

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

滿足特朗普要求 北約峰會通過5%軍費目標

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 贵德县| 团风县| 河西区| 沅陵县| 武乡县| 安西县| 休宁县| 遵义县| 斗六市| 乐东| 涞水县| 鄱阳县| 盐边县| 宁强县| 阳东县| 光山县| 仁布县| 静宁县| 加查县| 新乐市| 西和县| 澄江县| 巫山县| 会理县| 隆安县| 肥东县| 汪清县| 阿克苏市| 新干县| 庆安县| 乌拉特中旗| 玛多县| 含山县| 灵璧县| 岳池县| 伊川县| 黑龙江省| 临沧市| 凭祥市| 灵石县| 淮安市|