網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中科院&字節(jié)Seed BridgeVLA，斬獲CVPR 2025 workshop冠軍！

2025-06-24 10:46:46　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

只需要三條軌跡，就能取得 96.8% 的成功率？視覺(jué)干擾、任務(wù)組合等泛化場(chǎng)景都能輕松拿捏？或許，3D VLA 操作新范式已經(jīng)到來(lái)。

當(dāng)前，接收 2D 圖像進(jìn)行 Next Action Token 預(yù)測(cè)的「2D VLA」模型已經(jīng)展現(xiàn)出了實(shí)現(xiàn)通用機(jī)器人操作的潛力；同時(shí)，接受 3D 信息作為輸入，并以下一時(shí)刻的關(guān)鍵幀作為輸出的「3D 操作策略」已被證明擁有極高的數(shù)據(jù)效率（≈10 條操作軌跡）。

那么，直覺(jué)上來(lái)講，一個(gè)好的「3D VLA」模型應(yīng)該能夠綜合以上的優(yōu)點(diǎn)，兼具 efficient 和 effective 的特點(diǎn)。然而，當(dāng)前 3D VLA 的模型設(shè)計(jì)并未實(shí)現(xiàn)上述期待。

為了解決上述問(wèn)題，中科院自動(dòng)化所譚鐵牛團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng) Seed 推出 BridgeVLA，展示了一種全新的 3D VLA 范式，實(shí)現(xiàn)了模型能力與數(shù)據(jù)效率的同步飛躍，并斬獲了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠軍。目前代碼與數(shù)據(jù)已經(jīng)全面開(kāi)源。

論文標(biāo)題：BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
論文鏈接：https://arxiv.org/abs/2506.07961
項(xiàng)目主頁(yè)：https://bridgevla.github.io/

出發(fā)點(diǎn)：對(duì)齊 VLM 與 VLA

BridgeVLA 的核心理念是將預(yù)訓(xùn)練和微調(diào)的輸入輸出對(duì)齊到統(tǒng)一的 2D 空間，從而「bridge」VLM 和 VLA 之間的 gap。從這個(gè)理念出發(fā)，作者認(rèn)為不應(yīng)該使用傳統(tǒng) 3D VLA 的 3D 位置編碼或 3D 信息注入，而是將 VLA 輸入與 VLM 對(duì)齊，即僅輸入圖片和文字指令。

同時(shí)，作者將模型的輸出方式從 Next token prediction 變更為 Heatmap prediction，通過(guò)這種方式，將輸出從無(wú)空間結(jié)構(gòu)的 token 變成有空間結(jié)構(gòu)的 2D Heatmap，既能充分利用 3D 空間結(jié)構(gòu)先驗(yàn)，又能將模型的輸入輸出進(jìn)一步在 2D 空間中對(duì)齊。

預(yù)訓(xùn)練：賦予 VLM 預(yù)測(cè) 2D Heatmap 的能力

在使用機(jī)器人數(shù)據(jù)進(jìn)行微調(diào)之前，需要先通過(guò)預(yù)訓(xùn)練以賦予 VLM 目標(biāo)檢測(cè)的能力。為此，作者提出了一種新穎的可擴(kuò)展預(yù)訓(xùn)練方法：給模型輸入圖片-目標(biāo)文本對(duì)，并提取模型的輸出中對(duì)應(yīng)圖像的 token，再將這部分圖像 token 進(jìn)行重新排列作為圖像的隱藏狀態(tài)，最后，通過(guò)可學(xué)習(xí)的凸上采樣方法將其還原成與輸入圖片相同大小的 Heatmap。通過(guò)交叉熵?fù)p失監(jiān)督訓(xùn)練模型，使其具有 Heatmap 預(yù)測(cè)的能力。通過(guò)這個(gè) Heapmap 即可獲取被操作的目標(biāo)物體的像素位置。

微調(diào)：賦予模型預(yù)測(cè) Action 的能力

與 RVT、RVT-2 等典型的 3D 操作策略類似，BridgeVLA 通過(guò)預(yù)測(cè)關(guān)鍵點(diǎn)來(lái)得到下一時(shí)刻的動(dòng)作。具體來(lái)說(shuō)，BridgeVLA 采用場(chǎng)景的點(diǎn)云和指令文本作為原始輸入。但為了將微調(diào)過(guò)程的輸入與預(yù)訓(xùn)練的輸入進(jìn)行對(duì)齊，作者將點(diǎn)云從正面、上面、右側(cè)這三個(gè)方向進(jìn)行正交投影，產(chǎn)生 3 張 2D 圖像輸入給模型。模型采用與預(yù)訓(xùn)練相同的方式輸出 Heatmap 后，通過(guò)將 3 個(gè) Heatmap 進(jìn)行反投影，進(jìn)而估計(jì) 3D 空間內(nèi)所有結(jié)構(gòu)化網(wǎng)格點(diǎn)的分?jǐn)?shù)，并選用得分最高的點(diǎn)作為機(jī)械臂末端執(zhí)行器的平移目標(biāo)。對(duì)于旋轉(zhuǎn)、夾持器狀態(tài)以及碰撞檢測(cè)，BridgeVLA 將提取到的全局特征和局部特征進(jìn)行拼接，然后輸入給 MLP 進(jìn)行預(yù)測(cè)。

此外，BridgeVLA 沿用了由粗到細(xì)（Coarse-to-fine）的多級(jí)預(yù)測(cè)方式，通過(guò)對(duì)首次 Heatmap 預(yù)測(cè)的目標(biāo)位置附近的點(diǎn)云進(jìn)行放大和裁剪，并在裁剪后的點(diǎn)云上進(jìn)行第二次前向傳播，從而獲得更加精細(xì)的位置預(yù)測(cè)。

仿真實(shí)驗(yàn)：屠榜三項(xiàng)主流 3D 操作任務(wù)基準(zhǔn)

RLBench：實(shí)驗(yàn)在 18 個(gè)復(fù)雜的 RLBench 任務(wù)上進(jìn)行，包括非抓取操作任務(wù)、抓取放置任務(wù)和高精度插入任務(wù)等。BridgeVLA 在此基準(zhǔn)測(cè)試中顯著優(yōu)于所有現(xiàn)有基線方法，將平均成功率從 81.4% 提高到 88.2%，并在 18 個(gè)任務(wù)中的 10 個(gè)中取得了最佳表現(xiàn)，尤其在需要高精度對(duì)齊的任務(wù)（如「Insert Peg」和「Sort Shape」）中表現(xiàn)突出。

COLOSSEUM：作為 RLBench 的擴(kuò)展，COLOSSEUM 基準(zhǔn)專注于評(píng)估模型在 12 種擾動(dòng)（包括物體紋理、顏色、大小、背景、光照、干擾物和相機(jī)姿態(tài)變化等）下的泛化能力和魯棒性。BridgeVLA 在 COLOSSEUM 基準(zhǔn)測(cè)試中展示了強(qiáng)大的魯棒性，平均成功率從 56.7% 提升到 64.0%，并在 14 種評(píng)估擾動(dòng)中的 13 種中表現(xiàn)最佳。

GemBench：該測(cè)試基準(zhǔn)分為四個(gè)挑戰(zhàn)性遞增的層次（L1-L4），涉及新穎的放置、剛性物體、關(guān)節(jié)物體以及需要組合多個(gè)動(dòng)作才能完成的長(zhǎng)周期任務(wù)。BridgeVLA 在這四個(gè)評(píng)估設(shè)置中取得了最高的平均成功率，尤其在 L2 和 L3 設(shè)置中取得了最先進(jìn)的成果，證明了其強(qiáng)大的泛化能力。然而，與大多數(shù)基線方法類似，BridgeVLA 在 L4（長(zhǎng)周期任務(wù)）設(shè)置中的表現(xiàn)仍然有限。

真實(shí)機(jī)器人實(shí)驗(yàn)：遠(yuǎn)超現(xiàn)有 Baseline

在真實(shí)世界評(píng)測(cè)中，作者設(shè)計(jì)了 13 個(gè)基本任務(wù)，并設(shè)計(jì)了 6 種不同的泛化性能測(cè)試（包括干擾物體、光照、背景、高度、組合和類別）以全面評(píng)估模型性能。如圖所示，BridgeVLA 在七種設(shè)置中的六種中均優(yōu)于最先進(jìn)的基線方法 RVT-2。

在四種視覺(jué)干擾設(shè)置中，BridgeVLA 表現(xiàn)出十分顯著的魯棒性，尤其在干擾物和背景變換的設(shè)置中，其仍然能夠保持超高成功率。此外，作者還發(fā)現(xiàn) 2D 熱圖預(yù)訓(xùn)練對(duì)于模型理解語(yǔ)言語(yǔ)義和泛化到新的對(duì)象-技能組合至關(guān)重要。同時(shí)，即使在經(jīng)過(guò)機(jī)器人動(dòng)作數(shù)據(jù)微調(diào)后，模型仍能很好地對(duì)預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè)，證明預(yù)訓(xùn)練知識(shí)被成功地保留了下來(lái)。

總結(jié)和展望

VLA 新范式：從「Next Token Prediction」到「Heatmap Prediction」，BridgeVLA 為 3D VLA 的設(shè)計(jì)提供了數(shù)據(jù)效率更高、操作效果更好的技術(shù)范式；

擴(kuò)展預(yù)訓(xùn)練任務(wù)：未來(lái)的研究可以嘗試在更多樣化的任務(wù)上進(jìn)行預(yù)訓(xùn)練，例如語(yǔ)義分割和關(guān)鍵點(diǎn)檢測(cè)，以增強(qiáng)模型的通用視覺(jué)理解能力；

提升動(dòng)作解碼能力：研究團(tuán)隊(duì)未來(lái)將考慮整合更具表達(dá)能力的動(dòng)作解碼方法（例如擴(kuò)散模型），以持續(xù)提升策略性能；

改善長(zhǎng)周期任務(wù)表現(xiàn)：針對(duì)復(fù)雜長(zhǎng)周期任務(wù)的挑戰(zhàn)，未來(lái)計(jì)劃探索利用大型語(yǔ)言模型（LLM）進(jìn)行任務(wù)分解，以進(jìn)一步提升模型在此類任務(wù)中的表現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.