只需要三條軌跡,就能取得 96.8% 的成功率?視覺(jué)干擾、任務(wù)組合等泛化場(chǎng)景都能輕松拿捏?或許,3D VLA 操作新范式已經(jīng)到來(lái)。
當(dāng)前,接收 2D 圖像進(jìn)行 Next Action Token 預(yù)測(cè)的「2D VLA」模型已經(jīng)展現(xiàn)出了實(shí)現(xiàn)通用機(jī)器人操作的潛力;同時(shí),接受 3D 信息作為輸入,并以下一時(shí)刻的關(guān)鍵幀作為輸出的「3D 操作策略」已被證明擁有極高的數(shù)據(jù)效率(≈10 條操作軌跡)。
那么,直覺(jué)上來(lái)講,一個(gè)好的「3D VLA」模型應(yīng)該能夠綜合以上的優(yōu)點(diǎn),兼具 efficient 和 effective 的特點(diǎn)。然而,當(dāng)前 3D VLA 的模型設(shè)計(jì)并未實(shí)現(xiàn)上述期待。
為了解決上述問(wèn)題,中科院自動(dòng)化所譚鐵牛團(tuán)隊(duì)聯(lián)合字節(jié)跳動(dòng) Seed 推出 BridgeVLA,展示了一種全新的 3D VLA 范式,實(shí)現(xiàn)了模型能力與數(shù)據(jù)效率的同步飛躍,并斬獲了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠軍。目前代碼與數(shù)據(jù)已經(jīng)全面開(kāi)源。
- 論文標(biāo)題:BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
- 論文鏈接:https://arxiv.org/abs/2506.07961
- 項(xiàng)目主頁(yè):https://bridgevla.github.io/
出發(fā)點(diǎn):對(duì)齊 VLM 與 VLA
BridgeVLA 的核心理念是將預(yù)訓(xùn)練和微調(diào)的輸入輸出對(duì)齊到統(tǒng)一的 2D 空間,從而「bridge」VLM 和 VLA 之間的 gap。從這個(gè)理念出發(fā),作者認(rèn)為不應(yīng)該使用傳統(tǒng) 3D VLA 的 3D 位置編碼或 3D 信息注入,而是將 VLA 輸入與 VLM 對(duì)齊,即僅輸入圖片和文字指令。
同時(shí),作者將模型的輸出方式從 Next token prediction 變更為 Heatmap prediction,通過(guò)這種方式,將輸出從無(wú)空間結(jié)構(gòu)的 token 變成有空間結(jié)構(gòu)的 2D Heatmap,既能充分利用 3D 空間結(jié)構(gòu)先驗(yàn),又能將模型的輸入輸出進(jìn)一步在 2D 空間中對(duì)齊。
預(yù)訓(xùn)練:賦予 VLM 預(yù)測(cè) 2D Heatmap 的能力
在使用機(jī)器人數(shù)據(jù)進(jìn)行微調(diào)之前,需要先通過(guò)預(yù)訓(xùn)練以賦予 VLM 目標(biāo)檢測(cè)的能力。為此,作者提出了一種新穎的可擴(kuò)展預(yù)訓(xùn)練方法:給模型輸入圖片-目標(biāo)文本對(duì),并提取模型的輸出中對(duì)應(yīng)圖像的 token,再將這部分圖像 token 進(jìn)行重新排列作為圖像的隱藏狀態(tài),最后,通過(guò)可學(xué)習(xí)的凸上采樣方法將其還原成與輸入圖片相同大小的 Heatmap。通過(guò)交叉熵?fù)p失監(jiān)督訓(xùn)練模型,使其具有 Heatmap 預(yù)測(cè)的能力。通過(guò)這個(gè) Heapmap 即可獲取被操作的目標(biāo)物體的像素位置。
微調(diào):賦予模型預(yù)測(cè) Action 的能力
與 RVT、RVT-2 等典型的 3D 操作策略類似,BridgeVLA 通過(guò)預(yù)測(cè)關(guān)鍵點(diǎn)來(lái)得到下一時(shí)刻的動(dòng)作。具體來(lái)說(shuō),BridgeVLA 采用場(chǎng)景的點(diǎn)云和指令文本作為原始輸入。但為了將微調(diào)過(guò)程的輸入與預(yù)訓(xùn)練的輸入進(jìn)行對(duì)齊,作者將點(diǎn)云從正面、上面、右側(cè)這三個(gè)方向進(jìn)行正交投影,產(chǎn)生 3 張 2D 圖像輸入給模型。模型采用與預(yù)訓(xùn)練相同的方式輸出 Heatmap 后,通過(guò)將 3 個(gè) Heatmap 進(jìn)行反投影,進(jìn)而估計(jì) 3D 空間內(nèi)所有結(jié)構(gòu)化網(wǎng)格點(diǎn)的分?jǐn)?shù),并選用得分最高的點(diǎn)作為機(jī)械臂末端執(zhí)行器的平移目標(biāo)。對(duì)于旋轉(zhuǎn)、夾持器狀態(tài)以及碰撞檢測(cè),BridgeVLA 將提取到的全局特征和局部特征進(jìn)行拼接,然后輸入給 MLP 進(jìn)行預(yù)測(cè)。
此外,BridgeVLA 沿用了由粗到細(xì)(Coarse-to-fine)的多級(jí)預(yù)測(cè)方式,通過(guò)對(duì)首次 Heatmap 預(yù)測(cè)的目標(biāo)位置附近的點(diǎn)云進(jìn)行放大和裁剪,并在裁剪后的點(diǎn)云上進(jìn)行第二次前向傳播,從而獲得更加精細(xì)的位置預(yù)測(cè)。
仿真實(shí)驗(yàn):屠榜三項(xiàng)主流 3D 操作任務(wù)基準(zhǔn)
RLBench:實(shí)驗(yàn)在 18 個(gè)復(fù)雜的 RLBench 任務(wù)上進(jìn)行,包括非抓取操作任務(wù)、抓取放置任務(wù)和高精度插入任務(wù)等。BridgeVLA 在此基準(zhǔn)測(cè)試中顯著優(yōu)于所有現(xiàn)有基線方法,將平均成功率從 81.4% 提高到 88.2%,并在 18 個(gè)任務(wù)中的 10 個(gè)中取得了最佳表現(xiàn),尤其在需要高精度對(duì)齊的任務(wù)(如「Insert Peg」和「Sort Shape」)中表現(xiàn)突出。
COLOSSEUM:作為 RLBench 的擴(kuò)展,COLOSSEUM 基準(zhǔn)專注于評(píng)估模型在 12 種擾動(dòng)(包括物體紋理、顏色、大小、背景、光照、干擾物和相機(jī)姿態(tài)變化等)下的泛化能力和魯棒性。BridgeVLA 在 COLOSSEUM 基準(zhǔn)測(cè)試中展示了強(qiáng)大的魯棒性,平均成功率從 56.7% 提升到 64.0%,并在 14 種評(píng)估擾動(dòng)中的 13 種中表現(xiàn)最佳。
GemBench:該測(cè)試基準(zhǔn)分為四個(gè)挑戰(zhàn)性遞增的層次(L1-L4),涉及新穎的放置、剛性物體、關(guān)節(jié)物體以及需要組合多個(gè)動(dòng)作才能完成的長(zhǎng)周期任務(wù)。BridgeVLA 在這四個(gè)評(píng)估設(shè)置中取得了最高的平均成功率,尤其在 L2 和 L3 設(shè)置中取得了最先進(jìn)的成果,證明了其強(qiáng)大的泛化能力。然而,與大多數(shù)基線方法類似,BridgeVLA 在 L4(長(zhǎng)周期任務(wù))設(shè)置中的表現(xiàn)仍然有限。
真實(shí)機(jī)器人實(shí)驗(yàn):遠(yuǎn)超現(xiàn)有 Baseline
在真實(shí)世界評(píng)測(cè)中,作者設(shè)計(jì)了 13 個(gè)基本任務(wù),并設(shè)計(jì)了 6 種不同的泛化性能測(cè)試(包括干擾物體、光照、背景、高度、組合和類別)以全面評(píng)估模型性能。如圖所示,BridgeVLA 在七種設(shè)置中的六種中均優(yōu)于最先進(jìn)的基線方法 RVT-2。
在四種視覺(jué)干擾設(shè)置中,BridgeVLA 表現(xiàn)出十分顯著的魯棒性,尤其在干擾物和背景變換的設(shè)置中,其仍然能夠保持超高成功率。此外,作者還發(fā)現(xiàn) 2D 熱圖預(yù)訓(xùn)練對(duì)于模型理解語(yǔ)言語(yǔ)義和泛化到新的對(duì)象-技能組合至關(guān)重要。同時(shí),即使在經(jīng)過(guò)機(jī)器人動(dòng)作數(shù)據(jù)微調(diào)后,模型仍能很好地對(duì)預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè),證明預(yù)訓(xùn)練知識(shí)被成功地保留了下來(lái)。
總結(jié)和展望
VLA 新范式:從「Next Token Prediction」到「Heatmap Prediction」,BridgeVLA 為 3D VLA 的設(shè)計(jì)提供了數(shù)據(jù)效率更高、操作效果更好的技術(shù)范式;
擴(kuò)展預(yù)訓(xùn)練任務(wù):未來(lái)的研究可以嘗試在更多樣化的任務(wù)上進(jìn)行預(yù)訓(xùn)練,例如語(yǔ)義分割和關(guān)鍵點(diǎn)檢測(cè),以增強(qiáng)模型的通用視覺(jué)理解能力;
提升動(dòng)作解碼能力:研究團(tuán)隊(duì)未來(lái)將考慮整合更具表達(dá)能力的動(dòng)作解碼方法(例如擴(kuò)散模型),以持續(xù)提升策略性能;
改善長(zhǎng)周期任務(wù)表現(xiàn):針對(duì)復(fù)雜長(zhǎng)周期任務(wù)的挑戰(zhàn),未來(lái)計(jì)劃探索利用大型語(yǔ)言模型(LLM)進(jìn)行任務(wù)分解,以進(jìn)一步提升模型在此類任務(wù)中的表現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.