來自加州大學(xué)河濱分校(UC Riverside)、密歇根大學(xué)(University of Michigan)、威斯康星大學(xué)麥迪遜分校(University of Wisconsin–Madison)、德州農(nóng)工大學(xué)(Texas A&M University)的團(tuán)隊(duì)在 ICCV 2025 發(fā)表首個(gè)面向自動(dòng)駕駛語義占用柵格構(gòu)造或預(yù)測任務(wù)的統(tǒng)一基準(zhǔn)框架 UniOcc。
UniOcc融合真實(shí)世界(nuScenes、Waymo)與仿真環(huán)境(CARLA、OpenCOOD)的多源數(shù)據(jù),統(tǒng)一體素(voxel)格式與語義(semantic)標(biāo)簽,首次引入體素級前后向運(yùn)動(dòng)流標(biāo)注,并支持多車協(xié)同占位預(yù)測與推理。為擺脫偽標(biāo)簽(pseudo-label)評估限制,UniOcc 設(shè)計(jì)了多項(xiàng)免真值(ground-truth-free)指標(biāo),用于衡量物體形狀合理性與時(shí)序一致性。在多個(gè) SOTA 模型上驗(yàn)證了其在運(yùn)動(dòng)流信息利用、跨域泛化和協(xié)同預(yù)測方面的顯著優(yōu)勢。
UniOcc 已全面開源,支持占位預(yù)測、長時(shí)序預(yù)測、動(dòng)態(tài)追蹤等多種任務(wù),致力于構(gòu)建標(biāo)準(zhǔn)化的感知研究平臺,推動(dòng)自動(dòng)駕駛邁向多模態(tài)、泛化能力更強(qiáng)的新階段。
- 論文標(biāo)題:UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving
- 論文鏈接: https://arxiv.org/abs/2503.24381
- 項(xiàng)目主頁: https://uniocc.github.io/
- 代碼開源: https://github.com/tasl-lab/UniOcc
- 數(shù)據(jù)集下載:
- Hugging Face: https://huggingface.co/datasets/tasl-lab/uniocc
- Google Drive: https://drive.google.com/drive/folders/18TSklDPPW1IwXvfTb6DtSNLhVud5-8Pw?usp=sharing
- 百度網(wǎng)盤: https://pan.baidu.com/s/17Pk2ni8BwwU4T2fRmVROeA?pwd=kdfj 提取碼 kdfj
背景與挑戰(zhàn)
占用柵格(3D Occupancy Grid)是自動(dòng)駕駛感知的重要方向,旨在從傳感器數(shù)據(jù)構(gòu)造或預(yù)測(Prediction and Forecasting)三維占用格柵。然而當(dāng)前研究面臨諸多挑戰(zhàn):
偽標(biāo)簽缺陷:主流數(shù)據(jù)集(如 nuScenes、Waymo)缺乏真實(shí)占位標(biāo)注,只能依賴 LiDAR 啟發(fā)式生成的偽標(biāo)簽。這些偽標(biāo)簽通常僅覆蓋可見表面,無法反映真實(shí)物體的完整形狀,導(dǎo)致訓(xùn)練出的模型結(jié)果欠佳,且使用傳統(tǒng) IoU 等指標(biāo)無法發(fā)現(xiàn)此類問題。Figure 3 展示了Occ3D偽標(biāo)簽的缺失形狀與模型預(yù)測的對比。
數(shù)據(jù)割裂:現(xiàn)有方法多局限于單一數(shù)據(jù)源,不同數(shù)據(jù)集間配置、采樣率、格式、注釋不統(tǒng)一,訓(xùn)練和評估都需分別適配。為此迫切需要統(tǒng)一格式和工具鏈來跨數(shù)據(jù)集訓(xùn)練和測試,提高模型泛化能力。
動(dòng)態(tài)信息缺失:當(dāng)前三維占位標(biāo)簽通常不包含物體運(yùn)動(dòng)信息,模型無法利用運(yùn)動(dòng)線索進(jìn)行預(yù)測。與以往單個(gè)物體層面(Object-level)的運(yùn)動(dòng)流(Occupancy Flow)不同,UniOcc 首次在占位數(shù)據(jù)中提供體素級(Voxel-level)的三維運(yùn)動(dòng)流標(biāo)注(對比如下圖),可以捕捉物體的平移和旋轉(zhuǎn)信息,從而增強(qiáng)對動(dòng)態(tài)場景的建模。
協(xié)同駕駛:盡管多車協(xié)同感知是前沿方向,之前缺乏多車協(xié)同占位預(yù)測的數(shù)據(jù)集。UniOcc 基于 OpenCOOD 擴(kuò)展了多車場景,成為首個(gè)支持多車協(xié)同占位預(yù)測的開放基準(zhǔn)。
UniOcc的四項(xiàng)關(guān)鍵創(chuàng)新
多源數(shù)據(jù)統(tǒng)一處理:UniOcc 匯聚了真實(shí)場景(nuScenes、Waymo)和仿真場景(CARLA、OpenCOOD)的數(shù)據(jù),統(tǒng)一格式并提供標(biāo)準(zhǔn)化的數(shù)據(jù)預(yù)處理和加載 Dataloader。這是首個(gè)將多個(gè)占位數(shù)據(jù)源集成在同一個(gè)框架下的工作,使得研究者可以 “開箱即用” 地進(jìn)行跨域訓(xùn)練和評估 (Table 1)。
體素級運(yùn)動(dòng)流標(biāo)注:UniOcc 為每個(gè)三維體素同時(shí)標(biāo)注了前向和反向三維速度向量,全面記錄物體的平移與旋轉(zhuǎn)。這種體素級運(yùn)動(dòng)流標(biāo)注是占位預(yù)測領(lǐng)域首次提出的創(chuàng)新,有助于模型更好地捕捉場景中的動(dòng)態(tài)變化(Figure 2)。
免真值評估指標(biāo):UniOcc 提出了免真值的評估指標(biāo)和工具,避免只依賴偽標(biāo)簽進(jìn)行評價(jià)。通過學(xué)習(xí)真實(shí)物體尺寸分布的高斯混合模型(GMM)等方法,UniOcc 可以在無完美標(biāo)簽的情況下定量評估預(yù)測合理性。在時(shí)間維度上,UniOcc 提供的工具可以對連續(xù)幀中同一物體及背景的 Voxel 分別進(jìn)行提取和對齊,實(shí)現(xiàn)了對于時(shí)序一致性的評估(Figure 4)。
支持協(xié)同預(yù)測能力:通過擴(kuò)展 OpenCOOD 框架,UniOcc 涵蓋了多車協(xié)同感知場景,使得研究者可以探索多車傳感器融合的方法。
實(shí)驗(yàn)驗(yàn)證
引入運(yùn)動(dòng)流信息:將 UniOcc 提供的體素運(yùn)動(dòng)流輸入OccWorld等 3D 占位預(yù)測模型后,預(yù)測性能顯著提升。Table 3 中可見,在 nuScenes 和 Waymo 上加入流信息后,各類別的 mIoU 指標(biāo)均有提高。
多源聯(lián)合訓(xùn)練:利用多源數(shù)據(jù)進(jìn)行訓(xùn)練可增強(qiáng)跨域泛化能力。Table 4 顯示,在 nuScenes 和 CARLA 等多域數(shù)據(jù)上聯(lián)合訓(xùn)練 OccWorld,其在各自測試集上的 mIoU 均優(yōu)于單源訓(xùn)練,詳見 Table 4 中 不同訓(xùn)練源組合下的性能。與此同時(shí)由于從 CARLA 獲得的占用柵格外形接近完美,不存在偽標(biāo)簽中的不完整問題,訓(xùn)練中加入 CARLA 數(shù)據(jù)提高了生成物體的真實(shí)性(Figure 5)。
驗(yàn)證現(xiàn)有 Occupancy 預(yù)測模型的質(zhì)量:在 Table 5 中,作者使用 UniOcc 對 Cam4DOcc 和 CVTOcc 的生成質(zhì)量進(jìn)行了度量并且使用 UniOcc 可以對如 Figure 3 的不完整預(yù)測進(jìn)行歸類分析(Problem Cluster)。
協(xié)同預(yù)測效果:在模擬的多車場景中驗(yàn)證了協(xié)同優(yōu)勢。以CoHFF模型為例,在 OpenCOOD 多車數(shù)據(jù)上進(jìn)行測試時(shí),通過多車信息共享對 Car 類別的 IoU 達(dá)到了 87.22%,驗(yàn)證了協(xié)同感知能夠擴(kuò)展視野、減輕遮擋的潛力。
開源與應(yīng)用價(jià)值
UniOcc 框架設(shè)計(jì)統(tǒng)一,可支持多種占位相關(guān)任務(wù),包括:
- 單幀占位預(yù)測:從當(dāng)前相機(jī) / 激光雷達(dá)數(shù)據(jù)估計(jì)當(dāng)前時(shí)刻的 3D 占位格 (如 CVTOcc);
- 多幀占位預(yù)測:基于歷史信息預(yù)測未來時(shí)刻的三維占位(如 OccWorld);
- 多車協(xié)同預(yù)測:在多車共享感知信息下完成占位預(yù)測,提升覆蓋范圍 (如 CoHFF);
- 動(dòng)態(tài)分割與跟蹤:利用體素級流信息進(jìn)行動(dòng)態(tài)目標(biāo)的分割與跟蹤。UniOcc 還包含體素分割和跟蹤工具,使得研究者可以直接在占位格空間中進(jìn)行目標(biāo)識別和跨幀關(guān)聯(lián)。
總結(jié)與展望
UniOcc 作為首個(gè)自動(dòng)駕駛占位預(yù)測統(tǒng)一基準(zhǔn),將推動(dòng)行業(yè)從依賴偽標(biāo)簽的階段邁向真正的統(tǒng)一評估體系。它提供了跨域的數(shù)據(jù)格式、完整的流注釋、分割跟蹤工具和免真值評估指標(biāo),極大簡化了研究者的開發(fā)和對比工作。未來,隨著多模態(tài)和大型模型在自動(dòng)駕駛中的興起,UniOcc 統(tǒng)一的占位–圖像數(shù)據(jù)為訓(xùn)練和評估多模態(tài) / 語言模型奠定了基礎(chǔ)。期待基于 UniOcc 的數(shù)據(jù)和工具,能夠涌現(xiàn)出更多創(chuàng)新算法,加速語義占位預(yù)測技術(shù)向前發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.