來自加州大學河濱分校(UC Riverside)、密歇根大學(University of Michigan)、威斯康星大學麥迪遜分校(University of Wisconsin–Madison)、德州農工大學(Texas A&M University)的團隊在 ICCV 2025 發表首個面向自動駕駛語義占用柵格構造或預測任務的統一基準框架 UniOcc。
UniOcc融合真實世界(nuScenes、Waymo)與仿真環境(CARLA、OpenCOOD)的多源數據,統一體素(voxel)格式與語義(semantic)標簽,首次引入體素級前后向運動流標注,并支持多車協同占位預測與推理。為擺脫偽標簽(pseudo-label)評估限制,UniOcc 設計了多項免真值(ground-truth-free)指標,用于衡量物體形狀合理性與時序一致性。在多個 SOTA 模型上驗證了其在運動流信息利用、跨域泛化和協同預測方面的顯著優勢。
UniOcc 已全面開源,支持占位預測、長時序預測、動態追蹤等多種任務,致力于構建標準化的感知研究平臺,推動自動駕駛邁向多模態、泛化能力更強的新階段。
- 論文標題:UniOcc: A Unified Benchmark for Occupancy Forecasting and Prediction in Autonomous Driving
- 論文鏈接: https://arxiv.org/abs/2503.24381
- 項目主頁: https://uniocc.github.io/
- 代碼開源: https://github.com/tasl-lab/UniOcc
- 數據集下載:
- Hugging Face: https://huggingface.co/datasets/tasl-lab/uniocc
- Google Drive: https://drive.google.com/drive/folders/18TSklDPPW1IwXvfTb6DtSNLhVud5-8Pw?usp=sharing
- 百度網盤: https://pan.baidu.com/s/17Pk2ni8BwwU4T2fRmVROeA?pwd=kdfj 提取碼 kdfj
背景與挑戰
占用柵格(3D Occupancy Grid)是自動駕駛感知的重要方向,旨在從傳感器數據構造或預測(Prediction and Forecasting)三維占用格柵。然而當前研究面臨諸多挑戰:
偽標簽缺陷:主流數據集(如 nuScenes、Waymo)缺乏真實占位標注,只能依賴 LiDAR 啟發式生成的偽標簽。這些偽標簽通常僅覆蓋可見表面,無法反映真實物體的完整形狀,導致訓練出的模型結果欠佳,且使用傳統 IoU 等指標無法發現此類問題。Figure 3 展示了Occ3D偽標簽的缺失形狀與模型預測的對比。
數據割裂:現有方法多局限于單一數據源,不同數據集間配置、采樣率、格式、注釋不統一,訓練和評估都需分別適配。為此迫切需要統一格式和工具鏈來跨數據集訓練和測試,提高模型泛化能力。
動態信息缺失:當前三維占位標簽通常不包含物體運動信息,模型無法利用運動線索進行預測。與以往單個物體層面(Object-level)的運動流(Occupancy Flow)不同,UniOcc 首次在占位數據中提供體素級(Voxel-level)的三維運動流標注(對比如下圖),可以捕捉物體的平移和旋轉信息,從而增強對動態場景的建模。
協同駕駛:盡管多車協同感知是前沿方向,之前缺乏多車協同占位預測的數據集。UniOcc 基于 OpenCOOD 擴展了多車場景,成為首個支持多車協同占位預測的開放基準。
UniOcc的四項關鍵創新
多源數據統一處理:UniOcc 匯聚了真實場景(nuScenes、Waymo)和仿真場景(CARLA、OpenCOOD)的數據,統一格式并提供標準化的數據預處理和加載 Dataloader。這是首個將多個占位數據源集成在同一個框架下的工作,使得研究者可以 “開箱即用” 地進行跨域訓練和評估 (Table 1)。
體素級運動流標注:UniOcc 為每個三維體素同時標注了前向和反向三維速度向量,全面記錄物體的平移與旋轉。這種體素級運動流標注是占位預測領域首次提出的創新,有助于模型更好地捕捉場景中的動態變化(Figure 2)。
免真值評估指標:UniOcc 提出了免真值的評估指標和工具,避免只依賴偽標簽進行評價。通過學習真實物體尺寸分布的高斯混合模型(GMM)等方法,UniOcc 可以在無完美標簽的情況下定量評估預測合理性。在時間維度上,UniOcc 提供的工具可以對連續幀中同一物體及背景的 Voxel 分別進行提取和對齊,實現了對于時序一致性的評估(Figure 4)。
支持協同預測能力:通過擴展 OpenCOOD 框架,UniOcc 涵蓋了多車協同感知場景,使得研究者可以探索多車傳感器融合的方法。
實驗驗證
引入運動流信息:將 UniOcc 提供的體素運動流輸入OccWorld等 3D 占位預測模型后,預測性能顯著提升。Table 3 中可見,在 nuScenes 和 Waymo 上加入流信息后,各類別的 mIoU 指標均有提高。
多源聯合訓練:利用多源數據進行訓練可增強跨域泛化能力。Table 4 顯示,在 nuScenes 和 CARLA 等多域數據上聯合訓練 OccWorld,其在各自測試集上的 mIoU 均優于單源訓練,詳見 Table 4 中 不同訓練源組合下的性能。與此同時由于從 CARLA 獲得的占用柵格外形接近完美,不存在偽標簽中的不完整問題,訓練中加入 CARLA 數據提高了生成物體的真實性(Figure 5)。
驗證現有 Occupancy 預測模型的質量:在 Table 5 中,作者使用 UniOcc 對 Cam4DOcc 和 CVTOcc 的生成質量進行了度量并且使用 UniOcc 可以對如 Figure 3 的不完整預測進行歸類分析(Problem Cluster)。
協同預測效果:在模擬的多車場景中驗證了協同優勢。以CoHFF模型為例,在 OpenCOOD 多車數據上進行測試時,通過多車信息共享對 Car 類別的 IoU 達到了 87.22%,驗證了協同感知能夠擴展視野、減輕遮擋的潛力。
開源與應用價值
UniOcc 框架設計統一,可支持多種占位相關任務,包括:
- 單幀占位預測:從當前相機 / 激光雷達數據估計當前時刻的 3D 占位格 (如 CVTOcc);
- 多幀占位預測:基于歷史信息預測未來時刻的三維占位(如 OccWorld);
- 多車協同預測:在多車共享感知信息下完成占位預測,提升覆蓋范圍 (如 CoHFF);
- 動態分割與跟蹤:利用體素級流信息進行動態目標的分割與跟蹤。UniOcc 還包含體素分割和跟蹤工具,使得研究者可以直接在占位格空間中進行目標識別和跨幀關聯。
總結與展望
UniOcc 作為首個自動駕駛占位預測統一基準,將推動行業從依賴偽標簽的階段邁向真正的統一評估體系。它提供了跨域的數據格式、完整的流注釋、分割跟蹤工具和免真值評估指標,極大簡化了研究者的開發和對比工作。未來,隨著多模態和大型模型在自動駕駛中的興起,UniOcc 統一的占位–圖像數據為訓練和評估多模態 / 語言模型奠定了基礎。期待基于 UniOcc 的數據和工具,能夠涌現出更多創新算法,加速語義占位預測技術向前發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.