網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 25 |全面提升視覺感知魯棒性，生成模型快速賦能三維檢測(cè)

2025-05-23 16:05:35　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

論文第一作者林宏彬來(lái)自香港中文大學(xué)(深圳)理工學(xué)院的Deep Bit 實(shí)驗(yàn)室、深圳市未來(lái)智聯(lián)網(wǎng)絡(luò)研究院，導(dǎo)師為李鎮(zhèn)老師。目前實(shí)驗(yàn)室的研究方向包括：自動(dòng)駕駛、醫(yī)學(xué)成像和分子理解的多模態(tài)數(shù)據(jù)分析和生成等。

隨著新能源汽車產(chǎn)業(yè)的持續(xù)發(fā)展，智能駕駛輔助技術(shù)的應(yīng)用越來(lái)越廣泛。其中，基于純視覺的自動(dòng)駕駛方案只需使用多視角圖像進(jìn)行環(huán)境感知與分析，具有成本低、效率高的優(yōu)勢(shì)，因而備受關(guān)注。然而在實(shí)際應(yīng)用中，視覺感知模型的泛化能力至關(guān)重要。

來(lái)自香港中文大學(xué)（深圳）等單位的學(xué)者們提出了一種名為 DriveGEN 的無(wú)訓(xùn)練自動(dòng)駕駛圖像可控生成方法。該方法無(wú)需額外訓(xùn)練生成模型，即可實(shí)現(xiàn)訓(xùn)練圖像數(shù)據(jù)的可控?cái)U(kuò)充，從而以較低的計(jì)算資源成本提升三維檢測(cè)模型的魯棒性。DriveGEN 通過「自注意力物體原型提取」和「原型引導(dǎo)生成」的兩階段策略，在準(zhǔn)確保留三維物體信息的前提下，將訓(xùn)練數(shù)據(jù)擴(kuò)展至各類現(xiàn)實(shí)但難以采集的場(chǎng)景（如惡劣天氣），目前代碼已開源。

論文標(biāo)題：DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation
論文鏈接：https://www.arxiv.org/abs/2503.11122
GitHub：https://github.com/Hongbin98/DriveGEN

任務(wù)背景

據(jù)路透社消息[1]，作為自動(dòng)駕駛行業(yè)領(lǐng)先者的 Waymo 于 2025 年 5 月 14 日宣布召回超過 1200 輛自動(dòng)駕駛車輛，原因在于算法在識(shí)別鏈條、閘門等道路障礙物時(shí)存在潛在風(fēng)險(xiǎn)，自動(dòng)駕駛再次陷入安全風(fēng)波。

圖 1 行業(yè)領(lǐng)先者的 Waymo 于近期宣布召回超過 1200 輛自動(dòng)駕駛車輛

諸如此類事件的背后共同折射出一個(gè)深層的技術(shù)難題：即使是最先進(jìn)的自動(dòng)駕駛系統(tǒng)，在面對(duì)真實(shí)世界場(chǎng)景時(shí)，仍然需要著重考慮系統(tǒng)的魯棒性。一條普通的施工鏈條、一個(gè)臨時(shí)設(shè)置的閘門，就可能成為算法的盲區(qū)。

自動(dòng)駕駛中視覺感知模型的魯棒性至關(guān)重要

不難看出，視覺感知模型的魯棒性直接影響系統(tǒng)能否可靠地理解復(fù)雜的環(huán)境并做出安全的決策，其對(duì)駕駛安全至關(guān)重要。

然而，傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常依賴大量預(yù)先收集的訓(xùn)練數(shù)據(jù)，而實(shí)際部署環(huán)境中的數(shù)據(jù)分布往往與訓(xùn)練時(shí)不同，這種現(xiàn)象稱為「分布偏移」。通俗地說(shuō)，就像學(xué)生備考時(shí)只復(fù)習(xí)了往年的題型，而正式考試卻出了很多新題，導(dǎo)致很難發(fā)揮出應(yīng)有水平。

在自動(dòng)駕駛中，分布偏移可能表現(xiàn)為天氣狀況與光照條件的變化，或因車輛行駛時(shí)的攝像頭抖動(dòng)導(dǎo)致的畫面模糊等情況。這些常見但棘手的分布偏移問題會(huì)嚴(yán)重影響視覺感知模型的性能，往往導(dǎo)致性能顯著下降，嚴(yán)重制約了其在現(xiàn)實(shí)場(chǎng)景的廣泛部署與應(yīng)用。

自動(dòng)駕駛中分布偏移的解決難點(diǎn)是什么？

要解決分布偏移問題并不容易，因?yàn)橛糜谟?xùn)練的數(shù)據(jù)大部分來(lái)自理想的天氣狀況（如晴天），而那些特殊天氣（如大雪、大霧、沙塵暴）的數(shù)據(jù)很難大量獲得，采集起來(lái)成本高，標(biāo)注起來(lái)也費(fèi)時(shí)費(fèi)力。

實(shí)際上，我們?cè)谧匀画h(huán)境下就會(huì)觀察到這種明顯的場(chǎng)景「數(shù)量不均衡」：晴天的數(shù)據(jù)特別多，而雪天甚至沙塵暴的場(chǎng)景卻非常少，有些情況甚至根本從未被模型見過。

這就像一個(gè)長(zhǎng)期生活在南方的人，從來(lái)沒有在雪天里開過車，第一次遇到大雪路面時(shí)，很難馬上做出正確、安全的駕駛決策。同樣的，自動(dòng)駕駛模型在面對(duì)這種未曾經(jīng)歷過或極少見的場(chǎng)景時(shí)，也難以保證穩(wěn)定可靠的表現(xiàn)。

那么該如何解決分布偏移呢？

為了應(yīng)對(duì)在實(shí)際應(yīng)用中可能出現(xiàn)的各種場(chǎng)景，以及算法對(duì)快速擴(kuò)展和實(shí)時(shí)響應(yīng)能力的要求，我們不禁思考：是否能通過數(shù)據(jù)可控?cái)U(kuò)增的方法，將已有的訓(xùn)練圖像轉(zhuǎn)化為一些尚未出現(xiàn)或極少出現(xiàn)的場(chǎng)景呢？

其中，一種可行的范式是無(wú)訓(xùn)練可控生成（Training-free Controllable Image Generation）。該范式在生成新圖像的過程中不對(duì)生成模型本身的參數(shù)做任何修改，而是通過用戶輸入的文本指令，靈活地控制生成的圖像效果，如圖 2 所示。這種方式不僅成本低、效率高，還能夠快速實(shí)現(xiàn)，因此引起學(xué)術(shù)界和工業(yè)界越來(lái)越多的關(guān)注。

圖 2 生成模型快速賦能自動(dòng)駕駛視覺感知模型示意圖

現(xiàn)存無(wú)訓(xùn)練可控生成方法主要面向通用圖像編輯

無(wú)訓(xùn)練可控生成方法簡(jiǎn)單來(lái)說(shuō)，就是在無(wú)需額外訓(xùn)練模型的情況下，對(duì)圖像進(jìn)行靈活且可控的編輯。目前該類方法主要用于通用圖像修改，比如可以對(duì)圖像主體進(jìn)行變換，或添加、刪除特定物體，快速生成所需圖像內(nèi)容。

然而，在借助該技術(shù)將感知任務(wù)的訓(xùn)練圖像擴(kuò)充到各類分布偏移場(chǎng)景時(shí)，必須確保物體的三維信息與原始標(biāo)注相匹配，否則就會(huì)給視覺感知模型帶來(lái)額外噪音干擾。

技術(shù)方案

基于前面的討論，我們不禁思考：要怎么去設(shè)計(jì)一個(gè)無(wú)需額外訓(xùn)練的可控生成方法，在準(zhǔn)確保留物體三維信息的前提下，實(shí)現(xiàn)感知模型訓(xùn)練圖像的可控?cái)U(kuò)充？

來(lái)自香港中文大學(xué)（深圳）等單位的學(xué)者們給出了他們的看法。學(xué)者們提出了一個(gè)名為 DriveGEN 的方法，如圖 3 所示。該方法由以下兩個(gè)階段所組成：1）自注意力物體原型提取；2）原型引導(dǎo)圖像生成。具體細(xì)節(jié)闡述如下：

圖 3 DriveGEN方法整體框架圖

自注意力物體原型提取

原型引導(dǎo)圖像生成

該階段會(huì)通過兩個(gè)層級(jí)的特征對(duì)齊以確保生成過程中，物體的三維信息能夠被更好地保留。

實(shí)驗(yàn)

方法有效性

一方面，DriveGEN 能為現(xiàn)存單目三維檢測(cè)方法帶來(lái)可觀的性能提升，實(shí)驗(yàn)結(jié)果展示了探索的新方法可以在模擬的域外分布測(cè)試場(chǎng)景（包括 Noise，Blur，Weather，Digital 四類）中帶來(lái)顯著的改進(jìn)：

表 1 基于KITTI-C數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

其中分別探索了三種訓(xùn)練圖像增廣設(shè)定，即 1）僅額外增廣雪天（Only Snow aug.）下的場(chǎng)景；2）額外增廣雪天、雨天和霧天下的場(chǎng)景（3 scenarios aug.）；3）額外增廣訓(xùn)練圖像到雪、雨、霧、黑夜、失焦以及沙塵暴 6 種場(chǎng)景下（6 scenarios aug.），廣泛地驗(yàn)證了所提出方法的有效性。

圖 4 基于KITTI-C數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果（藍(lán)色區(qū)域對(duì)應(yīng)DriveGEN）

另一方面，DriveGEN 基于現(xiàn)存多目三維檢測(cè)方法做進(jìn)一步實(shí)驗(yàn)，僅基于 nuScenes 數(shù)據(jù)集上五百個(gè)場(chǎng)景所增廣的三千張雪天訓(xùn)練圖片，即可為模型帶來(lái)可觀的性能提升：

表 2 基于nuScenes-C以及真實(shí)場(chǎng)景下實(shí)驗(yàn)結(jié)果

其中 nuScenes-C 是應(yīng)用更廣泛但挑戰(zhàn)難度更大的任務(wù)基準(zhǔn)，而 nuScenes-Night 以及 nuScenes-Rainy 則代表兩個(gè)真實(shí)的現(xiàn)實(shí)世界下分布偏移數(shù)據(jù)場(chǎng)景。

消融實(shí)驗(yàn)

如下圖 3 所示，一方面表明了所提出方法各個(gè)優(yōu)化項(xiàng)的有效性，比如加上物體原型能初步得到保留物體信息的生成結(jié)果，而淺層特征對(duì)齊則進(jìn)一步促使生成模型能夠比較好地保留在圖片中相對(duì)小的物體。

圖 5 基于KITTI數(shù)據(jù)集的消融實(shí)驗(yàn)示意圖

結(jié)果可視化

進(jìn)一步提供了單目和多目的可視化結(jié)果如下圖所示：

圖 6 基于KITTI數(shù)據(jù)集的單目三維檢測(cè)圖像增廣示例

圖 7 基于nuScenes數(shù)據(jù)集的多目三維檢測(cè)圖像增廣示例

基于上述實(shí)驗(yàn)結(jié)果，有理由相信通過對(duì)視覺三維檢測(cè)訓(xùn)練數(shù)據(jù)的有效擴(kuò)充，該論文所設(shè)計(jì)的方法能夠有效地提高視覺感知模型的泛化性能，從而提升三維檢測(cè)在自動(dòng)駕駛中的落地和應(yīng)用。

參考文獻(xiàn)

[1] https://www.reuters.com/business/autos-transportation/alphabets-waymo-recalls-over-1200-vehicles-after-collisions-with-roadway-2025-05-14/

[2] Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, and Bolei Zhou. Freecontrol: Training-free spatial control of any text-to-image diffusion model with any condition. In CVPR, 2024.

[3] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.