論文第一作者林宏彬來(lái)自香港中文大學(xué)(深圳)理工學(xué)院的Deep Bit 實(shí)驗(yàn)室、深圳市未來(lái)智聯(lián)網(wǎng)絡(luò)研究院,導(dǎo)師為李鎮(zhèn)老師。目前實(shí)驗(yàn)室的研究方向包括:自動(dòng)駕駛、醫(yī)學(xué)成像和分子理解的多模態(tài)數(shù)據(jù)分析和生成等。
隨著新能源汽車產(chǎn)業(yè)的持續(xù)發(fā)展,智能駕駛輔助技術(shù)的應(yīng)用越來(lái)越廣泛。其中,基于純視覺的自動(dòng)駕駛方案只需使用多視角圖像進(jìn)行環(huán)境感知與分析,具有成本低、效率高的優(yōu)勢(shì),因而備受關(guān)注。然而在實(shí)際應(yīng)用中,視覺感知模型的泛化能力至關(guān)重要。
來(lái)自香港中文大學(xué)(深圳)等單位的學(xué)者們提出了一種名為 DriveGEN 的無(wú)訓(xùn)練自動(dòng)駕駛圖像可控生成方法。該方法無(wú)需額外訓(xùn)練生成模型,即可實(shí)現(xiàn)訓(xùn)練圖像數(shù)據(jù)的可控?cái)U(kuò)充,從而以較低的計(jì)算資源成本提升三維檢測(cè)模型的魯棒性。DriveGEN 通過「自注意力物體原型提取」和「原型引導(dǎo)生成」的兩階段策略,在準(zhǔn)確保留三維物體信息的前提下,將訓(xùn)練數(shù)據(jù)擴(kuò)展至各類現(xiàn)實(shí)但難以采集的場(chǎng)景(如惡劣天氣),目前代碼已開源。
- 論文標(biāo)題:DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation
- 論文鏈接:https://www.arxiv.org/abs/2503.11122
- GitHub:https://github.com/Hongbin98/DriveGEN
任務(wù)背景
據(jù)路透社消息[1],作為自動(dòng)駕駛行業(yè)領(lǐng)先者的 Waymo 于 2025 年 5 月 14 日宣布召回超過 1200 輛自動(dòng)駕駛車輛,原因在于算法在識(shí)別鏈條、閘門等道路障礙物時(shí)存在潛在風(fēng)險(xiǎn),自動(dòng)駕駛再次陷入安全風(fēng)波。
圖 1 行業(yè)領(lǐng)先者的 Waymo 于近期宣布召回超過 1200 輛自動(dòng)駕駛車輛
諸如此類事件的背后共同折射出一個(gè)深層的技術(shù)難題:即使是最先進(jìn)的自動(dòng)駕駛系統(tǒng),在面對(duì)真實(shí)世界場(chǎng)景時(shí),仍然需要著重考慮系統(tǒng)的魯棒性。一條普通的施工鏈條、一個(gè)臨時(shí)設(shè)置的閘門,就可能成為算法的盲區(qū)。
自動(dòng)駕駛中視覺感知模型的魯棒性至關(guān)重要
不難看出,視覺感知模型的魯棒性直接影響系統(tǒng)能否可靠地理解復(fù)雜的環(huán)境并做出安全的決策,其對(duì)駕駛安全至關(guān)重要。
然而,傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常依賴大量預(yù)先收集的訓(xùn)練數(shù)據(jù),而實(shí)際部署環(huán)境中的數(shù)據(jù)分布往往與訓(xùn)練時(shí)不同,這種現(xiàn)象稱為「分布偏移」。通俗地說(shuō),就像學(xué)生備考時(shí)只復(fù)習(xí)了往年的題型,而正式考試卻出了很多新題,導(dǎo)致很難發(fā)揮出應(yīng)有水平。
在自動(dòng)駕駛中,分布偏移可能表現(xiàn)為天氣狀況與光照條件的變化,或因車輛行駛時(shí)的攝像頭抖動(dòng)導(dǎo)致的畫面模糊等情況。這些常見但棘手的分布偏移問題會(huì)嚴(yán)重影響視覺感知模型的性能,往往導(dǎo)致性能顯著下降,嚴(yán)重制約了其在現(xiàn)實(shí)場(chǎng)景的廣泛部署與應(yīng)用。
自動(dòng)駕駛中分布偏移的解決難點(diǎn)是什么?
要解決分布偏移問題并不容易,因?yàn)橛糜谟?xùn)練的數(shù)據(jù)大部分來(lái)自理想的天氣狀況(如晴天),而那些特殊天氣(如大雪、大霧、沙塵暴)的數(shù)據(jù)很難大量獲得,采集起來(lái)成本高,標(biāo)注起來(lái)也費(fèi)時(shí)費(fèi)力。
實(shí)際上,我們?cè)谧匀画h(huán)境下就會(huì)觀察到這種明顯的場(chǎng)景「數(shù)量不均衡」:晴天的數(shù)據(jù)特別多,而雪天甚至沙塵暴的場(chǎng)景卻非常少,有些情況甚至根本從未被模型見過。
這就像一個(gè)長(zhǎng)期生活在南方的人,從來(lái)沒有在雪天里開過車,第一次遇到大雪路面時(shí),很難馬上做出正確、安全的駕駛決策。同樣的,自動(dòng)駕駛模型在面對(duì)這種未曾經(jīng)歷過或極少見的場(chǎng)景時(shí),也難以保證穩(wěn)定可靠的表現(xiàn)。
那么該如何解決分布偏移呢?
為了應(yīng)對(duì)在實(shí)際應(yīng)用中可能出現(xiàn)的各種場(chǎng)景,以及算法對(duì)快速擴(kuò)展和實(shí)時(shí)響應(yīng)能力的要求,我們不禁思考:是否能通過數(shù)據(jù)可控?cái)U(kuò)增的方法,將已有的訓(xùn)練圖像轉(zhuǎn)化為一些尚未出現(xiàn)或極少出現(xiàn)的場(chǎng)景呢?
其中,一種可行的范式是無(wú)訓(xùn)練可控生成(Training-free Controllable Image Generation)。該范式在生成新圖像的過程中不對(duì)生成模型本身的參數(shù)做任何修改,而是通過用戶輸入的文本指令,靈活地控制生成的圖像效果,如圖 2 所示。這種方式不僅成本低、效率高,還能夠快速實(shí)現(xiàn),因此引起學(xué)術(shù)界和工業(yè)界越來(lái)越多的關(guān)注。
圖 2 生成模型快速賦能自動(dòng)駕駛視覺感知模型示意圖
現(xiàn)存無(wú)訓(xùn)練可控生成方法主要面向通用圖像編輯
無(wú)訓(xùn)練可控生成方法簡(jiǎn)單來(lái)說(shuō),就是在無(wú)需額外訓(xùn)練模型的情況下,對(duì)圖像進(jìn)行靈活且可控的編輯。目前該類方法主要用于通用圖像修改,比如可以對(duì)圖像主體進(jìn)行變換,或添加、刪除特定物體,快速生成所需圖像內(nèi)容。
然而,在借助該技術(shù)將感知任務(wù)的訓(xùn)練圖像擴(kuò)充到各類分布偏移場(chǎng)景時(shí),必須確保物體的三維信息與原始標(biāo)注相匹配,否則就會(huì)給視覺感知模型帶來(lái)額外噪音干擾。
技術(shù)方案
基于前面的討論,我們不禁思考:要怎么去設(shè)計(jì)一個(gè)無(wú)需額外訓(xùn)練的可控生成方法,在準(zhǔn)確保留物體三維信息的前提下,實(shí)現(xiàn)感知模型訓(xùn)練圖像的可控?cái)U(kuò)充?
來(lái)自香港中文大學(xué)(深圳)等單位的學(xué)者們給出了他們的看法。學(xué)者們提出了一個(gè)名為 DriveGEN 的方法,如圖 3 所示。該方法由以下兩個(gè)階段所組成:1)自注意力物體原型提取;2)原型引導(dǎo)圖像生成。具體細(xì)節(jié)闡述如下:
圖 3 DriveGEN方法整體框架圖
自注意力物體原型提取
原型引導(dǎo)圖像生成
該階段會(huì)通過兩個(gè)層級(jí)的特征對(duì)齊以確保生成過程中,物體的三維信息能夠被更好地保留。
實(shí)驗(yàn)
方法有效性
一方面,DriveGEN 能為現(xiàn)存單目三維檢測(cè)方法帶來(lái)可觀的性能提升,實(shí)驗(yàn)結(jié)果展示了探索的新方法可以在模擬的域外分布測(cè)試場(chǎng)景(包括 Noise,Blur,Weather,Digital 四類)中帶來(lái)顯著的改進(jìn):
表 1 基于KITTI-C數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
其中分別探索了三種訓(xùn)練圖像增廣設(shè)定,即 1)僅額外增廣雪天(Only Snow aug.)下的場(chǎng)景;2)額外增廣雪天、雨天和霧天下的場(chǎng)景(3 scenarios aug.);3)額外增廣訓(xùn)練圖像到雪、雨、霧、黑夜、失焦以及沙塵暴 6 種場(chǎng)景下(6 scenarios aug.),廣泛地驗(yàn)證了所提出方法的有效性。
圖 4 基于KITTI-C數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(藍(lán)色區(qū)域對(duì)應(yīng)DriveGEN)
另一方面,DriveGEN 基于現(xiàn)存多目三維檢測(cè)方法做進(jìn)一步實(shí)驗(yàn),僅基于 nuScenes 數(shù)據(jù)集上五百個(gè)場(chǎng)景所增廣的三千張雪天訓(xùn)練圖片,即可為模型帶來(lái)可觀的性能提升:
表 2 基于nuScenes-C以及真實(shí)場(chǎng)景下實(shí)驗(yàn)結(jié)果
其中 nuScenes-C 是應(yīng)用更廣泛但挑戰(zhàn)難度更大的任務(wù)基準(zhǔn),而 nuScenes-Night 以及 nuScenes-Rainy 則代表兩個(gè)真實(shí)的現(xiàn)實(shí)世界下分布偏移數(shù)據(jù)場(chǎng)景。
消融實(shí)驗(yàn)
如下圖 3 所示,一方面表明了所提出方法各個(gè)優(yōu)化項(xiàng)的有效性,比如加上物體原型能初步得到保留物體信息的生成結(jié)果,而淺層特征對(duì)齊則進(jìn)一步促使生成模型能夠比較好地保留在圖片中相對(duì)小的物體。
圖 5 基于KITTI數(shù)據(jù)集的消融實(shí)驗(yàn)示意圖
結(jié)果可視化
進(jìn)一步提供了單目和多目的可視化結(jié)果如下圖所示:
圖 6 基于KITTI數(shù)據(jù)集的單目三維檢測(cè)圖像增廣示例
圖 7 基于nuScenes數(shù)據(jù)集的多目三維檢測(cè)圖像增廣示例
基于上述實(shí)驗(yàn)結(jié)果,有理由相信通過對(duì)視覺三維檢測(cè)訓(xùn)練數(shù)據(jù)的有效擴(kuò)充,該論文所設(shè)計(jì)的方法能夠有效地提高視覺感知模型的泛化性能,從而提升三維檢測(cè)在自動(dòng)駕駛中的落地和應(yīng)用。
參考文獻(xiàn)
[1] https://www.reuters.com/business/autos-transportation/alphabets-waymo-recalls-over-1200-vehicles-after-collisions-with-roadway-2025-05-14/
[2] Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, and Bolei Zhou. Freecontrol: Training-free spatial control of any text-to-image diffusion model with any condition. In CVPR, 2024.
[3] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.