99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

CVPR 25 |全面提升視覺感知魯棒性,生成模型快速賦能三維檢測(cè)

0
分享至



論文第一作者林宏彬來(lái)自香港中文大學(xué)(深圳)理工學(xué)院的Deep Bit 實(shí)驗(yàn)室、深圳市未來(lái)智聯(lián)網(wǎng)絡(luò)研究院,導(dǎo)師為李鎮(zhèn)老師。目前實(shí)驗(yàn)室的研究方向包括:自動(dòng)駕駛、醫(yī)學(xué)成像和分子理解的多模態(tài)數(shù)據(jù)分析和生成等。

隨著新能源汽車產(chǎn)業(yè)的持續(xù)發(fā)展,智能駕駛輔助技術(shù)的應(yīng)用越來(lái)越廣泛。其中,基于純視覺的自動(dòng)駕駛方案只需使用多視角圖像進(jìn)行環(huán)境感知與分析,具有成本低、效率高的優(yōu)勢(shì),因而備受關(guān)注。然而在實(shí)際應(yīng)用中,視覺感知模型的泛化能力至關(guān)重要。

來(lái)自香港中文大學(xué)(深圳)等單位的學(xué)者們提出了一種名為 DriveGEN 的無(wú)訓(xùn)練自動(dòng)駕駛圖像可控生成方法。該方法無(wú)需額外訓(xùn)練生成模型,即可實(shí)現(xiàn)訓(xùn)練圖像數(shù)據(jù)的可控?cái)U(kuò)充,從而以較低的計(jì)算資源成本提升三維檢測(cè)模型的魯棒性。DriveGEN 通過「自注意力物體原型提取」和「原型引導(dǎo)生成」的兩階段策略,在準(zhǔn)確保留三維物體信息的前提下,將訓(xùn)練數(shù)據(jù)擴(kuò)展至各類現(xiàn)實(shí)但難以采集的場(chǎng)景(如惡劣天氣),目前代碼已開源。



  • 論文標(biāo)題:DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation
  • 論文鏈接:https://www.arxiv.org/abs/2503.11122
  • GitHub:https://github.com/Hongbin98/DriveGEN

任務(wù)背景

據(jù)路透社消息[1],作為自動(dòng)駕駛行業(yè)領(lǐng)先者的 Waymo 于 2025 年 5 月 14 日宣布召回超過 1200 輛自動(dòng)駕駛車輛,原因在于算法在識(shí)別鏈條、閘門等道路障礙物時(shí)存在潛在風(fēng)險(xiǎn),自動(dòng)駕駛再次陷入安全風(fēng)波。



圖 1 行業(yè)領(lǐng)先者的 Waymo 于近期宣布召回超過 1200 輛自動(dòng)駕駛車輛

諸如此類事件的背后共同折射出一個(gè)深層的技術(shù)難題:即使是最先進(jìn)的自動(dòng)駕駛系統(tǒng),在面對(duì)真實(shí)世界場(chǎng)景時(shí),仍然需要著重考慮系統(tǒng)的魯棒性。一條普通的施工鏈條、一個(gè)臨時(shí)設(shè)置的閘門,就可能成為算法的盲區(qū)。

自動(dòng)駕駛中視覺感知模型的魯棒性至關(guān)重要

不難看出,視覺感知模型的魯棒性直接影響系統(tǒng)能否可靠地理解復(fù)雜的環(huán)境并做出安全的決策,其對(duì)駕駛安全至關(guān)重要。

然而,傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常依賴大量預(yù)先收集的訓(xùn)練數(shù)據(jù),而實(shí)際部署環(huán)境中的數(shù)據(jù)分布往往與訓(xùn)練時(shí)不同,這種現(xiàn)象稱為「分布偏移」。通俗地說(shuō),就像學(xué)生備考時(shí)只復(fù)習(xí)了往年的題型,而正式考試卻出了很多新題,導(dǎo)致很難發(fā)揮出應(yīng)有水平。

在自動(dòng)駕駛中,分布偏移可能表現(xiàn)為天氣狀況與光照條件的變化,或因車輛行駛時(shí)的攝像頭抖動(dòng)導(dǎo)致的畫面模糊等情況。這些常見但棘手的分布偏移問題會(huì)嚴(yán)重影響視覺感知模型的性能,往往導(dǎo)致性能顯著下降,嚴(yán)重制約了其在現(xiàn)實(shí)場(chǎng)景的廣泛部署與應(yīng)用。

自動(dòng)駕駛中分布偏移的解決難點(diǎn)是什么?

要解決分布偏移問題并不容易,因?yàn)橛糜谟?xùn)練的數(shù)據(jù)大部分來(lái)自理想的天氣狀況(如晴天),而那些特殊天氣(如大雪、大霧、沙塵暴)的數(shù)據(jù)很難大量獲得,采集起來(lái)成本高,標(biāo)注起來(lái)也費(fèi)時(shí)費(fèi)力。

實(shí)際上,我們?cè)谧匀画h(huán)境下就會(huì)觀察到這種明顯的場(chǎng)景「數(shù)量不均衡」:晴天的數(shù)據(jù)特別多,而雪天甚至沙塵暴的場(chǎng)景卻非常少,有些情況甚至根本從未被模型見過。

這就像一個(gè)長(zhǎng)期生活在南方的人,從來(lái)沒有在雪天里開過車,第一次遇到大雪路面時(shí),很難馬上做出正確、安全的駕駛決策。同樣的,自動(dòng)駕駛模型在面對(duì)這種未曾經(jīng)歷過或極少見的場(chǎng)景時(shí),也難以保證穩(wěn)定可靠的表現(xiàn)。

那么該如何解決分布偏移呢?

為了應(yīng)對(duì)在實(shí)際應(yīng)用中可能出現(xiàn)的各種場(chǎng)景,以及算法對(duì)快速擴(kuò)展和實(shí)時(shí)響應(yīng)能力的要求,我們不禁思考:是否能通過數(shù)據(jù)可控?cái)U(kuò)增的方法,將已有的訓(xùn)練圖像轉(zhuǎn)化為一些尚未出現(xiàn)或極少出現(xiàn)的場(chǎng)景呢?

其中,一種可行的范式是無(wú)訓(xùn)練可控生成(Training-free Controllable Image Generation)。該范式在生成新圖像的過程中不對(duì)生成模型本身的參數(shù)做任何修改,而是通過用戶輸入的文本指令,靈活地控制生成的圖像效果,如圖 2 所示。這種方式不僅成本低、效率高,還能夠快速實(shí)現(xiàn),因此引起學(xué)術(shù)界和工業(yè)界越來(lái)越多的關(guān)注。



圖 2 生成模型快速賦能自動(dòng)駕駛視覺感知模型示意圖

現(xiàn)存無(wú)訓(xùn)練可控生成方法主要面向通用圖像編輯

無(wú)訓(xùn)練可控生成方法簡(jiǎn)單來(lái)說(shuō),就是在無(wú)需額外訓(xùn)練模型的情況下,對(duì)圖像進(jìn)行靈活且可控的編輯。目前該類方法主要用于通用圖像修改,比如可以對(duì)圖像主體進(jìn)行變換,或添加、刪除特定物體,快速生成所需圖像內(nèi)容。

然而,在借助該技術(shù)將感知任務(wù)的訓(xùn)練圖像擴(kuò)充到各類分布偏移場(chǎng)景時(shí),必須確保物體的三維信息與原始標(biāo)注相匹配,否則就會(huì)給視覺感知模型帶來(lái)額外噪音干擾。

技術(shù)方案

基于前面的討論,我們不禁思考:要怎么去設(shè)計(jì)一個(gè)無(wú)需額外訓(xùn)練的可控生成方法,在準(zhǔn)確保留物體三維信息的前提下,實(shí)現(xiàn)感知模型訓(xùn)練圖像的可控?cái)U(kuò)充?

來(lái)自香港中文大學(xué)(深圳)等單位的學(xué)者們給出了他們的看法。學(xué)者們提出了一個(gè)名為 DriveGEN 的方法,如圖 3 所示。該方法由以下兩個(gè)階段所組成:1)自注意力物體原型提取;2)原型引導(dǎo)圖像生成。具體細(xì)節(jié)闡述如下:



圖 3 DriveGEN方法整體框架圖

自注意力物體原型提取





原型引導(dǎo)圖像生成

該階段會(huì)通過兩個(gè)層級(jí)的特征對(duì)齊以確保生成過程中,物體的三維信息能夠被更好地保留。





實(shí)驗(yàn)

方法有效性

一方面,DriveGEN 能為現(xiàn)存單目三維檢測(cè)方法帶來(lái)可觀的性能提升,實(shí)驗(yàn)結(jié)果展示了探索的新方法可以在模擬的域外分布測(cè)試場(chǎng)景(包括 Noise,Blur,Weather,Digital 四類)中帶來(lái)顯著的改進(jìn):



表 1 基于KITTI-C數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

其中分別探索了三種訓(xùn)練圖像增廣設(shè)定,即 1)僅額外增廣雪天(Only Snow aug.)下的場(chǎng)景;2)額外增廣雪天、雨天和霧天下的場(chǎng)景(3 scenarios aug.);3)額外增廣訓(xùn)練圖像到雪、雨、霧、黑夜、失焦以及沙塵暴 6 種場(chǎng)景下(6 scenarios aug.),廣泛地驗(yàn)證了所提出方法的有效性。



圖 4 基于KITTI-C數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(藍(lán)色區(qū)域對(duì)應(yīng)DriveGEN)

另一方面,DriveGEN 基于現(xiàn)存多目三維檢測(cè)方法做進(jìn)一步實(shí)驗(yàn),僅基于 nuScenes 數(shù)據(jù)集上五百個(gè)場(chǎng)景所增廣的三千張雪天訓(xùn)練圖片,即可為模型帶來(lái)可觀的性能提升:



表 2 基于nuScenes-C以及真實(shí)場(chǎng)景下實(shí)驗(yàn)結(jié)果

其中 nuScenes-C 是應(yīng)用更廣泛但挑戰(zhàn)難度更大的任務(wù)基準(zhǔn),而 nuScenes-Night 以及 nuScenes-Rainy 則代表兩個(gè)真實(shí)的現(xiàn)實(shí)世界下分布偏移數(shù)據(jù)場(chǎng)景。

消融實(shí)驗(yàn)

如下圖 3 所示,一方面表明了所提出方法各個(gè)優(yōu)化項(xiàng)的有效性,比如加上物體原型能初步得到保留物體信息的生成結(jié)果,而淺層特征對(duì)齊則進(jìn)一步促使生成模型能夠比較好地保留在圖片中相對(duì)小的物體。



圖 5 基于KITTI數(shù)據(jù)集的消融實(shí)驗(yàn)示意圖

結(jié)果可視化

進(jìn)一步提供了單目和多目的可視化結(jié)果如下圖所示:



圖 6 基于KITTI數(shù)據(jù)集的單目三維檢測(cè)圖像增廣示例



圖 7 基于nuScenes數(shù)據(jù)集的多目三維檢測(cè)圖像增廣示例

基于上述實(shí)驗(yàn)結(jié)果,有理由相信通過對(duì)視覺三維檢測(cè)訓(xùn)練數(shù)據(jù)的有效擴(kuò)充,該論文所設(shè)計(jì)的方法能夠有效地提高視覺感知模型的泛化性能,從而提升三維檢測(cè)在自動(dòng)駕駛中的落地和應(yīng)用。

參考文獻(xiàn)

[1] https://www.reuters.com/business/autos-transportation/alphabets-waymo-recalls-over-1200-vehicles-after-collisions-with-roadway-2025-05-14/

[2] Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, and Bolei Zhou. Freecontrol: Training-free spatial control of any text-to-image diffusion model with any condition. In CVPR, 2024.

[3] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
這3個(gè)國(guó)家最不歡迎中國(guó)人,滿臉都是嫌棄,卻總有國(guó)人上趕著去

這3個(gè)國(guó)家最不歡迎中國(guó)人,滿臉都是嫌棄,卻總有國(guó)人上趕著去

博覽歷史
2025-05-23 11:08:28
央視曝光!成本2元,卻賣到19800元,不少人被騙,趕緊別用了

央視曝光!成本2元,卻賣到19800元,不少人被騙,趕緊別用了

侃侃娛季
2025-05-22 10:05:24
解放軍中將在京去世:夫人年輕漂亮,照片流出,一畫面信息量大

解放軍中將在京去世:夫人年輕漂亮,照片流出,一畫面信息量大

博士觀察
2025-05-23 21:38:04
以色列坦克“炮決大熊貓”,將加沙兒童的玩具串在炮管上,已引發(fā)眾怒

以色列坦克“炮決大熊貓”,將加沙兒童的玩具串在炮管上,已引發(fā)眾怒

不掉線電波
2025-05-23 19:39:48
世乒賽男單4強(qiáng)誕生!國(guó)乒占2席; 日韓全軍覆沒,王楚欽再戰(zhàn)雨果

世乒賽男單4強(qiáng)誕生!國(guó)乒占2席; 日韓全軍覆沒,王楚欽再戰(zhàn)雨果

知軒體育
2025-05-24 01:59:16
來(lái)了,日本的最大危局

來(lái)了,日本的最大危局

哲叔視野
2025-05-23 16:28:49
香港科技大學(xué)宣布:向哈佛學(xué)子敞開教研大門 應(yīng)對(duì)全球?qū)W術(shù)變局

香港科技大學(xué)宣布:向哈佛學(xué)子敞開教研大門 應(yīng)對(duì)全球?qū)W術(shù)變局

每日經(jīng)濟(jì)新聞
2025-05-23 19:04:00
驚天大瓜!臺(tái)媒曝蔡依林彭于晏已復(fù)合六年!戀愛細(xì)節(jié)扒到你不敢信

驚天大瓜!臺(tái)媒曝蔡依林彭于晏已復(fù)合六年!戀愛細(xì)節(jié)扒到你不敢信

烏娛子醬
2025-05-23 16:37:21
員工疑為800元燒廠后續(xù),已被刑拘,企業(yè)注資2.6億,幕后老板被扒

員工疑為800元燒廠后續(xù),已被刑拘,企業(yè)注資2.6億,幕后老板被扒

葡萄說(shuō)娛
2025-05-23 15:22:25
霸氣!“深圳艦”硬把菲律賓軍艦頂了出去,菲軍:前所未有恥辱

霸氣!“深圳艦”硬把菲律賓軍艦頂了出去,菲軍:前所未有恥辱

說(shuō)天說(shuō)地說(shuō)實(shí)事
2025-05-23 20:31:11
善惡終有報(bào)?體面了一輩子的國(guó)家一級(jí)演員奚美娟,在70歲人設(shè)崩了

善惡終有報(bào)?體面了一輩子的國(guó)家一級(jí)演員奚美娟,在70歲人設(shè)崩了

白面書誏
2025-05-23 14:13:16
賴清德已失去投誠(chéng)的機(jī)會(huì),等待他的除了滅亡就是投降

賴清德已失去投誠(chéng)的機(jī)會(huì),等待他的除了滅亡就是投降

腦洞新視界
2025-05-23 21:28:19
丹麥退休年齡到2040年將上調(diào)至70歲

丹麥退休年齡到2040年將上調(diào)至70歲

澎湃新聞
2025-05-23 13:43:07
24歲伊藤美誠(chéng)哭成淚人+破1紀(jì)錄?王藝迪5年首敗:世界第4打不過第9

24歲伊藤美誠(chéng)哭成淚人+破1紀(jì)錄?王藝迪5年首敗:世界第4打不過第9

風(fēng)過鄉(xiāng)
2025-05-23 19:50:55
朱媛媛已火化,曾向劉敏濤透露肌瘤手術(shù),臨終前4個(gè)月聊天太催淚

朱媛媛已火化,曾向劉敏濤透露肌瘤手術(shù),臨終前4個(gè)月聊天太催淚

西瓜愛娛娛
2025-05-22 10:38:02
提高警惕!國(guó)民黨與民進(jìn)黨角色有互換的跡象,暗獨(dú)與明獨(dú)都要防備,要狠狠地打擊不能留任何余地!

提高警惕!國(guó)民黨與民進(jìn)黨角色有互換的跡象,暗獨(dú)與明獨(dú)都要防備,要狠狠地打擊不能留任何余地!

V記錄號(hào)
2025-05-23 10:03:26
震驚!中國(guó)尋親網(wǎng)將于7月15日起停運(yùn),關(guān)閉服務(wù)器,公司將注銷…

震驚!中國(guó)尋親網(wǎng)將于7月15日起停運(yùn),關(guān)閉服務(wù)器,公司將注銷…

火山詩(shī)話
2025-05-23 19:00:18
三個(gè)月從神壇跌落,DeepSeek怎么了?

三個(gè)月從神壇跌落,DeepSeek怎么了?

小彭聊社會(huì)
2025-05-24 01:09:27
韓媒:特朗普擬從韓國(guó)撤走4500美軍,像保衛(wèi)美國(guó)一樣“保衛(wèi)臺(tái)灣”

韓媒:特朗普擬從韓國(guó)撤走4500美軍,像保衛(wèi)美國(guó)一樣“保衛(wèi)臺(tái)灣”

第一軍情
2025-05-23 14:18:27
狀態(tài)復(fù)蘇!伊藤美誠(chéng)首次奪得世乒賽單打獎(jiǎng)牌,激動(dòng)淚灑現(xiàn)場(chǎng)

狀態(tài)復(fù)蘇!伊藤美誠(chéng)首次奪得世乒賽單打獎(jiǎng)牌,激動(dòng)淚灑現(xiàn)場(chǎng)

直播吧
2025-05-23 19:24:05
2025-05-24 05:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10522文章數(shù) 142318關(guān)注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國(guó)制造就收25%關(guān)稅

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

體育要聞

臺(tái)下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認(rèn)戀情,與趙德胤沒在一起?

財(cái)經(jīng)要聞

特朗普威脅自6月1日起對(duì)歐盟征收50%關(guān)稅

汽車要聞

續(xù)航720km/充電10分鐘補(bǔ)能500公里 理想i8信息曝光

態(tài)度原創(chuàng)

旅游
手機(jī)
藝術(shù)
教育
時(shí)尚

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

榮耀400系列將于5月底發(fā)布 配備1.45mm窄邊框直屏

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

一大學(xué)被發(fā)現(xiàn)修改學(xué)位證書!教育部:極不嚴(yán)肅!

小香風(fēng)太火了,從20歲穿到70歲都很時(shí)髦

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 延长县| 五指山市| 汉沽区| 靖远县| 甘德县| 焦作市| 金秀| 舟曲县| 施秉县| 连平县| 日照市| 丰顺县| 凤台县| 左权县| 乌兰察布市| 永登县| 拉孜县| 云龙县| 米易县| 独山县| 大方县| 邻水| 汨罗市| 红安县| 嘉善县| 卓资县| 屯留县| 青河县| 龙里县| 石门县| 苏尼特左旗| 陇西县| 平武县| 金寨县| 肥乡县| 曲水县| 永城市| 庆阳市| 双鸭山市| 玉林市| 乐东|