本文介紹了清華大學(xué)聯(lián)合毫末智行、自動(dòng)化所、港中文、上海交大、上海人工智能實(shí)驗(yàn)室的發(fā)表于ICLR 2025的最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》。該算法創(chuàng)新性地設(shè)計(jì)了基于 Diffusion Transformer 的自動(dòng)駕駛規(guī)劃模型架構(gòu),高效處理復(fù)雜場(chǎng)景輸入,并聯(lián)合建模周車運(yùn)動(dòng)預(yù)測(cè)與自車規(guī)劃中的多模態(tài)駕駛行為,充分發(fā)揮擴(kuò)散模型在閉環(huán)規(guī)劃中的潛力,解決了現(xiàn)有基于學(xué)習(xí)的規(guī)劃方法對(duì)后處理的嚴(yán)重依賴問題。此外,借助擴(kuò)散模型的引導(dǎo)機(jī)制,模型在部署階段能夠靈活適應(yīng)不同的駕駛需求,提高泛化能力與實(shí)用性。
論文標(biāo)題: Diffusion-based Planning for Autonomous Driving with Flexible Guidance 論文鏈接: https://arxiv.org/pdf/2501.15564 項(xiàng)目主頁: https://zhengyinan-air.github.io/Diffusion-Planner/
一、背景介紹
自動(dòng)駕駛規(guī)劃正朝著更安全、高效的方向發(fā)展,但在復(fù)雜環(huán)境下實(shí)現(xiàn)類人駕駛?cè)跃咛魬?zhàn)?;谝?guī)則的方法雖在工業(yè)應(yīng)用中取得成功,但適應(yīng)性差,調(diào)整成本高;模仿學(xué)習(xí)能直接學(xué)習(xí)專家駕駛行為,并隨訓(xùn)練數(shù)據(jù)擴(kuò)展提升性能。然而,模仿學(xué)習(xí)方法在多模態(tài)行為適應(yīng)性、泛化能力和駕駛風(fēng)格靈活調(diào)控上仍存挑戰(zhàn),依賴后處理來優(yōu)化模型輸出。
近年來,擴(kuò)散模型在決策領(lǐng)域得到廣泛應(yīng)用,但在自動(dòng)駕駛規(guī)劃中的探索仍有限。現(xiàn)有研究多聚焦于運(yùn)動(dòng)預(yù)測(cè)和場(chǎng)景生成,關(guān)注開環(huán)性能,而非閉環(huán)規(guī)劃。一些方法嘗試將擴(kuò)散模型應(yīng)用于規(guī)劃任務(wù),但僅僅是沿用現(xiàn)有結(jié)構(gòu)或擴(kuò)展模型參數(shù),缺乏針對(duì)性結(jié)構(gòu)設(shè)計(jì),導(dǎo)致仍然高度依賴后處理。
為此,我們提出了Diffusion Planner,一種創(chuàng)新的基于擴(kuò)散模型的自動(dòng)駕駛規(guī)劃方法。通過擴(kuò)散模型強(qiáng)大的數(shù)據(jù)分布擬合能力,Diffusion Planner能夠精準(zhǔn)捕捉復(fù)雜場(chǎng)景中周車與自車的多模態(tài)駕駛行為,并實(shí)現(xiàn)周車預(yù)測(cè)與自車規(guī)劃的聯(lián)合建模。同時(shí),基于Transformer的結(jié)構(gòu)設(shè)計(jì)高效處理復(fù)雜場(chǎng)景輸入,實(shí)現(xiàn)20Hz的高速實(shí)時(shí)推理。此外,借助靈活的引導(dǎo)機(jī)制,模型在部署階段即可適應(yīng)不同的駕駛需求。在大規(guī)模真實(shí)數(shù)據(jù)集 nuPlan 的閉環(huán)評(píng)估中,Diffusion Planner取得了SOTA級(jí)表現(xiàn),?幅降低了對(duì)后處理的依賴,并在額外收集的 200 小時(shí)物流小車數(shù)據(jù)上驗(yàn)證了其在多種駕駛風(fēng)格下的魯棒性和遷移能力。
二、Diffusion Planner 技術(shù)細(xì)節(jié)
Diffusion Planner專為自動(dòng)駕駛閉環(huán)規(guī)劃設(shè)計(jì),具備以下特點(diǎn):
基于DiT架構(gòu)融合加噪軌跡與條件信息,推理速度可達(dá)20Hz;
聯(lián)合建模自車與周車的未來軌跡,將運(yùn)動(dòng)預(yù)測(cè)與閉環(huán)規(guī)劃統(tǒng)一為未來軌跡生成;
采用擴(kuò)散模型的引導(dǎo)機(jī)制,實(shí)現(xiàn)具有偏好的軌跡生成。
在自動(dòng)駕駛中,自車與周圍車輛之間的緊密互動(dòng)使得規(guī)劃與預(yù)測(cè)任務(wù)必須高度協(xié)同。為了應(yīng)對(duì)復(fù)雜的交通場(chǎng)景,準(zhǔn)確預(yù)測(cè)鄰近車輛的未來軌跡至關(guān)重要。這不僅提升了閉環(huán)規(guī)劃模型的能力,還能增強(qiáng)系統(tǒng)的安全性和可控性。我們通過聯(lián)合建模關(guān)鍵參與者的狀態(tài),將運(yùn)動(dòng)預(yù)測(cè)與閉環(huán)規(guī)劃任務(wù)統(tǒng)一為一個(gè)未來軌跡生成任務(wù)。我們希望模型能夠同時(shí)生成所有關(guān)鍵參與者的未來軌跡,從而實(shí)現(xiàn)更加自然的協(xié)同行為。
然而,多車交互的復(fù)雜場(chǎng)景會(huì)產(chǎn)生更加多樣的駕駛行為,增加了訓(xùn)練的難度。為此,我們采用了擴(kuò)散模型的框架進(jìn)行訓(xùn)練,并基于Diffusion Transformer設(shè)計(jì)了針對(duì)自動(dòng)駕駛規(guī)劃的結(jié)構(gòu)。
具體而言,我們考慮了周圍車輛的歷史信息、道路信息和靜態(tài)障礙物,設(shè)計(jì)了簡(jiǎn)潔的編碼器結(jié)構(gòu)用于信息提取,并通過交叉注意力機(jī)制與加噪后的自車和周車軌跡進(jìn)行信息交互。此外,我們還引入了額外的導(dǎo)航信息以及擴(kuò)散模型特有的加噪步數(shù)信息。為了避免模型重復(fù)自車歷史行為導(dǎo)致閉環(huán)性能下降,我們僅考慮自車當(dāng)前時(shí)刻的位置和朝向,并與周車的當(dāng)前狀態(tài)一起拼接到加噪軌跡中。通過這種方式,起始狀態(tài)的引導(dǎo)還能進(jìn)一步降低模型對(duì)未來軌跡生成的難度。
2.2 有偏好軌跡生成
基于擴(kuò)散模型的引導(dǎo)機(jī)制,我們可以在模型的測(cè)試階段引入安全,舒適等偏好,同時(shí)也可以根據(jù)用戶需求靈活的改變模型輸出的軌跡特性,例如速度特性。此外,不同的偏好可以通過加權(quán)求和輕松組合,并且在部署階段可以靈活選擇是否啟用,提供更大的靈活性。
三、實(shí)驗(yàn)結(jié)果
3.1 nuPlan閉環(huán)仿真
下圖展示了Diffusion Planner與其他自動(dòng)駕駛規(guī)劃算法在nuPlan數(shù)據(jù)集上的表現(xiàn)對(duì)比。我們?cè)谌齻€(gè)常用測(cè)試基準(zhǔn)上進(jìn)行了比較,結(jié)果顯示Diffusion Planner達(dá)到了SOTA性能水平。通過引入現(xiàn)有的后處理模塊,算法性能得到了進(jìn)一步提升,這得益于模型生成的高質(zhì)量軌跡,為后處理模塊提供了更優(yōu)的初始化參考軌跡。
此外,我們還對(duì)比了現(xiàn)有基于擴(kuò)散模型的自動(dòng)駕駛規(guī)劃算法。與現(xiàn)有方法相比,Diffusion Planner有效降低了對(duì)后處理的依賴,同時(shí)實(shí)現(xiàn)了更高的推理頻率,進(jìn)一步驗(yàn)證了我們?cè)O(shè)計(jì)結(jié)構(gòu)的有效性。
3.2 軌跡生成可視化
為了進(jìn)一步展示Diffusion Planner在軌跡生成方面的優(yōu)勢(shì),我們選擇了狹窄路段的左轉(zhuǎn)場(chǎng)景,并與現(xiàn)有方法的無后處理版本進(jìn)行了對(duì)比,如下圖所示。Diffusion Planner生成了高質(zhì)量的軌跡,不僅準(zhǔn)確預(yù)測(cè)了周圍車輛的行為,還生成了平滑的自車規(guī)劃軌跡,合理地考慮了前車的速度,充分體現(xiàn)了預(yù)測(cè)與規(guī)劃任務(wù)聯(lián)合建模以及擴(kuò)散模型生成的優(yōu)勢(shì)。
3.3 毫末智行物流小車數(shù)據(jù)集
我們使用毫末智行收集的約200小時(shí)真實(shí)世界物流小車配送數(shù)據(jù),作為nuPlan數(shù)據(jù)集的補(bǔ)充,并計(jì)劃后續(xù)開源。與nuPlan數(shù)據(jù)集中的車輛相比,配送車具有以下特點(diǎn):尺寸較小,運(yùn)行速度較低;可以在主干道和自行車道上行駛;與行人和騎行者的交互更為頻繁,同時(shí)面臨不同的行駛規(guī)則。通過在該數(shù)據(jù)集上進(jìn)行測(cè)試,我們發(fā)現(xiàn)Diffusion Planner依然保持了最佳表現(xiàn)。相比之下,基于規(guī)則或依賴后處理的方法由于其設(shè)計(jì)存在對(duì)nuPlan數(shù)據(jù)的過擬合問題,導(dǎo)致在新場(chǎng)景中的性能下降。這進(jìn)一步證明了Diffusion Planner在適應(yīng)不同駕駛行為方面的魯棒性。
3.4 有偏好軌跡生成案例
為了進(jìn)一步展示引導(dǎo)機(jī)制的有效性,我們挑選了部分場(chǎng)景,從相同起始位置出發(fā),展示了閉環(huán)測(cè)試結(jié)果。紅色虛線和空心黃色車代表沒有引導(dǎo)的結(jié)果,而紅色實(shí)線和實(shí)心黃色車則表示有引導(dǎo)的結(jié)果。
四、總結(jié)
在本文中,我們提出了 Diffusion Planner,一種基于模仿學(xué)習(xí)的自動(dòng)駕駛規(guī)劃方法,充分發(fā)揮擴(kuò)散模型的強(qiáng)大表達(dá)能力和靈活的引導(dǎo)機(jī)制。我們?cè)O(shè)計(jì)了基于 Diffusion Transformer 的模型架構(gòu),聯(lián)合建模運(yùn)動(dòng)預(yù)測(cè)與規(guī)劃任務(wù)中的多模態(tài)數(shù)據(jù)分布,并利用擴(kuò)散模型的引導(dǎo)機(jī)制,使模型生成的規(guī)劃行為與目標(biāo)駕駛風(fēng)格保持一致。Diffusion Planner 在 nuPlan 數(shù)據(jù)集及新收集的 200 小時(shí)物流車駕駛數(shù)據(jù)集上取得了 SOTA 級(jí)別的閉環(huán)性能,并展現(xiàn)出對(duì)不同駕駛風(fēng)格的強(qiáng)大適應(yīng)性。
作者:周展科 來源: 公眾號(hào)【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
本周上新!
掃碼觀看!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.