在3月18日的GTC大會(huì)上,來(lái)自小米汽車自動(dòng)駕駛與機(jī)器人部的專家工程師楊奎元,帶來(lái)了主題為「端到端全場(chǎng)景智能駕駛」的演講。
借著小米日前全量OTA推送最新智駕功能,他詳細(xì)介紹了小米在打通高速、城區(qū),泊車等不同場(chǎng)景、實(shí)現(xiàn)連續(xù)智駕背后的技術(shù)支撐,其中包括了物理世界探索和物理世界建模,以及工程落地優(yōu)化。
探索物理世界的全新時(shí)代
他認(rèn)為,根據(jù)機(jī)器對(duì)物理世界探索的參與程度,可以分為兩大階段,第一個(gè)探索階段由人類主導(dǎo),對(duì)物理世界的建模也主要依賴于人類的大腦。
在這一階段,典型的信息處理機(jī)器(如計(jì)算機(jī)、手機(jī))沒有自主移動(dòng)能力,要通過人類整理的文字、圖像、視頻等數(shù)字化信息,來(lái)獲取物理世界的部分描述。得益于這些人類記錄的海量數(shù)據(jù),也驅(qū)動(dòng)了近期大語(yǔ)言模型的迅猛發(fā)展。
然而,人類通常只會(huì)記錄對(duì)自身有價(jià)值的信息,例如拍攝有紀(jì)念意義的照片,但這對(duì)物理世界的記錄并不連續(xù)也不完整,也就限制了機(jī)器對(duì)物理世界的全面認(rèn)知。
隨著具身智能的發(fā)展,機(jī)器開始直接參與到物理世界的探索中。比如汽車、機(jī)器人等,它們通過傳感器觀測(cè)物理世界,通過執(zhí)行器在物理世界中自主移動(dòng),從而得到更全面、更連續(xù)的物理事件描述。
通過這些海量、連續(xù)的多模態(tài)數(shù)據(jù),可以訓(xùn)練更全面的AI模型,持續(xù)提升機(jī)器在物理世界中的適應(yīng)能力。
打好數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)
以小米汽車為例,目前其產(chǎn)品包括已量產(chǎn)交付近一年的SU7系列、剛剛量產(chǎn)交付的SU7 Ultra以及即將量產(chǎn)的YU7。
在設(shè)計(jì)這些車型時(shí),出于對(duì)物理世界探索和實(shí)踐高階智駕的需求,小米從外觀設(shè)計(jì)以及傳感器選型和安裝上,就保證了不同車型間的硬件一致性,進(jìn)而保證了數(shù)據(jù)在不同車型的通用性,打好規(guī)模化探索物理世界的硬件基礎(chǔ)。
具體來(lái)講,為了實(shí)現(xiàn)環(huán)境的完整觀測(cè)以及全場(chǎng)景智駕功能,(如泊車場(chǎng)景的近距離盲區(qū)覆蓋,高速場(chǎng)景的遠(yuǎn)距離探測(cè),城區(qū)更寬入口的橫向覆蓋等),小米汽車在車身周圍全系標(biāo)配了11顆高清攝像頭,形成車身周圍360度無(wú)盲區(qū)的覆蓋,高配版本也增加了前向激光雷達(dá)。
目前,參與物理世界探索的SU7車隊(duì)規(guī)模已經(jīng)超過18萬(wàn)輛,車隊(duì)規(guī)模以每月超過2萬(wàn)輛的速度快速增長(zhǎng)。去年年底,車隊(duì)每天行駛總里程超過500萬(wàn)公里,目前每天行駛總里程已經(jīng)接近1,000萬(wàn)公里。
當(dāng)然,不同路段的覆蓋頻次并不相同,駕駛里程的快速爬升也帶來(lái)了全場(chǎng)景數(shù)據(jù)的快速累積。
目前,小米已經(jīng)打通全場(chǎng)景智駕的4個(gè)關(guān)鍵能力場(chǎng)景:停車場(chǎng),ETC收費(fèi)站、城區(qū)環(huán)島、鄉(xiāng)村道路。
楊奎元介紹稱,端到端模型需要的訓(xùn)練數(shù)據(jù),以連續(xù)的視頻片段Clip為單位,每個(gè)Clip包含20秒左右的連續(xù)傳感器數(shù)據(jù)。
在去年9月采用端到端模型訓(xùn)練時(shí),小米使用了238萬(wàn)Clips,經(jīng)過4個(gè)月的積累,訓(xùn)練數(shù)據(jù)已經(jīng)增加到了1360萬(wàn)Clips,這也是小米下一個(gè)千萬(wàn)Clips端到端版本所用的訓(xùn)練數(shù)據(jù)量。
物理世界建模的「三大層」
有了豐富的物理世界數(shù)據(jù)后,第二部分就是物理世界建模。
小米將整個(gè)建模分為三層,第一層即為“Ot”(編者注:Data Observation Layer)原始的數(shù)據(jù)觀測(cè)層。該層通過車身上多個(gè)高分辨率傳感器,詳細(xì)記錄真實(shí)場(chǎng)景當(dāng)前狀態(tài)。
第二層即為“Zt”(編者注:Latent Feature Layer),是深度神經(jīng)網(wǎng)絡(luò)的隱式特征層,通過數(shù)據(jù)驅(qū)動(dòng)的方式,形成對(duì)當(dāng)前場(chǎng)景的理解。
第三層即為“St”(編者注:Explicit Symbol Layer),這是方便人理解和操作的顯示符號(hào)層——由于數(shù)據(jù)觀測(cè)層屬于底層表達(dá),機(jī)器無(wú)法直接理解,需要通過模型生成更高層的理解,用于決策規(guī)劃,也就是隱式的特征表示。
中間這幅圖是在BEV空間,將高維隱式特征通過PCA降維后生成的可視
在這一層,模型會(huì)解碼出顯式的符號(hào)表達(dá),如靜態(tài)的車道線斑馬線等動(dòng)態(tài)的行人車輛等,這些也是監(jiān)督學(xué)習(xí)中,人工增值標(biāo)注或者自動(dòng)化增值標(biāo)注的表達(dá)形式。
在端到端范式中,還會(huì)解碼出自身的規(guī)劃軌跡,比如在上圖右一的場(chǎng)景中,綠色軌跡線代表了合理安全的禮讓行為,紅色軌跡線則代表了危險(xiǎn)的不禮讓行為。
不過,「三層建模」只是一種粗粒度的劃分,每一層內(nèi)部還可以細(xì)化為更多的層。比如圖像金字塔中的多層分辨率圖像,深度神經(jīng)網(wǎng)絡(luò)中不同隱層的特征表示等。
對(duì)于上述物理世界建模的三層表示,其具體對(duì)應(yīng)的是深度神經(jīng)網(wǎng)絡(luò)中的輸入層、隱式特征層和輸出層——
數(shù)據(jù)觀測(cè)層作為神經(jīng)網(wǎng)絡(luò)的輸入者,其中包含了圖像點(diǎn)云以及領(lǐng)航功能所需的導(dǎo)航信息,它們通過BEV編碼網(wǎng)絡(luò)得到隱式的特征表達(dá);?
隱式特征層通過不同的解碼器,可以分別得到動(dòng)態(tài)元素、靜態(tài)元素以及自身的未來(lái)軌跡,其中動(dòng)態(tài)元素在場(chǎng)景中分布較為稀疏、局部,且個(gè)體運(yùn)動(dòng)狀態(tài)不同,需要單獨(dú)維護(hù)各自的歷史信息。
基于此,小米使用帶有Memory的Sparse方案(編者注:稀疏特征建模)進(jìn)行建模,靜態(tài)元素則采用了相反的Dense方案(密集建模方案)進(jìn)行建模。
“軌跡是在充分考慮了動(dòng)靜態(tài)信息之后解碼生成的,最終還要通過人工設(shè)計(jì)的cost,融合其他障礙物計(jì)算的碰撞cost、車道線計(jì)算的偏離車道cost,以及橫縱向計(jì)算的舒適性cost,共同用于約束軌跡的合理性。”楊奎元說(shuō)道。
整個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,由人工定義在最后一層的Loss函數(shù),其中包含動(dòng)靜態(tài)元素和真值之間的差異支撐。
「三大層」的作用及進(jìn)展
楊奎元從下到上深入解讀了「數(shù)據(jù)觀測(cè)層,隱私特征層,顯示符號(hào)層」:
數(shù)據(jù)觀測(cè)層典型的信號(hào)就是視頻流。目前,已經(jīng)有了相對(duì)成熟的AI技術(shù)可以使用——如3GDS重建技術(shù)、Diffusion,Autoregression等生成技術(shù),其中就有Sora、英偉達(dá)的Cosmos等生成大模型。
通過直接擬合原始數(shù)據(jù)的概率分布,加上額外使用隱式特征、顯示符號(hào)等控制條件,就可以進(jìn)行原始信號(hào)的生成。
他表示,這些模型目前生成速度較慢,主要在云端仿真物理世界,用于感知的閉環(huán)仿真評(píng)測(cè),以及長(zhǎng)尾數(shù)據(jù)的生成。
這些生成模型通常也需要使用隱式特征,但主要側(cè)重于傳感器細(xì)節(jié)信號(hào)的恢復(fù)。它們?cè)诶斫馊蝿?wù)上性能欠佳,不過最近也有一些工作開始嘗試開發(fā)「同時(shí)用于生成和理解的隱式特征空間」。
由于和模型相關(guān),直接基于隱式特征層進(jìn)行持續(xù)預(yù)測(cè)的工作還不多。在智能駕駛領(lǐng)域,目前還沒有成熟的相應(yīng)基座模型,可以用于生成穩(wěn)定的特征表達(dá)。
顯示符號(hào)層類似自然語(yǔ)言表達(dá),人工可以直接編碼操作,借助人類對(duì)物理世界已經(jīng)具備的建模能力,可以通過規(guī)則代碼的方式和模型結(jié)合,完成時(shí)序上的建模。
例如,后處理經(jīng)常使用的運(yùn)動(dòng)學(xué)模型,如勻速模型、勻加速模型等,還有規(guī)控常用的軌跡采樣搜索和優(yōu)化等。在端到端范式中,顯式符號(hào)層也可以用于顯式定義cost,對(duì)應(yīng)強(qiáng)化學(xué)習(xí)中的Reward驅(qū)動(dòng)策略學(xué)習(xí)。
聯(lián)合「三層」進(jìn)行時(shí)序建模
最近,幾家學(xué)研機(jī)構(gòu)及企業(yè)在顯示符號(hào)層通過增大數(shù)據(jù)量,也驗(yàn)證了Scaling Law對(duì)智駕任務(wù)的有效性。
結(jié)合各層時(shí)序建模的優(yōu)秀實(shí)踐,小米也在嘗試將三層表達(dá)聯(lián)合起來(lái)進(jìn)行時(shí)序建模。
楊奎元表示,在車端推理時(shí),預(yù)測(cè)未來(lái)幀的傳感器數(shù)據(jù)不是必選項(xiàng)。
在云端訓(xùn)練時(shí),離線錄制的未來(lái)幀數(shù)據(jù),便可以提供模型訓(xùn)練的自監(jiān)督信號(hào)。由此,在深度神經(jīng)網(wǎng)絡(luò)模型上,將中間的隱式特征在時(shí)序維度上拓展到未來(lái)幀,由此形成完整的時(shí)空神經(jīng)網(wǎng)絡(luò)模型,統(tǒng)一由數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)。
具體來(lái)說(shuō),由于動(dòng)靜態(tài)元素在未來(lái)幀的變化方式不同,靜態(tài)元素的變化主要和自車運(yùn)動(dòng)相關(guān),而動(dòng)態(tài)元素的變化則由它們各自的運(yùn)動(dòng)和自車運(yùn)動(dòng)共同決定。因此,在未來(lái)幀預(yù)測(cè)變化時(shí),小米同樣對(duì)動(dòng)靜態(tài)元素分開處理。
為了使得上述模型在云端能夠高效訓(xùn)練,在車端能夠高效推理,小米聯(lián)合英偉達(dá)進(jìn)行了大量的工程優(yōu)化。
在云端優(yōu)化上,基于英偉達(dá)Triton重構(gòu)云端推理Pipeline,可將自動(dòng)化標(biāo)注大模型推理的利用率提升了一倍。
基于DALI、CV-CUDA優(yōu)化訓(xùn)練瓶頸,小米將GPU率利用率提升了30%。
另外,由于車端算力相對(duì)有限,小米在模型設(shè)計(jì)時(shí)充分考慮了數(shù)據(jù)的內(nèi)在特性,如稀疏性、2D到3D幾何的對(duì)應(yīng)關(guān)系等,減少了模型不必要的連接。
另外,在最新的Thor平臺(tái)上,整體性能相對(duì)初個(gè)部署版本加速了一倍。為了進(jìn)一步減少GPU的算力消耗,小米將圖像前處理,點(diǎn)云數(shù)據(jù)壓縮,offload的到了VIC、ISP等異構(gòu)計(jì)算單元上。
加緊開發(fā)「千萬(wàn)clips」端到端
在去年年底的技術(shù)發(fā)布會(huì)上,雷軍首次公開了物理世界建模的幾項(xiàng)關(guān)鍵技術(shù)。其中包括適用于不同場(chǎng)景的變焦BEV技術(shù)、應(yīng)對(duì)一般障礙物的超分辨率Occ技術(shù),以及感知決策一體化模型等。
基于物理世界建模能力的提升,加上相應(yīng)的工程落地優(yōu)化,2024年小米在智能駕駛上實(shí)現(xiàn)了「一年追三代」的快速追趕——從基于高精地圖模塊化架構(gòu),到去高精地圖模塊化架構(gòu),再到端到端架構(gòu)。
在場(chǎng)景拓展方面,去年3月份量產(chǎn)交付時(shí),SU7全系搭載了高速領(lǐng)航、主動(dòng)安全、代客泊車、輔助泊車等成熟剛需功能。在后續(xù)OTA升級(jí)中,首先開通了十城的城區(qū)領(lǐng)航,經(jīng)過三個(gè)月拓展到了全國(guó)都能開,以及最新全量推送的端到端全場(chǎng)景智駕。
目前,小米正在持續(xù)開發(fā)基于「千萬(wàn)clips」的端到端版本。
總結(jié)來(lái)看,小米汽車對(duì)于交通場(chǎng)景具備高階智駕能力的量產(chǎn)車,已經(jīng)具備了規(guī)模化探索物理世界的能力,形成了必要的數(shù)據(jù)基礎(chǔ)。同時(shí),借助數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型,已經(jīng)具備系統(tǒng)化建模物理世界的三層時(shí)序模型框架。
在上述物理世界建模能力的基礎(chǔ)上,小米持續(xù)交付的智駕功能有相對(duì)簡(jiǎn)單的高速泊車場(chǎng)景,拓展到了復(fù)雜的城區(qū)場(chǎng)景,近期打通了各場(chǎng)景,形成了全場(chǎng)景車位到車位的完整體驗(yàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.