在3月18日的GTC大會上,來自小米汽車自動駕駛與機器人部的專家工程師楊奎元,帶來了主題為「端到端全場景智能駕駛」的演講。
借著小米日前全量OTA推送最新智駕功能,他詳細介紹了小米在打通高速、城區,泊車等不同場景、實現連續智駕背后的技術支撐,其中包括了物理世界探索和物理世界建模,以及工程落地優化。
探索物理世界的全新時代
他認為,根據機器對物理世界探索的參與程度,可以分為兩大階段,第一個探索階段由人類主導,對物理世界的建模也主要依賴于人類的大腦。
在這一階段,典型的信息處理機器(如計算機、手機)沒有自主移動能力,要通過人類整理的文字、圖像、視頻等數字化信息,來獲取物理世界的部分描述。得益于這些人類記錄的海量數據,也驅動了近期大語言模型的迅猛發展。
然而,人類通常只會記錄對自身有價值的信息,例如拍攝有紀念意義的照片,但這對物理世界的記錄并不連續也不完整,也就限制了機器對物理世界的全面認知。
隨著具身智能的發展,機器開始直接參與到物理世界的探索中。比如汽車、機器人等,它們通過傳感器觀測物理世界,通過執行器在物理世界中自主移動,從而得到更全面、更連續的物理事件描述。
通過這些海量、連續的多模態數據,可以訓練更全面的AI模型,持續提升機器在物理世界中的適應能力。
打好數據驅動的基礎
以小米汽車為例,目前其產品包括已量產交付近一年的SU7系列、剛剛量產交付的SU7 Ultra以及即將量產的YU7。
在設計這些車型時,出于對物理世界探索和實踐高階智駕的需求,小米從外觀設計以及傳感器選型和安裝上,就保證了不同車型間的硬件一致性,進而保證了數據在不同車型的通用性,打好規模化探索物理世界的硬件基礎。
具體來講,為了實現環境的完整觀測以及全場景智駕功能,(如泊車場景的近距離盲區覆蓋,高速場景的遠距離探測,城區更寬入口的橫向覆蓋等),小米汽車在車身周圍全系標配了11顆高清攝像頭,形成車身周圍360度無盲區的覆蓋,高配版本也增加了前向激光雷達。
目前,參與物理世界探索的SU7車隊規模已經超過18萬輛,車隊規模以每月超過2萬輛的速度快速增長。去年年底,車隊每天行駛總里程超過500萬公里,目前每天行駛總里程已經接近1,000萬公里。
當然,不同路段的覆蓋頻次并不相同,駕駛里程的快速爬升也帶來了全場景數據的快速累積。
目前,小米已經打通全場景智駕的4個關鍵能力場景:停車場,ETC收費站、城區環島、鄉村道路。
楊奎元介紹稱,端到端模型需要的訓練數據,以連續的視頻片段Clip為單位,每個Clip包含20秒左右的連續傳感器數據。
在去年9月采用端到端模型訓練時,小米使用了238萬Clips,經過4個月的積累,訓練數據已經增加到了1360萬Clips,這也是小米下一個千萬Clips端到端版本所用的訓練數據量。
物理世界建模的「三大層」
有了豐富的物理世界數據后,第二部分就是物理世界建模。
小米將整個建模分為三層,第一層即為“Ot”(編者注:Data Observation Layer)原始的數據觀測層。該層通過車身上多個高分辨率傳感器,詳細記錄真實場景當前狀態。
第二層即為“Zt”(編者注:Latent Feature Layer),是深度神經網絡的隱式特征層,通過數據驅動的方式,形成對當前場景的理解。
第三層即為“St”(編者注:Explicit Symbol Layer),這是方便人理解和操作的顯示符號層——由于數據觀測層屬于底層表達,機器無法直接理解,需要通過模型生成更高層的理解,用于決策規劃,也就是隱式的特征表示。
中間這幅圖是在BEV空間,將高維隱式特征通過PCA降維后生成的可視
在這一層,模型會解碼出顯式的符號表達,如靜態的車道線斑馬線等動態的行人車輛等,這些也是監督學習中,人工增值標注或者自動化增值標注的表達形式。
在端到端范式中,還會解碼出自身的規劃軌跡,比如在上圖右一的場景中,綠色軌跡線代表了合理安全的禮讓行為,紅色軌跡線則代表了危險的不禮讓行為。
不過,「三層建模」只是一種粗粒度的劃分,每一層內部還可以細化為更多的層。比如圖像金字塔中的多層分辨率圖像,深度神經網絡中不同隱層的特征表示等。
對于上述物理世界建模的三層表示,其具體對應的是深度神經網絡中的輸入層、隱式特征層和輸出層——
數據觀測層作為神經網絡的輸入者,其中包含了圖像點云以及領航功能所需的導航信息,它們通過BEV編碼網絡得到隱式的特征表達;?
隱式特征層通過不同的解碼器,可以分別得到動態元素、靜態元素以及自身的未來軌跡,其中動態元素在場景中分布較為稀疏、局部,且個體運動狀態不同,需要單獨維護各自的歷史信息。
基于此,小米使用帶有Memory的Sparse方案(編者注:稀疏特征建模)進行建模,靜態元素則采用了相反的Dense方案(密集建模方案)進行建模。
“軌跡是在充分考慮了動靜態信息之后解碼生成的,最終還要通過人工設計的cost,融合其他障礙物計算的碰撞cost、車道線計算的偏離車道cost,以及橫縱向計算的舒適性cost,共同用于約束軌跡的合理性。”楊奎元說道。
整個神經網絡的訓練,由人工定義在最后一層的Loss函數,其中包含動靜態元素和真值之間的差異支撐。
「三大層」的作用及進展
楊奎元從下到上深入解讀了「數據觀測層,隱私特征層,顯示符號層」:
數據觀測層典型的信號就是視頻流。目前,已經有了相對成熟的AI技術可以使用——如3GDS重建技術、Diffusion,Autoregression等生成技術,其中就有Sora、英偉達的Cosmos等生成大模型。
通過直接擬合原始數據的概率分布,加上額外使用隱式特征、顯示符號等控制條件,就可以進行原始信號的生成。
他表示,這些模型目前生成速度較慢,主要在云端仿真物理世界,用于感知的閉環仿真評測,以及長尾數據的生成。
這些生成模型通常也需要使用隱式特征,但主要側重于傳感器細節信號的恢復。它們在理解任務上性能欠佳,不過最近也有一些工作開始嘗試開發「同時用于生成和理解的隱式特征空間」。
由于和模型相關,直接基于隱式特征層進行持續預測的工作還不多。在智能駕駛領域,目前還沒有成熟的相應基座模型,可以用于生成穩定的特征表達。
顯示符號層類似自然語言表達,人工可以直接編碼操作,借助人類對物理世界已經具備的建模能力,可以通過規則代碼的方式和模型結合,完成時序上的建模。
例如,后處理經常使用的運動學模型,如勻速模型、勻加速模型等,還有規控常用的軌跡采樣搜索和優化等。在端到端范式中,顯式符號層也可以用于顯式定義cost,對應強化學習中的Reward驅動策略學習。
聯合「三層」進行時序建模
最近,幾家學研機構及企業在顯示符號層通過增大數據量,也驗證了Scaling Law對智駕任務的有效性。
結合各層時序建模的優秀實踐,小米也在嘗試將三層表達聯合起來進行時序建模。
楊奎元表示,在車端推理時,預測未來幀的傳感器數據不是必選項。
在云端訓練時,離線錄制的未來幀數據,便可以提供模型訓練的自監督信號。由此,在深度神經網絡模型上,將中間的隱式特征在時序維度上拓展到未來幀,由此形成完整的時空神經網絡模型,統一由數據驅動學習。
具體來說,由于動靜態元素在未來幀的變化方式不同,靜態元素的變化主要和自車運動相關,而動態元素的變化則由它們各自的運動和自車運動共同決定。因此,在未來幀預測變化時,小米同樣對動靜態元素分開處理。
為了使得上述模型在云端能夠高效訓練,在車端能夠高效推理,小米聯合英偉達進行了大量的工程優化。
在云端優化上,基于英偉達Triton重構云端推理Pipeline,可將自動化標注大模型推理的利用率提升了一倍。
基于DALI、CV-CUDA優化訓練瓶頸,小米將GPU率利用率提升了30%。
另外,由于車端算力相對有限,小米在模型設計時充分考慮了數據的內在特性,如稀疏性、2D到3D幾何的對應關系等,減少了模型不必要的連接。
另外,在最新的Thor平臺上,整體性能相對初個部署版本加速了一倍。為了進一步減少GPU的算力消耗,小米將圖像前處理,點云數據壓縮,offload的到了VIC、ISP等異構計算單元上。
加緊開發「千萬clips」端到端
在去年年底的技術發布會上,雷軍首次公開了物理世界建模的幾項關鍵技術。其中包括適用于不同場景的變焦BEV技術、應對一般障礙物的超分辨率Occ技術,以及感知決策一體化模型等。
基于物理世界建模能力的提升,加上相應的工程落地優化,2024年小米在智能駕駛上實現了「一年追三代」的快速追趕——從基于高精地圖模塊化架構,到去高精地圖模塊化架構,再到端到端架構。
在場景拓展方面,去年3月份量產交付時,SU7全系搭載了高速領航、主動安全、代客泊車、輔助泊車等成熟剛需功能。在后續OTA升級中,首先開通了十城的城區領航,經過三個月拓展到了全國都能開,以及最新全量推送的端到端全場景智駕。
目前,小米正在持續開發基于「千萬clips」的端到端版本。
總結來看,小米汽車對于交通場景具備高階智駕能力的量產車,已經具備了規模化探索物理世界的能力,形成了必要的數據基礎。同時,借助數據驅動的深度學習模型,已經具備系統化建模物理世界的三層時序模型框架。
在上述物理世界建模能力的基礎上,小米持續交付的智駕功能有相對簡單的高速泊車場景,拓展到了復雜的城區場景,近期打通了各場景,形成了全場景車位到車位的完整體驗。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.