網易首頁 > 網易號 > 正文申請入駐

小米汽車GTC分享：如何實現智駕「一年追三代」？

2025-03-19 14:59:34　來源: RoboX

北京舉報

分享至

在3月18日的GTC大會上，來自小米汽車自動駕駛與機器人部的專家工程師楊奎元，帶來了主題為「端到端全場景智能駕駛」的演講。

借著小米日前全量OTA推送最新智駕功能，他詳細介紹了小米在打通高速、城區，泊車等不同場景、實現連續智駕背后的技術支撐，其中包括了物理世界探索和物理世界建模，以及工程落地優化。

探索物理世界的全新時代

他認為，根據機器對物理世界探索的參與程度，可以分為兩大階段，第一個探索階段由人類主導，對物理世界的建模也主要依賴于人類的大腦。

在這一階段，典型的信息處理機器（如計算機、手機）沒有自主移動能力，要通過人類整理的文字、圖像、視頻等數字化信息，來獲取物理世界的部分描述。得益于這些人類記錄的海量數據，也驅動了近期大語言模型的迅猛發展。

然而，人類通常只會記錄對自身有價值的信息，例如拍攝有紀念意義的照片，但這對物理世界的記錄并不連續也不完整，也就限制了機器對物理世界的全面認知。

隨著具身智能的發展，機器開始直接參與到物理世界的探索中。比如汽車、機器人等，它們通過傳感器觀測物理世界，通過執行器在物理世界中自主移動，從而得到更全面、更連續的物理事件描述。

通過這些海量、連續的多模態數據，可以訓練更全面的AI模型，持續提升機器在物理世界中的適應能力。

打好數據驅動的基礎

以小米汽車為例，目前其產品包括已量產交付近一年的SU7系列、剛剛量產交付的SU7 Ultra以及即將量產的YU7。

在設計這些車型時，出于對物理世界探索和實踐高階智駕的需求，小米從外觀設計以及傳感器選型和安裝上，就保證了不同車型間的硬件一致性，進而保證了數據在不同車型的通用性，打好規模化探索物理世界的硬件基礎。

具體來講，為了實現環境的完整觀測以及全場景智駕功能，（如泊車場景的近距離盲區覆蓋，高速場景的遠距離探測，城區更寬入口的橫向覆蓋等）,小米汽車在車身周圍全系標配了11顆高清攝像頭，形成車身周圍360度無盲區的覆蓋，高配版本也增加了前向激光雷達。

目前，參與物理世界探索的SU7車隊規模已經超過18萬輛，車隊規模以每月超過2萬輛的速度快速增長。去年年底，車隊每天行駛總里程超過500萬公里，目前每天行駛總里程已經接近1,000萬公里。

當然，不同路段的覆蓋頻次并不相同，駕駛里程的快速爬升也帶來了全場景數據的快速累積。

目前，小米已經打通全場景智駕的4個關鍵能力場景：停車場，ETC收費站、城區環島、鄉村道路。

楊奎元介紹稱，端到端模型需要的訓練數據，以連續的視頻片段Clip為單位，每個Clip包含20秒左右的連續傳感器數據。

在去年9月采用端到端模型訓練時，小米使用了238萬Clips，經過4個月的積累，訓練數據已經增加到了1360萬Clips，這也是小米下一個千萬Clips端到端版本所用的訓練數據量。

物理世界建模的「三大層」

有了豐富的物理世界數據后，第二部分就是物理世界建模。

小米將整個建模分為三層，第一層即為“Ot”（編者注：Data Observation Layer）原始的數據觀測層。該層通過車身上多個高分辨率傳感器，詳細記錄真實場景當前狀態。

第二層即為“Zt”（編者注：Latent Feature Layer），是深度神經網絡的隱式特征層，通過數據驅動的方式，形成對當前場景的理解。

第三層即為“St”（編者注：Explicit Symbol Layer），這是方便人理解和操作的顯示符號層——由于數據觀測層屬于底層表達，機器無法直接理解，需要通過模型生成更高層的理解，用于決策規劃，也就是隱式的特征表示。

中間這幅圖是在BEV空間，將高維隱式特征通過PCA降維后生成的可視

在這一層，模型會解碼出顯式的符號表達，如靜態的車道線斑馬線等動態的行人車輛等，這些也是監督學習中，人工增值標注或者自動化增值標注的表達形式。

在端到端范式中，還會解碼出自身的規劃軌跡，比如在上圖右一的場景中，綠色軌跡線代表了合理安全的禮讓行為，紅色軌跡線則代表了危險的不禮讓行為。

不過，「三層建模」只是一種粗粒度的劃分，每一層內部還可以細化為更多的層。比如圖像金字塔中的多層分辨率圖像，深度神經網絡中不同隱層的特征表示等。

對于上述物理世界建模的三層表示，其具體對應的是深度神經網絡中的輸入層、隱式特征層和輸出層——

數據觀測層作為神經網絡的輸入者，其中包含了圖像點云以及領航功能所需的導航信息，它們通過BEV編碼網絡得到隱式的特征表達；?

隱式特征層通過不同的解碼器，可以分別得到動態元素、靜態元素以及自身的未來軌跡，其中動態元素在場景中分布較為稀疏、局部，且個體運動狀態不同，需要單獨維護各自的歷史信息。

基于此，小米使用帶有Memory的Sparse方案（編者注：稀疏特征建模）進行建模，靜態元素則采用了相反的Dense方案(密集建模方案)進行建模。

“軌跡是在充分考慮了動靜態信息之后解碼生成的，最終還要通過人工設計的cost，融合其他障礙物計算的碰撞cost、車道線計算的偏離車道cost，以及橫縱向計算的舒適性cost，共同用于約束軌跡的合理性。”楊奎元說道。

整個神經網絡的訓練，由人工定義在最后一層的Loss函數，其中包含動靜態元素和真值之間的差異支撐。

「三大層」的作用及進展

楊奎元從下到上深入解讀了「數據觀測層，隱私特征層，顯示符號層」：

數據觀測層典型的信號就是視頻流。目前，已經有了相對成熟的AI技術可以使用——如3GDS重建技術、Diffusion,Autoregression等生成技術，其中就有Sora、英偉達的Cosmos等生成大模型。

通過直接擬合原始數據的概率分布，加上額外使用隱式特征、顯示符號等控制條件，就可以進行原始信號的生成。

他表示，這些模型目前生成速度較慢，主要在云端仿真物理世界，用于感知的閉環仿真評測，以及長尾數據的生成。

這些生成模型通常也需要使用隱式特征，但主要側重于傳感器細節信號的恢復。它們在理解任務上性能欠佳，不過最近也有一些工作開始嘗試開發「同時用于生成和理解的隱式特征空間」。

由于和模型相關，直接基于隱式特征層進行持續預測的工作還不多。在智能駕駛領域，目前還沒有成熟的相應基座模型，可以用于生成穩定的特征表達。

顯示符號層類似自然語言表達，人工可以直接編碼操作，借助人類對物理世界已經具備的建模能力，可以通過規則代碼的方式和模型結合，完成時序上的建模。

例如，后處理經常使用的運動學模型，如勻速模型、勻加速模型等，還有規控常用的軌跡采樣搜索和優化等。在端到端范式中，顯式符號層也可以用于顯式定義cost，對應強化學習中的Reward驅動策略學習。

聯合「三層」進行時序建模

最近,幾家學研機構及企業在顯示符號層通過增大數據量，也驗證了Scaling Law對智駕任務的有效性。

結合各層時序建模的優秀實踐，小米也在嘗試將三層表達聯合起來進行時序建模。

楊奎元表示，在車端推理時，預測未來幀的傳感器數據不是必選項。

在云端訓練時，離線錄制的未來幀數據，便可以提供模型訓練的自監督信號。由此，在深度神經網絡模型上，將中間的隱式特征在時序維度上拓展到未來幀，由此形成完整的時空神經網絡模型，統一由數據驅動學習。

具體來說，由于動靜態元素在未來幀的變化方式不同，靜態元素的變化主要和自車運動相關，而動態元素的變化則由它們各自的運動和自車運動共同決定。因此，在未來幀預測變化時，小米同樣對動靜態元素分開處理。

為了使得上述模型在云端能夠高效訓練，在車端能夠高效推理，小米聯合英偉達進行了大量的工程優化。

在云端優化上，基于英偉達Triton重構云端推理Pipeline，可將自動化標注大模型推理的利用率提升了一倍。

基于DALI、CV-CUDA優化訓練瓶頸，小米將GPU率利用率提升了30%。

另外，由于車端算力相對有限，小米在模型設計時充分考慮了數據的內在特性，如稀疏性、2D到3D幾何的對應關系等，減少了模型不必要的連接。

另外，在最新的Thor平臺上，整體性能相對初個部署版本加速了一倍。為了進一步減少GPU的算力消耗，小米將圖像前處理，點云數據壓縮，offload的到了VIC、ISP等異構計算單元上。

加緊開發「千萬clips」端到端

在去年年底的技術發布會上，雷軍首次公開了物理世界建模的幾項關鍵技術。其中包括適用于不同場景的變焦BEV技術、應對一般障礙物的超分辨率Occ技術，以及感知決策一體化模型等。

基于物理世界建模能力的提升，加上相應的工程落地優化，2024年小米在智能駕駛上實現了「一年追三代」的快速追趕——從基于高精地圖模塊化架構，到去高精地圖模塊化架構，再到端到端架構。

在場景拓展方面，去年3月份量產交付時，SU7全系搭載了高速領航、主動安全、代客泊車、輔助泊車等成熟剛需功能。在后續OTA升級中，首先開通了十城的城區領航，經過三個月拓展到了全國都能開，以及最新全量推送的端到端全場景智駕。

目前，小米正在持續開發基于「千萬clips」的端到端版本。

總結來看，小米汽車對于交通場景具備高階智駕能力的量產車，已經具備了規模化探索物理世界的能力，形成了必要的數據基礎。同時，借助數據驅動的深度學習模型，已經具備系統化建模物理世界的三層時序模型框架。

在上述物理世界建模能力的基礎上，小米持續交付的智駕功能有相對簡單的高速泊車場景，拓展到了復雜的城區場景，近期打通了各場景，形成了全場景車位到車位的完整體驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Ilya塵封10年錄音曝光！大二入Hinton門下，竟坦言機器學習反直覺

新智元 2025-07-04 08:34:23
1 跟貼 1
蘋果港大終結自回歸時代？7B擴散模型發布，AI寫代碼邏輯徹底顛覆！

新智元 2025-07-04 18:56:48
1 跟貼 1

人機協同篩出2600萬條數據,七項基準SOTA,昆侖萬維獎勵模型新突破

機器之心Pro 2025-07-04 10:55:11
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
清華Nature論文顛覆認知，揭示共享神經動態或成智能體通用法則

DeepTech深科技 2025-07-03 16:28:25
1 跟貼 1

全球AI失業大逃殺：25年已裁94000人！微軟高管：被裁可用AI管理情緒

新智元 2025-07-05 13:22:44
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
2 跟貼 2
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0

老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
李飛飛萬字訪談：空間智能是 AI 的下一個前沿領域

愛范兒 2025-07-04 16:27:24
0 跟貼 0
CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
DeepSeek降本秘訣曝光：2招極致壓榨推理部署，算力全留給內部AGI研究

36氪 2025-07-05 10:35:07
0 跟貼 0
揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
468 跟貼 468
余弦相似度可能沒用？對于某些線性模型，相似度甚至不唯一

機器之心Pro 2025-01-14 14:34:09
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
硅谷掀AI人才爭奪戰：Meta開四年3億美元薪酬，全球頂尖專家不足千人

每日經濟新聞 2025-07-05 13:33:16
0 跟貼 0
傾聽尼山2025|漢伊理：使人工智能成為推動文明共生的催化劑

經濟觀察報 2025-07-05 14:24:56
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
馬斯克賭上全部身家！特斯拉暴跌后竟要單挑兩黨格局

其鈞觀點 2025-07-02 21:52:15
1 跟貼 1
何小鵬和雷軍真正的塑料兄弟

雷科技 2025-06-06 21:23:05
0 跟貼 0
主機都快輸麻了，微軟為什么還要去掌機行業“送人頭”？

差評XPIN 2025-07-01 19:30:00
3 跟貼 3
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
223 跟貼 223
蔡崇信∶很幸運能為蘋果提供AI服務

財聯社 2025-02-13 16:19:09
1 跟貼 1
大陸點名4大行業治理低價內卷！蔡正元：我難得贊美大陸

人猿星球觀察 2025-07-03 12:58:44
0 跟貼 0
小米15S Pro開箱！第一視角感受國產芯片的美麗

雷科技 2025-05-22 23:33:28
0 跟貼 0
靜悄悄的餓了么，戰斗力到底有多強？

華商韜略 2025-04-30 14:18:35
0 跟貼 0
比亞迪版圖大起底，實力超乎你的想象

華商韜略 2025-02-11 17:11:11
124 跟貼 124
對比評測拆解4款熱門快充排插，綠聯、公牛、小米、德力西誰的做工更好？

拆解達人 2025-06-30 20:01:50
0 跟貼 0
方向盤成餐桌？如此“智駕”，扣分、罰款！

環球網資訊 2025-07-05 08:23:03
0 跟貼 0
特斯拉購車補貼灰飛煙滅，馬斯克徹底被激怒

書寫傳奇 2025-07-04 01:21:39
0 跟貼 0
吉利控股副總裁楊學良：長城汽車魏建軍是行業吹哨人

每日經濟新聞 2025-06-07 16:30:19
158 跟貼 158
黃金界愛馬仕，老鋪黃金憑啥爆火？

華商韜略 2025-05-07 16:05:00
35 跟貼 35
雷軍：只花了5分鐘決定小米YU7價格

財聯社 2025-07-02 21:25:36
0 跟貼 0
首次，用自然語言解釋圖神經網絡 | ACL 2025

新智元 2025-07-04 13:27:21
0 跟貼 0
雷軍開掛被實錘了！

雷科技 2025-05-30 19:21:25
0 跟貼 0
打破高速通行最后關卡！比亞迪天神之眼B開通智駕自動通行ETC能力

開關Monarch 2025-07-05 09:01:04
0 跟貼 0
航空發動機用上大模型：解決復雜時序問題，性能超越ChatGPT-4o

量子位 2025-06-28 12:58:12
0 跟貼 0
雷軍回應小米YU7交付要等一年，著急用車的用戶可以考慮小鵬G7

今日消費 2025-07-03 16:48:20
0 跟貼 0

RoboX

關注智能汽車、機器人在內的具身智能前沿科技

151文章數 1關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

親子

本地

家居

建筑地標如何成為城市人才匯聚的 “強磁場”？

家居要聞

手機 / 數碼

房產 / 家居

小米汽車GTC分享：如何實現智駕「一年追三代」？

馬斯克吹上天的Cybertruck 為何"徹底失敗"

問界車主開智駕致碰擦要求逾百萬賠償 售后：訴求過高

問界車主開智駕致碰擦要求逾百萬賠償 售后：訴求過高

史上最真實的F1電影，是怎么拍出來的？

汪小菲反擊！曝向具俊曄提出財產追回

特朗普簽署 美國萬億減稅支出法來了

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀念版上市

態度原創

重磅發布！海南樓市2025上半年Top10榜單出爐！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

建筑地標如何成為城市人才匯聚的 “強磁場”？

合理布局 三口之家的溫馨空間

問界車主開智駕致碰擦要求逾百萬賠償售后：訴求過高

問界車主開智駕致碰擦要求逾百萬賠償售后：訴求過高

特朗普簽署美國萬億減稅支出法來了

31.6萬元起售蔚來新ET5/ET5T/EC6冠軍紀念版上市

合理布局三口之家的溫馨空間