理想汽車的「司機大模型」到底是什么？我們試著聽懂了

2025-05-08 21:01:08　來源: 42號車庫

上海舉報

分享至

時隔 130 天，理想 AI Talk 昨晚正式回歸。面對張小珺的犀利提問，理想汽車創(chuàng)始人、董事長兼 CEO 李想傳遞出了兩大核心內容，第一是詳解即將落地的 VLA 大模型到底是什么，第二是談了談李想創(chuàng)業(yè)的最新思考。

實際上，在 2024 年底的 AI Talk 中，李想已經(jīng)宣布，理想不是汽車企業(yè)，是人工智能企業(yè)。在過去幾個月時間里，DeepSeek 火遍全球，機器人行業(yè)迎來前所未有的熱度。定位為人工智能企業(yè)的理想汽車，最近幾個月的核心成果就是 VLA （視覺-語言-動作）大模型。

最新公布的視頻顯示，基于 VLA 模型的輔助駕駛系統(tǒng)，駕駛員可以用語音操控車輛，包括走收費站的人工通道、掉頭、靠邊停車、停在停車場的 C3 區(qū)域等等，這都是輔助駕駛從未有過的體驗。

李想說：「VLA 能夠解決到全自動駕駛，甚至有機會能夠超越人類。」

不過，如今輔助駕駛正處于一個新的十字路口，甚至業(yè)內有輔助駕駛應該被叫停的聲音。但李想?yún)s認為，這就像是黎明前的黑暗，理想就是要去解決行業(yè)解決不了的問題，就像是增程解決充電難、電池成本高的問題，5C 解決充電慢、等待時間長的問題一樣。

只不過，理想和業(yè)內頭部的幾家企業(yè)相同，走進了還無人能做到量產(chǎn)的「無人區(qū)」，按李想的話來說：「DeepSeek 沒走過，OpenAI 沒走過，谷歌、Waymo 也沒走過。」

那么 VLA 究竟是什么，理想為什么會做 VLA，這項技術如何落地，在昨晚的 AI Talk 中，李想作出了非常詳細的解讀。從本期 AI Talk 中，我們也能清楚地看到理想汽車如何從輔助駕駛的追隨者逆襲成為領先者的。

VLA 拉高輔助駕駛能力上限

今年 3 月，理想汽車在 NVIDIA GTC 2025 大會上推出了新一代自動駕駛技術——MindVLA 大模型。當時理想發(fā)布了三個視頻展示了 MindVLA 的三大功能：

用語音說找星巴克，車輛可以自己去找，期間還能用語音控制車輛的速度和左轉右轉方向。
在地面拍照給 MindVLA，車輛從地庫出發(fā)，自主通過閘機，利用視覺感知判斷接人的地點，甚至車主直接坐上了副駕駛座。
地下車庫讓 MindVLA 漫游，自主找車位，如果遇到「死胡同」，還能自己倒車。

昨晚的 AI Talk 第二季上，李想再度放出了 VLA 模型的另外幾項功能，在輔助駕駛狀態(tài)下，駕駛員說出的駕駛指令，車輛全都能很好地執(zhí)行。

當真正體驗到這些功能的時候，李想本人并沒有覺得是個 Aha Moment（驚喜時刻），反倒覺得輔助駕駛很像人，這是個正常的表現(xiàn)。但我相信，我們作為普通用戶第一次看到 VLA 的測試視頻的時候，還是會驚訝于它的表現(xiàn)。

很明顯，VLA 能夠再度拉高輔助駕駛的能力上限。與此同時，VLA 也已被認為是 2025 年輔助駕駛發(fā)展的標志性技術突破。

VLA 的突破有多大，李想將輔助駕駛拆解成了三個發(fā)展階段，用自然界中不同的物種進行了形象的比喻：

第一階段，昆蟲動物智能。對應規(guī)則算法 + 高精地圖的輔助駕駛時代，類似螞蟻的行動和完成任務的方式。
第二階段，哺乳動物智能。也就是端到端 + VLM 時代。大模型學習人類的駕駛行為（類似馬戲團的動物），但對物理世界的理解并不充分，難以解決從未遇到過的問題。VLM 也只能起到輔助作用。
第三階段，人類智能。VLA 階段可以實現(xiàn)類似人類觀察世界的方式，同時 VLA 擁有自己的腦系統(tǒng)，進一步理解物理世界，還具備語言和思維鏈系統(tǒng)，也就是 VLA 的司機大模型。

從目前的「端到端 + VLM」雙模型，到 VLA 將空間智能、語言智能、行為智能統(tǒng)一到一個模型中，VLA 究竟是什么，它僅僅是把端到端和 VLM 合二為一了嗎？

李想認為，在輔助駕駛領域， VLA 是一個司機大模型，是個像人類的司機一樣去工作的一個模型。對于用戶來說，VLA 的目標就是成為「司機 Agent（智能體）」，正如此前視頻中展示的，車輛成為能與用戶溝通、理解用戶意圖的智能體。

從技術上來講，VLA 相對此前的端到端 + VLM 架構，所有模塊都通過了全新的設計。其中，3D 空間編碼器通過語言模型，和邏輯推理結合在一起后，給出合理的駕駛決策，并輸出一組 action token（動作詞元）。這個 action token 指的是對周圍環(huán)境和自車駕駛行為的編碼，并通過 diffusion（擴散模型）進一步優(yōu)化出最佳的駕駛軌跡，整個推理過程都要發(fā)生在車端，并且要做到實時運行。

有了 VLA 的技術路徑，接下來就是量產(chǎn)落地。李想談到：「DeepSeek 一開源，我們就加速了 9 個月的時間（做出 VLA）。」

而李想原本的計劃，是在今年年底做出一個滿足需求的 VLA 模型。

李想回憶，去年 9 月，ChatGPT o1 發(fā)布的前幾天，他曾經(jīng)和 DeepSeek 創(chuàng)始人梁文鋒有過一次談話。一方面，他認為梁文鋒非常自律，另一方面，梁文鋒是一個會在全世界范圍之內去研究和學習最佳實踐和最好的方法論的人。

也正是 DeepSeek 給理想汽車帶來的巨大收益和幫助，讓李想決定開源整車操作系統(tǒng)星環(huán) OS。「說白了，純粹是感謝 DeepSeek。」李想說道。

理想走的是無人區(qū)

今年 2 月 5 日，春節(jié)假期后的第一個工作日，李想汽車內部開了一個 AI 相關的例會。李想當時在會上說道，DeepSeek 更像是 Linux 的推出，而理想則是要去追逐「安卓」時刻。

李想希望，理想汽車的 VLA 模型就是要把 vision（視覺）做強，把 action（動作）也做好，同時借助 language（語言）。在整個汽車/交通領域中，VLA 是個更重要的大模型，這就是理想的機會所在。

李想的策略是，一方面擁抱 DeepSeek，另一方面也要做自己的基座模型。這是因為在訓練 VLA 的過程中，輔助駕駛所需的 vision、language 和其他行業(yè)都不相同，同時要把 V 和 L 組合在一起。這無論是對于 OpenAI 還是 DeepSeek 來說都沒有這樣的數(shù)據(jù)，也沒有這樣的場景和需求，因此理想必須自己做。

為了訓練基座模型，理想今年采購的訓練卡比預期多買了 3 倍。

目前，理想汽車為「理想同學」訓練了 300B 參數(shù)的模型，VLA 模型中 VL 的部分，則是個 32B 參數(shù)的模型。

有了基座模型之后，才完成了 VLA 模型訓練的第一步，也就是預訓練。

VLA 訓練的第二步是后訓練，變成 VLA（司機大模型）。此時要把 action 放進訓練模型中。這其實仍然是一種模仿學習，就像是去駕校學開車。李想介紹：「這個時候大概模型規(guī)模就會從 3.2B 大概擴大到接近 4B。」

這時候，VLA 就能直接從視覺感知，到理解，直至最后的動作輸出。李想特別提到，不會做長思維鏈，一般是兩步到三步，否則長時延會無法滿足安全性。另外，當 action 完成后，VLA 還會根據(jù)性能做 4 - 8 秒的擴散模型（difussion），預測軌跡和環(huán)境。

VLA 訓練的第三步則是做強化的訓練，這一階段就比較像人到社會上開車了。強化分成兩個部分，第一個部分先做 RLHF（基于人類反饋的強化學習學習），帶有人類反饋。第二個部分是純粹的 RL（強化學習），拿 RL 模型放到理想的世界模型中做訓練。這一步驟的目的是讓車開得比人類更好。在訓練指標上，理想會通過 G 值來判斷輔助駕駛的舒適性，同時做碰撞的反饋，還有交通規(guī)則的反饋。

當這三個步驟完成了以后，VLA 能夠跑在車端的模型其實就產(chǎn)生了。

最后，理想還要搭建一個司機 Agent（智能體），實現(xiàn)車內駕駛員用自然語言「教」輔助駕駛系統(tǒng)應該如何開車。

訓練 VLA 的復雜過程中，李想也無法回答究竟哪個步驟最困難。李想說道：「我覺得沒有辦法預測。因為這些東西我們前面沒有任何人走過這條路。DeepSeek 也沒走過這條路，然后 OpenAI 也沒有走過這條路，谷歌、Waymo 也沒有走過這條路。我們其實走的是一個無人區(qū)。」

不過，除了理想汽車之外，如今 VLA 這個無人區(qū)也有了不止一個玩家加入，共同角逐 VLA 量產(chǎn)。

無法跳過端到端實現(xiàn) VLA

談到 VLA 的終極指標，李想認為要把 VLA 模型和司機 Agent 放在一起看。其中，VLA 的判斷標準和人類駕駛水平相同，大致可以分為三方面：開車能力強不強（模型強不強）、是否職業(yè)，以及是否安全。另一方面，通過 Agent 和記憶來構建信任與理解的關系。

最終 VLA 和司機 Agent 共同作用，才是能夠給用戶使用的產(chǎn)品。

甚至李想認為，VLA 能夠解決到全自動駕駛，它就是現(xiàn)階段能力最強的架構，它最接近人類，甚至有機會超越人類駕駛能力。只不過，VLA 是否是最高效的方案，還需要打一個問號。

既然 VLA 這么強，是不是意味著跳過去年的端到端，一步到位 VLA 才是正確路徑呢？

李想并不這樣認為。根據(jù)理想汽車自身的經(jīng)驗，跳過端到端實現(xiàn) VLA 根本不可行。實際上，算到端是 VLA 的基礎。「我說不太好聽的話，就是沒有辦法直接吃第十個包子。雖然可能大家覺得第十個包子吃飽了，但前面每個包子其實都跳不過去。」李想說道，「不是膽大大于一切，我看不到什么捷徑。包括今天很多企業(yè)做端到端都很吃力，因為在規(guī)則算法時候都沒做好。」

李想押注 VLA 其實還有個重要原因，那就是他認為 VLA 最先落地的領域就是交通場景。一方面，車輛行駛環(huán)境雖然復雜，但規(guī)則是清楚的。車只能開在有路的地方，不可能是天上，也不可能是水里。另一方面，車只有三個自由度（前后、左右、旋轉），而機器人「上來就是 40 個自由度」，挑戰(zhàn)就更大了。還有一方面，車內的舒適度，G 值可以體現(xiàn)；是否違反交規(guī)，有明確的規(guī)則；是否碰撞，同樣有明確的指標，李想認為在這幾個指標之下，輔助駕駛會越開越好。

此外，安全是輔助駕駛永恒的話題。這方面，理想去年年底成立了一個 100 多人的「超級對齊」團隊，專門解決模型安全問題。

在做到了 1,000 萬 Clips （視頻片段）之后，偶爾會發(fā)現(xiàn)因為模型能力太強，導致給車內人員不安全感。比如，輔助駕駛系統(tǒng)可能在交通擁堵中加塞，李想分析，它可能學到了一些不該學的司機的行為。

李想將模型安全的能力與員工招聘作了類比：「比如說我招一個員工，或者我是否認可一個員工，一個是看他的專業(yè)能力，第二是看他的職業(yè)性，然后我覺得第三個是看他其實對別人理解和構建信任的能力，比如這三個都很好，我覺得就是最卓越的員工。」

理想十周年，仍在學習特斯拉和蘋果

今年 7 月，理想汽車將迎來十歲生日。回顧這一段創(chuàng)業(yè)經(jīng)歷，李想講到了這幾個時間節(jié)點：

2018 年理想 ONE 第一次發(fā)布，到 2019 年 4 月上海車展發(fā)布價格。理想是從什么都沒有開始做的。
2022 年理想 L9 發(fā)布。直至 2025 年的今天，至少有 5 個以上的企業(yè)在打造和理想 L9 相同的產(chǎn)品。
理想 L9 發(fā)布之后，理想單季度虧損接近 20 億，「倒閉」之聲不絕于耳。
2023 年獲得接近 3 倍的增長，做到了 1,200 億的收入。

李想說道：「如果按時間軸而言，肯定苦更多，但是吃苦多了也就習慣了。」

與此同時，李想也談到，在今天內卷的環(huán)境下，包括外部不確定的環(huán)境下，更是每個企業(yè)扎扎實實練基本功最好的時候。「我覺得美國的很多的頂級的公司，像蘋果，像特斯拉這種企業(yè)，就是他們基本功特別扎實。」

今年，特斯拉為中國用戶推送了 FSD 功能，李想判斷，特斯拉大概在用 12.5 之前的模型，與特斯拉的真實能力還有巨大的差距。但同時也能看到，特斯拉的基本功是非常扎實的，包括它感知的距離，運行的幀率，車輛控制的穩(wěn)定性。

不過，李想也預測特斯拉沒能具體學習中國路況，如果直接上 13.0 以后的端到端，還是會遇到挑戰(zhàn)。

談到蘋果，李想表示：「當你做到千億收入，再去看這種萬億收入公司的能力的時候，你開始模模糊糊能看懂一些了。但是我們很小規(guī)模的時候，我們看不懂蘋果為什么這么做。」

李想認為，今天他 90% 的狀態(tài)、思維方式和高中時候差不多。也就是遇到問題去解決問題、解決別人不愿意解決的問題、解決消費者遇到的最大的問題、去找更多的人學習。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.