網易首頁 > 網易號 > 正文申請入駐

李想「不想造車」的背后，其實是想造「司機 Agent」

2025-05-07 23:23:14　來源: 極客公園

北京舉報

分享至

李想認為，理想汽車的智能化原創性已超增程。

作者｜曹思頎周永亮
編輯｜靖宇

五個月前，李想高調地宣布了將 All in AI，表示理想要從一家智能汽車公司，轉型邁向一家人工智能科技公司。

而這次，李想帶著全新的 VLA（Vision-Language-Action）模型走到了公眾面前。此前，VLA 已經在 3 月的英偉達 GTC 大會上首次發布，它是理想汽車去年在輔助駕駛領域「端到端+VLM」的雙系統架構上進化而來的新架構。

智能化，既是理想近年來最希望打造的標簽，也是重點投入研發的方向。理想 2025 年產品的核心點都主要圍繞智能化升級升級展開，李想曾在內部說：

「理想的智駕原創性，超過了增程」。

因此，推出全新的 VLA 架構模型，李想希望讓輔助駕駛進化出類似人類司機的能力。在李想看來，VLA 是理想的「司機大模型」（或「司機 Agent」），他希望這個模型/智能體能像人類司機一樣工作，將來也能像人類司機那樣創造商業價值。

在 demo 演示視頻里，理想的這個「司機 Agent」展示了和人類司機類似的智能能力：不僅具備現有的優秀輔助駕駛能力，而且還能直接通過語音的方式和人類駕駛員高效交互。

在通過高速收費站時，直接說出「走人工」三個字，系統就可以從 ETC 收費通道轉向人工收費通道；在日常駕駛和泊車環節，也可以通過「前方掉頭」、「C 區停車」、「靠邊停車」等簡單指令，調整行車或泊車的路線，達到了我們日常和網約車或代駕司機溝通的水準。

輔助駕駛再進化：從「雙系統」到 VLA

經過了十幾年的發展，輔助駕駛經歷了多次迭代。其架構演進大致可分為模塊化?案（2022 年之前）、端到端感知（2023 年）、VLM+E2E （2024 年）。

總的來說，自動駕駛大腦的設計從「各自為政」的小團隊，進化到「邊看邊學」的超級學生，再到「常識+行動」的嘗試。

如今，輔助駕駛又來到新的十字路口—— VLA。這也是理想 AI Talk 第二季的重點。基于此，李想認為，輔助駕駛處于「黎明前的黑暗」，黎明馬上就要來了。

其實，2025 年 3 月的英偉達 GTC 大會上，理想就發布了下一代自動駕駛架構 VLA。這里稍微介紹一下，VLA 最早是由 Google DeepMind 在 2023 年 7 月提出的用于機器人控制的模型，其以大語言模型為基礎，模型在接收攝像頭的原始數據和語言指令后，可以直接輸出控制信號，完成各種復雜的操作。

對于理想汽車而言，李想表示，VLA 是一個「司機大模型」，它像人類司機一樣工作。同時，李想強調，VLA 的誕生不是突變，而是進化。

簡單說，VLA 并非拋棄端到端，而是將其作為 VLA 行動（A）部分的基礎。只有做好規則算法，才能知道如何做端到端，只有把端到端做到極致水平，才有機會去做 VLA，這個過程沒有捷徑。

他詳細闡述了訓練 VLA 的四個步驟，這有點像人類學開車的過程。

VLA 司機大模型的訓練和推理過程 | 圖片來源：直播截圖

第一步是預訓練，就像去駕校前先學交規、認路標，這一步的目標是讓AI擁有對世界和交通的基礎認知。理想先訓練了一個 VL（視覺和語言）基座模型。然后，它會被「壓縮」（蒸餾）成一個更小、能更快運行的模型（約 32B 參數），這樣它才能流暢地跑在汽車里的車端芯片上。

第二步是后訓練，像在駕校里跟著教練練車。工程師讓 AI 觀看大量人類司機開車的視頻，學習模仿他們的操作。把會「看」和「聽」的模型，跟學會了「行動」的模型結合起來，形成一個初級的 VLA「端到端」模型。

第三步是強化訓練，像拿到駕照后，在社會上不斷磨練提升，成為經驗豐富的「老司機」。這個過程要經過兩個考驗：第一，參考大量人類司機的駕駛數據。當它做得好時得到「鼓勵」，做得不好的時候，比如讓人類接管了，得到「反饋」。

同時，理想汽車搭建了一個非常逼真的虛擬「交通世界」，有點像一個超高水平的模擬器，讓AI在里面自己練習。

最后，有了這個 VLA「司機大腦」后，理想汽車還設計了一個「司機Agent」。用戶可以像跟你自己的司機說話一樣，用自然語言告訴車想去哪、怎么開，Agent 會把你的指令傳達給 VLA，讓它去執行。

不過，李想也表示，VLA（司機大模型）能夠解決到全自動駕駛，但未來可能還有效率更高的架構。雖然目前的 Transformer 是能力最強的架構，甚至有機會超過人類，但它對算力的要求還是很高。這也意味著 VLA 可能并非終極解決方案，未來的技術演進仍充滿變數。

擁抱開源，感謝 DeepSeek

DeepSeek 的出現，加速了 AI 領域的進化，也影響了理想在 AI 領域的研發進程。

在原有的計劃里，理想原計劃在今年 9 月先推出一個足夠好的語音模型（即 VLA 里的「L」部分），在此基礎上再繼續訓練 VLA 模型。DeepSeek 的出現讓理想看到了「站在巨人肩膀上」的機會。

據李想回憶，今年 1 月 DeepSeek R1 模型發布并開源后，他很快就和 CTO 謝炎、基座模型負責人陳偉達成了共識。團隊內部認為應該以此為基礎，加速 VLA 研發進展，并研究如何在芯片上也跑到同樣的訓練和推理的效率。

李想說，公司「擁抱 DeepSeek 的過程比想象得快」。而更加令人意外的是，李想披露了公司開源自研四年的整車操作系統——理想星環 OS，其核心動因并非戰略考量，而是受到 DeepSeek 開源精神的鼓舞，「說白了純粹是感謝 DeepSeek」。

李想在 AI Talk 中發表觀點 | 圖片來源：直播截圖

當然，AI 的研究和投入也在繼續。李想說，2025 年理想購買的訓練卡比預期大概「多了 3 倍」。

目前，理想正在訓練兩個基座大模型，分別是：

一個用于「理想同學」App 的模型基座，參數量約為 300B（3000 億），使用場景是用在類似豆包、KIMI 的語音模型應用上
VL（Vision+Language）模型底座，參數量大約在 32B（320 億），為 VLA 模型的訓練基座

在李想看來，VLA 模型是一條 DeepSeek、OpenAI、Waymo 等公司都沒有走過的「無人區」，和目前通用語言模型最大的不同之處就在于，訓練 VLA 模型，需要加入足夠過視覺和語言聯合的語料，即三維圖像和模型對世界的理解語義要同時產生的，而這樣的模型并沒有原始數據。

在春節之后理想的第一次例會上，李想將 DeepSeek 的出現比作 Linux 的推出，并表示理想要追逐人工智能的「安卓時刻」。理想希望可以在專業和垂直領域里，訓練出一個專用大模型，以提升垂直領域的 AI 能力，并最終交付價值。

在訪談最后，李想也提到了競爭對手特斯拉。他表示目前特斯拉 FSD 在國內的模型水平，并不代表特斯拉的真實實力，「大概在用 V12.5 以前的模型」。但整體來看，他依然認為特斯拉 FSD 系統的基本功很扎實，是理想真正需要學習的能力。

「基本功」也是這場 AI Talk 中李想反復提到的高頻詞匯。他認為「不可能不做前面的積累，直接吃到第 10 個包子」。他認為在內卷的環境下，更要重視基本功，否則創新會變成曇花一現。

而人工智能，顯然是當下李想和他的團隊認可并正在大力投入的那個方向。

*頭圖來源：理想 AI Talk 第二季

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你如何看待理想 All in AI？

李想談梁文鋒：他是一個特別自律的人，我很敬佩他。

點贊關注極客公園視頻號，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.