網易首頁 > 網易號 > 正文申請入駐

解讀理想VLA司機大模型：你不用付費的專屬“代駕”

2025-05-10 09:54:09　來源: 硅星人

北京舉報

分享至

作者｜王飛
郵箱｜ wf@pingwest.com

當ChatGPT在2022年橫空出世，大模型技術掀起全球科技浪潮時，它開始改變了人工智能，慢慢又改變了語音對話，它進一步地試探進入到了交互領域，但很少有人能預見到，僅僅三年后，這股AI革命浪潮會深刻地改變汽車行業。

這場關乎智能汽車的革命浪潮以一種名為VLA的技術展開，也是以一種“Agent”的方式。

如果你關注智能輔助駕駛行業，應該了解這兩年的熱詞“端到端”。

關于VLA，全名則為Vision-Language-Action，作為視覺-語言-行為三位一體的大模型架構，不少業內人士將VLA技術視為當下“端到端”方案的進階版本——它將空間智能、語言智能和行為智能統一在一個模型里，由此它也擁有更高的場景推理能力與泛化能力。

簡而言之，有VLA賦能的車不再只是一個駕駛工具，而是一個能與用戶溝通、理解用戶意圖的智能體，通過語言模型和邏輯推理結合在一起之后，它能夠成為一個聽得懂、看得見、找得到，真正意義上的“司機Agent”。

自動駕駛技術正在經歷的一場靜悄悄但深刻的范式轉移：從規則驅動向學習驅動，從分布式感知-決策-控制向端到端一體化架構，再到今天VLA的多模態融合統一建模。技術不再只是模塊疊加的堆棧，也不再滿足于“看得見”和“聽得懂”，而是要求AI真正“行動起來”。“司機Agent”也擁有像人類司機一樣理解環境、做出判斷并立即執行的能力——成為像人一樣在復雜世界中感知、理解、推理和行動的整體智能體。

放眼硅谷到北京，大洋彼岸的Waymo到理想，在這種多模態模型與機器人框架的技術趨勢中，理想汽車成為了中國車企中走在最前面的一位踐行者。

在2025理想AI Talk第二季活動上，理想汽車董事長兼CEO李想聚焦理想汽車最新推出的VLA司機大模型，不僅展示了“司機Agent”，更通過他本人對AI與人性的深度思考，勾勒出了智能汽車發展的新范式——

AI不應該是簡單地將"汽車智能化"，而是真正實現"人工智能的汽車化"。

從NOA到VLA，理想為何要實現AI三段跳？

理想并非是突然轉向VLA的。在此之前，也經歷了充足的技術積累。

實話說，李想此前在第一季AI Talk上首次提出公司未來是一家領先的人工智能企業的時候，很多人可能并沒有get到他在表達什么。

但如果你觀摩了理想這連續的兩季AI Talk活動，大概能看出這家公司是如何奔向“連接物理世界和數字世界，成為全球領先的人工智能企業”企業愿景的。

在第一季AI Talk活動中，理想展示出了技術路徑其一：將公司汽車的銷量擠到中國市場的領先地位，賣出年銷量50萬輛的汽車，在車上全部部署上端到端技術、Mind GPT，隨后Mind GPT經過1.0/2.0，然后到3o多模態智能體的迭代后，理想決定推出理想同學App，讓這個語音助手觸及到更多的人。

第二季AI Talk活動中，理想回顧了在輔助駕駛領域的發展歷程，我們也可以清晰地看到一條從量變到質變的技術演進路線：2023年年底，全場景NOA的推送標志著理想輔助駕駛從高速向城市場景的延展，為用戶帶來了更全面的智能輔助駕駛體驗。而2024年7月15日推送的無圖NOA功能，則首次實現了對先驗信息依賴的突破，讓車輛能夠在沒有高精度地圖的情況下依然保持良好的駕駛表現。

2024年10月23日，理想汽車推送的端到端+VLM功能，真正意義上實現了One Model一體化端到端模型的大規模實踐應用，并首次將大模型部署至車端量產芯片。這一突破性進展不僅體現了理想在AI算法上的深厚積累，更展示了其在車規級硬件與大模型融合方面的獨特優勢。

2025年3月18日，理想汽車正式發布下一代自動駕駛架構VLA。這在業內算是一次質的飛躍——當眾多汽車品牌仍在為L2級輔助駕駛技術優化細節時，理想汽車卻完成了一場田徑運動中的"三級跳"，通過層層遞進取得成績，理想汽車的智能駕駛技術經歷了從規則算法、到無圖NOA、再到端到端+VLM，最終邁向VLA司機大模型的"三段"進化。

如果從結果來驗證這其中的規律：從無圖NOA到端到端+VLM，再到VLA司機大模型，每一步都至關重要，且每一階段都是不可跨越。

比如NOA這一階段的核心在于感知能力和環境適應性的提升，是連接規則算法和端到端模型的關鍵橋梁。

第二階段端到端+VLM功能，標志著從規則驅動向數據驅動的根本轉變。

前兩個階段的技術沉淀，解決了兩個問題：一是前期沒有足夠的數據支撐模型訓練；二是缺乏規則約束導致的安全風險。

汽車駕駛不同于簡單的互聯網應用，它直接關系到用戶的生命安全，需要在實際道路環境中反復驗證和迭代。

如果沒有通過前期收集的大量實際道路數據和規則算法的約束，成功訓練出了穩定可靠的端到端模型，并將其與VLM視覺語言模型結合，就無法初步實現了系統對環境的"理解"，只是簡單的"識別"。

理想的VLA從“輔助”到“智能體”的躍遷，建立在前三個階段所有技術積累的基礎之上。如果沒有規則算法打下的基礎，系統就無法理解基本駕駛規則；如果沒有無圖NOA階段鍛造的環境適應能力，系統就無法應對未知場景；如果沒有端到端+VLM階段的模型整合經驗，VLA的三位一體架構就無從談起。

從一定程度上來說，VLA技術的成功離不開中國本土AI市場的崛起。

另外，也正如DeepSeek在大模型領域的發展路徑所示，從構建集群能力到基建、鏈路的優化，通過這些前期的積累，才能實現低成本和高效率的AI應用。DeepSeek不可能一步到位構建出強大的大語言模型，而是經歷了從基礎算法研究、數據收集清洗、模型架構優化到最終產品落地的完整過程。

李想也在活動上強調："如果規則算法都做不好，根本不知道怎么去做端到端；如果端到端沒有做到一個極致的水平，那連VLA怎么訓練都無從談起。"這也再次證明，這個過程中沒有捷徑可走，每一步都是通往下一步的必要鋪墊。

司機Agent，VLA的實力

說了這么多，VLA到底可以實現什么樣的功能？

前面提到，VLA（Vision-Language-Action）是視覺-語言-行為大模型，代表著機器人大模型的新范式。它將空間智能、語言智能和行為智能統一在一個模型中，賦予了系統強大的3D空間理解能力、邏輯推理能力和行為生成能力，讓自動駕駛系統真正具備感知、思考和適應環境的能力。

在理想最新公布的demo視頻里，理想的這個“司機Agent”展示了其“能聽懂人話”且“直接執行”的智能輔助駕駛能力：

比如在通過高速收費站時，可以直接說 “ 走人工 ” ，系統就可以從眾多的 ETC 收費通道中轉向人工收費通道。在日常的駕駛環節，也可以通過 “ 前方掉頭 ” 和 “ 靠邊停車 ” 的簡單指令，調整行車路線 —— 就像是我們平時和代駕司機直接溝通的水準。

從技術原理上看，前文提到的端到端+VLM的階段，VLA并非簡單地將端到端模型和VLM模型結合在一起，而是所有模塊的全新設計與整合。

據介紹，其工作流程可概括為：3D空間編碼器通過語言模型處理后，與邏輯推理結合，給出合理的駕駛決策，并輸出一組action token（動作詞元）。這些action token是對周圍環境和自車駕駛行為的編碼，隨后通過diffusion（擴散模型）進一步優化出最佳的駕駛軌跡。整個推理過程都發生在車端，并且實現了實時運行，這對計算效率和系統響應速度提出了極高要求。

我們嘗試簡單類比解讀一下：

視覺智能（Vision）：就像人類駕駛員通過眼睛觀察道路情況，VLA通過車載攝像頭和傳感器"看見"周圍環境。但不同于傳統系統只是識別物體，VLA能夠理解場景的語義和空間關系。這就像是從"我看到一個紅色物體"升級到"我明白這是一個紅燈，需要停車，而且它位于前方十米處的十字路口"。
語言智能（Language）：如果說視覺智能是VLA的"眼睛"，那么語言智能就是它的"大腦"。通過強大的語言理解和推理能力，VLA可以處理復雜的人類指令，理解上下文，并將視覺信息與語言知識融合。比如當你說"在前面路口掉頭"時，VLA不僅能識別出"路口"這個概念，還能將它與視覺中看到的道路匹配，理解"前面"這個相對位置，并執行適當的停車操作。
行為智能（Action）：這是VLA最與眾不同的部分，它不只是理解，還能采取行動。VLA將對環境的理解轉化為精確的駕駛決策，生成平滑、自然的駕駛軌跡。這就像一個經驗豐富的司機，不僅知道何時轉彎，還知道如何以合適的速度和角度完成轉彎，使乘客感到舒適。

相對直觀地理解VLA的工作原理，可以盡可能地將其想象成一個高效的駕駛決策鏈條。

理想稱，理想輔助駕駛系統從"端到端+VLM雙模型分立"向"VLA三位一體架構"的躍遷，本質上是突破了多模態協同效率與物理世界建模能力的雙重瓶頸。

多模態協同效率問題可以理解為：之前的雙模型架構就像兩個專家各自獨立工作——一個負責開車，一個負責理解指令，溝通效率低下。兩個模型工作頻率不同，聯合訓練和優化困難。想象一下兩個人合開一輛車，一個人負責方向盤，一個人負責油門和剎車，卻無法流暢溝通，這顯然會導致駕駛不協調。VLA則將這兩位專家的能力整合在一個大腦中，實現了無縫協作。

物理世界建模能力不足則更像是：基于千問等大模型的VLM雖然在互聯網2D圖文數據上訓練充分，但對于3D世界的理解和專業駕駛知識存在短板。就像一個在模擬器上學習駕駛的人，缺乏真實道路的立體感和空間認知。VLA通過專門的3D空間編碼技術和大量真實駕駛數據訓練，彌補了這一不足。

從視頻上的效果來看，VLA能夠更好的處理人類駕駛行為的多模態性，可以適應更多駕駛風格。

這也是前文所提到的，語言模型和邏輯推理結合在一起之后，它能夠成為一個聽得懂、看得見、找得到，真正意義上的“司機Agent”。

“類似人和代駕的關系，人們怎么和代駕說，就怎么和司機Agent說。”

理想率先駛入無人區

很明顯，VLA技術的突破，在汽車座艙和車輛駕駛層面進行了結合，也拉高了智能輔助駕駛系統的上限。

李想將智能輔助駕駛拆解成了三個發展階段，用自然界中不同的物種進行了形象的比喻：

第一階段，昆蟲動物智能。通過機器學習感知配合規則算法的分段式輔助駕駛解決方案，需要有既定的規則，同時依賴高精地圖，類似螞蟻的行動和完成任務的方式。
第二階段，哺乳動物智能。端到端階段通過大模型學習人類駕駛行為（類似馬戲團的動物），但其對物理世界的理解并不充分，此階段通過三維圖像判斷自身速度和軌跡以及在空間中所處的位置，足以應對大部分泛化場景，但很難解決從未遇到過或特別復雜的問題，此時需要配合視覺語言VLM模型，但現有視覺語言模型在應對復雜交通環境時只能起到輔助作用。
第三階段，人類智能。VLA階段可以實現類似人類觀察世界的方式，利用3D視覺和2D的組合構建更真實的物理世界，VLA擁有自己的腦系統，進一步理解物理世界，還具備語言和思維鏈系統，也就是VLA的司機大模型。

這同時也對應著李想本人對于AI工具的分級制度——信息工具、輔助工具和生產工具，"我覺得人工智能變成生產工具，然后才是真正人工智能爆發的時刻。"

一定程度上，這也是在強調，司機Agent——VLA技術有望成為具備這種生產工具特征的先驅者。

從人工智能行業來看，VLA是“機器人模型”的一種，是Physical AI的原型。在ChatGPT、Gemini等數字智能代表主導的軟件智能浪潮之后，AI的下一個風口毫無疑問將是物理智能。汽車，作為最復雜的物理空間智能終端，是理想選擇的主要切入口。一旦VLA模式在車上跑通，空間智能+語言智能+行為智能三者的融合，一定程度也將為其他領域的機器人模型打下范式基礎。

OpenAI、DeepSeek等大模型公司雖強，但他們并未真正涉足汽車領域的空間智能與行為建模，更沒有語料、數據和場景去覆蓋家庭用戶與真實路況的多樣性。正因如此，理想選擇了自己下場，打造自己的基座模型。實打實地講，Language層上借助DeepSeek，但空間智能和行為智能部分也得靠自己一步步打磨，嘗試建立閉環能力的雛形。

“交通工具”能否能成“空間機器人”尚未可知，但司機智能體確實是人工智能汽車化的無人區。

這場變革，不只是理想的突破，更是AI進化的必然。

正如手機并非因通話而被重新定義，而是因其成為“數字生活中樞”才改變了世界——今天的汽車，也將在VLA的驅動下，從“移動交通工具”進化為“移動智能空間”，成為AI與人的共生載體。

而這條從端到端走向VLA的進化之路，或許才剛剛開始。

點個愛心，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.