網易首頁 > 網易號 > 正文申請入駐

不搞AI的，不是好汽車公司

2025-05-10 08:00:03　來源: 豹變

四川舉報

分享至

「核心提示」
押注AI，背后爭奪的是下一代汽車，甚至是產品的定義權，以及與此相伴的技術、用戶與商業模式的全面重構。

作者 |張力

邢昀

近期，李想帶著他的VLA 司機大模型再談AI，距離上一次他開誠布公地談AI 和理想的未來，過去了整整130天。

130天不長，但足以讓自動駕駛和AI領域改天換地。1月下旬，DeepSeek發布開源推理大模型DeepSeek-R1，持續破圈，在國內引爆新一輪人工智能熱潮。上一次理想AI talk中，李想著重強調自研基座大模型的重要性，“未來幾年必須得保證，我們大語言模型的基座模型要做行業前三”。

而隨著DeepSeek- R1橫空出世，理想轉而基于DeepSeek的開源去做VLA（視覺語言行動模型）的L（language 語言）部分，也就是語言模型開發。選擇站在巨人的肩膀上，理想汽車在VLA司機大模型的語言能力研發上提速顯著，節省了近9個月的時間和數億元成本。

同一時間里，智能駕駛因為事故頻發，遭遇安全可靠性質疑，迎來至暗時刻，不過，在李想看來，現階段比較像黎明前的黑暗，正因為輔助駕駛行業遇到了問題，解決問題才更有價值。

AI 的潛力在解決問題的過程中正變得具象化。不止理想，小鵬、蔚來這兩家與理想差不多同期創業的造車新勢力也在押注AI。

李想稱“AI意味著理想未來的全部”，蔚來創始人李斌斷言“一家成功的智能電動車公司，也一定是一家成功的AI公司”，小鵬汽車創始人何小鵬喊出“All in AI ”，打造面向全球的AI汽車公司。

實際上，這背后爭奪的是下一代汽車、甚至產品的定義權，以及與此相伴的技術、用戶與商業模式的全面重構。

1、造車邁入“AI新戰場”

蔚小理對AI 的決心，要追溯到特斯拉的FSD（Full Self-Driving）V12的突破性進展。

2024年初，特斯拉智駕團隊負責人在X（前推特）上介紹，FSD V12 僅訓練幾個月，就已經完全超越經過多年積累的FSD V11。FSD 突然變強，是因為他們采用了一種新的端到端（end to end）的神經網絡技術，把傳統的感知、決策、控制融合到一個模型中，通過輸入信息直接產生執行動作，就跟人在開車時，根據路況做出即時反應一樣。

這樣突破性的進展，屬于自動駕駛領域的“涌現”時刻，與ChatGPT 3.5橫空出世對大語言模型的意義不相上下。即使一直跟特斯拉硬剛的何小鵬，在體驗過FSD V12之后，也不得不服，大贊“FSD V12.3.6表現極好，要向其學習”。

在端到端大模型流行之前，自動駕駛的主流是模塊化設計，包含感知、決策、執行三大模塊，信息是逐級傳導的，車上的傳感器（如雷達、攝像頭等），相當于人的眼睛和耳朵，把感知到的環境信息，傳導到決策模塊，類似于人的大腦，這個大腦里寫滿了各式各樣的規則，決策模塊根據這些規則規劃出最佳的行駛路線，最終告知給執行模塊，相當于人的手和腳，執行轉向、加速、剎車等動作。

模塊化設計的一個最大缺陷是，駕駛場景千變萬化，決策模塊中的規則代碼只能越寫越多，FSD 11的代碼就多達30多萬行，大大影響執行效率，更要命的是遇到沒有被規則寫入的場景，自動駕駛模塊就會不知所措。

端到端的設計則完全是另一種思路，外部信息輸入自動駕駛大模型，然后直接輸出執行動作，整個決策的過程沒有人為規則去干預，純靠模型自己去學習摸索如何駕駛才是更好的。所以FSD V12的代碼從30多萬行縮減到只剩3000行，而且一級一級的信息傳輸變成端到端的傳輸，信息傳遞變得更加準確，且沒有損耗，也可以讓大模型更精確地掌握全局狀況。

特斯拉把大量真實的駕駛數據投喂給端到端大模型，它就像一個有意識會主動學習的小學生一樣，通過模仿觀察人類的駕駛視頻，涌現出跟老司機一樣的智慧。

在特斯拉影響下，國內智駕路線也因此開始技術轉向，2024年端到端大模型開始加速上車。

但這個學習過程需要較長的時間，而且有可能會犯錯，就像你需要給小學生成長的時間和空間，而且它是如何學習的，完全是黑箱的狀態，這種不可解釋性會嚴重影響研發和問題解決的進度，因為出現問題，研究人員不知道可以從哪里提升。

所以特斯拉在面對復雜路況或者極端情況時，表現的并不如意，比如極端大霧、大雨天無法識別障礙物，但短時間內又難以解決，目前已知的路徑就是不斷提升數據質量和數量，但真實且有價值的數據需要時間來積累。

國內的端到端大模型與特斯拉也并非完全一致。小鵬采用了分段式“端到端”，把大模型分別引入感知、規劃等模塊，中間通過人工編寫的規則連接。這是一個相對折中的方案。但是連接仍由人工定義，這意味著信息一定程度的損失，也不利于自動化。

理想在2024年的技術路徑取名為端到端+VLM（Vision-Language Model）雙模型分立，理想解釋為快系統和慢系統。

前者猶如條件反射，可以處理絕大部分常見場景，而后者則是像老司機的大腦，實時分析路況，給出最佳的駕駛規劃，仍然不是真正意義上的端到端。

2、模型：端到端2.0的進化

與此同時，在端到端1.0上顯得滯后的蔚來選擇了更激進的路線，直接進入智駕行業新方法論——世界模型階段。

2024年7月，蔚來創新科技日上發布了中國首個智能駕駛世界模型NWM（NIO WorldModel）。世界模型的核心能力是基于信息的理解，進行想象推演，從而規劃軌跡。

實際上世界模型的概念最早也是在人工智能領域出現。

簡單理解，這是一種生成式框架，通過理解現實世界的物理動態（如運動、力和空間關系），來模擬真實環境。這種模型利用多模態輸入（文本、圖像、視頻、傳感器數據）預測未來場景，并為自動駕駛端到端大模型生成合成數據，作為訓練基礎。

中國的駕駛環境要比美國復雜的多，但市場又不可能等自動駕駛大模型慢慢學習，達到一個老司機的水平再上線。將世界模型引入到自動駕駛領域，有助于解決數據數量和質量的問題，更有效的處理無窮無盡的Corner case。

蔚來的世界模型NWM（NIO WorldModel）上車表現如何，尚未可知，原本預計今年4月推送，但李斌透露，因為工信部新規改動，需要等公告后才能進行推送。

與此同時，理想、小鵬等也在加緊向端到端2.0進化，他們將重心放在搭建更為高階的VLA（視覺-語言-動作）端到端大模型。

這一次AI talk中，理想推出司機VLA（視覺-語言-動作端到端）大模型。李想解釋，他把智能輔助駕駛分為三個階段，分別是昆蟲動物智能、哺乳動物智能以及人類智能。模塊化屬于昆蟲動物智能，端到端屬于昆蟲動物智能，而VLA則屬于人類智能。

李想介紹，在VLA 階段，智能輔助駕駛可以像人一樣觀察世界，世界模型利用3D 視覺和 2D 的組合構建更真實的物理世界，而非 VLM 階段僅能看到一張圖。此外，VLA 擁有自己的腦系統，不僅能看到物理世界，更能進一步理解物理世界，具有自己的語言和思維鏈系統，有推理能力，可以像人類一樣去執行一些復雜動作。

小鵬也正在搭建一個LVA基座模型，據介紹這是720億參數的超大規模自動駕駛大模型，以大語言模型為骨架網絡、使用海量優質駕駛數據訓練的多模態大模型，具備視覺理解能力、長思維鏈式推理能力（CoT）和動作生成能力，從而在充分理解現實世界的基礎上，能夠像人類一樣進行復雜的常識推理，并將推理結果轉化為行動。

VLA側重于多模態輸入到動作的映射，而世界模型側重于環境預測和模擬。兩條路徑也可以相互輔助，比如世界模型可以為VLA提供長期環境預測。

李想在對談中表示，理想選擇用大量真實數據配合世界模型生成數據，來解決模型的黑盒問題，簡單來說就是給VLA司機大模型建立了一個考試的模型。

3、算力：芯片競賽

完成VLA大模型的訓練，算法、算力和數據缺一不可，ChatGPT的成功，引發全球AI競賽，導致全球算力緊缺，而算力完全仰賴芯片，蔚小理中最先布局芯片的是蔚來。

李斌進軍芯片最初的目的是省錢，市場上高階輔助駕駛普遍使用的是英偉達Orin X，單顆售價在500美元左右，約合3600元人民幣，以蔚來標配4顆Orin X的車型計算，光芯片一項的成本就接近1.5萬元。

2024年NIO IN大會上，李斌從兜里掏出已經流片成功的神璣NX9031，打出的口號是全球首顆車規5nm高性能智駕芯片，而且一顆頂Orin X 4顆，在AI算力和ISP等主要指標上，至少有4倍以上的性能提升。神璣NX9031集成超過 500 億顆晶體管，采用 32 核心 CPU 架構，每秒可處理超過 6 萬億條指令。

目前，這顆神璣NX9031已經搭載到蔚來ET9，是蔚小理中最早正式量產上車的自研芯片。

拋棄英偉達，轉戰自研芯片也是特斯拉淌過的路，因為隨著算法的不斷演進，端到端大模型的進化，英偉達的芯片不能滿足自動駕駛公司個性化的需求，特斯拉第一代的FSD芯片早在2019年就量產了。

小鵬的芯片團隊在FSD芯片量產次年搭建，自研圖靈芯片，業內認為小鵬選擇了性價比更高的7nm制程芯片。據小鵬介紹，圖靈芯片擁有40 核處理器，兩個神經網絡處理單元（NPU），支持運行300 億參數的模型，其 AI 算力接近三顆英偉達Orin X 芯片，綜合性能上比蔚來的芯片低一些，但造價也會比神璣NX9031低。

蔚小理中芯片還沒露面的是理想，據說理想內部也在推進自研芯片項目，代號“舒馬赫”，項目啟動比蔚來、小鵬晚，且流片結果不及預期，目前理想還是繼續在英偉達的 Thor-U MAX 上做開發。

4、泛化：從AI 到機器人

集齊算法、算力再疊加純AI公司難以獲取的真實行車數據，蔚小理在發展AI上占得一些先機，而無論芯片，還是AI算法都可以泛化到汽車之外的行業，李想更是直接預言，“未來任何一家公司都是AI公司”。

跟智能駕駛汽車最為接近的AI行業就是人形機器人，因為他們都需要感知復雜的環境，做復雜且即時的決策交互，技術上也相通，都涉及自然語言處理、計算機視覺、機器學習等。

特斯拉依舊是最先入局人形機器人的汽車公司，2021年推出Optimus，馬斯克也對人形機器人寄予厚望，他預計Optimus將超過特斯拉其他業務的總和，這句話有幾分可信度需要時間來驗證。

不過，何小鵬顯然是信的。小鵬是蔚小理中最早投入人形機器人研發的，2023年推出第一代人形機器人PX5，2024年又推出人形機器人Iron，預計2026年開始工業化量產，追平特斯拉人形機器人的量產時間。

據小鵬介紹，Iron采用1:1仿生設計，更有高度的人形化特征。擁有178厘米的身高和70公斤的體重，全身配備62個主動自由度，手部則擁有22個可動自由度，而且Iron已經進入小鵬的汽車工廠打工了。

蔚來到2025年才入局機器人，已經組建了約20人的團隊，準備開發機器狗。

李想則相對謹慎，他覺得未來一定會做人形機器人，但不是現在，當下的任務是攻克自動駕駛的技術難題。根據李想對AI的終極設想是硅基家人，人形機器人也只是遲早的事。

站在技術樂觀主義的角度，AI技術無論如何泛化都不為過，而且商業前景比較明朗，但所要面臨的問題也是現實存在的，拋開人才、技術難關等遠期難關不談，蔚小理最迫切需要解決的是資金問題。

自動駕駛、AI、芯片、機器人，每一個都是“噬金獸”，何小鵬曾坦言500億投資僅僅是機器人的入門，李斌說一顆芯片研發投入可以布1000個換電站，約等于15億元。而現實是2024年小鵬還沒盈利，蔚來虧損繼續擴大，理想盈利80億元，但增速下降。

資金掣肘最終會影響資源的分配，而資源決定了以自動駕駛為起點的AI泛化能夠走多遠或者跌多慘，隨著AI的攤子越鋪越大，可能像馬斯克一樣建立起他的X帝國，也可能如賈躍亭那般被“生態化反”所吞噬，這其中微妙平衡將持續考驗蔚小理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.