「核心提示」
押注AI,背后爭奪的是下一代汽車,甚至是產品的定義權,以及與此相伴的技術、用戶與商業模式的全面重構。
作者 |張力
邢昀
近期,李想帶著他的VLA 司機大模型再談AI,距離上一次他開誠布公地談AI 和理想的未來,過去了整整130天。
130天不長,但足以讓自動駕駛和AI領域改天換地。1月下旬,DeepSeek發布開源推理大模型DeepSeek-R1,持續破圈,在國內引爆新一輪人工智能熱潮。上一次理想AI talk中,李想著重強調自研基座大模型的重要性,“未來幾年必須得保證,我們大語言模型的基座模型要做行業前三”。
而隨著DeepSeek- R1橫空出世,理想轉而基于DeepSeek的開源去做VLA(視覺語言行動模型)的L(language 語言)部分,也就是語言模型開發。選擇站在巨人的肩膀上,理想汽車在VLA司機大模型的語言能力研發上提速顯著,節省了近9個月的時間和數億元成本。
同一時間里,智能駕駛因為事故頻發,遭遇安全可靠性質疑,迎來至暗時刻,不過,在李想看來,現階段比較像黎明前的黑暗,正因為輔助駕駛行業遇到了問題,解決問題才更有價值。
AI 的潛力在解決問題的過程中正變得具象化。不止理想,小鵬、蔚來這兩家與理想差不多同期創業的造車新勢力也在押注AI。
李想稱“AI意味著理想未來的全部”,蔚來創始人李斌斷言“一家成功的智能電動車公司,也一定是一家成功的AI公司”,小鵬汽車創始人何小鵬喊出“All in AI ”,打造面向全球的AI汽車公司。
實際上,這背后爭奪的是下一代汽車、甚至產品的定義權,以及與此相伴的技術、用戶與商業模式的全面重構。
1、造車邁入“AI新戰場”
蔚小理對AI 的決心,要追溯到特斯拉的FSD(Full Self-Driving)V12的突破性進展。
2024年初,特斯拉智駕團隊負責人在X(前推特)上介紹,FSD V12 僅訓練幾個月,就已經完全超越經過多年積累的FSD V11。FSD 突然變強,是因為他們采用了一種新的端到端(end to end)的神經網絡技術,把傳統的感知、決策、控制融合到一個模型中,通過輸入信息直接產生執行動作,就跟人在開車時,根據路況做出即時反應一樣。
這樣突破性的進展,屬于自動駕駛領域的“涌現”時刻,與ChatGPT 3.5橫空出世對大語言模型的意義不相上下。 即使一直跟特斯拉硬剛的何小鵬,在體驗過FSD V12之后,也不得不服,大贊“FSD V12.3.6表現極好,要向其學習”。
在端到端大模型流行之前,自動駕駛的主流是模塊化設計,包含感知、決策、執行三大模塊,信息是逐級傳導的,車上的傳感器(如雷達、攝像頭等),相當于人的眼睛和耳朵,把感知到的環境信息,傳導到決策模塊,類似于人的大腦,這個大腦里寫滿了各式各樣的規則,決策模塊根據這些規則規劃出最佳的行駛路線,最終告知給執行模塊,相當于人的手和腳,執行轉向、加速、剎車等動作。
模塊化設計的一個最大缺陷是,駕駛場景千變萬化,決策模塊中的規則代碼只能越寫越多,FSD 11的代碼就多達30多萬行,大大影響執行效率,更要命的是遇到沒有被規則寫入的場景,自動駕駛模塊就會不知所措。
端到端的設計則完全是另一種思路,外部信息輸入自動駕駛大模型,然后直接輸出執行動作,整個決策的過程沒有人為規則去干預,純靠模型自己去學習摸索如何駕駛才是更好的。所以FSD V12的代碼從30多萬行縮減到只剩3000行,而且一級一級的信息傳輸變成端到端的傳輸,信息傳遞變得更加準確,且沒有損耗,也可以讓大模型更精確地掌握全局狀況。
特斯拉把大量真實的駕駛數據投喂給端到端大模型,它就像一個有意識會主動學習的小學生一樣,通過模仿觀察人類的駕駛視頻,涌現出跟老司機一樣的智慧。
在特斯拉影響下,國內智駕路線也因此開始技術轉向,2024年端到端大模型開始加速上車。
但這個學習過程需要較長的時間,而且有可能會犯錯,就像你需要給小學生成長的時間和空間,而且它是如何學習的,完全是黑箱的狀態,這種不可解釋性會嚴重影響研發和問題解決的進度,因為出現問題,研究人員不知道可以從哪里提升。
所以特斯拉在面對復雜路況或者極端情況時,表現的并不如意,比如極端大霧、大雨天無法識別障礙物,但短時間內又難以解決,目前已知的路徑就是不斷提升數據質量和數量,但真實且有價值的數據需要時間來積累。
國內的端到端大模型與特斯拉也并非完全一致。小鵬采用了分段式“端到端”,把大模型分別引入感知、規劃等模塊,中間通過人工編寫的規則連接。這是一個相對折中的方案。但是連接仍由人工定義,這意味著信息一定程度的損失,也不利于自動化。
理想在2024年的技術路徑取名為端到端+VLM(Vision-Language Model) 雙模型分立,理想解釋為快系統和慢系統。
前者猶如條件反射,可以處理絕大部分常見場景,而后者則是像老司機的大腦,實時分析路況,給出最佳的駕駛規劃,仍然不是真正意義上的端到端。
2、模型:端到端2.0的進化
與此同時,在端到端1.0上顯得滯后的蔚來選擇了更激進的路線,直接進入智駕行業新方法論——世界模型階段。
2024年7月,蔚來創新科技日上發布了中國首個智能駕駛世界模型NWM(NIO WorldModel)。世界模型的核心能力是基于信息的理解,進行想象推演,從而規劃軌跡。
實際上世界模型的概念最早也是在人工智能領域出現。
簡單理解,這是一種生成式框架,通過理解現實世界的物理動態(如運動、力和空間關系),來模擬真實環境。這種模型利用多模態輸入(文本、圖像、視頻、傳感器數據)預測未來場景,并為自動駕駛端到端大模型生成合成數據,作為訓練基礎。
中國的駕駛環境要比美國復雜的多,但市場又不可能等自動駕駛大模型慢慢學習,達到一個老司機的水平再上線。將世界模型引入到自動駕駛領域,有助于解決數據數量和質量的問題,更有效的處理無窮無盡的Corner case。
蔚來的世界模型NWM(NIO WorldModel)上車表現如何,尚未可知,原本預計今年4月推送,但李斌透露,因為工信部新規改動,需要等公告后才能進行推送。
與此同時,理想、小鵬等也在加緊向端到端2.0進化,他們將重心放在搭建更為高階的VLA(視覺-語言-動作)端到端大模型。
這一次AI talk中,理想推出司機VLA(視覺-語言-動作端到端)大模型。李想解釋,他把智能輔助駕駛分為三個階段,分別是昆蟲動物智能、哺乳動物智能以及人類智能。模塊化屬于昆蟲動物智能,端到端屬于昆蟲動物智能,而VLA則屬于人類智能。
李想介紹,在VLA 階段,智能輔助駕駛可以像人一樣觀察世界,世界模型利用3D 視覺和 2D 的組合構建更真實的物理世界,而非 VLM 階段僅能看到一張圖。此外,VLA 擁有自己的腦系統,不僅能看到物理世界,更能進一步理解物理世界,具有自己的語言和思維鏈系統,有推理能力,可以像人類一樣去執行一些復雜動作。
小鵬也正在搭建一個LVA基座模型,據介紹這是720億參數的超大規模自動駕駛大模型,以大語言模型為骨架網絡、使用海量優質駕駛數據訓練的多模態大模型,具備視覺理解能力、長思維鏈式推理能力(CoT)和動作生成能力,從而在充分理解現實世界的基礎上,能夠像人類一樣進行復雜的常識推理,并將推理結果轉化為行動。
VLA側重于多模態輸入到動作的映射,而世界模型側重于環境預測和模擬。兩條路徑也可以相互輔助,比如世界模型可以為VLA提供長期環境預測。
李想在對談中表示,理想選擇用大量真實數據配合世界模型生成數據,來解決模型的黑盒問題,簡單來說就是給VLA司機大模型建立了一個考試的模型。
3、算力:芯片競賽
完成VLA大模型的訓練,算法、算力和數據缺一不可,ChatGPT的成功,引發全球AI競賽,導致全球算力緊缺,而算力完全仰賴芯片,蔚小理中最先布局芯片的是蔚來。
李斌進軍芯片最初的目的是省錢,市場上高階輔助駕駛普遍使用的是英偉達Orin X,單顆售價在500美元左右,約合3600元人民幣,以蔚來標配4顆Orin X的車型計算,光芯片一項的成本就接近1.5萬元。
2024年NIO IN大會上,李斌從兜里掏出已經流片成功的神璣NX9031,打出的口號是全球首顆車規5nm高性能智駕芯片,而且一顆頂Orin X 4顆,在AI算力和ISP等主要指標上,至少有4倍以上的性能提升。神璣NX9031集成超過 500 億顆晶體管,采用 32 核心 CPU 架構,每秒可處理超過 6 萬億條指令。
目前,這顆神璣NX9031已經搭載到蔚來ET9,是蔚小理中最早正式量產上車的自研芯片。
拋棄英偉達,轉戰自研芯片也是特斯拉淌過的路,因為隨著算法的不斷演進,端到端大模型的進化,英偉達的芯片不能滿足自動駕駛公司個性化的需求,特斯拉第一代的FSD芯片早在2019年就量產了。
小鵬的芯片團隊在FSD芯片量產次年搭建,自研圖靈芯片,業內認為小鵬選擇了性價比更高的7nm制程芯片。據小鵬介紹,圖靈芯片擁有40 核處理器,兩個神經網絡處理單元(NPU),支持運行300 億參數的模型,其 AI 算力接近三顆英偉達Orin X 芯片,綜合性能上比蔚來的芯片低一些,但造價也會比神璣NX9031低。
蔚小理中芯片還沒露面的是理想,據說理想內部也在推進自研芯片項目,代號“舒馬赫”,項目啟動比蔚來、小鵬晚,且流片結果不及預期,目前理想還是繼續在英偉達的 Thor-U MAX 上做開發。
4、泛化:從AI 到機器人
集齊算法、算力再疊加純AI公司難以獲取的真實行車數據,蔚小理在發展AI上占得一些先機,而無論芯片,還是AI算法都可以泛化到汽車之外的行業,李想更是直接預言,“未來任何一家公司都是AI公司”。
跟智能駕駛汽車最為接近的AI行業就是人形機器人,因為他們都需要感知復雜的環境,做復雜且即時的決策交互,技術上也相通,都涉及自然語言處理、計算機視覺、機器學習等。
特斯拉依舊是最先入局人形機器人的汽車公司,2021年推出Optimus,馬斯克也對人形機器人寄予厚望,他預計Optimus將超過特斯拉其他業務的總和,這句話有幾分可信度需要時間來驗證。
不過,何小鵬顯然是信的。小鵬是蔚小理中最早投入人形機器人研發的,2023年推出第一代人形機器人PX5,2024年又推出人形機器人Iron,預計2026年開始工業化量產,追平特斯拉人形機器人的量產時間。
據小鵬介紹,Iron采用1:1仿生設計,更有高度的人形化特征。擁有178厘米的身高和70公斤的體重,全身配備62個主動自由度,手部則擁有22個可動自由度,而且Iron已經進入小鵬的汽車工廠打工了。
蔚來到2025年才入局機器人,已經組建了約20人的團隊,準備開發機器狗。
李想則相對謹慎,他覺得未來一定會做人形機器人,但不是現在,當下的任務是攻克自動駕駛的技術難題。根據李想對AI的終極設想是硅基家人,人形機器人也只是遲早的事。
站在技術樂觀主義的角度,AI技術無論如何泛化都不為過,而且商業前景比較明朗,但所要面臨的問題也是現實存在的,拋開人才、技術難關等遠期難關不談,蔚小理最迫切需要解決的是資金問題。
自動駕駛、AI、芯片、機器人,每一個都是“噬金獸”,何小鵬曾坦言500億投資僅僅是機器人的入門,李斌說一顆芯片研發投入可以布1000個換電站,約等于15億元。而現實是2024年小鵬還沒盈利,蔚來虧損繼續擴大,理想盈利80億元,但增速下降。
資金掣肘最終會影響資源的分配,而資源決定了以自動駕駛為起點的AI泛化能夠走多遠或者跌多慘,隨著AI的攤子越鋪越大,可能像馬斯克一樣建立起他的X帝國,也可能如賈躍亭那般被“生態化反”所吞噬,這其中微妙平衡將持續考驗蔚小理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.