文|劉俊宏
編|王一粟
“DeepSeek一開(kāi)源,我們就加速了 9 個(gè)月的時(shí)間”。
距離上一次AI Talk130天,作為車(chē)圈最高年薪的老板、理想汽車(chē)創(chuàng)始人、董事長(zhǎng)兼CEO李想,再次發(fā)布了理想最新的智駕大模型——MindVLA(視覺(jué)-語(yǔ)言-動(dòng)作)大模型。
這款大模型曾在今年3月的英偉達(dá)GTC上亮相過(guò),相比兩個(gè)月前的“炫技”,這次李想講了不少VLA的技術(shù)細(xì)節(jié)和產(chǎn)品表現(xiàn)。
與理想上一代的端到端+VLM智駕對(duì)比,VLA不再是之前相互獨(dú)立的“雙系統(tǒng)”架構(gòu),而是一個(gè)具有智駕能力的多模態(tài)大模型。得益于訓(xùn)練時(shí)添加的自動(dòng)駕駛資料和人類(lèi)文字語(yǔ)料,VLA終于實(shí)現(xiàn)了類(lèi)似人類(lèi)司機(jī)開(kāi)車(chē)的表現(xiàn)。
“VLA是一個(gè)司機(jī)大模型,像人類(lèi)的司機(jī)一樣去工作的一個(gè)模型。”
正如李想所總結(jié),根據(jù)本次公布的視頻顯示,基于VLA的輔助駕駛系統(tǒng)可以允許駕駛員用更靈活的方式完成人機(jī)共駕。一句話(huà),智駕可以實(shí)現(xiàn)自動(dòng)選路、掉頭、轉(zhuǎn)彎、停在指定停車(chē)場(chǎng)的位置等等。智駕的靈活度,顯著超出了當(dāng)前主流智駕廠(chǎng)商所能提供的體驗(yàn)。
“它是最接近人類(lèi)的,甚至有機(jī)會(huì)超過(guò)人類(lèi)”,李想如此總結(jié)這VLA的能力和未來(lái)。同時(shí),身處智駕安全性被市場(chǎng)懷疑的風(fēng)口浪尖,李想認(rèn)為VLA技術(shù)有機(jī)會(huì)為整個(gè)行業(yè)帶來(lái)轉(zhuǎn)機(jī),“我覺(jué)得黎明馬上就要來(lái)了”。
在整個(gè)智能汽車(chē)時(shí)代,理想是一家特立獨(dú)行的玩家。
瞄準(zhǔn)智能汽車(chē)“終點(diǎn)”的玩家有很多。認(rèn)為汽車(chē)智能化的前提是充足的電動(dòng)化,蔚來(lái)立志要把換電站建滿(mǎn)全國(guó)每一個(gè)角落;認(rèn)為汽車(chē)工業(yè)的終點(diǎn)是規(guī)模與成本,比亞迪極致掌控生產(chǎn)的每一個(gè)環(huán)節(jié);認(rèn)為汽車(chē)智能化就是將智能鋪滿(mǎn)每一個(gè)角落,華為要當(dāng)中國(guó)智能汽車(chē)的“博世”。
一直奔波于用戶(hù)需求的理想,在不斷積累的AI技術(shù)中,慢慢也構(gòu)筑了自己的技術(shù)護(hù)城河。
VLA到底是什么?在研發(fā)VLA的過(guò)程中,都有哪些技術(shù)細(xì)節(jié)?中國(guó)智能汽車(chē)廠(chǎng)商將在智駕研發(fā)中收獲什么?從理想的VLA中,我們看到了李想對(duì)智能汽車(chē)的“終極計(jì)劃”。
“第十個(gè)包子”,一個(gè)大模型支撐起智駕
端到端剛不到一年,智駕的架構(gòu)又迭代了。
在理想這次AI Talk上,李想詳細(xì)講述了之前發(fā)布的VLA技術(shù)——用更大的模型來(lái)“裝下”整個(gè)世界。
相比之前“端到端+視覺(jué)”兩套模型的架構(gòu),這次是一個(gè)模型全部解決,視覺(jué)-語(yǔ)言-動(dòng)作的三合一架構(gòu)。
一個(gè)大模型支撐智駕,已經(jīng)成為智能汽車(chē)的最新趨勢(shì)。
4月中旬,小鵬汽車(chē)也在香港披露了最新的智駕技術(shù)路線(xiàn),用一個(gè)超大模型底座,支撐起整個(gè)智駕,再通過(guò)蒸餾落地到智能汽車(chē)的端側(cè)。
顯然,這里有頭部技術(shù)大牛的英雄所見(jiàn)略同。
回顧理想智駕的技術(shù)變化,經(jīng)歷了從規(guī)則算法、端到端+VLM,直到VLA的“三級(jí)跳”。可以清晰地看出,AI是如何逐步解決智駕中的研發(fā)痛點(diǎn)。
在端到端時(shí)代,AI解決的是人力寫(xiě)規(guī)則的痛點(diǎn)。由于端到端訓(xùn)練模式相當(dāng)于用AI來(lái)生成規(guī)則,節(jié)省了大量開(kāi)發(fā)時(shí)間。所以,去年整個(gè)智能汽車(chē)市場(chǎng)一下子冒出不少宣稱(chēng)能落地城市無(wú)圖NOA的玩家。
但端到端對(duì)人類(lèi)的模仿,終究難以超過(guò)人類(lèi)的駕駛水平,智駕要想進(jìn)一步升級(jí),需要AI充當(dāng)能思考的“大腦”。理想在端到端+VLM中,用了“快慢雙系統(tǒng)”的架構(gòu)來(lái)讓智駕獲得深度思考能力。VLM是一個(gè)多模態(tài)大模型,能夠針對(duì)復(fù)雜場(chǎng)景進(jìn)行更智能地“理解”。在看懂世界之后,VLM能調(diào)整端到端的行為,從而實(shí)現(xiàn)模擬人類(lèi)大腦的“簡(jiǎn)單反射與復(fù)雜反射”。
但是“雙系統(tǒng)”的架構(gòu)畢竟還是不夠靈活,相互獨(dú)立的雙系統(tǒng)架構(gòu)難以聯(lián)合訓(xùn)練。再加上VLM性能受到車(chē)端算力和芯片通信效率限制。實(shí)際推理效率達(dá)不到5赫茲的表現(xiàn),很難做到實(shí)時(shí)推理。
要想進(jìn)一步提升端到端+VLM架構(gòu)的能力,需要拿出一個(gè)更加整體的、能力足夠強(qiáng)的、有快速推理能力的智駕大模型。
“我們對(duì)Deepseek R1從上線(xiàn)到后面開(kāi)源都做了相當(dāng)多的研究和擁抱。DeepSeek 的速度比想象中快,所以VLA到來(lái)的速度也比想象中快。”
誠(chéng)如李想在訪(fǎng)談中所言。理想在參考Deepseek的調(diào)整預(yù)訓(xùn)練數(shù)據(jù)結(jié)構(gòu)+后訓(xùn)練+強(qiáng)化訓(xùn)練的“三板斧”后,也拿出了對(duì)標(biāo)人類(lèi)智能的“司機(jī)大模型”——VLA。
“訓(xùn)練VLA的過(guò)程,特別像人去駕校學(xué)開(kāi)車(chē)”,李想總結(jié)說(shuō)。
在預(yù)訓(xùn)練階段,理想重新調(diào)整了VLA的訓(xùn)練預(yù)料,增加了3D和自動(dòng)駕駛相關(guān)圖文數(shù)據(jù),并適當(dāng)減少文史類(lèi)數(shù)據(jù)的“投喂”。訓(xùn)練之后,VLA基本上能夠媲美云廠(chǎng)商的通用大模型了。
為了讓VLA提升輸出效率,理想重新調(diào)整了MoE混合專(zhuān)家架構(gòu),并對(duì)推理過(guò)程做了稀疏化處理。這一步操作,相當(dāng)于VLA直接用AI整理好的資料來(lái)決策,大大縮短了推理耗時(shí)。
在后訓(xùn)練階段中,理想保留了“快慢思考”的思維模型。
VLA的“快思考”模式不再直接輸出操控指令,而是輸出Action token(執(zhí)行代碼)。“慢思考”模式則是精簡(jiǎn)了CoT(思維鏈),保證了模型的推理速度。面對(duì)復(fù)雜場(chǎng)景,“慢系統(tǒng)”還會(huì)模擬出汽車(chē)行駛軌跡,用類(lèi)似人類(lèi)“邊做邊想”的方式,在駕駛中不斷選擇最合適的路線(xiàn)。
最后的強(qiáng)化訓(xùn)練,說(shuō)白了就是用人的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)VLA的駕駛表現(xiàn)。大致就是設(shè)計(jì)一些指標(biāo),車(chē)開(kāi)得舒服了,就給VLA加分;開(kāi)得不舒服了或者違章了,就扣一分。一套下來(lái),VLA就能學(xué)會(huì)怎樣成為一個(gè)“真正的司機(jī)”。
“我覺(jué)得VLA(司機(jī)大模型),就是完全人類(lèi)的運(yùn)作方式了。”
正如李想的總結(jié),“(VLA)有l(wèi)anguage(語(yǔ)言),也有它的CoT(思維鏈),還有推理的能力,它能夠像人類(lèi)一樣地,真正地去執(zhí)行這樣的行動(dòng)”。對(duì)比自動(dòng)駕駛早期規(guī)則和端到端時(shí)代的技術(shù),李想認(rèn)為VLA的突破,甚至可以將前兩個(gè)時(shí)代類(lèi)比為“昆蟲(chóng)智能”和“哺乳動(dòng)物智能”。
既然VLA這么強(qiáng),是不是意味著其他智駕廠(chǎng)商也能快速跟進(jìn)。甚至沒(méi)有智駕研發(fā)經(jīng)驗(yàn)的傳統(tǒng)車(chē)企也能跨過(guò)端到端,一步到位到VLA?
跳過(guò)端到端實(shí)現(xiàn) VLA 根本不可行,“沒(méi)有辦法直接吃第十個(gè)包子。雖然可能大家覺(jué)得第十個(gè)包子吃飽了,但前面每個(gè)包子其實(shí)都跳不過(guò)去”。
隨后李想頓了頓,又總結(jié)了AI技術(shù)積累的重要性,“如果大家不想做前面任何包子的積累,只想吃第十個(gè)包子,就像是練葵花寶典。”
兩年4級(jí)跳,理想的技術(shù)“開(kāi)天眼了”?
從2023年底,理想推送需要先驗(yàn)信息的全場(chǎng)景NOA,到如今發(fā)布VLA。理想到底是怎么實(shí)現(xiàn)智駕能力“兩年4級(jí)跳”的?
關(guān)于這個(gè)問(wèn)題,光錐智能在今年的上海車(chē)展上幾乎問(wèn)遍了每一個(gè)智駕供應(yīng)商,但很可惜沒(méi)人說(shuō)得清。其中一些智駕供應(yīng)商工作人員還評(píng)價(jià)說(shuō),“就像是開(kāi)天眼了一樣”。
對(duì)于事物做出一針見(jiàn)血、穿透本質(zhì)的判斷,再沿著正確的方向找到最短到達(dá)的路徑。或許,這是理想能最快突破50萬(wàn)輛年銷(xiāo)量,并且在兩年內(nèi)智駕快速發(fā)展到第一梯隊(duì)的最重要的一個(gè)原因。
在幾次和李想及理想智駕團(tuán)隊(duì)深度溝通的過(guò)程中,光錐智能發(fā)現(xiàn)這種思維方式貫穿了許多理想解決問(wèn)題時(shí)的方式。
“當(dāng)我們想去構(gòu)建能力的時(shí)候,DeepSeek給你展示了一個(gè)最佳實(shí)踐,第一步一定要先搞研究。就是任何的時(shí)候,當(dāng)我們想去改變能力和提升能力的時(shí)候,第一步一定是搞研究,研究完了才搞研發(fā)。”
正如李想評(píng)價(jià)從Deepseek上學(xué)到的經(jīng)驗(yàn)——理想在研發(fā)VLA的時(shí)候,很多關(guān)鍵技術(shù)節(jié)點(diǎn)的迭代都算得上是“相互支撐”和“不謀而合”。
作為佐證,李想在智駕團(tuán)隊(duì)在芯片上優(yōu)化FP8(8 位浮點(diǎn)數(shù)格式)的時(shí)候,跟謝炎(理想汽車(chē)CTO)達(dá)成意見(jiàn)一致要訓(xùn)練一個(gè)語(yǔ)言模型。但沒(méi)想到陳偉(理想汽車(chē)基座模型負(fù)責(zé)人)早就已經(jīng)這么想了。“陳偉比我們還堅(jiān)決”,李想說(shuō)。
為什么李想能夠發(fā)現(xiàn)軟件基礎(chǔ)相當(dāng)重要?因?yàn)樵陂_(kāi)發(fā)VLM的時(shí)候,積累了軟件底層開(kāi)發(fā)能力。“本來(lái)Orin芯片是不支持跑語(yǔ)言模型的。但因?yàn)橛ミ_(dá)沒(méi)時(shí)間,所以我們自己寫(xiě)了底層推理引擎”,李想回憶說(shuō)。
如此一來(lái),理想的汽車(chē)操作系統(tǒng)(星環(huán)OS)和基座大模型戰(zhàn)略也串聯(lián)了起來(lái)。
針對(duì)芯片底層推理引擎的開(kāi)發(fā),讓理想意識(shí)到了智駕芯片底層數(shù)據(jù)傳輸?shù)倪壿嫛P黔h(huán)OS架構(gòu)的搭建方式,就是圍繞智駕到車(chē)控這條通道而建設(shè)的。理想目前開(kāi)源的,也正是車(chē)控操作系統(tǒng)、智能駕駛操作系統(tǒng)、通信中間件、虛擬化平臺(tái)這四個(gè)組件。
另一邊,由于VLA算是一個(gè)通用多模態(tài)大模型,所以理想的整個(gè)汽車(chē)座艙也打通了語(yǔ)言與智駕之間的隔閡。
在演示中看到,在輔助駕駛狀態(tài)下,駕駛員說(shuō)出駕駛指令,車(chē)輛就能立馬執(zhí)行。無(wú)論是說(shuō)走人工還是前面左轉(zhuǎn),汽車(chē)都能在保持正常輔助駕駛的前提下,執(zhí)行新路線(xiàn)。
對(duì)比目前主流其他智駕廠(chǎng)商,VLA當(dāng)前展現(xiàn)的能力稱(chēng)得上是“遙遙領(lǐng)先”。當(dāng)其他智駕要駕駛員停車(chē)重新設(shè)置目標(biāo)點(diǎn)的時(shí)候,理想不僅能保持流暢行車(chē)狀態(tài),而且還不需要司機(jī)說(shuō)出具體的目的地。
“它變得更像人。其實(shí)沒(méi)什么驚奇的,你都知道它的原理了”。
正如李想所總結(jié),“你跟司機(jī)怎么說(shuō)話(huà),那就怎么跟司機(jī)Agent說(shuō)。短指令的話(huà),VLA直接就能在車(chē)端處理了。長(zhǎng)指令交給云端模型處理,然后再由VLA執(zhí)行。”當(dāng)智駕能看懂世界、理解語(yǔ)言,還能懂你意思,VLA就變成了司機(jī)Agent。車(chē)輛成為能與用戶(hù)溝通、理解用戶(hù)意圖的智能體。
如果說(shuō),去年發(fā)布端到端+VLM時(shí)候的理想,是想要炫耀端到端的能力。那么,如今的理想已經(jīng)通過(guò)AI基礎(chǔ)技術(shù)研發(fā),構(gòu)建起了軟件能力的護(hù)城河。
但AI基礎(chǔ)研究的路線(xiàn)到底能通往哪里?李想不太能確定,“我覺(jué)得沒(méi)有辦法預(yù)測(cè),我們前面沒(méi)有任何人走過(guò)這條路。DeepSeek沒(méi)走過(guò),OpenAI、谷歌、Waymo也沒(méi)有走過(guò)這條路。”
“我們其實(shí)走的是一個(gè)無(wú)人區(qū)”。
理想和中國(guó)智能汽車(chē),共闖無(wú)人區(qū)
其實(shí)在整個(gè)智能汽車(chē)時(shí)代,中國(guó)汽車(chē)行業(yè)的玩家都是在“無(wú)人區(qū)”中摸索著前進(jìn)。
到底什么樣的汽車(chē)才算是智能汽車(chē)?車(chē)企要如何競(jìng)爭(zhēng)才能取得時(shí)代勝利?近五年間,我們見(jiàn)證過(guò)太多“答案”。
瞄準(zhǔn)智能汽車(chē)“終點(diǎn)”的玩家有很多。認(rèn)為汽車(chē)智能化的前提是充足的電動(dòng)化,蔚來(lái)立志要把換電站建滿(mǎn)全國(guó)每一個(gè)角落;認(rèn)為汽車(chē)工業(yè)的終點(diǎn)是規(guī)模與成本,比亞迪極致掌控生產(chǎn)的每一個(gè)環(huán)節(jié);認(rèn)為汽車(chē)智能化就是將智能鋪滿(mǎn)每一個(gè)角落,華為要當(dāng)中國(guó)智能汽車(chē)的“博世”。
“理想的基因是為用戶(hù)創(chuàng)造價(jià)值。”
正如李想在訪(fǎng)談中所言,今年即將迎來(lái)十歲生日的理想,走的是與行業(yè)其他玩家與眾不同的路子——在滿(mǎn)足用戶(hù)的需求中,在不斷地解決問(wèn)題中成長(zhǎng)。
例如在汽車(chē)電動(dòng)化及相關(guān)配套設(shè)施還不完善的時(shí)期,理想先推出了增程式的車(chē)型滿(mǎn)足用戶(hù)需求。用“冰箱彩電沙發(fā)”定義了早期汽車(chē)智能的“模板”。而彼時(shí)的汽車(chē)行業(yè)還在糾結(jié),增程式到底是不是落后技術(shù),“冰箱彩電沙發(fā)”到底算不算是“花架子”。
站在2025年的上海車(chē)展上,“冰箱彩電沙發(fā)”早已成了每一輛新車(chē)的標(biāo)配。汽車(chē)行業(yè)也早就沒(méi)了關(guān)于增程技術(shù)落后的討論,反而是不少消費(fèi)者“要求”純電汽車(chē)品牌也推出增程式版本。
“到了今天,還能看到至少有5個(gè)的企業(yè)是因?yàn)楫?dāng)時(shí)理想L9的成功,在打造跟理想L9相同的產(chǎn)品。”李想說(shuō)。
專(zhuān)注滿(mǎn)足用戶(hù)需求的結(jié)果,就是理想汽車(chē)在過(guò)去的五年中,合計(jì)賣(mài)出超過(guò)100萬(wàn)輛車(chē)。李想今年年初的內(nèi)部信,定下了2025年要占據(jù)20%中國(guó)智能電動(dòng)車(chē)市場(chǎng)份額的目標(biāo)。換算下來(lái),銷(xiāo)量要達(dá)到160萬(wàn)輛。
“我只能做最好的自己,在自己長(zhǎng)板的延長(zhǎng)線(xiàn)上來(lái)做,而延長(zhǎng)線(xiàn)最終帶來(lái)了無(wú)人區(qū)。”
誠(chéng)如李想所說(shuō),理想的成就是不斷延長(zhǎng)自身優(yōu)勢(shì)的結(jié)果。但如果我們用更大的尺度觀(guān)察中國(guó)汽車(chē)行業(yè)。中國(guó)智能汽車(chē)行業(yè)如今領(lǐng)先全球的盛況,其實(shí)也是各家車(chē)企不斷探索自身“長(zhǎng)板”的結(jié)果。
二十年前,中國(guó)汽車(chē)想要實(shí)現(xiàn)技術(shù)突破非常困難。在全球汽車(chē)巨頭早已搭建好的利益關(guān)系網(wǎng)中,任何中國(guó)車(chē)企技術(shù)研發(fā)都要面臨國(guó)際技術(shù)專(zhuān)利的壁壘。想要拿下技術(shù)授權(quán),想要在海外銷(xiāo)售自主品牌,就得仿照吉利收購(gòu)沃爾沃。
在智能汽車(chē)時(shí)代,如今的中國(guó)汽車(chē)產(chǎn)業(yè)鏈已經(jīng)有不少玩家“不怎么在乎”國(guó)際巨頭的技術(shù)封鎖了。
例如在智駕上,中國(guó)已經(jīng)有不少?gòu)S商開(kāi)始了對(duì)外輸出(小鵬、地平線(xiàn)、Momenta、華為等)。在汽車(chē)OS的設(shè)計(jì)上,不只是理想的星環(huán)OS,還有不少芯片廠(chǎng)商也參與了車(chē)機(jī)系統(tǒng)的設(shè)計(jì),例如地平線(xiàn)的HSD界面、鴻蒙車(chē)機(jī)等。在國(guó)外汽車(chē)巨頭最自豪的底盤(pán)調(diào)教環(huán)節(jié)中,比亞迪、華為、蔚來(lái)等玩家在用智能底盤(pán)攻城略地。
要知道,過(guò)去中國(guó)汽車(chē)產(chǎn)業(yè)鏈用的幾乎都是國(guó)際巨頭們已經(jīng)“給好”的模板。
“我覺(jué)得DeepSeek的出現(xiàn),對(duì)我們加速做VLA是巨大的幫助。”談到為什么決定開(kāi)源星環(huán)OS,李想感慨萬(wàn)分,“我們受到了那么大的幫助,所以在想我們能對(duì)社會(huì)做點(diǎn)什么貢獻(xiàn)”。
光錐智能大致看了下開(kāi)源文件,readme文件(可以理解為是說(shuō)明書(shū))寫(xiě)的比較詳細(xì),理想真的想讓大家用起來(lái)。
當(dāng)前,汽車(chē)操作系統(tǒng)已經(jīng)被提升到智能汽車(chē)“新三大件”,理想的星環(huán)OS大概率不會(huì)像Deepseek一樣,被各大汽車(chē)廠(chǎng)商“拿來(lái)就用”。但對(duì)于汽車(chē)行業(yè)來(lái)說(shuō),有星環(huán)OS作為參考,一定是一件好事。
越開(kāi)放、越上升,這樣的技術(shù)和產(chǎn)業(yè)的螺旋式升級(jí),不只發(fā)生在智能汽車(chē)和AI產(chǎn)業(yè)鏈里,最終,將潤(rùn)物細(xì)無(wú)聲般地滲透到中國(guó)經(jīng)濟(jì)的方方面面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.