網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

突破無人區(qū)：理想VLA的爆發(fā)時(shí)刻

2025-05-16 15:06:27　來源: 正解局

安徽舉報(bào)

分享至

近期，新能源車圈出現(xiàn)了一個(gè)不尋常的變化——各家都把自己的“自動(dòng)駕駛”宣傳改為“輔助駕駛”。

究其原因，是4月16日，工信部的一次會(huì)議強(qiáng)調(diào)，汽車生產(chǎn)企業(yè)需明確系統(tǒng)功能邊界和安全響應(yīng)措施，禁止夸大和虛假宣傳。

而在這場會(huì)議之前，理想汽車的CEO李想就已經(jīng)呼吁，媒體和行業(yè)應(yīng)該統(tǒng)一自動(dòng)駕駛的標(biāo)準(zhǔn)，在推廣上克制，在技術(shù)上投入。

前不久，2025理想AI Talk第二季播出，節(jié)目中李想更是談到了一個(gè)輔助駕駛的行業(yè)痛點(diǎn)：

大模型有了，輔助駕駛也有了，但專門適配輔助駕駛的大模型呢？

在今年英偉達(dá)2025春季GTC大會(huì)上，理想汽車VLA司機(jī)大模型，正式亮相。

在李想看來，VLA模型是解決AI與輔助駕駛交互難題最有效的方法。

在產(chǎn)品形態(tài)呈現(xiàn)上，它既是智能體，又是專屬司機(jī)。

在傳統(tǒng)輔助駕駛企業(yè)聚焦感知算法時(shí)，理想VLA司機(jī)大模型選擇的路線是：

攻占行業(yè)里的“技術(shù)無人區(qū)”。

在過去一年中，智能駕駛領(lǐng)域的技術(shù)經(jīng)歷了一次深刻的變革，其代表，就是端到端架構(gòu)成為輔助駕駛領(lǐng)域的技術(shù)熱點(diǎn)。

所謂“端到端”，區(qū)別于之前市場上技術(shù)路徑——模塊化規(guī)則（rule-based）。

模塊化規(guī)則把輔助駕駛系統(tǒng)分成感知、決策、執(zhí)行三個(gè)大類，通過激光雷達(dá)等傳感器，先感知周圍有什么，再做個(gè)決策，再告訴汽車怎么做。

三個(gè)模塊，每一層傳遞都有信息損耗，而且，流程很呆板，會(huì)遇到很多錯(cuò)誤。

而 “端到端” 就是把三個(gè)核心模塊整合在一起，傳感器端收集信息，輸出的是形式軌跡，全都由一個(gè)模型實(shí)現(xiàn)，中間沒有任何規(guī)則。

舉個(gè)例子，車在自動(dòng)駕駛時(shí)，遇到一輛大貨車靠近，按照模塊化規(guī)則，大概率就是剎車減速。

但人開車不會(huì)那么笨，而是會(huì)想自己是不是開太慢了？或者大貨車要變道？然后一腳油門，遠(yuǎn)離貨車。

端到端，就是像人類一樣，將傳統(tǒng)輔助駕駛的感知-預(yù)測-規(guī)劃-控制這些子模塊全部神經(jīng)網(wǎng)絡(luò)化，用先進(jìn)的算法模型，來取代傳統(tǒng)的算法和人工編寫的規(guī)則。

在國內(nèi)，去年7月，理想在行業(yè)內(nèi)率先實(shí)現(xiàn)了全國無圖 NOA（導(dǎo)航輔助駕駛），同時(shí)推出了全球首創(chuàng)的端到端（快系統(tǒng)）+VLM（慢系統(tǒng)）架構(gòu)，并于去年10月完成全面落地，備受行業(yè)關(guān)注。

在李想看來，理想汽車的輔助駕駛技術(shù)演進(jìn)分為三個(gè)階段：

第一階段（昆蟲級智能），是2021年，和同行一樣，依賴規(guī)則算法和高精地圖，去做輔助駕駛。

但李想清楚，僅憑目前市場上百萬參數(shù)的規(guī)模，車企面對復(fù)雜路況，很容易束手無策，距離真正的自動(dòng)駕駛，距離太遠(yuǎn)。

所以在第二個(gè)階段（哺乳動(dòng)物級智能），理想開始主動(dòng)引入端到端+VLM架構(gòu)，實(shí)現(xiàn)全場景端到端能力，擺脫地圖依賴。

真正讓高級輔助駕駛成為用戶放心、好用的一個(gè)選擇，而不是宣傳上的噱頭。

如今，李想更是提出，要實(shí)現(xiàn)“人類級智能”的第三個(gè)階段。

而這一躍遷的核心，就在于將AI大模型和算法、語音交互等多模態(tài)進(jìn)行融合，讓汽車可以通過視覺感知理解3D物理世界（如車道線、動(dòng)態(tài)物體），語言模型解析指令語義，再結(jié)合擴(kuò)散模型生成擬人化駕駛軌跡，形成“感知-思考-行動(dòng)”閉環(huán)。

簡單點(diǎn)說，就是突破端到端的局限，讓汽車學(xué)會(huì)像人一樣思考。

理想VLA司機(jī)大模型就是這樣的一個(gè)產(chǎn)物，它將空間智能、認(rèn)知智能統(tǒng)一在一個(gè)模型里，并賦予了模型的3D空間理解、邏輯推理和行為生成能力，讓自動(dòng)駕駛能夠感知、思考和適應(yīng)環(huán)境。

它既是一個(gè)能與用戶、理解用戶意圖的智能體，也是一名聽得懂、看得見、找得到的專屬司機(jī)。

區(qū)別于現(xiàn)在很多車企輔助駕駛系統(tǒng)和語音大模型的應(yīng)用割裂，理想汽車打破端到端+VLM兩個(gè)獨(dú)立模型的上限天花板，并不是簡單地將端到端模型和VLM模型兩者結(jié)合在一起，所有模塊都是全新設(shè)計(jì)。而這在行業(yè)內(nèi)，還是第一次。因?yàn)槟壳笆袌錾线€沒有一輛智能車，既有大模型對話，又突破了多模態(tài)協(xié)同效率。

李想解釋說：“（VLA）訓(xùn)練過程就像人類司機(jī)成長?！?/p>

司機(jī)的成長，一是駕校階段，二是常年的訓(xùn)練，尤其是高強(qiáng)度的訓(xùn)練，要經(jīng)歷復(fù)雜路況等等。

VLA的訓(xùn)練也是分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié)，預(yù)訓(xùn)練相當(dāng)于人類在學(xué)習(xí)科目一的基本知識(shí)，通過大量高清2D和3D Vision（視覺）數(shù)據(jù)、交通相關(guān)的Language（語言）語料，以及與物理世界相關(guān)的VL（Vision-Language，視覺和語言）聯(lián)合數(shù)據(jù)，訓(xùn)練出云端的VL基座模型，并通過蒸餾轉(zhuǎn)化為在車端高效運(yùn)行的端側(cè)模型。

后訓(xùn)練相當(dāng)于去駕校學(xué)習(xí)真實(shí)開車的過程，強(qiáng)化訓(xùn)練則類似于人類在社會(huì)中實(shí)際開車練習(xí)。經(jīng)過預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后，VLA司機(jī)大模型即可部署至車端運(yùn)行。

目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適，對齊人類價(jià)值觀，甚至超越人類駕駛水平。

當(dāng)然，僅僅從技術(shù)開拓?zé)o人區(qū)，還并不能滿足李想的預(yù)想。

既然大模型要像人一樣開車，也要像人一樣遵守道德和法律。

只有做到車技下限能力的可控，才能真正讓自動(dòng)駕駛成為一種可靠的選擇。

而提升AGI產(chǎn)品的下限能力關(guān)鍵就在于使其符合人類的利益，將自動(dòng)駕駛表現(xiàn)與人類習(xí)慣對齊。

為此，理想又在“價(jià)值對齊無人區(qū)”開辟了一個(gè)新戰(zhàn)場。

理想加入輔助駕駛倫理概念，將交通法規(guī)、社會(huì)公序良俗轉(zhuǎn)化為機(jī)器可執(zhí)行的約束規(guī)則。

比如說，有些彎道限速60時(shí)，其他車輛保持60碼的速度，但自動(dòng)駕駛的車受到固定算法的限制，用30碼的速度開，如此一來，不僅對車輛造成危險(xiǎn)，對很多車主來說，也是件頭疼的事。

這個(gè)時(shí)候，理想VLA司機(jī)大模型就會(huì)自動(dòng)學(xué)習(xí)，與其他車輛進(jìn)行速度對齊，以60碼的速度行駛，也更符合法規(guī)常識(shí)。

此外，在惡劣天氣下，當(dāng)激光雷達(dá)、攝像頭被遮擋或污染時(shí)，VLA司機(jī)大模型也會(huì)及時(shí)、準(zhǔn)確地告知用戶。

那么，理想是怎么實(shí)現(xiàn)這種對齊的呢？

基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），以人類是否接管作為反饋，進(jìn)行強(qiáng)化訓(xùn)練，跟人類駕駛對齊。在模型上限不變的情況下，理想汽車從舒適性、安全性、邏輯選擇變道等層面入手，使其盡量與人類習(xí)慣保持一致。

比如，VLA會(huì)在轉(zhuǎn)彎時(shí)像人類一樣自動(dòng)減速，或者在并線時(shí)留出足夠的安全距離。

這套超級對齊系統(tǒng)，能夠基于對人類駕駛行為的深度學(xué)習(xí)，實(shí)時(shí)進(jìn)化，并自動(dòng)觸發(fā)模型微調(diào)，將輔助駕駛的表現(xiàn)與人類駕駛表現(xiàn)對齊，讓VLA“開得比人類更好”。

挺進(jìn)無人區(qū)是件艱難的事情，但李想也坦言，VLA的成功離不開中國AI的崛起。

他表示，DeepSeek、通義千問等模型的出現(xiàn)讓中國AI水平迅速接近美國。

其中，DeepSeek所秉持的開源精神尤為令人振奮，“獨(dú)行快，眾行遠(yuǎn)”，這也促使了理想開源星環(huán)OS。

李想稱：“這不是出于公司戰(zhàn)略考量，DeepSeek給我們那么大幫助，我們應(yīng)該為社會(huì)貢獻(xiàn)點(diǎn)什么?！?/p>

面對目前行業(yè)智能汽車“重復(fù)造輪子”的困境，理想的“做點(diǎn)什么”，就是打破模型和模型，輔助駕駛和輔助駕駛之間的生態(tài)壁壘。

在2025的中關(guān)村論壇年會(huì)上，李想就公開宣布，理想汽車將成為全球首家將汽車操作系統(tǒng)開源的汽車企業(yè)。將自家的理想星環(huán)OS，主動(dòng)開放給友商。

相較大量傳統(tǒng)車企仍在使用的行業(yè)頭部閉源AUTOSAR操作系統(tǒng)，星環(huán)OS的核心性能、安全性、成本效率、適配性和靈活性等指標(biāo)，都實(shí)現(xiàn)了行業(yè)領(lǐng)先。

比如，對于最新的AI學(xué)習(xí)芯片，理想星環(huán)的適配周期大概需要4周的時(shí)間，相比于使用AUTOSAR時(shí)節(jié)省了約5個(gè)月的時(shí)間。

大幅提升了其他廠商推出新品的時(shí)間，也緩解了友商遭遇芯片荒的情況。

再以目前市場最關(guān)注的輔助駕駛的安全場景為例，傳統(tǒng)AEB的自動(dòng)緊急制動(dòng)有很長的調(diào)度延時(shí)。

而理想星環(huán)OS實(shí)現(xiàn)了全域的系統(tǒng)架構(gòu)設(shè)計(jì)，能夠優(yōu)化調(diào)度，相比傳統(tǒng)的AUTOSAR響應(yīng)時(shí)間，速度快了1倍，穩(wěn)定性提高了5倍。

體現(xiàn)在具體的功能上，在高速路上120的時(shí)速進(jìn)行AEB的制動(dòng)，大概可以縮短7米的制動(dòng)距離。

這要放在別的車企，可能就是一個(gè)宣傳賣點(diǎn)。

但理想?yún)s選擇打破傳統(tǒng)技術(shù)黑箱，開放格局，加速推動(dòng)行業(yè)擺脫對傳統(tǒng)閉源系統(tǒng)的依賴，實(shí)現(xiàn)生態(tài)共榮。

當(dāng)其他車企在輔助駕駛的“已知大陸"深耕時(shí)，理想汽車開啟了一個(gè)新的時(shí)代：

在"無人區(qū)"建立新的創(chuàng)新矩陣，并重新定義了輔助駕駛的進(jìn)化路徑，這或許就是中國科技企業(yè)突破“創(chuàng)新達(dá)爾文陷阱”的一種可能——在無人區(qū)播下技術(shù)種子，用開放協(xié)作催熟果實(shí)，最終讓整個(gè)產(chǎn)業(yè)向新維度漂移。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.