理想詳解VLA司機大模型，李想稱“可接近人類司機思考”

2025-05-09 11:19:28　來源: 明鏡pro

貴州舉報

分享至

“我覺得黎明馬上就要來了，但是會先經(jīng)歷一個黑暗的過程，之所以有黑暗是因為要迎來黎明。”面對近期有關智能駕駛的種種爭議，理想汽車CEO李想在5月7日的“AI Talk 第二季”上說道。其認為，智能駕駛發(fā)展這么多年，從規(guī)則算法，做到了端到端+VLM，到今天真正地邁入到了VLA（視覺語言行動模型——一種更高級的智能駕駛AI系統(tǒng)）的階段，等于就處在黎明前的黑暗階段。

李想表示，正因為輔助駕駛行業(yè)遇到了問題，所以自己最喜歡、最開心的方式就是去解決行業(yè)解決不了的問題。“就像我們推出增程式產(chǎn)品就是為了解決電池成本高、充電難的問題，推出 5C（電池）也是為了解決充電慢、等待時間長的問題。我們愿意去解決行業(yè)中遇到的各種問題。”李想說道。

目前已經(jīng)落地的L2級還處于輔助工具階段，還需要人大量地參與。李想表示，VLA（Vision-Language-Action Model，視覺語言行動模型）能夠讓AI真正成為司機，成為交通領域的專業(yè)生產(chǎn)工具。對理想汽車而言，未來的VLA就是一個像人類司機一樣工作的“司機大模型”。

李想介紹，理想汽車的VLA的經(jīng)歷了三個階段。第一階段，自2021年起，理想汽車自研依賴規(guī)則算法和高精地圖的輔助駕駛，理想將這一階段類比為“昆蟲動物智能”，理解世界的程度非常有限，效率比較低。第二階段則是端到端，自2023年起理想汽車研究端到端，并在2024年正式推送的端到端+VLM（Vision Language Model，視覺語言模型）輔助駕駛。這一階段可以稱為“哺乳動物智能”，可以學習人類的一些行為，但是本身對物理世界并不理解，在處理復雜問題時存在局限。

在端到端的基礎上，理想進入了第三階段，VLA將開啟“人類智能”的階段，能夠像人類一樣，真正地去執(zhí)行這樣的行動。理想將這個VLA（視覺語言行動模型）在汽車輔助駕駛領域應用，稱之為VLA的“司機大模型”。李想介紹，VLA可以通過3D和2D視覺的組合，完整地看到物理世界，而不像VLM僅能解析2D圖像。同時，VLA擁有完整的腦系統(tǒng)，具備語言、CoT（Chain of Thought，思維鏈）推理能力，既能看，也能理解并真正執(zhí)行行動，符合人類的運作方式。

李想介紹，在訓練過程中，VLA模擬人類學習駕駛的過程，分為預訓練、后訓練和強化訓練。其中，預訓練通過大量視覺和語言數(shù)據(jù)，訓練出云端VL基座模型并轉(zhuǎn)化為端側(cè)模型；后訓練則是加入動作數(shù)據(jù)，讓模型具備在復雜交通環(huán)境中的博弈能力；強化訓練則通過基于人類反饋的強化學習和世界模型訓練，使模型更加安全、舒適，符合人類駕駛習慣。最后，以“司機Agent（智能體）”形態(tài)呈現(xiàn)的VLA司機大模型，支持用戶用自然語言溝通，簡單指令由端側(cè)處理，復雜指令經(jīng)云端解析后處理。

從此次AI TALK展示的視頻來看，VLA司機大模型可以聽懂用戶的語音指令，比如：用戶說出“靠邊停車”，或者快到路口說出“右轉(zhuǎn)”等指令時，車輛會立即執(zhí)行相應的指令。相比于以往根據(jù)導航路徑行駛，VLA司機大模型的要更加靈活，對模型的能力要求也更高。

李想還提到，得益于DeepSeek的開源，理想在VLA司機大模型的語言能力研發(fā)上提速顯著，節(jié)省了近9個月的時間和數(shù)億元成本。“我們可以站在巨人的肩膀上，但它只是其中的一部分。”李想表示，理想汽車仍然會加大投入，比如：在基座模型上投入超預期3倍的訓練卡，專注打造適配多場景的自研模型。

除了提升專業(yè)能力外，VLA司機大模型還必須要解決安全性的問題。李想表示，模型能力越強，越需要進行職業(yè)性約束。為了保障VLA司機大模型能夠?qū)崿F(xiàn)職業(yè)司機般的安全和舒適，避免學習不遵守交通規(guī)則的行為或者讓車內(nèi)人員感到不安全的行為（比如：頻繁加塞），從去年年底，理想就組建起了超100人的超級對齊團隊，為司機Agent進行強化訓練，確保其安全駕駛。

李想直言VLA司機大模型能夠解決全自動駕駛問題，但是不排除未來會出現(xiàn)效率更高的架構(gòu)。他認為，大概率未來還會出現(xiàn)更高效的新架構(gòu)。畢竟VLA還是基于Transformer（深度學習模型架構(gòu)），而Transformer是否就是最優(yōu)的結(jié)構(gòu)，目前還不確定。李想坦言，DeepSeek沒走過這條路，OpenAI、谷歌、Waymo也沒有走過，理想汽車要走入的是一個無人區(qū)。

而在談到特斯拉FSD進入中國市場是否會對理想汽車產(chǎn)生影響時，李想直言FSD在中國的表現(xiàn)不是是特斯拉真實能力的體現(xiàn)。其表示，根據(jù)實測，特斯拉大概在用12.5之前的模型，距離特斯拉真實能力還有巨大的差距，與特斯拉13.0的能力相比，12.5之前的模型應該只是半規(guī)則算法的能力。

在其看來，特斯拉的基本功是非常扎實的，包括感知的距離，運行的幀率，車輛控制的穩(wěn)定性等等。而特斯拉沒有釋放真實能力原因，李想表示：“如果直接上端到端的話，面對中國的這些路況，其實它在美國沒有學習到這些東西，然后再遇到這些復雜的事情，還是會遇到挑戰(zhàn)的。”

在整場AI TALK中，李想多次提到的基本功。對于外界說“理想輔助駕駛起步晚，是吃第10個包子的人”這種說法，李想也并不認可。“我們自研的時間并不短啊。從2021年上地平線征程Journey3芯片的時候就開始做自研，然后我們研究做得也很扎實。”李想表示，理想能夠做到如今智能化體驗的背后，是積累的大型軟件的能力。

其舉例，由于Orin芯片并不支持直接跑語言模型，所以不少企業(yè)做端到端和VLM都很難，而理想可以做到雙Orin-X跟Thor-U都能跑VLA司機大模型，原因在于理想有編譯團隊，有芯片的能力，有板子設計能力，有操作系統(tǒng)能力。“我們這方面的技術(shù)都是非常之扎實，因為我自己還是認為，規(guī)模小的時候可能無所謂，規(guī)模大的時候基本功和能力永遠是無法逾越的。”李想說道。

李想認為，在今天這種內(nèi)卷、外部的不確定的環(huán)境下，像蘋果，像特斯拉這些企業(yè)的基本功特別扎實，這是中國企業(yè)需要真正要去學的。“如果很多企業(yè)做了很多的創(chuàng)新，但是基本功不扎實，很多創(chuàng)新就會曇花一現(xiàn)就過去了。這會是很大的問題。因為他雖然能發(fā)明很多東西，但是你會發(fā)現(xiàn)能力強的公司復制這個東西，在人工智能時代基本上都是按周計算的，就能復制過來。所以基本功還是非常重要的。”李想說道。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.