“我覺得黎明馬上就要來了,但是會先經(jīng)歷一個黑暗的過程,之所以有黑暗是因為要迎來黎明。”面對近期有關智能駕駛的種種爭議,理想汽車CEO李想在5月7日的“AI Talk 第二季”上說道。其認為,智能駕駛發(fā)展這么多年,從規(guī)則算法,做到了端到端+VLM,到今天真正地邁入到了VLA(視覺語言行動模型——一種更高級的智能駕駛AI系統(tǒng))的階段,等于就處在黎明前的黑暗階段。
李想表示,正因為輔助駕駛行業(yè)遇到了問題,所以自己最喜歡、最開心的方式就是去解決行業(yè)解決不了的問題。“就像我們推出增程式產(chǎn)品就是為了解決電池成本高、充電難的問題,推出 5C(電池)也是為了解決充電慢、等待時間長的問題。我們愿意去解決行業(yè)中遇到的各種問題。”李想說道。
目前已經(jīng)落地的L2級還處于輔助工具階段,還需要人大量地參與。李想表示,VLA(Vision-Language-Action Model,視覺語言行動模型)能夠讓AI真正成為司機,成為交通領域的專業(yè)生產(chǎn)工具。對理想汽車而言,未來的VLA就是一個像人類司機一樣工作的“司機大模型”。
李想介紹,理想汽車的VLA的經(jīng)歷了三個階段。第一階段,自2021年起,理想汽車自研依賴規(guī)則算法和高精地圖的輔助駕駛,理想將這一階段類比為“昆蟲動物智能”,理解世界的程度非常有限,效率比較低。第二階段則是端到端,自2023年起理想汽車研究端到端,并在2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛。這一階段可以稱為“哺乳動物智能”,可以學習人類的一些行為,但是本身對物理世界并不理解,在處理復雜問題時存在局限。
在端到端的基礎上,理想進入了第三階段,VLA將開啟“人類智能”的階段,能夠像人類一樣,真正地去執(zhí)行這樣的行動。理想將這個VLA(視覺語言行動模型)在汽車輔助駕駛領域應用,稱之為VLA的“司機大模型”。李想介紹,VLA可以通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運作方式。
李想介紹,在訓練過程中,VLA模擬人類學習駕駛的過程,分為預訓練、后訓練和強化訓練。其中,預訓練通過大量視覺和語言數(shù)據(jù),訓練出云端VL基座模型并轉(zhuǎn)化為端側(cè)模型;后訓練則是加入動作數(shù)據(jù),讓模型具備在復雜交通環(huán)境中的博弈能力;強化訓練則通過基于人類反饋的強化學習和世界模型訓練,使模型更加安全、舒適,符合人類駕駛習慣。最后,以“司機Agent(智能體)”形態(tài)呈現(xiàn)的VLA司機大模型,支持用戶用自然語言溝通,簡單指令由端側(cè)處理,復雜指令經(jīng)云端解析后處理。
從此次AI TALK展示的視頻來看,VLA司機大模型可以聽懂用戶的語音指令,比如:用戶說出“靠邊停車”,或者快到路口說出“右轉(zhuǎn)”等指令時,車輛會立即執(zhí)行相應的指令。相比于以往根據(jù)導航路徑行駛,VLA司機大模型的要更加靈活,對模型的能力要求也更高。
李想還提到,得益于DeepSeek的開源,理想在VLA司機大模型的語言能力研發(fā)上提速顯著,節(jié)省了近9個月的時間和數(shù)億元成本。“我們可以站在巨人的肩膀上,但它只是其中的一部分。”李想表示,理想汽車仍然會加大投入,比如:在基座模型上投入超預期3倍的訓練卡,專注打造適配多場景的自研模型。
除了提升專業(yè)能力外,VLA司機大模型還必須要解決安全性的問題。李想表示,模型能力越強,越需要進行職業(yè)性約束。為了保障VLA司機大模型能夠?qū)崿F(xiàn)職業(yè)司機般的安全和舒適,避免學習不遵守交通規(guī)則的行為或者讓車內(nèi)人員感到不安全的行為(比如:頻繁加塞),從去年年底,理想就組建起了超100人的超級對齊團隊,為司機Agent進行強化訓練,確保其安全駕駛。
李想直言VLA司機大模型能夠解決全自動駕駛問題,但是不排除未來會出現(xiàn)效率更高的架構(gòu)。他認為,大概率未來還會出現(xiàn)更高效的新架構(gòu)。畢竟VLA還是基于Transformer(深度學習模型架構(gòu)),而Transformer是否就是最優(yōu)的結(jié)構(gòu),目前還不確定。李想坦言,DeepSeek沒走過這條路,OpenAI、谷歌、Waymo也沒有走過,理想汽車要走入的是一個無人區(qū)。
而在談到特斯拉FSD進入中國市場是否會對理想汽車產(chǎn)生影響時,李想直言FSD在中國的表現(xiàn)不是是特斯拉真實能力的體現(xiàn)。其表示,根據(jù)實測,特斯拉大概在用12.5之前的模型,距離特斯拉真實能力還有巨大的差距,與特斯拉13.0的能力相比,12.5之前的模型應該只是半規(guī)則算法的能力。
在其看來,特斯拉的基本功是非常扎實的,包括感知的距離,運行的幀率,車輛控制的穩(wěn)定性等等。而特斯拉沒有釋放真實能力原因,李想表示:“如果直接上端到端的話,面對中國的這些路況,其實它在美國沒有學習到這些東西,然后再遇到這些復雜的事情,還是會遇到挑戰(zhàn)的。”
在整場AI TALK中,李想多次提到的基本功。對于外界說“理想輔助駕駛起步晚,是吃第10個包子的人”這種說法,李想也并不認可。“我們自研的時間并不短啊。從2021年上地平線征程Journey3芯片的時候就開始做自研,然后我們研究做得也很扎實。”李想表示,理想能夠做到如今智能化體驗的背后,是積累的大型軟件的能力。
其舉例,由于Orin芯片并不支持直接跑語言模型,所以不少企業(yè)做端到端和VLM都很難,而理想可以做到雙Orin-X跟Thor-U都能跑VLA司機大模型,原因在于理想有編譯團隊,有芯片的能力,有板子設計能力,有操作系統(tǒng)能力。“我們這方面的技術(shù)都是非常之扎實,因為我自己還是認為,規(guī)模小的時候可能無所謂,規(guī)模大的時候基本功和能力永遠是無法逾越的。”李想說道。
李想認為,在今天這種內(nèi)卷、外部的不確定的環(huán)境下,像蘋果,像特斯拉這些企業(yè)的基本功特別扎實,這是中國企業(yè)需要真正要去學的。“如果很多企業(yè)做了很多的創(chuàng)新,但是基本功不扎實,很多創(chuàng)新就會曇花一現(xiàn)就過去了。這會是很大的問題。因為他雖然能發(fā)明很多東西,但是你會發(fā)現(xiàn)能力強的公司復制這個東西,在人工智能時代基本上都是按周計算的,就能復制過來。所以基本功還是非常重要的。”李想說道。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.