2024年底,理想汽車CEO李想在理想AI Talk第一季上表示,基座模型到一定時刻,一定會變成VLA(視覺語言行動模型)。2024年10月,理想汽車才開始推送端到端+VLM(視覺語言模型)智駕方案,年底就表示要押注VLA,可能會給用戶否定原方案的感覺。
2025年5月7日,理想AI Talk第二季上,李想再次強調,端到端+VLM的能力不足,現階段VLA是最強架構,只有VLA的能力可以接近人類,甚至超越人類。這一次,李想詳細講解了VLM的不足,以及理想汽車是如何訓練VLA的。
(圖源:理想)
李想舉例,VLM對于位置的判斷非常糟糕,如果是兩三個ETC出入口,還能作出準確判斷,但若遇到了京承高速這種十幾個ETC的高速出入口,VLM模型就不知道怎么判斷了,而且問題出在模型架構,即便喂更多語料給VLM都無法解決這個問題。
VLA的訓練分為VL(視覺語言)基座預訓練、輔助駕駛后訓練、輔助駕駛強化學習三個部分。其中預訓練相當于人類通過視覺數據、語言數據、視覺語言聯合數據學習和認知物理世界、交通知識,訓練出VL模型基座。
(圖源:直播截圖)
后訓練則相當于人類在駕校學習開車,通過Action(動作)數據對周圍環境和自車駕駛行為編碼,將VL模型基座訓練成VLA司機大模型。同時,VLA采用短思維鏈的特性,搭配Diffusion擴散模型對于他車軌跡和環境的預測,令其實時性更強,在復雜交通環境下依然具備較強的通行能力。
強化訓練則相當于我們日常開車,可以通過RLHF(基于人類反饋的強化學習),訓練大模型對于交通規則的理解能力,并使VLA更符合用戶的駕駛習慣。
最終產品會以司機Agent(智能體)的形式呈現,可以理解人類自然語意,用戶怎么指揮,車就怎么開。理想公布的測試視頻中,司機Agent可以根據語音指令,在不退出NOA的情況下切換路線,或者根據用戶指令在高速出入口走人工通道。
(圖源:直播截圖)
VLA并未擺脫端到端智駕方案的黑盒問題,為此理想在2024年底組建了超過1000人的超級對齊團隊,并構建了仿真世界模型,可在虛擬世界中驗證司機Agent的專業能力、職業能力和構建信任的能力。原本依靠人類司機驗證,一萬公里成本高達17萬元到18萬元,仿真世界中1萬公里驗證成本僅4000多元。
理想汽車車表示,由于英偉達Orin-X芯片無法直接運行語言模型,端到端+VLM對于部分企業而言仍是不小的挑戰。理想擁有編譯團隊,自研了底層推理引擎,使芯片可通過INT4(4比特整型)量化的方式運行VLM,理想在智駕技術領域的原創性,高于理想汽車核心競爭力之一的增程技術。
不過理想汽車表示,VLA的實現不是突變過程,而是從規則算法到端到端大模型及端到端+VLM,再到VLA的進化過程,唯有夯實基礎,才能實現VLA。這也解釋了為何理想會在推送端到端+VLM方案后,又押注VLA,基于規則算法和端到端+VLM的技術積累,理想才跨步到了VLA階段。
對于近期輔助駕駛車型接連出現事故,消費者失去信任,甚至有網友呼吁叫停輔助駕駛的情況,理想則認為更像是黎明前的黑暗,技術不會停止向前發展。
的確,輔助駕駛車型出現事故,只會讓車企在研究技術時更加謹慎,增加驗證頻次,不會導致車企因噎廢食,技術領域的競爭將更加激烈。一直處于國內輔助駕駛技術第一梯隊的理想,也許能夠通過VLA方案,為行業帶來新的思路與方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.