在3月18日的NVIDIA GTC 2025上,理想汽車自動駕駛技術研發負責人賈鵬發表了主題為《VLA:邁向自動駕駛物理智能體的關鍵一步》的演講,并發布了理想汽車的下一代自動駕駛架構——MindVLA。
理想汽車董事長兼CEO李想當日在社交平臺發文稱,“MindVLA是一個視覺-語言-行為大模型,但我們更愿意將其稱為“機器人大模型”,它將空間智能、語言智能和行為智能統一在一個模型里,讓自動駕駛擁有感知、思考和適應環境的能力,是我們通往L4路上最重要的一步。”他還表示,MindVLA能為自動駕駛賦予類似人類的駕駛能力,就像iPhone 4重新定義了手機,MindVLA也將重新定義自動駕駛。
據介紹,MindVLA不是簡單地將端到端模型和VLM模型結合在一起,所有模塊都是全新設計。3D空間編碼器通過語言模型后,和邏輯推理結合在一起后,給出合理的駕駛決策,并輸出一組action token(動作詞元),action token指的是對周圍環境和自車駕駛行為的編碼,并通過diffusion(擴散模型)進一步優化出最佳的駕駛軌跡,整個推理過程都要發生在車端,并且要做到實時運行。
從用戶體驗方面來看,有MindVLA賦能的汽車不再只是一個簡單的駕駛工具,而是一個能與用戶溝通、理解用戶意圖的智能體。能夠聽得懂、看得見、找得到,是一個真正意義上的司機Agent或者叫“專職司機”。
所謂“聽得懂”是用戶可以通過語音指令改變車輛的路線和行為,MindVLA能夠理解并執行“開太快了”“應該走左邊這條路”等這些指令。“看得見”是指MindVLA具備強大的通識能力,不僅能夠認識星巴克、肯德基等不同的商店招牌;當用戶在陌生地點找不到車輛時,可以拍一張附近環境的照片發送給車輛,擁有MindVLA賦能的車輛能夠搜尋照片中的位置,并自動找到用戶。“找得到”意味著車輛可以自主地在地庫、園區和公共道路上漫游,其中典型應用場景是用戶在商場地庫,可以跟車輛說:“去找個車位停好”,車輛就會利用強大的空間推理能力自主尋找車位,即便遇到死胡同,車輛也會自如地倒車,重新尋找合適的車位停下,整個過程不依賴地圖或導航信息,完全依賴MindVLA的空間理解和邏輯推理能力。
對于人工智能領域而言,汽車作為物理人工智能的最佳載體,未來探索出物理世界和數字世界結合的范式,將有望賦能多個行業協同發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.