網易首頁 > 網易號 > 正文申請入駐

理想汽車發布新一代自動駕駛構架——MindVLA

2025-03-25 15:48:09　來源: 智生活雜志

上海舉報

分享至

在3月18日的NVIDIA GTC 2025上，理想汽車自動駕駛技術研發負責人賈鵬發表了主題為《VLA：邁向自動駕駛物理智能體的關鍵一步》的演講，并發布了理想汽車的下一代自動駕駛架構——MindVLA。

理想汽車董事長兼CEO李想當日在社交平臺發文稱，“MindVLA是一個視覺-語言-行為大模型，但我們更愿意將其稱為“機器人大模型”，它將空間智能、語言智能和行為智能統一在一個模型里，讓自動駕駛擁有感知、思考和適應環境的能力，是我們通往L4路上最重要的一步。”他還表示，MindVLA能為自動駕駛賦予類似人類的駕駛能力，就像iPhone 4重新定義了手機，MindVLA也將重新定義自動駕駛。

據介紹，MindVLA不是簡單地將端到端模型和VLM模型結合在一起，所有模塊都是全新設計。3D空間編碼器通過語言模型后，和邏輯推理結合在一起后，給出合理的駕駛決策，并輸出一組action token（動作詞元），action token指的是對周圍環境和自車駕駛行為的編碼，并通過diffusion（擴散模型）進一步優化出最佳的駕駛軌跡，整個推理過程都要發生在車端，并且要做到實時運行。

從用戶體驗方面來看，有MindVLA賦能的汽車不再只是一個簡單的駕駛工具，而是一個能與用戶溝通、理解用戶意圖的智能體。能夠聽得懂、看得見、找得到，是一個真正意義上的司機Agent或者叫“專職司機”。

所謂“聽得懂”是用戶可以通過語音指令改變車輛的路線和行為，MindVLA能夠理解并執行“開太快了”“應該走左邊這條路”等這些指令。“看得見”是指MindVLA具備強大的通識能力，不僅能夠認識星巴克、肯德基等不同的商店招牌；當用戶在陌生地點找不到車輛時，可以拍一張附近環境的照片發送給車輛，擁有MindVLA賦能的車輛能夠搜尋照片中的位置，并自動找到用戶。“找得到”意味著車輛可以自主地在地庫、園區和公共道路上漫游，其中典型應用場景是用戶在商場地庫，可以跟車輛說：“去找個車位停好”，車輛就會利用強大的空間推理能力自主尋找車位，即便遇到死胡同，車輛也會自如地倒車，重新尋找合適的車位停下，整個過程不依賴地圖或導航信息，完全依賴MindVLA的空間理解和邏輯推理能力。

對于人工智能領域而言，汽車作為物理人工智能的最佳載體，未來探索出物理世界和數字世界結合的范式，將有望賦能多個行業協同發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.