或許是對話的效果確實不錯,又或許關于人工智能的話題意猶未盡,在去年末“AI Talk”第一季僅僅4個多月后,理想于5月7日啟動了“AI Talk”第二季,李想再次向公眾敞開心扉,分享了他對人工智能的最新思考,而這次的主角就是理想VLA司機大模型。
“VLA”,是“Vision-Language-Action”首字母的縮寫。VLA模型即“視覺語言動作模型”,就是結合視覺、語言和動作三個模塊,能夠更好地理解復雜的交通場景,并做出擬人化的駕駛決策。VLA模型是人工智能技術自動駕駛領域的一種全新的技術范式。
值得特別注意的是,此次理想將其VLA大模型加了個定語“司機”。對此,李想認為,AI分為信息工具、輔助工具和生產工具三個層級,而“判斷Agent(智能體)是否真正智能,關鍵在于它是否成為生產工具”,“只有當人工智能變成生產工具,才是其真正爆發的時刻。就像人類會雇傭司機,人工智能技術最終也會承擔類似職責,成為真正的生產工具。”
在李想看來,目前的L2、L2+駕駛輔助仍屬于輔助工具階段,而VLA則能夠讓AI真正成為司機,成為交通領域的專業生產工具。因此,未來的VLA就是“一個像人類司機一樣工作的司機大模型”。
當然,VLA的實現不是突變的過程,是進化的過程。譬如此前依賴規則算法和高精地圖的輔助駕駛類似“昆蟲動物智能”,當前應用的端到端+VLM輔助駕駛類似“哺乳動物智能”,在處理復雜交通問題時均存在一定局限。而VLA司機大模型才真正進入“人類智能”階段。屆時,VLA司機大模型將以“司機Agent(智能體)”的產品形態呈現,用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。
李想認為,除了提升專業能力,VLA司機大模型還需解決安全性和模型黑盒的問題。“判斷司機Agent是否是個好司機,有三個關鍵標準:專業能力、職業能力和構建信任的能力。”
李想特別強調自研,譬如在輔助駕駛方面,英偉達Orin-X芯片無法直接運行語言模型,而理想汽車通過自研底層推理引擎,使芯片可通過INT4量化的方式運行VLM,同時憑借芯片、控制器設計和自研汽車操作系統等綜合能力,理想汽車實現了讓雙Orin-X芯片和Thor-U芯片運行同等規模的VLA司機大模型。“人工智能時代,扎實的基本功比走捷徑重要。”
李想非常感謝因為DeepSeek的開源,讓理想汽車VLA司機大模型的語言能力研發提速顯著,因此,李想決定將其自研的汽車操作系統“理想星環OS”開源,以回饋社會。
而面對AI的發展,李想認為,在AI面前“所有的人性都應被保留,無論好壞”,“因為一切人性都是文化、生命、性格、能力的特質,也是人類真正的生命力所在。”
第三只眼
從去年的破50萬輛銷量,到今年4月初L系列的破百萬輛交付,理想汽車不斷創造中國高端汽車新勢力成長的傳奇,不僅在于其對消費者的深刻洞察,更在于其始終堅持技術創新。如今,理想汽車已儼然成為令人尊敬的企業。雖然當前輔助駕駛受到的爭議頗多,但人工智能的浪潮奔涌向前終將爆發,而L3及L4自動駕駛才將很快迎來破繭的時刻,讓我們這一天的到來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.