99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

理想汽車的「司機大模型」到底是什么?我們試著聽懂了

0
分享至


時隔 130 天,理想 AI Talk 昨晚正式回歸。面對張小珺的犀利提問,理想汽車創(chuàng)始人、董事長兼 CEO 李想傳遞出了兩大核心內容,第一是詳解即將落地的 VLA 大模型到底是什么,第二是談了談李想創(chuàng)業(yè)的最新思考。

實際上,在 2024 年底的 AI Talk 中,李想已經(jīng)宣布,理想不是汽車企業(yè),是人工智能企業(yè)。在過去幾個月時間里,DeepSeek 火遍全球,機器人行業(yè)迎來前所未有的熱度。定位為人工智能企業(yè)的理想汽車,最近幾個月的核心成果就是 VLA (視覺-語言-動作)大模型。

最新公布的視頻顯示,基于 VLA 模型的輔助駕駛系統(tǒng),駕駛員可以用語音操控車輛,包括走收費站的人工通道、掉頭、靠邊停車、停在停車場的 C3 區(qū)域等等,這都是輔助駕駛從未有過的體驗。


李想說:「VLA 能夠解決到全自動駕駛,甚至有機會能夠超越人類。」

不過,如今輔助駕駛正處于一個新的十字路口,甚至業(yè)內有輔助駕駛應該被叫停的聲音。但李想?yún)s認為,這就像是黎明前的黑暗,理想就是要去解決行業(yè)解決不了的問題,就像是增程解決充電難、電池成本高的問題,5C 解決充電慢、等待時間長的問題一樣。

只不過,理想和業(yè)內頭部的幾家企業(yè)相同,走進了還無人能做到量產(chǎn)的「無人區(qū)」,按李想的話來說:「DeepSeek 沒走過,OpenAI 沒走過,谷歌、Waymo 也沒走過。」


那么 VLA 究竟是什么,理想為什么會做 VLA,這項技術如何落地,在昨晚的 AI Talk 中,李想作出了非常詳細的解讀。從本期 AI Talk 中,我們也能清楚地看到理想汽車如何從輔助駕駛的追隨者逆襲成為領先者的。

VLA 拉高輔助駕駛能力上限

今年 3 月,理想汽車在 NVIDIA GTC 2025 大會上推出了新一代自動駕駛技術——MindVLA 大模型。當時理想發(fā)布了三個視頻展示了 MindVLA 的三大功能:

  • 用語音說找星巴克,車輛可以自己去找,期間還能用語音控制車輛的速度和左轉右轉方向。

  • 在地面拍照給 MindVLA,車輛從地庫出發(fā),自主通過閘機,利用視覺感知判斷接人的地點,甚至車主直接坐上了副駕駛座。

  • 地下車庫讓 MindVLA 漫游,自主找車位,如果遇到「死胡同」,還能自己倒車。

昨晚的 AI Talk 第二季上,李想再度放出了 VLA 模型的另外幾項功能,在輔助駕駛狀態(tài)下,駕駛員說出的駕駛指令,車輛全都能很好地執(zhí)行。


當真正體驗到這些功能的時候,李想本人并沒有覺得是個 Aha Moment(驚喜時刻),反倒覺得輔助駕駛很像人,這是個正常的表現(xiàn)。但我相信,我們作為普通用戶第一次看到 VLA 的測試視頻的時候,還是會驚訝于它的表現(xiàn)。

很明顯,VLA 能夠再度拉高輔助駕駛的能力上限。與此同時,VLA 也已被認為是 2025 年輔助駕駛發(fā)展的標志性技術突破。

VLA 的突破有多大,李想將輔助駕駛拆解成了三個發(fā)展階段,用自然界中不同的物種進行了形象的比喻:

  • 第一階段,昆蟲動物智能。對應規(guī)則算法 + 高精地圖的輔助駕駛時代,類似螞蟻的行動和完成任務的方式。

  • 第二階段,哺乳動物智能。也就是端到端 + VLM 時代。大模型學習人類的駕駛行為(類似馬戲團的動物),但對物理世界的理解并不充分,難以解決從未遇到過的問題。VLM 也只能起到輔助作用。

  • 第三階段,人類智能。VLA 階段可以實現(xiàn)類似人類觀察世界的方式,同時 VLA 擁有自己的腦系統(tǒng),進一步理解物理世界,還具備語言和思維鏈系統(tǒng),也就是 VLA 的司機大模型。


從目前的「端到端 + VLM」雙模型,到 VLA 將空間智能、語言智能、行為智能統(tǒng)一到一個模型中,VLA 究竟是什么,它僅僅是把端到端和 VLM 合二為一了嗎?

李想認為,在輔助駕駛領域, VLA 是一個司機大模型,是個像人類的司機一樣去工作的一個模型。對于用戶來說,VLA 的目標就是成為「司機 Agent(智能體)」,正如此前視頻中展示的,車輛成為能與用戶溝通、理解用戶意圖的智能體。

從技術上來講,VLA 相對此前的端到端 + VLM 架構,所有模塊都通過了全新的設計。其中,3D 空間編碼器通過語言模型,和邏輯推理結合在一起后,給出合理的駕駛決策,并輸出一組 action token(動作詞元)。這個 action token 指的是對周圍環(huán)境和自車駕駛行為的編碼,并通過 diffusion(擴散模型)進一步優(yōu)化出最佳的駕駛軌跡,整個推理過程都要發(fā)生在車端,并且要做到實時運行。

有了 VLA 的技術路徑,接下來就是量產(chǎn)落地。李想談到:「DeepSeek 一開源,我們就加速了 9 個月的時間(做出 VLA)。」

而李想原本的計劃,是在今年年底做出一個滿足需求的 VLA 模型。

李想回憶,去年 9 月,ChatGPT o1 發(fā)布的前幾天,他曾經(jīng)和 DeepSeek 創(chuàng)始人梁文鋒有過一次談話。一方面,他認為梁文鋒非常自律,另一方面,梁文鋒是一個會在全世界范圍之內去研究和學習最佳實踐和最好的方法論的人。

也正是 DeepSeek 給理想汽車帶來的巨大收益和幫助,讓李想決定開源整車操作系統(tǒng)星環(huán) OS。「說白了,純粹是感謝 DeepSeek。」李想說道。

理想走的是無人區(qū)

今年 2 月 5 日,春節(jié)假期后的第一個工作日,李想汽車內部開了一個 AI 相關的例會。李想當時在會上說道,DeepSeek 更像是 Linux 的推出,而理想則是要去追逐「安卓」時刻。

李想希望,理想汽車的 VLA 模型就是要把 vision(視覺)做強,把 action(動作)也做好,同時借助 language(語言)。在整個汽車/交通領域中,VLA 是個更重要的大模型,這就是理想的機會所在。


李想的策略是,一方面擁抱 DeepSeek,另一方面也要做自己的基座模型。這是因為在訓練 VLA 的過程中,輔助駕駛所需的 vision、language 和其他行業(yè)都不相同,同時要把 V 和 L 組合在一起。這無論是對于 OpenAI 還是 DeepSeek 來說都沒有這樣的數(shù)據(jù),也沒有這樣的場景和需求,因此理想必須自己做。

為了訓練基座模型,理想今年采購的訓練卡比預期多買了 3 倍。

目前,理想汽車為「理想同學」訓練了 300B 參數(shù)的模型,VLA 模型中 VL 的部分,則是個 32B 參數(shù)的模型。

有了基座模型之后,才完成了 VLA 模型訓練的第一步,也就是預訓練。


VLA 訓練的第二步是后訓練,變成 VLA(司機大模型)。此時要把 action 放進訓練模型中。這其實仍然是一種模仿學習,就像是去駕校學開車。李想介紹:「這個時候大概模型規(guī)模就會從 3.2B 大概擴大到接近 4B。」


這時候,VLA 就能直接從視覺感知,到理解,直至最后的動作輸出。李想特別提到,不會做長思維鏈,一般是兩步到三步,否則長時延會無法滿足安全性。另外,當 action 完成后,VLA 還會根據(jù)性能做 4 - 8 秒的擴散模型(difussion),預測軌跡和環(huán)境。

VLA 訓練的第三步則是做強化的訓練,這一階段就比較像人到社會上開車了。強化分成兩個部分,第一個部分先做 RLHF(基于人類反饋的強化學習學習),帶有人類反饋。第二個部分是純粹的 RL(強化學習),拿 RL 模型放到理想的世界模型中做訓練。這一步驟的目的是讓車開得比人類更好。在訓練指標上,理想會通過 G 值來判斷輔助駕駛的舒適性,同時做碰撞的反饋,還有交通規(guī)則的反饋。


當這三個步驟完成了以后,VLA 能夠跑在車端的模型其實就產(chǎn)生了。

最后,理想還要搭建一個司機 Agent(智能體),實現(xiàn)車內駕駛員用自然語言「教」輔助駕駛系統(tǒng)應該如何開車。


訓練 VLA 的復雜過程中,李想也無法回答究竟哪個步驟最困難。李想說道:「 我覺得沒有辦法預測。因為這些東西我們前面沒有任何人走過這條路。DeepSeek 也沒走過這條路,然后 OpenAI 也沒有走過這條路,谷歌、Waymo 也沒有走過這條路。我們其實走的是一個無人區(qū)。

不過,除了理想汽車之外, 如今 VLA 這個無人區(qū)也有了不止一個玩家加入,共同角逐 VLA 量產(chǎn)。

無法跳過端到端實現(xiàn) VLA

談到 VLA 的終極指標,李想認為要把 VLA 模型和司機 Agent 放在一起看。其中,VLA 的判斷標準和人類駕駛水平相同,大致可以分為三方面:開車能力強不強(模型強不強)、是否職業(yè),以及是否安全。另一方面,通過 Agent 和記憶來構建信任與理解的關系。

最終 VLA 和司機 Agent 共同作用,才是能夠給用戶使用的產(chǎn)品。

甚至李想認為,VLA 能夠解決到全自動駕駛,它就是現(xiàn)階段能力最強的架構,它最接近人類,甚至有機會超越人類駕駛能力。 只不過,VLA 是否是最高效的方案,還需要打一個問號。

既然 VLA 這么強,是不是意味著跳過去年的端到端,一步到位 VLA 才是正確路徑呢?

李想并不這樣認為。根據(jù)理想汽車自身的經(jīng)驗,跳過端到端實現(xiàn) VLA 根本不可行。實際上,算到端是 VLA 的基礎。「我說不太好聽的話,就是沒有辦法直接吃第十個包子。雖然可能大家覺得第十個包子吃飽了,但前面每個包子其實都跳不過去。」李想說道,「不是膽大大于一切,我看不到什么捷徑。包括今天很多企業(yè)做端到端都很吃力,因為在規(guī)則算法時候都沒做好。」

李想押注 VLA 其實還有個重要原因,那就是他認為 VLA 最先落地的領域就是交通場景。一方面,車輛行駛環(huán)境雖然復雜,但規(guī)則是清楚的。車只能開在有路的地方,不可能是天上,也不可能是水里。另一方面,車只有三個自由度(前后、左右、旋轉),而機器人「上來就是 40 個自由度」,挑戰(zhàn)就更大了。還有一方面,車內的舒適度,G 值可以體現(xiàn);是否違反交規(guī),有明確的規(guī)則;是否碰撞,同樣有明確的指標,李想認為在這幾個指標之下,輔助駕駛會越開越好。

此外,安全是輔助駕駛永恒的話題。這方面,理想去年年底成立了一個 100 多人的「超級對齊」團隊,專門解決模型安全問題。

在做到了 1,000 萬 Clips (視頻片段)之后,偶爾會發(fā)現(xiàn)因為模型能力太強,導致給車內人員不安全感。比如,輔助駕駛系統(tǒng)可能在交通擁堵中加塞,李想分析,它可能學到了一些不該學的司機的行為。


李想將模型安全的能力與員工招聘作了類比:「比如說我招一個員工,或者我是否認可一個員工,一個是看他的專業(yè)能力,第二是看他的職業(yè)性,然后我覺得第三個是看他其實對別人理解和構建信任的能力,比如這三個都很好,我覺得就是最卓越的員工。」

理想十周年,仍在學習特斯拉和蘋果

今年 7 月,理想汽車將迎來十歲生日。回顧這一段創(chuàng)業(yè)經(jīng)歷,李想講到了這幾個時間節(jié)點:

  • 2018 年理想 ONE 第一次發(fā)布,到 2019 年 4 月 上海車展發(fā)布價格。理想是從什么都沒有開始做的。

  • 2022 年理想 L9 發(fā)布。直至 2025 年的今天,至少有 5 個以上的企業(yè)在打造和理想 L9 相同的產(chǎn)品。

  • 理想 L9 發(fā)布之后,理想單季度虧損接近 20 億,「倒閉」之聲不絕于耳。

  • 2023 年獲得接近 3 倍的增長,做到了 1,200 億的收入。

李想說道:「如果按時間軸而言,肯定苦更多,但是吃苦多了也就習慣了。」

與此同時,李想也談到,在今天內卷的環(huán)境下,包括外部不確定的環(huán)境下,更是每個企業(yè)扎扎實實練基本功最好的時候。「我覺得美國的很多的頂級的公司,像蘋果,像特斯拉這種企業(yè),就是他們基本功特別扎實。」

今年,特斯拉為中國用戶推送了 FSD 功能,李想判斷,特斯拉大概在用 12.5 之前的模型,與特斯拉的真實能力還有巨大的差距。但同時也能看到,特斯拉的基本功是非常扎實的,包括它感知的距離,運行的幀率,車輛控制的穩(wěn)定性。

不過,李想也預測特斯拉沒能具體學習中國路況,如果直接上 13.0 以后的端到端,還是會遇到挑戰(zhàn)。

談到蘋果,李想表示:「當你做到千億收入,再去看這種萬億收入公司的能力的時候,你開始模模糊糊能看懂一些了。但是我們很小規(guī)模的時候,我們看不懂蘋果為什么這么做。」

李想認為,今天他 90% 的狀態(tài)、思維方式和高中時候差不多。也就是遇到問題去解決問題、解決別人不愿意解決的問題、解決消費者遇到的最大的問題、去找更多的人學習。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普稱“我無法想象中方會介入”,在美軍開戰(zhàn)前,中國立場被公開試探?

特朗普稱“我無法想象中方會介入”,在美軍開戰(zhàn)前,中國立場被公開試探?

荷蘭豆愛健康
2025-06-21 17:57:18
發(fā)文稱“長沙女觀眾太好看了,身材好,這種視覺沖擊在北上杭都很少”,江蘇大劇院員工被辭退

發(fā)文稱“長沙女觀眾太好看了,身材好,這種視覺沖擊在北上杭都很少”,江蘇大劇院員工被辭退

極目新聞
2025-06-19 19:50:18
53歲黎姿近況曝光:一家四口擠20平破屋,弟弟癱瘓,嫁殘疾老公

53歲黎姿近況曝光:一家四口擠20平破屋,弟弟癱瘓,嫁殘疾老公

周沖的影像聲色
2025-06-21 23:34:47
侵略者,你哭什么?

侵略者,你哭什么?

平原公子
2025-06-20 09:10:46
中央指導組組長、安徽省委書記,一同外出調研

中央指導組組長、安徽省委書記,一同外出調研

政知新媒體
2025-06-21 22:24:43
網(wǎng)傳某知名公司裁員近萬人,真實案例揭露失業(yè)后到底有多慘…

網(wǎng)傳某知名公司裁員近萬人,真實案例揭露失業(yè)后到底有多慘…

慧翔百科
2025-06-20 09:15:06
普京:俄羅斯愿與中國開展全面合作

普京:俄羅斯愿與中國開展全面合作

澎湃新聞
2025-06-21 00:08:04
印度詭異航班唯一幸存者之謎:竟然“偷偷”做過這些大善事?

印度詭異航班唯一幸存者之謎:竟然“偷偷”做過這些大善事?

神奇故事
2025-06-21 23:27:46
救護車收費2萬8事件反轉:有車有房還要捐款,父親工作單位被扒

救護車收費2萬8事件反轉:有車有房還要捐款,父親工作單位被扒

小舟談歷史
2025-06-21 15:16:31
陳喬恩現(xiàn)身攀枝花被偶遇,生圖曝光一臉老態(tài)!看來做針雕效果不大

陳喬恩現(xiàn)身攀枝花被偶遇,生圖曝光一臉老態(tài)!看來做針雕效果不大

娛樂團長
2025-06-21 15:17:33
曾奇峰:最重要的性器官,不在兩腿之間

曾奇峰:最重要的性器官,不在兩腿之間

曾奇峰心理工作室
2025-06-21 12:00:54
“仁愛之家”化糞池下竟埋葬著近800名幼童的遺骨 愛爾蘭政府將在本月啟動法醫(yī)挖掘

“仁愛之家”化糞池下竟埋葬著近800名幼童的遺骨 愛爾蘭政府將在本月啟動法醫(yī)挖掘

閃電新聞
2025-06-21 14:52:49
鈴木選擇硬剛中國,拒絕中國稀土核查組進入,致鈴木雨燕全面停產(chǎn)

鈴木選擇硬剛中國,拒絕中國稀土核查組進入,致鈴木雨燕全面停產(chǎn)

李子櫥
2025-06-19 20:50:04
目擊者回憶北語教授張愛玲在清華被砸倒:她當時正在騎自行車

目擊者回憶北語教授張愛玲在清華被砸倒:她當時正在騎自行車

南方都市報
2025-06-20 20:01:19
資產(chǎn)轉移套路被曝光!恒大暴雷后,丁玉梅斥資近5億買入英國房產(chǎn)

資產(chǎn)轉移套路被曝光!恒大暴雷后,丁玉梅斥資近5億買入英國房產(chǎn)

財話連篇
2025-06-21 14:41:47
揪心!英媒曝光細節(jié):凱特王妃的癌癥進入晚期?

揪心!英媒曝光細節(jié):凱特王妃的癌癥進入晚期?

小嵩
2025-06-21 09:16:44
92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

紅豆講堂
2025-06-08 12:00:10
伊朗突發(fā)5.5級地震,距福爾多核設施約280公里 地震專家:系自然發(fā)生,非人為

伊朗突發(fā)5.5級地震,距福爾多核設施約280公里 地震專家:系自然發(fā)生,非人為

紅星新聞
2025-06-21 16:37:19
那爾那茜沉默至今,前央視趙普忍無可忍:既能上網(wǎng),為何不回應?

那爾那茜沉默至今,前央視趙普忍無可忍:既能上網(wǎng),為何不回應?

柏拉圖的訴說1
2025-06-22 02:12:28
一人洗碗全家得病?多虧醫(yī)生提醒:洗碗時,不能有的5個壞習慣!

一人洗碗全家得病?多虧醫(yī)生提醒:洗碗時,不能有的5個壞習慣!

三農老歷
2025-06-21 12:42:50
2025-06-22 07:00:49
42號車庫
42號車庫
和你一起探索未來汽車
908文章數(shù) 898關注度
往期回顧 全部

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經(jīng)要聞

租金大撤退!房東正在批量跑路!

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

態(tài)度原創(chuàng)

游戲
房產(chǎn)
本地
健康
公開課

今年最奇幻事件!一篇看完《情感反詐模擬器》改名風波

房產(chǎn)要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 军事| 迁安市| 满洲里市| 水城县| 吴旗县| 额济纳旗| 航空| 澄迈县| 佛山市| 太白县| 彭水| 绥阳县| 烟台市| 新津县| 罗甸县| 华阴市| 博客| 广南县| 新和县| 宁河县| 枣强县| 松江区| 东阳市| 蒙阴县| 南雄市| 岑巩县| 大悟县| 滕州市| 河间市| 得荣县| 丹寨县| 罗源县| 寿宁县| 慈溪市| 长治市| 长宁县| 台南县| 同心县| 儋州市| 唐河县| 柞水县|