99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

理想汽車押注“司機(jī)大模型”,會(huì)是大殺器嗎?

0
分享至



借著端到端+VLM架構(gòu),理想汽車實(shí)現(xiàn)了在輔助駕駛上的逆襲。

嘗到新技術(shù)架構(gòu)甜頭的理想汽車,希望更進(jìn)一步,引入更新的技術(shù)架構(gòu),來(lái)夯實(shí)自己在輔助駕駛、自動(dòng)駕駛領(lǐng)域的優(yōu)勢(shì),甚至希望成為引領(lǐng)者。

那就是VLA(視覺、語(yǔ)言、行動(dòng))大模型,理想汽車將其命名為司機(jī)大模型。

5月7日晚,理想汽車舉行了“理想Al Talk第二季 李想面對(duì)面”線上活動(dòng)。理想汽車創(chuàng)始人、CEO李想再度現(xiàn)身討論AI及AI在輔助駕駛、智能駕駛和汽車上的應(yīng)用思路。

李想認(rèn)為,“今天輔助駕駛的這些規(guī)則算法、端到端跟人類差距還是太大了。”而司機(jī)大模型能力是最強(qiáng)的,“是最接近人類的,甚至有機(jī)會(huì)超過(guò)人類能力的一種”。

“我自己認(rèn)為VLA(司機(jī)大模型)能夠解決到全自動(dòng)駕駛。”

李想沒有透露具體的司機(jī)大模型支持的輔助駕駛系統(tǒng)上車時(shí)間。只是表示,比此前預(yù)計(jì)的9月要提前。



按照理想汽車透露的信息,理想純電SUV理想i8將于7月發(fā)布上市,并且搭載VLA(司機(jī)大模型)。

01

司機(jī)大模型有多厲害?

輔助駕駛系統(tǒng)發(fā)展到今天,對(duì)于行業(yè)、對(duì)于理想汽車,都可以說(shuō)是一個(gè)節(jié)點(diǎn)。

就行業(yè)而言,由于一些飽受關(guān)注的事故影響,輔助駕駛系統(tǒng)的安全性受到質(zhì)疑。

就理想汽車而言,盡管端到端+VLM雙系統(tǒng)開行業(yè)先河,并且將理想智駕拉到行業(yè)前列,引起一些技術(shù)路線追隨者,但是其輔助駕駛產(chǎn)品依舊是輔助工具。

本質(zhì)上,這兩個(gè)問題都可以歸結(jié)為——輔助駕駛系統(tǒng)的能力依舊不足。

李想提及了此前規(guī)則架構(gòu)、端到端架構(gòu)的兩個(gè)問題。

一是對(duì)復(fù)雜東西的理解,比如復(fù)雜的修路,“如果是規(guī)則算法可能就會(huì)撞上了,如果是端到端可能停下來(lái),但它不知道該怎么干了。”

另一方面是無(wú)法跟人溝通。“今天端到端怎么做?就跟猴子一樣,你影響不了它,對(duì)吧?”

但VLA架構(gòu)不一樣。面對(duì)復(fù)雜場(chǎng)景,司機(jī)大模型能輕松解決,因?yàn)樗欣斫饽芰ΑT谟?xùn)練階段,VLA架構(gòu)模型即便沒有經(jīng)歷過(guò)真實(shí)場(chǎng)景的學(xué)習(xí),也可以通過(guò)生成數(shù)據(jù)來(lái)訓(xùn)練。

在溝通方面,司機(jī)大模型作為Agent(智能體),可以理解語(yǔ)言,司機(jī)可以給出指令,比如讓它一直在中間行駛,直到下一個(gè)路口,再比如靠邊停車,或者“到C3區(qū)停車”。

而且,端到端架構(gòu)的系統(tǒng)與導(dǎo)航配合出現(xiàn)問題時(shí)無(wú)法妥善處理,司機(jī)大模型卻能在小區(qū)等開放空間漫游并與導(dǎo)航調(diào)整后匯合。

因?yàn)椋緳C(jī)大模型看得懂導(dǎo)航軟件運(yùn)行,具備思維鏈和推理能力,像人類司機(jī)一樣執(zhí)行駕駛行動(dòng),最終能像全職司機(jī)一樣工作,實(shí)現(xiàn)全自動(dòng)駕駛。

02

司機(jī)大模型如何訓(xùn)練?

司機(jī)大模型為什么理解世界,聽懂司機(jī)指令,并且還能成為駕駛“專家”呢?

還要從VLA模型的架構(gòu)特點(diǎn)和訓(xùn)練方式說(shuō)起。

李想認(rèn)為,VLA架構(gòu)是逐漸進(jìn)化而來(lái)的,具備了很多“像人類一樣的”能力:

  • 它能用3D的vision(視覺)和2D的組合,去看整個(gè)真實(shí)的物理世界,也包含它能夠去看懂導(dǎo)航軟件”。
  • 它有自己的整個(gè)腦系統(tǒng),不但要看到物理世界,還能夠理解這個(gè)物理世界。
  • 它有它的language(語(yǔ)言),然后它也有它的CoT(思維鏈),有推理的一個(gè)能力。
  • 它能夠像人類一樣的,真正地去執(zhí)行這樣的行動(dòng)……

這些能力來(lái)自何處?

李想表示,司機(jī)大模型需要四個(gè)步驟來(lái)訓(xùn)練。



步驟一,訓(xùn)練一個(gè)VL(視覺和語(yǔ)言)的基座模型。“我們目前在訓(xùn)的,當(dāng)前的這個(gè)版本,是一個(gè)32B的,就是320億云端的一個(gè)基座模型。”



這一模型和過(guò)去的模型的差異在于,要放入更多視覺的語(yǔ)料,其中就包括3D上的視覺語(yǔ)料、高清的2D的視覺語(yǔ)料。而此前的多模態(tài)的開源VLM(視覺語(yǔ)言模型)里邊,2D視覺語(yǔ)料的清晰度太低,所以看的距離不夠。

在語(yǔ)言模型方面,要放入跟交通、駕駛相關(guān)的足夠多的這方面的語(yǔ)料。

此外,還必須放入很多VL(視覺和語(yǔ)言)聯(lián)合的語(yǔ)料,就是三維圖像和對(duì)世界的理解語(yǔ)義要同時(shí)產(chǎn)生的。“比如我舉一個(gè)例子,我要把導(dǎo)航的地圖和車輛對(duì)導(dǎo)航地圖的理解一起放進(jìn)去。”

李想也回應(yīng)了為什么要做基座模型。

他說(shuō),理想汽車的VLA模型,即便是V(vision視覺)和L(language語(yǔ)言)部分也和通用大模型不一樣,需要涉及到更專業(yè)的車領(lǐng)域、交通領(lǐng)域、面向家庭用戶的語(yǔ)義語(yǔ)料,此外還需要把VL(視覺和語(yǔ)言)的組合語(yǔ)料放進(jìn)去訓(xùn)練。“那這些無(wú)論是OpenAI還是DeepSeek,它都沒有這樣的數(shù)據(jù),它們也沒有這樣的場(chǎng)景和需求,也不去解決這樣的問題,那只能我自己來(lái)做了。”

他也強(qiáng)調(diào),DeepSeek的開源加速了理想基座大模型的開發(fā)進(jìn)度。“好處是說(shuō)VLA(視覺語(yǔ)言行動(dòng)模型)里邊的這個(gè)language(語(yǔ)言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。”

李想在這里透露,理想汽車把基座模型的團(tuán)隊(duì)從智駕系統(tǒng)開發(fā)團(tuán)隊(duì)拆開,并且加大了投入,“訓(xùn)練卡比團(tuán)隊(duì)的預(yù)期應(yīng)該多買了3倍。”

這一基座模型訓(xùn)練出來(lái)之后,需要蒸餾成一個(gè)3.6B(即36億)端側(cè)(即上車)的蒸餾模型。“因?yàn)槲乙WC它運(yùn)行速度足夠得快,然后無(wú)論是兩個(gè)Orin-X還是Thor-U上能夠流暢地運(yùn)行。”

步驟二是做后訓(xùn)練,要把a(bǔ)ction(行動(dòng))放進(jìn)來(lái),從VL模型變成VLA模型,仍然是一種模仿學(xué)習(xí)。“特別像你去駕校學(xué)開車……這個(gè)時(shí)候大概模型規(guī)模就會(huì)從3.2B大概擴(kuò)大到接近4B,大概這么一個(gè)規(guī)模。”



步驟三是強(qiáng)化訓(xùn)練,“比較像人到社會(huì)上開車了”。強(qiáng)化學(xué)習(xí)一部分先做RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),包括人類接管的反饋。強(qiáng)化學(xué)習(xí)另一個(gè)部分是純粹的RL(強(qiáng)化學(xué)習(xí)),“是(拿RL模型放到)我們的世界模型來(lái)做訓(xùn)練。這塊兒的目的什么呢?就是開得比人類更好。”



當(dāng)這三個(gè)步驟完成了以后,VLA(司機(jī)大模型)能夠跑在車端的模型其實(shí)就產(chǎn)生了。

步驟四,搭建一個(gè)司機(jī)的Agent(智能體),能夠聽懂司機(jī)的語(yǔ)音指令。“如果是一些短指令,通用的短指令VLA(司機(jī)大模型)直接就處理了,不需要再經(jīng)過(guò)云端。如果是一些復(fù)雜的指令,其實(shí)先要到云端的32B那里,VL(視覺和語(yǔ)言)處理完以后,(因?yàn)樗斫饨煌ǖ囊磺校麄€(gè)交給VLA(司機(jī)大模型)來(lái)進(jìn)行處理,大概這么運(yùn)行的一個(gè)過(guò)程。”



最終,李想認(rèn)為,“說(shuō)白了它最后的一個(gè)好處是說(shuō)它能夠像人類司機(jī)一樣去理解物理世界,能夠像人類司機(jī)一樣去開車,去處理復(fù)雜的問題,也能像人類司機(jī)一樣跟其他人類進(jìn)行溝通。這是最后我們交付到用戶那里的產(chǎn)品。”

03

還有沒有更強(qiáng)的架構(gòu)?

自特斯拉引入端到端技術(shù)架構(gòu)之后,探索智能駕駛輔助系統(tǒng)的企業(yè),紛紛模仿。

但是,特斯拉不再舉辦AI DAY之后,業(yè)界無(wú)法再跟隨。此后,理想汽車提出了端到端+VLM的雙系統(tǒng)架構(gòu),被一些企業(yè)學(xué)習(xí)模仿。

再往后呢?

在機(jī)器人領(lǐng)域,VLA架構(gòu)被廣泛討論。和智能駕駛輔助領(lǐng)域,理想汽車和元戎啟行都提出VLA作為下一代架構(gòu)。

李想認(rèn)為,交通領(lǐng)域應(yīng)該是VLA最早實(shí)現(xiàn)應(yīng)用的。

第一,因?yàn)榻煌ㄒ?guī)則清楚,雖然復(fù)雜但具備確定性。

第二,車有三個(gè)方向的自由度需要控制,而機(jī)器人的上來(lái)就是40多個(gè)自由度,那個(gè)挑戰(zhàn)就更大了。

第三,在交通領(lǐng)域還能做特別好的強(qiáng)化,“大家在使用的過(guò)程中不滿意的時(shí)候就接管了”。

理想汽車自從自研智能駕駛輔助系統(tǒng)以來(lái),已經(jīng)迭代了數(shù)個(gè)技術(shù)架構(gòu)。會(huì)不會(huì)明年又換一個(gè)?

李想表示,司機(jī)大模型是能力最強(qiáng)的架構(gòu),能解決到全自動(dòng)駕駛,但是,不一定是效率最高的架構(gòu)。VLA基于 Transformer,而Transformer 架構(gòu)不一定是效率最高的,未來(lái)大概率會(huì)出現(xiàn)更高效的架構(gòu),因?yàn)楫?dāng)前VLA對(duì)算力要求較高。



未來(lái)還沒來(lái),當(dāng)前社會(huì)和行業(yè)對(duì)于輔助駕駛有不少負(fù)面評(píng)價(jià),李想說(shuō),“比較像黎明前的黑暗吧。我覺得黎明馬上就要來(lái)了。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
香港最牛“淫師”有多可怕?一技讓女首富欲罷不能,15年砸錢32億

香港最牛“淫師”有多可怕?一技讓女首富欲罷不能,15年砸錢32億

民間精選故事匯
2025-02-17 08:10:13
CBA最新消息!趙義明加入山東,黎璋霖離開福建,廣州續(xù)約米切爾

CBA最新消息!趙義明加入山東,黎璋霖離開福建,廣州續(xù)約米切爾

體壇瞎白話
2025-05-08 16:31:35
四川省中車鐵投軌道交通有限公司原黨委書記、董事長(zhǎng)王毅 接受審查調(diào)查

四川省中車鐵投軌道交通有限公司原黨委書記、董事長(zhǎng)王毅 接受審查調(diào)查

魯中晨報(bào)
2025-05-08 16:20:02
中年人的聚會(huì)實(shí)錄,大家連裝都懶得裝了

中年人的聚會(huì)實(shí)錄,大家連裝都懶得裝了

秋日么么茶
2025-05-07 21:34:18
廣東公交事大反轉(zhuǎn)!奶孫倆乘車被要求站著,司機(jī)從停職改為扣績(jī)效

廣東公交事大反轉(zhuǎn)!奶孫倆乘車被要求站著,司機(jī)從停職改為扣績(jī)效

泠泠說(shuō)史
2025-05-07 16:56:07
巴基斯坦打的越好,我們談的越好

巴基斯坦打的越好,我們談的越好

求實(shí)處
2025-05-08 21:11:51
俄媒:一旦戰(zhàn)爭(zhēng)爆發(fā)中國(guó)將被圍攻,對(duì)中國(guó)而言,最危險(xiǎn)的不只戰(zhàn)爭(zhēng)

俄媒:一旦戰(zhàn)爭(zhēng)爆發(fā)中國(guó)將被圍攻,對(duì)中國(guó)而言,最危險(xiǎn)的不只戰(zhàn)爭(zhēng)

大國(guó)紀(jì)錄
2025-03-07 11:15:20
baby全家福曝光!小海綿和外公手拉手,一家人真幸福!顏值都好高

baby全家福曝光!小海綿和外公手拉手,一家人真幸福!顏值都好高

扒星人
2025-05-07 16:37:45
“這就是貪色下場(chǎng)!”大爺與小20歲女友同居17年,大爺悔 不當(dāng)初

“這就是貪色下場(chǎng)!”大爺與小20歲女友同居17年,大爺悔 不當(dāng)初

華人星光
2025-05-07 15:26:19
破案了!為何廣廈能夾擊遼寧卻夾擊不了北京?王非點(diǎn)評(píng)道出實(shí)情

破案了!為何廣廈能夾擊遼寧卻夾擊不了北京?王非點(diǎn)評(píng)道出實(shí)情

南海浪花
2025-05-08 11:15:46
廣東劍鎖四川大核?為了補(bǔ)強(qiáng)短板,朱芳雨拼了

廣東劍鎖四川大核?為了補(bǔ)強(qiáng)短板,朱芳雨拼了

體育籃球弟
2025-05-08 00:50:02
美拒巴方使用F16,法不再允許印度起飛陣風(fēng),千億訂單或流向中國(guó)

美拒巴方使用F16,法不再允許印度起飛陣風(fēng),千億訂單或流向中國(guó)

一個(gè)有靈魂的作者
2025-05-08 08:31:50
不能歪曲事實(shí),這是教科書的"底線"

不能歪曲事實(shí),這是教科書的"底線"

尚曦讀史
2025-05-06 21:00:02
多個(gè)球員祝賀趙心童世錦賽奪冠,其中中國(guó)6人,小特、巫師沒發(fā)聲

多個(gè)球員祝賀趙心童世錦賽奪冠,其中中國(guó)6人,小特、巫師沒發(fā)聲

老高說(shuō)體育
2025-05-07 15:35:52
20歲烏克蘭美女嫁給南京富豪,6年寄1.8億回家,丈夫探親后愣住了

20歲烏克蘭美女嫁給南京富豪,6年寄1.8億回家,丈夫探親后愣住了

青青會(huì)講故事
2025-05-06 16:14:08
火箭葫蘆里究竟賣的什么藥?推遲范喬丹4489萬(wàn)選項(xiàng)暗藏玄機(jī)!

火箭葫蘆里究竟賣的什么藥?推遲范喬丹4489萬(wàn)選項(xiàng)暗藏玄機(jī)!

田先生籃球
2025-05-07 21:29:01
笑掉大牙?日票房?jī)H253萬(wàn),血虧出局,馬麗把耗資13億的大片打懵

笑掉大牙?日票房?jī)H253萬(wàn),血虧出局,馬麗把耗資13億的大片打懵

易同學(xué)愛談娛樂
2025-05-08 08:40:49
美哭!趙心童女友衣品被熱議,80萬(wàn)播放量,網(wǎng)友評(píng)論炸鍋

美哭!趙心童女友衣品被熱議,80萬(wàn)播放量,網(wǎng)友評(píng)論炸鍋

振華觀史
2025-05-07 11:52:01
殲10一戰(zhàn)驚世界,中國(guó)空軍到底有多強(qiáng)?!

殲10一戰(zhàn)驚世界,中國(guó)空軍到底有多強(qiáng)?!

漢唐智庫(kù)
2025-05-08 08:53:57
葉子楣喪夫近廿年被曝有新歡

葉子楣喪夫近廿年被曝有新歡

粵睇先生
2025-04-15 03:06:11
2025-05-08 21:52:49
電動(dòng)汽車觀察家
電動(dòng)汽車觀察家
提供電動(dòng)汽車權(quán)威資訊和意見
2913文章數(shù) 3460關(guān)注度
往期回顧 全部

汽車要聞

昨天李想點(diǎn)評(píng)了AI 今天我讓AI點(diǎn)評(píng)了理想

頭條要聞

軍媒曬霹靂-15E導(dǎo)彈 配文:讓我看看哪個(gè)小可愛敢探頭

頭條要聞

軍媒曬霹靂-15E導(dǎo)彈 配文:讓我看看哪個(gè)小可愛敢探頭

體育要聞

面對(duì)一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補(bǔ)刀 清場(chǎng)風(fēng)波口碑翻車!

財(cái)經(jīng)要聞

57政策解讀:力度空前的系統(tǒng)性穩(wěn)增長(zhǎng)舉措

科技要聞

迎戰(zhàn)618,靠AI出圈后,快手有了新打法

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
健康
數(shù)碼
藝術(shù)

50歲女性夏季彩色穿搭指南:掌握“4要4不要”,優(yōu)雅綻放魅力

手機(jī)要聞

OPPO Reno14系列再次被確認(rèn):直屏、潛望長(zhǎng)焦、芯片,均是標(biāo)配!

唇皰疹和口腔潰瘍是"同伙"嗎?

數(shù)碼要聞

聯(lián)想YOGA Pad Pro 14.5 AI元啟版發(fā)布 首款原生AI平板

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 大埔县| 石阡县| 麦盖提县| 西峡县| 繁峙县| 六安市| 巧家县| 兴国县| 宁明县| 上思县| 册亨县| 茌平县| 盐源县| 特克斯县| 和硕县| 尉犁县| 湛江市| 大邑县| 威海市| 寿阳县| 丽水市| 南安市| 台山市| 五指山市| 从江县| 彰化县| 弥渡县| 陆川县| 调兵山市| 西贡区| 丹棱县| 招远市| 呼和浩特市| 宁都县| 韩城市| 昌乐县| 民乐县| 山东省| 岢岚县| 垫江县| 清徐县|