99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

理想汽車押注“司機(jī)大模型”,會(huì)是大殺器嗎?

0
分享至



借著端到端+VLM架構(gòu),理想汽車實(shí)現(xiàn)了在輔助駕駛上的逆襲。

嘗到新技術(shù)架構(gòu)甜頭的理想汽車,希望更進(jìn)一步,引入更新的技術(shù)架構(gòu),來夯實(shí)自己在輔助駕駛、自動(dòng)駕駛領(lǐng)域的優(yōu)勢,甚至希望成為引領(lǐng)者。

那就是VLA(視覺、語言、行動(dòng))大模型,理想汽車將其命名為司機(jī)大模型。

5月7日晚,理想汽車舉行了“理想Al Talk第二季 李想面對面”線上活動(dòng)。理想汽車創(chuàng)始人、CEO李想再度現(xiàn)身討論AI及AI在輔助駕駛、智能駕駛和汽車上的應(yīng)用思路。

李想認(rèn)為,“今天輔助駕駛的這些規(guī)則算法、端到端跟人類差距還是太大了。”而司機(jī)大模型能力是最強(qiáng)的,“是最接近人類的,甚至有機(jī)會(huì)超過人類能力的一種”。

“我自己認(rèn)為VLA(司機(jī)大模型)能夠解決到全自動(dòng)駕駛。”

李想沒有透露具體的司機(jī)大模型支持的輔助駕駛系統(tǒng)上車時(shí)間。只是表示,比此前預(yù)計(jì)的9月要提前。



按照理想汽車透露的信息,理想純電SUV理想i8將于7月發(fā)布上市,并且搭載VLA(司機(jī)大模型)。

01

司機(jī)大模型有多厲害?

輔助駕駛系統(tǒng)發(fā)展到今天,對于行業(yè)、對于理想汽車,都可以說是一個(gè)節(jié)點(diǎn)。

就行業(yè)而言,由于一些飽受關(guān)注的事故影響,輔助駕駛系統(tǒng)的安全性受到質(zhì)疑。

就理想汽車而言,盡管端到端+VLM雙系統(tǒng)開行業(yè)先河,并且將理想智駕拉到行業(yè)前列,引起一些技術(shù)路線追隨者,但是其輔助駕駛產(chǎn)品依舊是輔助工具。

本質(zhì)上,這兩個(gè)問題都可以歸結(jié)為——輔助駕駛系統(tǒng)的能力依舊不足。

李想提及了此前規(guī)則架構(gòu)、端到端架構(gòu)的兩個(gè)問題。

一是對復(fù)雜東西的理解,比如復(fù)雜的修路,“如果是規(guī)則算法可能就會(huì)撞上了,如果是端到端可能停下來,但它不知道該怎么干了。”

另一方面是無法跟人溝通。“今天端到端怎么做?就跟猴子一樣,你影響不了它,對吧?”

但VLA架構(gòu)不一樣。面對復(fù)雜場景,司機(jī)大模型能輕松解決,因?yàn)樗欣斫饽芰ΑT谟?xùn)練階段,VLA架構(gòu)模型即便沒有經(jīng)歷過真實(shí)場景的學(xué)習(xí),也可以通過生成數(shù)據(jù)來訓(xùn)練。

在溝通方面,司機(jī)大模型作為Agent(智能體),可以理解語言,司機(jī)可以給出指令,比如讓它一直在中間行駛,直到下一個(gè)路口,再比如靠邊停車,或者“到C3區(qū)停車”。

而且,端到端架構(gòu)的系統(tǒng)與導(dǎo)航配合出現(xiàn)問題時(shí)無法妥善處理,司機(jī)大模型卻能在小區(qū)等開放空間漫游并與導(dǎo)航調(diào)整后匯合。

因?yàn)椋緳C(jī)大模型看得懂導(dǎo)航軟件運(yùn)行,具備思維鏈和推理能力,像人類司機(jī)一樣執(zhí)行駕駛行動(dòng),最終能像全職司機(jī)一樣工作,實(shí)現(xiàn)全自動(dòng)駕駛。

02

司機(jī)大模型如何訓(xùn)練?

司機(jī)大模型為什么理解世界,聽懂司機(jī)指令,并且還能成為駕駛“專家”呢?

還要從VLA模型的架構(gòu)特點(diǎn)和訓(xùn)練方式說起。

李想認(rèn)為,VLA架構(gòu)是逐漸進(jìn)化而來的,具備了很多“像人類一樣的”能力:

  • 它能用3D的vision(視覺)和2D的組合,去看整個(gè)真實(shí)的物理世界,也包含它能夠去看懂導(dǎo)航軟件”。
  • 它有自己的整個(gè)腦系統(tǒng),不但要看到物理世界,還能夠理解這個(gè)物理世界。
  • 它有它的language(語言),然后它也有它的CoT(思維鏈),有推理的一個(gè)能力。
  • 它能夠像人類一樣的,真正地去執(zhí)行這樣的行動(dòng)……

這些能力來自何處?

李想表示,司機(jī)大模型需要四個(gè)步驟來訓(xùn)練。



步驟一,訓(xùn)練一個(gè)VL(視覺和語言)的基座模型。“我們目前在訓(xùn)的,當(dāng)前的這個(gè)版本,是一個(gè)32B的,就是320億云端的一個(gè)基座模型。”



這一模型和過去的模型的差異在于,要放入更多視覺的語料,其中就包括3D上的視覺語料、高清的2D的視覺語料。而此前的多模態(tài)的開源VLM(視覺語言模型)里邊,2D視覺語料的清晰度太低,所以看的距離不夠。

在語言模型方面,要放入跟交通、駕駛相關(guān)的足夠多的這方面的語料。

此外,還必須放入很多VL(視覺和語言)聯(lián)合的語料,就是三維圖像和對世界的理解語義要同時(shí)產(chǎn)生的。“比如我舉一個(gè)例子,我要把導(dǎo)航的地圖和車輛對導(dǎo)航地圖的理解一起放進(jìn)去。”

李想也回應(yīng)了為什么要做基座模型。

他說,理想汽車的VLA模型,即便是V(vision視覺)和L(language語言)部分也和通用大模型不一樣,需要涉及到更專業(yè)的車領(lǐng)域、交通領(lǐng)域、面向家庭用戶的語義語料,此外還需要把VL(視覺和語言)的組合語料放進(jìn)去訓(xùn)練。“那這些無論是OpenAI還是DeepSeek,它都沒有這樣的數(shù)據(jù),它們也沒有這樣的場景和需求,也不去解決這樣的問題,那只能我自己來做了。”

他也強(qiáng)調(diào),DeepSeek的開源加速了理想基座大模型的開發(fā)進(jìn)度。“好處是說VLA(視覺語言行動(dòng)模型)里邊的這個(gè)language(語言),我可以站在巨人的肩膀上,但是它只是我其中的一部分。”

李想在這里透露,理想汽車把基座模型的團(tuán)隊(duì)從智駕系統(tǒng)開發(fā)團(tuán)隊(duì)拆開,并且加大了投入,“訓(xùn)練卡比團(tuán)隊(duì)的預(yù)期應(yīng)該多買了3倍。”

這一基座模型訓(xùn)練出來之后,需要蒸餾成一個(gè)3.6B(即36億)端側(cè)(即上車)的蒸餾模型。“因?yàn)槲乙WC它運(yùn)行速度足夠得快,然后無論是兩個(gè)Orin-X還是Thor-U上能夠流暢地運(yùn)行。”

步驟二是做后訓(xùn)練,要把a(bǔ)ction(行動(dòng))放進(jìn)來,從VL模型變成VLA模型,仍然是一種模仿學(xué)習(xí)。“特別像你去駕校學(xué)開車……這個(gè)時(shí)候大概模型規(guī)模就會(huì)從3.2B大概擴(kuò)大到接近4B,大概這么一個(gè)規(guī)模。”



步驟三是強(qiáng)化訓(xùn)練,“比較像人到社會(huì)上開車了”。強(qiáng)化學(xué)習(xí)一部分先做RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),包括人類接管的反饋。強(qiáng)化學(xué)習(xí)另一個(gè)部分是純粹的RL(強(qiáng)化學(xué)習(xí)),“是(拿RL模型放到)我們的世界模型來做訓(xùn)練。這塊兒的目的什么呢?就是開得比人類更好。”



當(dāng)這三個(gè)步驟完成了以后,VLA(司機(jī)大模型)能夠跑在車端的模型其實(shí)就產(chǎn)生了。

步驟四,搭建一個(gè)司機(jī)的Agent(智能體),能夠聽懂司機(jī)的語音指令。“如果是一些短指令,通用的短指令VLA(司機(jī)大模型)直接就處理了,不需要再經(jīng)過云端。如果是一些復(fù)雜的指令,其實(shí)先要到云端的32B那里,VL(視覺和語言)處理完以后,(因?yàn)樗斫饨煌ǖ囊磺校麄€(gè)交給VLA(司機(jī)大模型)來進(jìn)行處理,大概這么運(yùn)行的一個(gè)過程。”



最終,李想認(rèn)為,“說白了它最后的一個(gè)好處是說它能夠像人類司機(jī)一樣去理解物理世界,能夠像人類司機(jī)一樣去開車,去處理復(fù)雜的問題,也能像人類司機(jī)一樣跟其他人類進(jìn)行溝通。這是最后我們交付到用戶那里的產(chǎn)品。”

03

還有沒有更強(qiáng)的架構(gòu)?

自特斯拉引入端到端技術(shù)架構(gòu)之后,探索智能駕駛輔助系統(tǒng)的企業(yè),紛紛模仿。

但是,特斯拉不再舉辦AI DAY之后,業(yè)界無法再跟隨。此后,理想汽車提出了端到端+VLM的雙系統(tǒng)架構(gòu),被一些企業(yè)學(xué)習(xí)模仿。

再往后呢?

在機(jī)器人領(lǐng)域,VLA架構(gòu)被廣泛討論。和智能駕駛輔助領(lǐng)域,理想汽車和元戎啟行都提出VLA作為下一代架構(gòu)。

李想認(rèn)為,交通領(lǐng)域應(yīng)該是VLA最早實(shí)現(xiàn)應(yīng)用的。

第一,因?yàn)榻煌ㄒ?guī)則清楚,雖然復(fù)雜但具備確定性。

第二,車有三個(gè)方向的自由度需要控制,而機(jī)器人的上來就是40多個(gè)自由度,那個(gè)挑戰(zhàn)就更大了。

第三,在交通領(lǐng)域還能做特別好的強(qiáng)化,“大家在使用的過程中不滿意的時(shí)候就接管了”。

理想汽車自從自研智能駕駛輔助系統(tǒng)以來,已經(jīng)迭代了數(shù)個(gè)技術(shù)架構(gòu)。會(huì)不會(huì)明年又換一個(gè)?

李想表示,司機(jī)大模型是能力最強(qiáng)的架構(gòu),能解決到全自動(dòng)駕駛,但是,不一定是效率最高的架構(gòu)。VLA基于 Transformer,而Transformer 架構(gòu)不一定是效率最高的,未來大概率會(huì)出現(xiàn)更高效的架構(gòu),因?yàn)楫?dāng)前VLA對算力要求較高。



未來還沒來,當(dāng)前社會(huì)和行業(yè)對于輔助駕駛有不少負(fù)面評價(jià),李想說,“比較像黎明前的黑暗吧。我覺得黎明馬上就要來了。”

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6-1大勝!王欣瑜殺進(jìn)4強(qiáng),保存體能PK頭號種子,劍指決賽

6-1大勝!王欣瑜殺進(jìn)4強(qiáng),保存體能PK頭號種子,劍指決賽

大秦壁虎白話體育
2025-07-25 17:46:00
壞消息一個(gè)接一個(gè),李嘉誠已經(jīng)沒有回頭路,李氏家族暴虧781億!

壞消息一個(gè)接一個(gè),李嘉誠已經(jīng)沒有回頭路,李氏家族暴虧781億!

做一個(gè)合格的吃瓜群眾
2025-07-25 16:38:29
突發(fā)!東沙群島上空發(fā)生激烈對峙!臺軍機(jī)遭信號干擾,翼龍10出動(dòng)

突發(fā)!東沙群島上空發(fā)生激烈對峙!臺軍機(jī)遭信號干擾,翼龍10出動(dòng)

掌青說歷史
2025-07-25 21:24:40
300年來首次!2004年遼寧出現(xiàn)一只咬傷村民,一個(gè)腳印長30厘米

300年來首次!2004年遼寧出現(xiàn)一只咬傷村民,一個(gè)腳印長30厘米

萬象硬核本尊
2025-07-25 19:25:29
美網(wǎng)紅:楊瀚森不會(huì)英語就不配來這撈金 尊重都是相互的

美網(wǎng)紅:楊瀚森不會(huì)英語就不配來這撈金 尊重都是相互的

直播吧
2025-07-25 09:50:08
亂收費(fèi)害了整個(gè)行業(yè)?全國電視機(jī)開機(jī)率只有30%,用戶:活該如此

亂收費(fèi)害了整個(gè)行業(yè)?全國電視機(jī)開機(jī)率只有30%,用戶:活該如此

時(shí)尚的弄潮
2025-07-24 05:47:06
快船球迷必須接受的殘酷現(xiàn)實(shí):這套新陣容,缺陷比想象中更致命

快船球迷必須接受的殘酷現(xiàn)實(shí):這套新陣容,缺陷比想象中更致命

夜白侃球
2025-07-24 22:01:19
2萬億!武漢穩(wěn)了!

2萬億!武漢穩(wěn)了!

越喬
2025-07-25 16:26:21
三天攻下柬埔寨,泰國外長赴美求助,47國收到通知,中方斬釘截鐵

三天攻下柬埔寨,泰國外長赴美求助,47國收到通知,中方斬釘截鐵

Ck的蜜糖
2025-07-25 07:59:49
夏天最該吃的不是冬瓜,而是它,每周吃兩次,渾身有勁,舒服入伏

夏天最該吃的不是冬瓜,而是它,每周吃兩次,渾身有勁,舒服入伏

江江食研社
2025-07-25 12:30:08
王毅會(huì)見東盟秘書長高金洪

王毅會(huì)見東盟秘書長高金洪

界面新聞
2025-07-25 16:39:06
總理去世,毛遠(yuǎn)新問:誰當(dāng)總理合適?毛主席說:還是他比較好一些

總理去世,毛遠(yuǎn)新問:誰當(dāng)總理合適?毛主席說:還是他比較好一些

冰雅憶史
2025-07-19 10:38:01
05年,清華教授13歲女兒在公交車上被掐死,生前哀求:再也不敢了

05年,清華教授13歲女兒在公交車上被掐死,生前哀求:再也不敢了

柳絮憶史
2025-07-08 14:11:59
三個(gè)姑姑分掉女孩父親遺產(chǎn)后續(xù):二姑身份被扒,瓜分百萬遭起訴

三個(gè)姑姑分掉女孩父親遺產(chǎn)后續(xù):二姑身份被扒,瓜分百萬遭起訴

阿纂看事
2025-07-25 17:28:52
許家印曝出大瓜,還有兩孩子!

許家印曝出大瓜,還有兩孩子!

梳子姐
2025-03-20 11:31:08
直到宗慶后人設(shè)崩塌,才懂賭王臨終前,把私生子交給何超瓊含金量

直到宗慶后人設(shè)崩塌,才懂賭王臨終前,把私生子交給何超瓊含金量

攬星河的筆記
2025-07-18 22:29:50
珠寶晚宴,周也面相變了,哈尼好美,任嘉倫臉凹,張柏芝黑袍搶鏡

珠寶晚宴,周也面相變了,哈尼好美,任嘉倫臉凹,張柏芝黑袍搶鏡

胡一舸北游
2025-07-25 19:11:17
沒想到狂飆2年后,38歲的高葉,再次讓恩人孫紅雷和世界刮目相看

沒想到狂飆2年后,38歲的高葉,再次讓恩人孫紅雷和世界刮目相看

小丸子的娛樂圈
2025-07-23 21:38:18
沖突完全由洪森引起,沒想到泰國真開戰(zhàn),父子倆把柬埔寨帶入絕境

沖突完全由洪森引起,沒想到泰國真開戰(zhàn),父子倆把柬埔寨帶入絕境

現(xiàn)代小青青慕慕
2025-07-25 09:09:11
“霉霉”來了!

“霉霉”來了!

上海黃浦
2025-07-25 07:36:22
2025-07-25 22:12:49
電動(dòng)汽車觀察家
電動(dòng)汽車觀察家
提供電動(dòng)汽車權(quán)威資訊和意見
2968文章數(shù) 3463關(guān)注度
往期回顧 全部

汽車要聞

李斌一口氣講了近3個(gè)小時(shí)樂道L90 原因是為啥?

頭條要聞

18歲男子多付車費(fèi)索要無果自殺 司機(jī)已從租車公司退車

頭條要聞

18歲男子多付車費(fèi)索要無果自殺 司機(jī)已從租車公司退車

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權(quán)

財(cái)經(jīng)要聞

劉煜輝:當(dāng)下重要不是找確定性而是轉(zhuǎn)折點(diǎn)

科技要聞

36款熱門車高危智駕場景測試,“團(tuán)滅”!

態(tài)度原創(chuàng)

時(shí)尚
家居
旅游
藝術(shù)
手機(jī)

仙女裙封神榜!這5條裙子美到犯規(guī),誰穿誰是迪士尼在逃公主!

家居要聞

環(huán)繞設(shè)計(jì) 空間動(dòng)線合理

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

三星新一代Galaxy Z系列 開啟折疊屏主動(dòng)交互新時(shí)代

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 闽清县| 五家渠市| 贡觉县| 米泉市| 同德县| 博湖县| 赫章县| 淄博市| 荆州市| 韩城市| 大英县| 扎赉特旗| 阿坝县| 新郑市| 龙里县| 建湖县| 五台县| 凤阳县| 苍山县| 盘锦市| 桂阳县| 濮阳市| 盐亭县| 平遥县| 沙河市| 东阿县| 乐陵市| 兴国县| 犍为县| 饶平县| 称多县| 吉林省| 高青县| 西充县| 塘沽区| 永嘉县| 芒康县| 兴安盟| 连南| 文水县| 三门县|