99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

理想汽車賈鵬:支撐MindVLA的6大關(guān)鍵技術(shù)

0
分享至

在去年的GTC大會(huì)上,理想介紹了「快+慢」雙系統(tǒng)。到了今年,則推出了全新的VLA方案(視覺語言行為大模型)————MindVLA。

昨日(3月18日),在MindVLA發(fā)布其Demo車型可實(shí)現(xiàn)的效果后,理想汽車的股價(jià)一度飆高。同時(shí),理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人——賈鵬,也在GTC演講中詳細(xì)介紹了MindVLA的研發(fā)背景、挑戰(zhàn)以及背后的工作。

雙系統(tǒng)迭代顯現(xiàn)的問題

從理想去年的「快+慢」雙系統(tǒng)模式來看,「快系統(tǒng)」車端端到端大模型實(shí)現(xiàn)了從傳感器的輸入,直接到軌跡的輸出,類似于人類的直覺反應(yīng);而「慢系統(tǒng)」則依托于一個(gè)22億參數(shù)規(guī)模的視覺語言大模型VLM,它通過思維鏈CoT進(jìn)行復(fù)雜的邏輯分析,給出駕駛決策。

這兩套系統(tǒng),分別跑在一顆OrinX芯片上,采用了數(shù)據(jù)驅(qū)動(dòng)的范式。

為提高其測試效率,降低測試成本,理想在云端構(gòu)建了一個(gè)世界模型。它提供了3D的交互環(huán)境,使得雙系統(tǒng)可以在此環(huán)境中進(jìn)行閉環(huán)仿真測試。

以上三個(gè)模型就構(gòu)成了理想自動(dòng)駕駛的整個(gè)體系,簡潔而高效。

在這一過程中,理想發(fā)現(xiàn),雙系統(tǒng)同樣在遵循Scaling law——隨著訓(xùn)練數(shù)據(jù)的增加,模型在實(shí)際駕駛場景中的表現(xiàn)逐步提升。到今年年初,1,000萬clips訓(xùn)出來的模型,已可實(shí)現(xiàn)了超過100公里的MPI。



但是,在端到端+VLM的量產(chǎn)過程中,理想也發(fā)現(xiàn)了一些需要改進(jìn)的地方:

1、由于它們是兩個(gè)獨(dú)立模型,而且運(yùn)行于不同的頻率,整體的聯(lián)合訓(xùn)練和優(yōu)化非常困難。

2、VLM大語言模型使用了海量的互聯(lián)網(wǎng)2D圖文數(shù)據(jù)做預(yù)訓(xùn)練,但是在3D空間理解和駕駛知識方面是有所不足的,上限還不是很高。

3、當(dāng)前的自動(dòng)駕駛芯片,其內(nèi)存帶寬和算力是不及服務(wù)器GPU的,如何進(jìn)一步提升模型的參數(shù)量和能力,同時(shí)還能實(shí)現(xiàn)高效推理,這是個(gè)巨大的挑戰(zhàn)。

4、目前,駕駛行為的學(xué)習(xí)更依賴于Tranformer進(jìn)行回歸建模,但這種方法難以處理人類駕駛行為的多模態(tài)性——在相同的場景下,不同人的選擇是不同的,即使是同一個(gè)駕駛員不同心情的時(shí)候,駕駛行為也是不同的。

在此背景下,理想考慮將端到端+VLM合二為一,讓模型自己學(xué)會(huì)快慢思考,同時(shí)賦予模型3D空間理解能力和行為生成能力,進(jìn)一步打開天花板。



MindVLA概述

基于上述思考,理想提出了自己的VLA模型——MindVLA。

VLA是視覺語言行為大模型,它將空間智能、語言智能和行為智能統(tǒng)一在一個(gè)模型里,它賦予自動(dòng)駕駛系統(tǒng)感知、思考和適應(yīng)環(huán)境的能力。

MindVLA不是簡單地將端到端模型和VLM模型結(jié)合在一起,而是將所有的模塊進(jìn)行重新設(shè)計(jì)。

首先,3D空間編碼器通過語言模型和邏輯推理,結(jié)合在一起后,給出合理的駕駛決策,并輸出一組Action token,最終通過Diffusion進(jìn)一步優(yōu)化出最佳的駕駛軌跡。

這里所謂的Action token,是對周圍環(huán)境和自車駕駛行為的編碼。整個(gè)模型推理過程都發(fā)生在車端,而且要做到實(shí)時(shí)運(yùn)行。

6個(gè)關(guān)鍵技術(shù)

為了解決技術(shù)部署的難點(diǎn),理想需要從0開始設(shè)計(jì)和訓(xùn)練一個(gè)適合VLA的基座模型,因?yàn)槿魏伍_源的LLM模型都還不具備這樣的能力。

賈鵬介紹稱,理想的MindVLA具備以下6大關(guān)鍵技術(shù):

一、3D高斯表征

在研發(fā)世界模型時(shí),理想發(fā)現(xiàn)3D高斯是一個(gè)優(yōu)良的中間表征——它不僅具備出色的多尺度3D幾何表達(dá)能力,也可以承載豐富的語義。最為關(guān)鍵的是,它可以通過圖片RGB進(jìn)行自監(jiān)督訓(xùn)練,這就有機(jī)會(huì)去充分利用海量的真實(shí)數(shù)據(jù),獲得一個(gè)優(yōu)秀的3D表征。

“我們的研究成果顯示,采用自監(jiān)督訓(xùn)練得到的高斯表征,能夠極大地促進(jìn)下游任務(wù)的性能提升。”



二、LLM的3D空間理解能力

LLM可以兼容視覺語言的多種模態(tài),但如果想要它同時(shí)具備3D的空間理解能力,需要在模型的預(yù)訓(xùn)練階段就要加入大量的相關(guān)數(shù)據(jù)。

為了進(jìn)一步激發(fā)模型的3D空間理解和推理能力,理想加入了未來幀的預(yù)測生成,以及稠密深度的預(yù)測等訓(xùn)練任務(wù)。

三、模型設(shè)計(jì):稀疏化

當(dāng)下的車載芯片,例如Orin-X和Thor-U的算力和內(nèi)存帶寬都還有限,如何設(shè)計(jì)模型架構(gòu),讓模型參數(shù)進(jìn)一步提升,還能在有限的資源下實(shí)施實(shí)現(xiàn)實(shí)時(shí)推理。

在這個(gè)過程中,稀疏化是模型設(shè)計(jì)的關(guān)鍵,它可以實(shí)現(xiàn)模型容量擴(kuò)容的同時(shí),不會(huì)大幅度增加推理負(fù)擔(dān)。

理想通過兩個(gè)維度來實(shí)現(xiàn)稀疏化——首先采用了MoE的架構(gòu),不僅可實(shí)現(xiàn)模型擴(kuò)容,還可保證激活參量不會(huì)大幅度增加。另外,理想還引入了Sparse Attention等方式,進(jìn)一步提升稀疏化率,提升端側(cè)的推理效率。“在這個(gè)新的基座模型訓(xùn)練過程中,我們花了很多時(shí)間去找到最佳的數(shù)據(jù)配比?!?/p>



四、LLM的邏輯推理能力

為了訓(xùn)練LLM的邏輯推理能力,理想訓(xùn)練模型去學(xué)習(xí)人類的思考過程,并自主切換快思考和慢思考。

在慢思考模式下,模型會(huì)經(jīng)過思維鏈CoT再輸出Action token。因?yàn)閷?shí)時(shí)性的要求,理想使用了固定且簡短的CoT模板;如此,在快思考模式下,模型不需要經(jīng)過CoT就可以直接輸出Action token,這也是我們將快慢思考有機(jī)結(jié)合在同一個(gè)模型中的體現(xiàn)。

五、用車端芯片實(shí)時(shí)推理

即便有了上述的結(jié)構(gòu)設(shè)計(jì)和優(yōu)化,要想實(shí)現(xiàn)VLA超過10 Hz的推理速度,還是具有挑戰(zhàn)的。理想做了大量的工程工作,去壓榨Orin-X和Thor-U的性能,同時(shí)最大利用NVIDIA Drive AGX的性能。例如,針對CoT過程,理想采用了小詞表和投機(jī)推理,大幅提升CoT的效率。

針對Action token的推理,理想采用了創(chuàng)新性的并行解碼方法,也就是在同一個(gè)Transformer模型中,加入了兩種推理模式,語言邏輯的推理,通過因果注意力機(jī)制逐字輸出,而Action token則采用雙向注意力機(jī)制一次性全部輸出。



六、利用Diffusion執(zhí)行復(fù)雜指令

經(jīng)過上述一系列的設(shè)計(jì)和優(yōu)化,理想終于實(shí)現(xiàn)了模型的參數(shù)規(guī)模與實(shí)時(shí)推理性能之間的平衡,并利用Diffusion將Action token解碼成最終的駕駛軌跡。

賈鵬表示,VLA的強(qiáng)大之處,在于用戶可以直接與模型對話,模型會(huì)根據(jù)語音指令自動(dòng)拆解并執(zhí)行任務(wù)?;贒iffusion模型,不僅可以生成自車軌跡,還預(yù)測其他車輛和行人的軌跡,大大提升了標(biāo)準(zhǔn)模型在復(fù)雜交通環(huán)境中的博弈能力。

此外,Diffusion還有一個(gè)巨大優(yōu)勢,就是可根據(jù)外部的條件輸入改變生成結(jié)果,這在圖像生成領(lǐng)域被稱為多風(fēng)格生成。有了這樣的特性,一些自然、隨機(jī)的復(fù)雜指令就能得以被理解和執(zhí)行。

然而,Diffusion模型有一個(gè)顯著的挑戰(zhàn)——其生成效率極低,需要很多步才能成功生成穩(wěn)定的軌跡。為了解決這一問題,理想采用了基于常微分方程的ODE采樣器,大幅加速了Diffusion生成過程,使其在2-3步內(nèi)就可以生成穩(wěn)定的軌跡。

「對齊人類水平」還不夠好

賈鵬稱,VLA模型在絕大多數(shù)場景下能夠接近人類的水平,然而在某些長尾工況下,VLA仍存在不符合人類價(jià)值觀的問題。

為解決這一問題,理想增加了后訓(xùn)練的階段,希望能夠既對齊人類駕駛員的行為。

“理想建立了一個(gè)人類偏好的數(shù)據(jù)集,應(yīng)用RLHF去微調(diào)模型的采樣過程,使模型能夠從這些偏好數(shù)據(jù)中學(xué)習(xí)和對其人類行為。這一創(chuàng)新性的步驟,讓我們在模型性能上取得了進(jìn)一步的提升?!?/strong>

隨著偏好數(shù)據(jù)的逐步豐富,模型的表現(xiàn)逐步接近了專業(yè)司機(jī)的水平,安全下限也得到了提升。



但他也指出,要實(shí)現(xiàn)自動(dòng)駕駛,就必須超越人類司機(jī)水準(zhǔn)。這其中有兩個(gè)主要的限制因素:

第一,早期的車端架構(gòu)未能實(shí)現(xiàn)端到端的可訓(xùn),強(qiáng)化學(xué)習(xí)作為一種稀疏的弱監(jiān)督過程,若無法實(shí)現(xiàn)高效的無損的信息傳遞,強(qiáng)化學(xué)習(xí)的效果就會(huì)大打折扣。

第二,Physical AI 需要與真實(shí)世界進(jìn)行交互,然而過去的嘗試都是基于3D的游戲引擎,場景真實(shí)度不足,

目前,理想已經(jīng)獲得了一個(gè)端到端可訓(xùn)的VLA模型,解決了第一個(gè)限制。

至于第二個(gè)問題,理想的做法是結(jié)合場景重建與生成:“純生成模型可能會(huì)出現(xiàn)不符合物理規(guī)律的幻覺,而純重建模型在大視角變換下,又可能出現(xiàn)空洞和變形。因此我們選擇以真實(shí)數(shù)據(jù)的3D重建為基礎(chǔ),同時(shí)特意在不同的視角下添加噪音來訓(xùn)練生成模型,恢復(fù)這些模糊的視角?!?/strong>

賈鵬表示,這樣一來,生成模型就具備了多視角的生成能力,在與3D重建聯(lián)合優(yōu)化后,可以獲得一個(gè)各個(gè)視角下都接近真實(shí)世界的3D環(huán)境,這在很大程度上解決了第二個(gè)限制。



“突破這兩個(gè)限制之后,我們終于有機(jī)會(huì)嘗試大規(guī)模的自動(dòng)駕駛強(qiáng)化學(xué)習(xí),但規(guī)?;枰鉀Q效率的問題,不然無論重建和生成效率都不高。”

在此背景下,理想與英偉達(dá)團(tuán)隊(duì)密切合作,進(jìn)行了大量的工程優(yōu)化,顯著提升了場景生成和重建的效率。其中一項(xiàng)工作是將3DGS的訓(xùn)練速度提高了7倍以上。

”總體來看,MindVLA整合了空間智能、語言智能和行為智能,可以說是一個(gè)巨大突破。并且,通過創(chuàng)新性的預(yù)訓(xùn)練和后訓(xùn)練方法,我們發(fā)現(xiàn)VLA實(shí)現(xiàn)了卓越的泛化性能和涌現(xiàn)特性,它不僅在駕駛場景下表現(xiàn)良好,在室內(nèi)環(huán)境中也展示出了一定的適應(yīng)性和延展性,這是Physica AI能夠大規(guī)模落地的關(guān)鍵,一旦跑通這套范式,理想將有望為更多行業(yè)賦能。“賈鵬說道。

場景體驗(yàn)效果展示

“有MindVLA賦能的車不再只是一個(gè)駕駛工具,而是一個(gè)能夠與用戶溝通理解用戶意圖的司機(jī)?!睂Υ?,賈鵬展示了三個(gè)實(shí)車Demo經(jīng)歷的場景:

1、聽得懂:在一個(gè)陌生園區(qū)想找星巴克,但不知道具體的位置,只需對車輛說出 “帶我去星巴克”,車輛將在沒有導(dǎo)航信息的情況下,通過自主漫游找到目的地。在此過程中,可以隨時(shí)用語音進(jìn)行人工干預(yù)。

2、看得見:在一個(gè)陌生的城市,不知道如何描述自己的位置,只需要拍一張附近環(huán)境的照片發(fā)給汽車,讓車子自己來找你。

3、找得到:當(dāng)你駕車來到商場地庫找車位,只需要在超市門口下車,然后對車說“自己去找個(gè)車位停好”,MindVLA能夠理解你的指令,并利用它的空間推理能力自主尋找停車位,即使遇到了死胡同,他也會(huì)自如地倒車,然后重新尋找合適的車位停下。

整個(gè)過程中,無需依賴地圖或?qū)Ш叫畔ⅲ灰蕾囉赩LA強(qiáng)大的空間和邏輯推理能力。



“我們希望MindVLA能為自動(dòng)駕駛車輛賦予類似人類的認(rèn)知和適應(yīng)能力,將它轉(zhuǎn)變?yōu)槟軌蛩伎嫉闹悄荏w,就像iPhone重新定義了手機(jī),MindVLA也將重新定義自動(dòng)駕駛?!?/p>



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
西漢姆聯(lián)新主場球衣遭球迷痛批:像極了廉價(jià)平臺上賣的假貨

西漢姆聯(lián)新主場球衣遭球迷痛批:像極了廉價(jià)平臺上賣的假貨

懂球帝
2025-07-05 02:15:07
詹姆斯若離隊(duì)下家賠率:騎士高居第1 獨(dú)行俠2 勇士3 太陽4

詹姆斯若離隊(duì)下家賠率:騎士高居第1 獨(dú)行俠2 勇士3 太陽4

直播吧
2025-07-05 14:35:31
被批“不男不女”的畢凌,把父親畢福劍所剩無幾的體面,丟的精光

被批“不男不女”的畢凌,把父親畢福劍所剩無幾的體面,丟的精光

果娛
2025-05-26 12:36:30
鹿晗最新合影曝光,面相變了眼睛快睜不開,小腿淤青仍未戒酒!

鹿晗最新合影曝光,面相變了眼睛快睜不開,小腿淤青仍未戒酒!

古希臘掌管月桂的神
2025-07-05 11:45:43
掘金麻了!準(zhǔn)備退出NBA!這可是約基奇的頭號替補(bǔ)

掘金麻了!準(zhǔn)備退出NBA!這可是約基奇的頭號替補(bǔ)

籃球?qū)崙?zhàn)寶典
2025-07-04 13:03:33
男籃世青賽最慘球隊(duì)!73分慘敗后再輸41分:連非洲球隊(duì)都打不過了

男籃世青賽最慘球隊(duì)!73分慘敗后再輸41分:連非洲球隊(duì)都打不過了

籃球快餐車
2025-07-05 06:40:49
兩性關(guān)系:男人年齡過了60歲,大部分男性都會(huì)出現(xiàn)哪種狀況?

兩性關(guān)系:男人年齡過了60歲,大部分男性都會(huì)出現(xiàn)哪種狀況?

伊人河畔
2025-06-30 22:29:45
林彪去江西休養(yǎng),順路看望賀子珍,他走后賀子珍馬上聯(lián)系省委同志

林彪去江西休養(yǎng),順路看望賀子珍,他走后賀子珍馬上聯(lián)系省委同志

正史筆記
2024-05-30 17:11:48
20億巨資造了個(gè)"鞋墊"?深圳新地標(biāo)酷似球鞋,網(wǎng)友:透氣孔亮了!

20億巨資造了個(gè)"鞋墊"?深圳新地標(biāo)酷似球鞋,網(wǎng)友:透氣孔亮了!

根基
2025-07-05 00:21:47
簽了!重新加盟湖人!NBA第三個(gè)交易否決權(quán)

簽了!重新加盟湖人!NBA第三個(gè)交易否決權(quán)

籃球?qū)崙?zhàn)寶典
2025-07-04 15:28:30
9年前八達(dá)嶺老虎傷人后續(xù):母親去世、索賠失敗,幸存者現(xiàn)況如何?

9年前八達(dá)嶺老虎傷人后續(xù):母親去世、索賠失敗,幸存者現(xiàn)況如何?

清游說娛
2025-07-04 15:17:30
比房價(jià)下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

比房價(jià)下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

小談食刻美食
2025-06-16 16:32:23
網(wǎng)友法國偶遇馬云,乘坐一艘豪華游艇享受陽光時(shí)不時(shí)拿出手機(jī)拍照

網(wǎng)友法國偶遇馬云,乘坐一艘豪華游艇享受陽光時(shí)不時(shí)拿出手機(jī)拍照

南南說娛
2025-07-05 10:45:24
“刺痛”威廉王子!梅根在戴安娜生日的行為加劇了王室兄弟的裂痕

“刺痛”威廉王子!梅根在戴安娜生日的行為加劇了王室兄弟的裂痕

小嵩
2025-07-05 14:11:44
女雇主拖欠貧困女大學(xué)生4100元家教費(fèi)的后續(xù)來了

女雇主拖欠貧困女大學(xué)生4100元家教費(fèi)的后續(xù)來了

丫頭舫
2025-07-04 10:56:07
河村勇輝,NBA合同沒了!現(xiàn)實(shí)就是這么殘酷!

河村勇輝,NBA合同沒了!現(xiàn)實(shí)就是這么殘酷!

野球帝
2025-07-04 11:24:47
羅馬大爆炸!“如同地獄”!意總理、羅馬教皇發(fā)聲

羅馬大爆炸!“如同地獄”!意總理、羅馬教皇發(fā)聲

意燴
2025-07-04 18:34:12
淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

淚目!91歲老人被送敬老院,外表淡定滿眼驚恐,她的家不要她了?

瓜哥的動(dòng)物日記
2025-07-04 16:29:28
“補(bǔ)陽第一名”不是羊肉桂圓,而是它!三伏抓緊吃,健康一整年

“補(bǔ)陽第一名”不是羊肉桂圓,而是它!三伏抓緊吃,健康一整年

平祥生活日志
2025-07-05 04:17:01
女子因熱射病離世,醫(yī)生:寧可在家吹空調(diào)喝冷飲,也別做幾件事!

女子因熱射病離世,醫(yī)生:寧可在家吹空調(diào)喝冷飲,也別做幾件事!

王曉愛體彩
2025-07-04 14:04:34
2025-07-05 15:07:00
RoboX
RoboX
關(guān)注智能汽車、機(jī)器人在內(nèi)的具身智能前沿科技
151文章數(shù) 1關(guān)注度
往期回顧 全部

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀(jì)念版上市

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

頭條要聞

問界車主開智駕致碰擦要求逾百萬賠償 售后:訴求過高

體育要聞

史上最真實(shí)的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲反擊!曝向具俊曄提出財(cái)產(chǎn)追回

財(cái)經(jīng)要聞

特朗普簽署 美國萬億減稅支出法來了

科技要聞

馬斯克吹上天的Cybertruck 為何"徹底失敗"

態(tài)度原創(chuàng)

時(shí)尚
家居
教育
本地
藝術(shù)

李若彤、鄭秀文低能量時(shí)期的“處方”!停滯時(shí)不妨試試它

家居要聞

合理布局 三口之家的溫馨空間

教育要聞

華羅庚競賽題,三階幻方,難倒上萬考生

本地新聞

建筑地標(biāo)如何成為城市人才匯聚的 “強(qiáng)磁場”?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 图片| 临沭县| 乐业县| 平昌县| 邢台县| 宁德市| 衡水市| 滦平县| 聊城市| 高雄市| 武宣县| 彩票| 定南县| 武穴市| 高邑县| 长岭县| 珠海市| 铜川市| 图木舒克市| 昆明市| 衡阳市| 玉山县| 邵武市| 罗山县| 临澧县| 栾川县| 山丹县| 商洛市| 弥渡县| 东安县| 德清县| 长子县| 崇信县| 双鸭山市| 文山县| 云浮市| 和林格尔县| 敦煌市| 盘山县| 格尔木市| 新昌县|