在去年的GTC大會(huì)上,理想介紹了「快+慢」雙系統(tǒng)。到了今年,則推出了全新的VLA方案(視覺語言行為大模型)————MindVLA。
昨日(3月18日),在MindVLA發(fā)布其Demo車型可實(shí)現(xiàn)的效果后,理想汽車的股價(jià)一度飆高。同時(shí),理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人——賈鵬,也在GTC演講中詳細(xì)介紹了MindVLA的研發(fā)背景、挑戰(zhàn)以及背后的工作。
雙系統(tǒng)迭代顯現(xiàn)的問題
從理想去年的「快+慢」雙系統(tǒng)模式來看,「快系統(tǒng)」車端端到端大模型實(shí)現(xiàn)了從傳感器的輸入,直接到軌跡的輸出,類似于人類的直覺反應(yīng);而「慢系統(tǒng)」則依托于一個(gè)22億參數(shù)規(guī)模的視覺語言大模型VLM,它通過思維鏈CoT進(jìn)行復(fù)雜的邏輯分析,給出駕駛決策。
這兩套系統(tǒng),分別跑在一顆OrinX芯片上,采用了數(shù)據(jù)驅(qū)動(dòng)的范式。
為提高其測試效率,降低測試成本,理想在云端構(gòu)建了一個(gè)世界模型。它提供了3D的交互環(huán)境,使得雙系統(tǒng)可以在此環(huán)境中進(jìn)行閉環(huán)仿真測試。
以上三個(gè)模型就構(gòu)成了理想自動(dòng)駕駛的整個(gè)體系,簡潔而高效。
在這一過程中,理想發(fā)現(xiàn),雙系統(tǒng)同樣在遵循Scaling law——隨著訓(xùn)練數(shù)據(jù)的增加,模型在實(shí)際駕駛場景中的表現(xiàn)逐步提升。到今年年初,1,000萬clips訓(xùn)出來的模型,已可實(shí)現(xiàn)了超過100公里的MPI。
但是,在端到端+VLM的量產(chǎn)過程中,理想也發(fā)現(xiàn)了一些需要改進(jìn)的地方:
1、由于它們是兩個(gè)獨(dú)立模型,而且運(yùn)行于不同的頻率,整體的聯(lián)合訓(xùn)練和優(yōu)化非常困難。
2、VLM大語言模型使用了海量的互聯(lián)網(wǎng)2D圖文數(shù)據(jù)做預(yù)訓(xùn)練,但是在3D空間理解和駕駛知識方面是有所不足的,上限還不是很高。
3、當(dāng)前的自動(dòng)駕駛芯片,其內(nèi)存帶寬和算力是不及服務(wù)器GPU的,如何進(jìn)一步提升模型的參數(shù)量和能力,同時(shí)還能實(shí)現(xiàn)高效推理,這是個(gè)巨大的挑戰(zhàn)。
4、目前,駕駛行為的學(xué)習(xí)更依賴于Tranformer進(jìn)行回歸建模,但這種方法難以處理人類駕駛行為的多模態(tài)性——在相同的場景下,不同人的選擇是不同的,即使是同一個(gè)駕駛員不同心情的時(shí)候,駕駛行為也是不同的。
在此背景下,理想考慮將端到端+VLM合二為一,讓模型自己學(xué)會(huì)快慢思考,同時(shí)賦予模型3D空間理解能力和行為生成能力,進(jìn)一步打開天花板。
MindVLA概述
基于上述思考,理想提出了自己的VLA模型——MindVLA。
VLA是視覺語言行為大模型,它將空間智能、語言智能和行為智能統(tǒng)一在一個(gè)模型里,它賦予自動(dòng)駕駛系統(tǒng)感知、思考和適應(yīng)環(huán)境的能力。
MindVLA不是簡單地將端到端模型和VLM模型結(jié)合在一起,而是將所有的模塊進(jìn)行重新設(shè)計(jì)。
首先,3D空間編碼器通過語言模型和邏輯推理,結(jié)合在一起后,給出合理的駕駛決策,并輸出一組Action token,最終通過Diffusion進(jìn)一步優(yōu)化出最佳的駕駛軌跡。
這里所謂的Action token,是對周圍環(huán)境和自車駕駛行為的編碼。整個(gè)模型推理過程都發(fā)生在車端,而且要做到實(shí)時(shí)運(yùn)行。
6個(gè)關(guān)鍵技術(shù)
為了解決技術(shù)部署的難點(diǎn),理想需要從0開始設(shè)計(jì)和訓(xùn)練一個(gè)適合VLA的基座模型,因?yàn)槿魏伍_源的LLM模型都還不具備這樣的能力。
賈鵬介紹稱,理想的MindVLA具備以下6大關(guān)鍵技術(shù):
一、3D高斯表征
在研發(fā)世界模型時(shí),理想發(fā)現(xiàn)3D高斯是一個(gè)優(yōu)良的中間表征——它不僅具備出色的多尺度3D幾何表達(dá)能力,也可以承載豐富的語義。最為關(guān)鍵的是,它可以通過圖片RGB進(jìn)行自監(jiān)督訓(xùn)練,這就有機(jī)會(huì)去充分利用海量的真實(shí)數(shù)據(jù),獲得一個(gè)優(yōu)秀的3D表征。
“我們的研究成果顯示,采用自監(jiān)督訓(xùn)練得到的高斯表征,能夠極大地促進(jìn)下游任務(wù)的性能提升。”
二、LLM的3D空間理解能力
LLM可以兼容視覺語言的多種模態(tài),但如果想要它同時(shí)具備3D的空間理解能力,需要在模型的預(yù)訓(xùn)練階段就要加入大量的相關(guān)數(shù)據(jù)。
為了進(jìn)一步激發(fā)模型的3D空間理解和推理能力,理想加入了未來幀的預(yù)測生成,以及稠密深度的預(yù)測等訓(xùn)練任務(wù)。
三、模型設(shè)計(jì):稀疏化
當(dāng)下的車載芯片,例如Orin-X和Thor-U的算力和內(nèi)存帶寬都還有限,如何設(shè)計(jì)模型架構(gòu),讓模型參數(shù)進(jìn)一步提升,還能在有限的資源下實(shí)施實(shí)現(xiàn)實(shí)時(shí)推理。
在這個(gè)過程中,稀疏化是模型設(shè)計(jì)的關(guān)鍵,它可以實(shí)現(xiàn)模型容量擴(kuò)容的同時(shí),不會(huì)大幅度增加推理負(fù)擔(dān)。
理想通過兩個(gè)維度來實(shí)現(xiàn)稀疏化——首先采用了MoE的架構(gòu),不僅可實(shí)現(xiàn)模型擴(kuò)容,還可保證激活參量不會(huì)大幅度增加。另外,理想還引入了Sparse Attention等方式,進(jìn)一步提升稀疏化率,提升端側(cè)的推理效率。“在這個(gè)新的基座模型訓(xùn)練過程中,我們花了很多時(shí)間去找到最佳的數(shù)據(jù)配比?!?/p>
四、LLM的邏輯推理能力
為了訓(xùn)練LLM的邏輯推理能力,理想訓(xùn)練模型去學(xué)習(xí)人類的思考過程,并自主切換快思考和慢思考。
在慢思考模式下,模型會(huì)經(jīng)過思維鏈CoT再輸出Action token。因?yàn)閷?shí)時(shí)性的要求,理想使用了固定且簡短的CoT模板;如此,在快思考模式下,模型不需要經(jīng)過CoT就可以直接輸出Action token,這也是我們將快慢思考有機(jī)結(jié)合在同一個(gè)模型中的體現(xiàn)。
五、用車端芯片實(shí)時(shí)推理
即便有了上述的結(jié)構(gòu)設(shè)計(jì)和優(yōu)化,要想實(shí)現(xiàn)VLA超過10 Hz的推理速度,還是具有挑戰(zhàn)的。理想做了大量的工程工作,去壓榨Orin-X和Thor-U的性能,同時(shí)最大利用NVIDIA Drive AGX的性能。例如,針對CoT過程,理想采用了小詞表和投機(jī)推理,大幅提升CoT的效率。
針對Action token的推理,理想采用了創(chuàng)新性的并行解碼方法,也就是在同一個(gè)Transformer模型中,加入了兩種推理模式,語言邏輯的推理,通過因果注意力機(jī)制逐字輸出,而Action token則采用雙向注意力機(jī)制一次性全部輸出。
六、利用Diffusion執(zhí)行復(fù)雜指令
經(jīng)過上述一系列的設(shè)計(jì)和優(yōu)化,理想終于實(shí)現(xiàn)了模型的參數(shù)規(guī)模與實(shí)時(shí)推理性能之間的平衡,并利用Diffusion將Action token解碼成最終的駕駛軌跡。
賈鵬表示,VLA的強(qiáng)大之處,在于用戶可以直接與模型對話,模型會(huì)根據(jù)語音指令自動(dòng)拆解并執(zhí)行任務(wù)?;贒iffusion模型,不僅可以生成自車軌跡,還預(yù)測其他車輛和行人的軌跡,大大提升了標(biāo)準(zhǔn)模型在復(fù)雜交通環(huán)境中的博弈能力。
此外,Diffusion還有一個(gè)巨大優(yōu)勢,就是可根據(jù)外部的條件輸入改變生成結(jié)果,這在圖像生成領(lǐng)域被稱為多風(fēng)格生成。有了這樣的特性,一些自然、隨機(jī)的復(fù)雜指令就能得以被理解和執(zhí)行。
然而,Diffusion模型有一個(gè)顯著的挑戰(zhàn)——其生成效率極低,需要很多步才能成功生成穩(wěn)定的軌跡。為了解決這一問題,理想采用了基于常微分方程的ODE采樣器,大幅加速了Diffusion生成過程,使其在2-3步內(nèi)就可以生成穩(wěn)定的軌跡。
「對齊人類水平」還不夠好
賈鵬稱,VLA模型在絕大多數(shù)場景下能夠接近人類的水平,然而在某些長尾工況下,VLA仍存在不符合人類價(jià)值觀的問題。
為解決這一問題,理想增加了后訓(xùn)練的階段,希望能夠既對齊人類駕駛員的行為。
“理想建立了一個(gè)人類偏好的數(shù)據(jù)集,應(yīng)用RLHF去微調(diào)模型的采樣過程,使模型能夠從這些偏好數(shù)據(jù)中學(xué)習(xí)和對其人類行為。這一創(chuàng)新性的步驟,讓我們在模型性能上取得了進(jìn)一步的提升?!?/strong>
隨著偏好數(shù)據(jù)的逐步豐富,模型的表現(xiàn)逐步接近了專業(yè)司機(jī)的水平,安全下限也得到了提升。
但他也指出,要實(shí)現(xiàn)自動(dòng)駕駛,就必須超越人類司機(jī)水準(zhǔn)。這其中有兩個(gè)主要的限制因素:
第一,早期的車端架構(gòu)未能實(shí)現(xiàn)端到端的可訓(xùn),強(qiáng)化學(xué)習(xí)作為一種稀疏的弱監(jiān)督過程,若無法實(shí)現(xiàn)高效的無損的信息傳遞,強(qiáng)化學(xué)習(xí)的效果就會(huì)大打折扣。
第二,Physical AI 需要與真實(shí)世界進(jìn)行交互,然而過去的嘗試都是基于3D的游戲引擎,場景真實(shí)度不足,
目前,理想已經(jīng)獲得了一個(gè)端到端可訓(xùn)的VLA模型,解決了第一個(gè)限制。
至于第二個(gè)問題,理想的做法是結(jié)合場景重建與生成:“純生成模型可能會(huì)出現(xiàn)不符合物理規(guī)律的幻覺,而純重建模型在大視角變換下,又可能出現(xiàn)空洞和變形。因此我們選擇以真實(shí)數(shù)據(jù)的3D重建為基礎(chǔ),同時(shí)特意在不同的視角下添加噪音來訓(xùn)練生成模型,恢復(fù)這些模糊的視角?!?/strong>
賈鵬表示,這樣一來,生成模型就具備了多視角的生成能力,在與3D重建聯(lián)合優(yōu)化后,可以獲得一個(gè)各個(gè)視角下都接近真實(shí)世界的3D環(huán)境,這在很大程度上解決了第二個(gè)限制。
“突破這兩個(gè)限制之后,我們終于有機(jī)會(huì)嘗試大規(guī)模的自動(dòng)駕駛強(qiáng)化學(xué)習(xí),但規(guī)?;枰鉀Q效率的問題,不然無論重建和生成效率都不高。”
在此背景下,理想與英偉達(dá)團(tuán)隊(duì)密切合作,進(jìn)行了大量的工程優(yōu)化,顯著提升了場景生成和重建的效率。其中一項(xiàng)工作是將3DGS的訓(xùn)練速度提高了7倍以上。
”總體來看,MindVLA整合了空間智能、語言智能和行為智能,可以說是一個(gè)巨大突破。并且,通過創(chuàng)新性的預(yù)訓(xùn)練和后訓(xùn)練方法,我們發(fā)現(xiàn)VLA實(shí)現(xiàn)了卓越的泛化性能和涌現(xiàn)特性,它不僅在駕駛場景下表現(xiàn)良好,在室內(nèi)環(huán)境中也展示出了一定的適應(yīng)性和延展性,這是Physica AI能夠大規(guī)模落地的關(guān)鍵,一旦跑通這套范式,理想將有望為更多行業(yè)賦能。“賈鵬說道。
場景體驗(yàn)效果展示
“有MindVLA賦能的車不再只是一個(gè)駕駛工具,而是一個(gè)能夠與用戶溝通理解用戶意圖的司機(jī)?!睂Υ?,賈鵬展示了三個(gè)實(shí)車Demo經(jīng)歷的場景:
1、聽得懂:在一個(gè)陌生園區(qū)想找星巴克,但不知道具體的位置,只需對車輛說出 “帶我去星巴克”,車輛將在沒有導(dǎo)航信息的情況下,通過自主漫游找到目的地。在此過程中,可以隨時(shí)用語音進(jìn)行人工干預(yù)。
2、看得見:在一個(gè)陌生的城市,不知道如何描述自己的位置,只需要拍一張附近環(huán)境的照片發(fā)給汽車,讓車子自己來找你。
3、找得到:當(dāng)你駕車來到商場地庫找車位,只需要在超市門口下車,然后對車說“自己去找個(gè)車位停好”,MindVLA能夠理解你的指令,并利用它的空間推理能力自主尋找停車位,即使遇到了死胡同,他也會(huì)自如地倒車,然后重新尋找合適的車位停下。
整個(gè)過程中,無需依賴地圖或?qū)Ш叫畔ⅲ灰蕾囉赩LA強(qiáng)大的空間和邏輯推理能力。
“我們希望MindVLA能為自動(dòng)駕駛車輛賦予類似人類的認(rèn)知和適應(yīng)能力,將它轉(zhuǎn)變?yōu)槟軌蛩伎嫉闹悄荏w,就像iPhone重新定義了手機(jī),MindVLA也將重新定義自動(dòng)駕駛?!?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.