在去年的GTC大會上,理想介紹了「快+慢」雙系統。到了今年,則推出了全新的VLA方案(視覺語言行為大模型)————MindVLA。
昨日(3月18日),在MindVLA發布其Demo車型可實現的效果后,理想汽車的股價一度飆高。同時,理想汽車自動駕駛技術研發負責人——賈鵬,也在GTC演講中詳細介紹了MindVLA的研發背景、挑戰以及背后的工作。
雙系統迭代顯現的問題
從理想去年的「快+慢」雙系統模式來看,「快系統」車端端到端大模型實現了從傳感器的輸入,直接到軌跡的輸出,類似于人類的直覺反應;而「慢系統」則依托于一個22億參數規模的視覺語言大模型VLM,它通過思維鏈CoT進行復雜的邏輯分析,給出駕駛決策。
這兩套系統,分別跑在一顆OrinX芯片上,采用了數據驅動的范式。
為提高其測試效率,降低測試成本,理想在云端構建了一個世界模型。它提供了3D的交互環境,使得雙系統可以在此環境中進行閉環仿真測試。
以上三個模型就構成了理想自動駕駛的整個體系,簡潔而高效。
在這一過程中,理想發現,雙系統同樣在遵循Scaling law——隨著訓練數據的增加,模型在實際駕駛場景中的表現逐步提升。到今年年初,1,000萬clips訓出來的模型,已可實現了超過100公里的MPI。
但是,在端到端+VLM的量產過程中,理想也發現了一些需要改進的地方:
1、由于它們是兩個獨立模型,而且運行于不同的頻率,整體的聯合訓練和優化非常困難。
2、VLM大語言模型使用了海量的互聯網2D圖文數據做預訓練,但是在3D空間理解和駕駛知識方面是有所不足的,上限還不是很高。
3、當前的自動駕駛芯片,其內存帶寬和算力是不及服務器GPU的,如何進一步提升模型的參數量和能力,同時還能實現高效推理,這是個巨大的挑戰。
4、目前,駕駛行為的學習更依賴于Tranformer進行回歸建模,但這種方法難以處理人類駕駛行為的多模態性——在相同的場景下,不同人的選擇是不同的,即使是同一個駕駛員不同心情的時候,駕駛行為也是不同的。
在此背景下,理想考慮將端到端+VLM合二為一,讓模型自己學會快慢思考,同時賦予模型3D空間理解能力和行為生成能力,進一步打開天花板。
MindVLA概述
基于上述思考,理想提出了自己的VLA模型——MindVLA。
VLA是視覺語言行為大模型,它將空間智能、語言智能和行為智能統一在一個模型里,它賦予自動駕駛系統感知、思考和適應環境的能力。
MindVLA不是簡單地將端到端模型和VLM模型結合在一起,而是將所有的模塊進行重新設計。
首先,3D空間編碼器通過語言模型和邏輯推理,結合在一起后,給出合理的駕駛決策,并輸出一組Action token,最終通過Diffusion進一步優化出最佳的駕駛軌跡。
這里所謂的Action token,是對周圍環境和自車駕駛行為的編碼。整個模型推理過程都發生在車端,而且要做到實時運行。
6個關鍵技術
為了解決技術部署的難點,理想需要從0開始設計和訓練一個適合VLA的基座模型,因為任何開源的LLM模型都還不具備這樣的能力。
賈鵬介紹稱,理想的MindVLA具備以下6大關鍵技術:
一、3D高斯表征
在研發世界模型時,理想發現3D高斯是一個優良的中間表征——它不僅具備出色的多尺度3D幾何表達能力,也可以承載豐富的語義。最為關鍵的是,它可以通過圖片RGB進行自監督訓練,這就有機會去充分利用海量的真實數據,獲得一個優秀的3D表征。
“我們的研究成果顯示,采用自監督訓練得到的高斯表征,能夠極大地促進下游任務的性能提升。”
二、LLM的3D空間理解能力
LLM可以兼容視覺語言的多種模態,但如果想要它同時具備3D的空間理解能力,需要在模型的預訓練階段就要加入大量的相關數據。
為了進一步激發模型的3D空間理解和推理能力,理想加入了未來幀的預測生成,以及稠密深度的預測等訓練任務。
三、模型設計:稀疏化
當下的車載芯片,例如Orin-X和Thor-U的算力和內存帶寬都還有限,如何設計模型架構,讓模型參數進一步提升,還能在有限的資源下實施實現實時推理。
在這個過程中,稀疏化是模型設計的關鍵,它可以實現模型容量擴容的同時,不會大幅度增加推理負擔。
理想通過兩個維度來實現稀疏化——首先采用了MoE的架構,不僅可實現模型擴容,還可保證激活參量不會大幅度增加。另外,理想還引入了Sparse Attention等方式,進一步提升稀疏化率,提升端側的推理效率。“在這個新的基座模型訓練過程中,我們花了很多時間去找到最佳的數據配比。”
四、LLM的邏輯推理能力
為了訓練LLM的邏輯推理能力,理想訓練模型去學習人類的思考過程,并自主切換快思考和慢思考。
在慢思考模式下,模型會經過思維鏈CoT再輸出Action token。因為實時性的要求,理想使用了固定且簡短的CoT模板;如此,在快思考模式下,模型不需要經過CoT就可以直接輸出Action token,這也是我們將快慢思考有機結合在同一個模型中的體現。
五、用車端芯片實時推理
即便有了上述的結構設計和優化,要想實現VLA超過10 Hz的推理速度,還是具有挑戰的。理想做了大量的工程工作,去壓榨Orin-X和Thor-U的性能,同時最大利用NVIDIA Drive AGX的性能。例如,針對CoT過程,理想采用了小詞表和投機推理,大幅提升CoT的效率。
針對Action token的推理,理想采用了創新性的并行解碼方法,也就是在同一個Transformer模型中,加入了兩種推理模式,語言邏輯的推理,通過因果注意力機制逐字輸出,而Action token則采用雙向注意力機制一次性全部輸出。
六、利用Diffusion執行復雜指令
經過上述一系列的設計和優化,理想終于實現了模型的參數規模與實時推理性能之間的平衡,并利用Diffusion將Action token解碼成最終的駕駛軌跡。
賈鵬表示,VLA的強大之處,在于用戶可以直接與模型對話,模型會根據語音指令自動拆解并執行任務。基于Diffusion模型,不僅可以生成自車軌跡,還預測其他車輛和行人的軌跡,大大提升了標準模型在復雜交通環境中的博弈能力。
此外,Diffusion還有一個巨大優勢,就是可根據外部的條件輸入改變生成結果,這在圖像生成領域被稱為多風格生成。有了這樣的特性,一些自然、隨機的復雜指令就能得以被理解和執行。
然而,Diffusion模型有一個顯著的挑戰——其生成效率極低,需要很多步才能成功生成穩定的軌跡。為了解決這一問題,理想采用了基于常微分方程的ODE采樣器,大幅加速了Diffusion生成過程,使其在2-3步內就可以生成穩定的軌跡。
「對齊人類水平」還不夠好
賈鵬稱,VLA模型在絕大多數場景下能夠接近人類的水平,然而在某些長尾工況下,VLA仍存在不符合人類價值觀的問題。
為解決這一問題,理想增加了后訓練的階段,希望能夠既對齊人類駕駛員的行為。
“理想建立了一個人類偏好的數據集,應用RLHF去微調模型的采樣過程,使模型能夠從這些偏好數據中學習和對其人類行為。這一創新性的步驟,讓我們在模型性能上取得了進一步的提升。”
隨著偏好數據的逐步豐富,模型的表現逐步接近了專業司機的水平,安全下限也得到了提升。
但他也指出,要實現自動駕駛,就必須超越人類司機水準。這其中有兩個主要的限制因素:
第一,早期的車端架構未能實現端到端的可訓,強化學習作為一種稀疏的弱監督過程,若無法實現高效的無損的信息傳遞,強化學習的效果就會大打折扣。
第二,Physical AI 需要與真實世界進行交互,然而過去的嘗試都是基于3D的游戲引擎,場景真實度不足,
目前,理想已經獲得了一個端到端可訓的VLA模型,解決了第一個限制。
至于第二個問題,理想的做法是結合場景重建與生成:“純生成模型可能會出現不符合物理規律的幻覺,而純重建模型在大視角變換下,又可能出現空洞和變形。因此我們選擇以真實數據的3D重建為基礎,同時特意在不同的視角下添加噪音來訓練生成模型,恢復這些模糊的視角。”
賈鵬表示,這樣一來,生成模型就具備了多視角的生成能力,在與3D重建聯合優化后,可以獲得一個各個視角下都接近真實世界的3D環境,這在很大程度上解決了第二個限制。
“突破這兩個限制之后,我們終于有機會嘗試大規模的自動駕駛強化學習,但規模化需要解決效率的問題,不然無論重建和生成效率都不高。”
在此背景下,理想與英偉達團隊密切合作,進行了大量的工程優化,顯著提升了場景生成和重建的效率。其中一項工作是將3DGS的訓練速度提高了7倍以上。
”總體來看,MindVLA整合了空間智能、語言智能和行為智能,可以說是一個巨大突破。并且,通過創新性的預訓練和后訓練方法,我們發現VLA實現了卓越的泛化性能和涌現特性,它不僅在駕駛場景下表現良好,在室內環境中也展示出了一定的適應性和延展性,這是Physica AI能夠大規模落地的關鍵,一旦跑通這套范式,理想將有望為更多行業賦能。“賈鵬說道。
場景體驗效果展示
“有MindVLA賦能的車不再只是一個駕駛工具,而是一個能夠與用戶溝通理解用戶意圖的司機。”對此,賈鵬展示了三個實車Demo經歷的場景:
1、聽得懂:在一個陌生園區想找星巴克,但不知道具體的位置,只需對車輛說出 “帶我去星巴克”,車輛將在沒有導航信息的情況下,通過自主漫游找到目的地。在此過程中,可以隨時用語音進行人工干預。
2、看得見:在一個陌生的城市,不知道如何描述自己的位置,只需要拍一張附近環境的照片發給汽車,讓車子自己來找你。
3、找得到:當你駕車來到商場地庫找車位,只需要在超市門口下車,然后對車說“自己去找個車位停好”,MindVLA能夠理解你的指令,并利用它的空間推理能力自主尋找停車位,即使遇到了死胡同,他也會自如地倒車,然后重新尋找合適的車位停下。
整個過程中,無需依賴地圖或導航信息,只依賴于VLA強大的空間和邏輯推理能力。
“我們希望MindVLA能為自動駕駛車輛賦予類似人類的認知和適應能力,將它轉變為能夠思考的智能體,就像iPhone重新定義了手機,MindVLA也將重新定義自動駕駛。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.