99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

理想汽車賈鵬:支撐MindVLA的6大關鍵技術

0
分享至

在去年的GTC大會上,理想介紹了「快+慢」雙系統。到了今年,則推出了全新的VLA方案(視覺語言行為大模型)————MindVLA。

昨日(3月18日),在MindVLA發布其Demo車型可實現的效果后,理想汽車的股價一度飆高。同時,理想汽車自動駕駛技術研發負責人——賈鵬,也在GTC演講中詳細介紹了MindVLA的研發背景、挑戰以及背后的工作。

雙系統迭代顯現的問題

從理想去年的「快+慢」雙系統模式來看,「快系統」車端端到端大模型實現了從傳感器的輸入,直接到軌跡的輸出,類似于人類的直覺反應;而「慢系統」則依托于一個22億參數規模的視覺語言大模型VLM,它通過思維鏈CoT進行復雜的邏輯分析,給出駕駛決策。

這兩套系統,分別跑在一顆OrinX芯片上,采用了數據驅動的范式。

為提高其測試效率,降低測試成本,理想在云端構建了一個世界模型。它提供了3D的交互環境,使得雙系統可以在此環境中進行閉環仿真測試。

以上三個模型就構成了理想自動駕駛的整個體系,簡潔而高效。

在這一過程中,理想發現,雙系統同樣在遵循Scaling law——隨著訓練數據的增加,模型在實際駕駛場景中的表現逐步提升。到今年年初,1,000萬clips訓出來的模型,已可實現了超過100公里的MPI。



但是,在端到端+VLM的量產過程中,理想也發現了一些需要改進的地方:

1、由于它們是兩個獨立模型,而且運行于不同的頻率,整體的聯合訓練和優化非常困難。

2、VLM大語言模型使用了海量的互聯網2D圖文數據做預訓練,但是在3D空間理解和駕駛知識方面是有所不足的,上限還不是很高。

3、當前的自動駕駛芯片,其內存帶寬和算力是不及服務器GPU的,如何進一步提升模型的參數量和能力,同時還能實現高效推理,這是個巨大的挑戰。

4、目前,駕駛行為的學習更依賴于Tranformer進行回歸建模,但這種方法難以處理人類駕駛行為的多模態性——在相同的場景下,不同人的選擇是不同的,即使是同一個駕駛員不同心情的時候,駕駛行為也是不同的。

在此背景下,理想考慮將端到端+VLM合二為一,讓模型自己學會快慢思考,同時賦予模型3D空間理解能力和行為生成能力,進一步打開天花板。



MindVLA概述

基于上述思考,理想提出了自己的VLA模型——MindVLA。

VLA是視覺語言行為大模型,它將空間智能、語言智能和行為智能統一在一個模型里,它賦予自動駕駛系統感知、思考和適應環境的能力。

MindVLA不是簡單地將端到端模型和VLM模型結合在一起,而是將所有的模塊進行重新設計。

首先,3D空間編碼器通過語言模型和邏輯推理,結合在一起后,給出合理的駕駛決策,并輸出一組Action token,最終通過Diffusion進一步優化出最佳的駕駛軌跡。

這里所謂的Action token,是對周圍環境和自車駕駛行為的編碼。整個模型推理過程都發生在車端,而且要做到實時運行。

6個關鍵技術

為了解決技術部署的難點,理想需要從0開始設計和訓練一個適合VLA的基座模型,因為任何開源的LLM模型都還不具備這樣的能力。

賈鵬介紹稱,理想的MindVLA具備以下6大關鍵技術:

一、3D高斯表征

在研發世界模型時,理想發現3D高斯是一個優良的中間表征——它不僅具備出色的多尺度3D幾何表達能力,也可以承載豐富的語義。最為關鍵的是,它可以通過圖片RGB進行自監督訓練,這就有機會去充分利用海量的真實數據,獲得一個優秀的3D表征。

“我們的研究成果顯示,采用自監督訓練得到的高斯表征,能夠極大地促進下游任務的性能提升。”



二、LLM的3D空間理解能力

LLM可以兼容視覺語言的多種模態,但如果想要它同時具備3D的空間理解能力,需要在模型的預訓練階段就要加入大量的相關數據。

為了進一步激發模型的3D空間理解和推理能力,理想加入了未來幀的預測生成,以及稠密深度的預測等訓練任務。

三、模型設計:稀疏化

當下的車載芯片,例如Orin-X和Thor-U的算力和內存帶寬都還有限,如何設計模型架構,讓模型參數進一步提升,還能在有限的資源下實施實現實時推理。

在這個過程中,稀疏化是模型設計的關鍵,它可以實現模型容量擴容的同時,不會大幅度增加推理負擔。

理想通過兩個維度來實現稀疏化——首先采用了MoE的架構,不僅可實現模型擴容,還可保證激活參量不會大幅度增加。另外,理想還引入了Sparse Attention等方式,進一步提升稀疏化率,提升端側的推理效率。“在這個新的基座模型訓練過程中,我們花了很多時間去找到最佳的數據配比。”



四、LLM的邏輯推理能力

為了訓練LLM的邏輯推理能力,理想訓練模型去學習人類的思考過程,并自主切換快思考和慢思考。

在慢思考模式下,模型會經過思維鏈CoT再輸出Action token。因為實時性的要求,理想使用了固定且簡短的CoT模板;如此,在快思考模式下,模型不需要經過CoT就可以直接輸出Action token,這也是我們將快慢思考有機結合在同一個模型中的體現。

五、用車端芯片實時推理

即便有了上述的結構設計和優化,要想實現VLA超過10 Hz的推理速度,還是具有挑戰的。理想做了大量的工程工作,去壓榨Orin-X和Thor-U的性能,同時最大利用NVIDIA Drive AGX的性能。例如,針對CoT過程,理想采用了小詞表和投機推理,大幅提升CoT的效率。

針對Action token的推理,理想采用了創新性的并行解碼方法,也就是在同一個Transformer模型中,加入了兩種推理模式,語言邏輯的推理,通過因果注意力機制逐字輸出,而Action token則采用雙向注意力機制一次性全部輸出。



六、利用Diffusion執行復雜指令

經過上述一系列的設計和優化,理想終于實現了模型的參數規模與實時推理性能之間的平衡,并利用Diffusion將Action token解碼成最終的駕駛軌跡。

賈鵬表示,VLA的強大之處,在于用戶可以直接與模型對話,模型會根據語音指令自動拆解并執行任務。基于Diffusion模型,不僅可以生成自車軌跡,還預測其他車輛和行人的軌跡,大大提升了標準模型在復雜交通環境中的博弈能力。

此外,Diffusion還有一個巨大優勢,就是可根據外部的條件輸入改變生成結果,這在圖像生成領域被稱為多風格生成。有了這樣的特性,一些自然、隨機的復雜指令就能得以被理解和執行。

然而,Diffusion模型有一個顯著的挑戰——其生成效率極低,需要很多步才能成功生成穩定的軌跡。為了解決這一問題,理想采用了基于常微分方程的ODE采樣器,大幅加速了Diffusion生成過程,使其在2-3步內就可以生成穩定的軌跡。

「對齊人類水平」還不夠好

賈鵬稱,VLA模型在絕大多數場景下能夠接近人類的水平,然而在某些長尾工況下,VLA仍存在不符合人類價值觀的問題。

為解決這一問題,理想增加了后訓練的階段,希望能夠既對齊人類駕駛員的行為。

“理想建立了一個人類偏好的數據集,應用RLHF去微調模型的采樣過程,使模型能夠從這些偏好數據中學習和對其人類行為。這一創新性的步驟,讓我們在模型性能上取得了進一步的提升。”

隨著偏好數據的逐步豐富,模型的表現逐步接近了專業司機的水平,安全下限也得到了提升。



但他也指出,要實現自動駕駛,就必須超越人類司機水準。這其中有兩個主要的限制因素:

第一,早期的車端架構未能實現端到端的可訓,強化學習作為一種稀疏的弱監督過程,若無法實現高效的無損的信息傳遞,強化學習的效果就會大打折扣。

第二,Physical AI 需要與真實世界進行交互,然而過去的嘗試都是基于3D的游戲引擎,場景真實度不足,

目前,理想已經獲得了一個端到端可訓的VLA模型,解決了第一個限制。

至于第二個問題,理想的做法是結合場景重建與生成:“純生成模型可能會出現不符合物理規律的幻覺,而純重建模型在大視角變換下,又可能出現空洞和變形。因此我們選擇以真實數據的3D重建為基礎,同時特意在不同的視角下添加噪音來訓練生成模型,恢復這些模糊的視角。”

賈鵬表示,這樣一來,生成模型就具備了多視角的生成能力,在與3D重建聯合優化后,可以獲得一個各個視角下都接近真實世界的3D環境,這在很大程度上解決了第二個限制。



“突破這兩個限制之后,我們終于有機會嘗試大規模的自動駕駛強化學習,但規模化需要解決效率的問題,不然無論重建和生成效率都不高。”

在此背景下,理想與英偉達團隊密切合作,進行了大量的工程優化,顯著提升了場景生成和重建的效率。其中一項工作是將3DGS的訓練速度提高了7倍以上。

”總體來看,MindVLA整合了空間智能、語言智能和行為智能,可以說是一個巨大突破。并且,通過創新性的預訓練和后訓練方法,我們發現VLA實現了卓越的泛化性能和涌現特性,它不僅在駕駛場景下表現良好,在室內環境中也展示出了一定的適應性和延展性,這是Physica AI能夠大規模落地的關鍵,一旦跑通這套范式,理想將有望為更多行業賦能。“賈鵬說道。

場景體驗效果展示

“有MindVLA賦能的車不再只是一個駕駛工具,而是一個能夠與用戶溝通理解用戶意圖的司機。”對此,賈鵬展示了三個實車Demo經歷的場景:

1、聽得懂:在一個陌生園區想找星巴克,但不知道具體的位置,只需對車輛說出 “帶我去星巴克”,車輛將在沒有導航信息的情況下,通過自主漫游找到目的地。在此過程中,可以隨時用語音進行人工干預。

2、看得見:在一個陌生的城市,不知道如何描述自己的位置,只需要拍一張附近環境的照片發給汽車,讓車子自己來找你。

3、找得到:當你駕車來到商場地庫找車位,只需要在超市門口下車,然后對車說“自己去找個車位停好”,MindVLA能夠理解你的指令,并利用它的空間推理能力自主尋找停車位,即使遇到了死胡同,他也會自如地倒車,然后重新尋找合適的車位停下。

整個過程中,無需依賴地圖或導航信息,只依賴于VLA強大的空間和邏輯推理能力。



“我們希望MindVLA能為自動駕駛車輛賦予類似人類的認知和適應能力,將它轉變為能夠思考的智能體,就像iPhone重新定義了手機,MindVLA也將重新定義自動駕駛。”



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京:俄羅斯有足夠實力結束烏克蘭戰爭

普京:俄羅斯有足夠實力結束烏克蘭戰爭

參考消息
2025-05-04 21:37:03
“局面混亂不堪”!廣東清遠一景區緊急道歉:全額退票

“局面混亂不堪”!廣東清遠一景區緊急道歉:全額退票

瀟湘晨報
2025-05-04 17:29:06
第2階段4-5!趙心童鞏固優勢,1數據預示登頂,90后世錦賽3連莊?

第2階段4-5!趙心童鞏固優勢,1數據預示登頂,90后世錦賽3連莊?

劉姚堯的文字城堡
2025-05-05 05:31:49
石川佳純喊話中國小伙娶她?不要彩禮,不會變成全職太太

石川佳純喊話中國小伙娶她?不要彩禮,不會變成全職太太

開成運動會
2025-05-04 23:17:52
一場2-2讓德甲變天:拜仁提前2輪奪冠 31歲凱恩圓夢+電視機前加冕

一場2-2讓德甲變天:拜仁提前2輪奪冠 31歲凱恩圓夢+電視機前加冕

風過鄉
2025-05-05 06:31:40
五一7人燒烤被炸傷后續:現場畫面慘不忍睹,原因曝光家長要謹慎

五一7人燒烤被炸傷后續:現場畫面慘不忍睹,原因曝光家長要謹慎

奇思妙想草葉君
2025-05-05 00:01:54
中方高規格出席紅場閱兵,普京見證美印關系降級。

中方高規格出席紅場閱兵,普京見證美印關系降級。

老鼜尾聲電影解說
2025-05-04 21:33:56
特朗普已做好開戰準備?王毅警告:中美一旦沖突,結局只有一個

特朗普已做好開戰準備?王毅警告:中美一旦沖突,結局只有一個

近史談
2025-05-04 22:53:50
許家印為保命全部交代!供出背后三大靠山都是誰?

許家印為保命全部交代!供出背后三大靠山都是誰?

三農老歷
2025-05-04 08:13:35
于東來:對方若不受罰,我將關閉胖東來!相關網紅賬號已被禁,仿冒號一開即被封

于東來:對方若不受罰,我將關閉胖東來!相關網紅賬號已被禁,仿冒號一開即被封

每日經濟新聞
2025-05-04 19:42:06
中南財經政法大學法學院黨委副書記易育去世,終年45歲

中南財經政法大學法學院黨委副書記易育去世,終年45歲

界面新聞
2025-05-04 17:24:32
朱中美(1990出生),被公開懸賞!

朱中美(1990出生),被公開懸賞!

環球網資訊
2025-05-04 16:40:35
“這可能是聯合國幾十年來最徹底的改革”

“這可能是聯合國幾十年來最徹底的改革”

參考消息
2025-05-04 14:31:06
馬筱梅大量不雅照流出,葛斯齊曝幕后黑手S家,汪小菲評論區淪陷

馬筱梅大量不雅照流出,葛斯齊曝幕后黑手S家,汪小菲評論區淪陷

壹月情感
2025-05-04 20:42:50
7-1!趙心童四連鞭斬獲爭冠先機,金左手恐無緣世錦賽第四冠!

7-1!趙心童四連鞭斬獲爭冠先機,金左手恐無緣世錦賽第四冠!

世界體壇觀察家
2025-05-04 23:15:46
一份2008年留學生名單曝光,錄取了22個幾內亞比紹的中文三字姓名留學生

一份2008年留學生名單曝光,錄取了22個幾內亞比紹的中文三字姓名留學生

六子吃涼粉
2025-05-04 14:10:47
沒銷量都白扯!4月新勢力汽車銷量榜:零跑4.1萬輛,小米遠超蔚來

沒銷量都白扯!4月新勢力汽車銷量榜:零跑4.1萬輛,小米遠超蔚來

小鵬財經
2025-05-02 10:12:03
墻倒眾人推?胖東來員工稱不是每個月都賺一萬 “胖都來”沒侵權

墻倒眾人推?胖東來員工稱不是每個月都賺一萬 “胖都來”沒侵權

振華觀史
2025-05-04 17:54:08
爸媽打瞌睡,5歲哥哥帶2歲妹妹獨自下高鐵:想叫他們的,但是覺得保護妹妹比較重要

爸媽打瞌睡,5歲哥哥帶2歲妹妹獨自下高鐵:想叫他們的,但是覺得保護妹妹比較重要

瀟湘晨報
2025-05-04 16:37:09
揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

小人物看盡人間百態
2025-05-04 20:49:11
2025-05-05 07:07:00
RoboX
RoboX
關注智能汽車、機器人在內的具身智能前沿科技
132文章數 0關注度
往期回顧 全部

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

頭條要聞

貴州游船側翻游客:看見船翻了 當時就哭了

頭條要聞

貴州游船側翻游客:看見船翻了 當時就哭了

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

態度原創

手機
健康
家居
房產
公開課

手機要聞

曝蘋果正在開發20周年紀念版iPhone

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

黑白紋理 簡約低調空間

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 城固县| 肇源县| 天全县| 吉木乃县| 岫岩| 凤阳县| 阳东县| 呼伦贝尔市| 兴化市| 胶南市| 宁化县| 潮州市| 邢台县| 共和县| 吴桥县| 齐齐哈尔市| 永兴县| 界首市| 台北县| 高平市| 南江县| 江源县| 米泉市| 石渠县| 太湖县| 鹿泉市| 星子县| 曲沃县| 宁河县| 紫金县| 长顺县| 晋江市| 固始县| 彭阳县| 深泽县| 康保县| 阿城市| 利川市| 榕江县| 大埔区| 行唐县|