99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

端到端精度暴漲19.61%!華科&小米汽車打造自動駕駛框架ORION

0
分享至



近年來,端到端(End-to-End,E2E)自動駕駛技術不斷進步,但在復雜的閉環交互環境中,由于其因果推理能力有限,仍然難以做出準確決策。雖然視覺 - 語言大模型(Vision-Language Model,VLM)憑借其卓越的理解和推理能力,為端到端自動駕駛帶來了新的希望,但現有方法在 VLM 的語義推理空間和純數值軌跡的行動空間之間仍然存在巨大鴻溝。

除此之外,現有的方法常常通過疊加多幀的圖像信息完成時序建模,這會受到 VLM 的 Token 長度限制,并且會增加額外的計算開銷。

為了解決上述問題,本文提出了 ORION,這是一個通過視覺語言指令指導軌跡生成的端到端自動駕駛框架。ORION 巧妙地引入了 QT-Former 用于聚合長期歷史上下文信息,VLM 用于駕駛場景理解和推理,并啟發式地利用生成模型對齊了推理空間與動作空間,實現了視覺問答(VQA)和規劃任務的統一端到端優化。



圖 1:不同的端到端自動駕駛范式的對比

ORION 在具有挑戰性的閉環評測 Bench2Drive 數據集上實現了優秀的性能,駕駛得分為 77.74 分,成功率為 54.62%,相比之前的SOTA方法分別高出 14.28分和 19.61% 的成功率。

此外,ORION 的代碼、模型和數據集將很快開源。



論文標題:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

論文地址:https://arxiv.org/abs/2503.19755

項目地址:https://xiaomi-mlab.github.io/Orion/

代碼地址:https://github.com/xiaomi-mlab/Orion

單位:華中科技大學、小米汽車

我們來看一下ORION 框架下的閉環駕駛能力:

ORION 檢測到騎自行車的人并向左變道避免了碰撞。



ORION 檢測到右前方的車輛,先執行減速,然后再改變車道。



ORION 識別停車標志并停車,等待一段時間,然后重新啟動成功通過十字路口。



主要貢獻

本文提出了一個簡單且有效的端到端自動駕駛框架 ORION,主要包含如下幾方面的貢獻:

VLM + 生成模型:利用生成模型彌補了 VLM 的推理空間與軌跡的動作空間之間的差距,從而使 ORION 能夠理解場景并指導軌跡生成。

QT-Former:引入 QT-Former 聚合歷史場景信息,使模型能夠將歷史信息整合到當前推理和動作空間中。

可擴展性:ORION 可以與多種生成模型兼容,實驗證明了所提出框架的靈活性。

性能優異:在仿真數據集 Bench2drive 的閉環測試上取得 SOTA 的性能。

研究動機

經典的 E2E 自動駕駛方法通過多任務學習整合感知、預測和規劃模塊,在開環評估中表現出優秀的能力。然而,在需要自主決策和動態環境交互的閉環基準測試中,由于缺少因果推理能力,這些方法往往表現不佳。

近年來,VLM 憑借其強大的理解和推理能力,為 E2E 自動駕駛帶來了新的解決思路。但直接使用 VLM 進行端到端自動駕駛也面臨諸多挑戰,例如,VLM 的能力主要集中在語義推理空間,而 E2E 方法的輸出是動作空間中的數值規劃結果。

一些方法嘗試直接用 VLM 輸出基于文本的規劃結果,但 VLM 在處理數學計算和數值推理方面存在不足,且其自回歸機制導致只能推斷單一結果,無法適應復雜場景。還有些方法通過設計接口,利用 VLM 輔助經典 E2E 方法,但這種方式解耦了 VLM 的推理空間和輸出軌跡的動作空間,阻礙了兩者的協同優化。

除此之外,長期記憶對于端到端自動駕駛是必要的,因為歷史信息通常會影響當前場景中的軌跡規劃。現有使用 VLM 進行端到端自動駕駛的方法通常通過拼接多幀圖像來進行時間建模。但這會受到 VLM 的輸入 Token 的長度限制,并且會增加額外的計算開銷。

為了解決上述問題,本文提出了 ORION。ORION 的結構包括 QT-Former、VLM 和生成模型。 ORION 通過 QT-Former 聚合長時間上下文信息,并巧妙地結合了生成模型和 VLM,有效對齊了推理空間和動作空間,實現了視覺問答(VQA)和規劃任務的統一端到端優化。

方法概覽

具體來說,ORION 通過以下三大核心模塊,顯著提升了自動駕駛系統的決策能力:

1. QT-Former:長時序上下文聚合

ORION 引入了 QT-Former,通過引入歷史查詢和記憶庫,有效聚合長時視覺上下文信息,增強了模型對歷史場景的理解能力。相比現有方法,QT-Former 不僅減少了計算開銷,還能更好地捕捉靜態交通元素和動態物體的運動狀態。

2. VLM:場景推理與指令生成

ORION 利用 VLM 的強大推理能力,結合用戶指令、長時和當前的視覺信息,能夠對駕駛場景進行多維度分析,包括場景描述、關鍵物體行為分析、歷史信息回顧和動作推理,并且利用自回歸特性聚合整個場景信息以生成規劃 token,用來指導生成模型進行軌跡預測。

3. 生成模型:推理與動作空間對齊

ORION 通過生成模型,將 VLM 的推理空間與預測軌跡的動作空間對齊。生成模型使用變分自編碼器(VAE)或擴散模型,以規劃 token 作為條件去控制多模態軌跡的生成,確保模型在復雜場景中做出合理的駕駛決策。



圖 2:ORION 整體架構圖

實驗結果

本文在 Bench2Drive 數據集上進行閉環評估測試,如表 1 所示,ORION 取得了卓越的性能,其駕駛得分(DS)和成功率(SR)分別達到了 77.74 和 54.62%,相比現在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展現了 ORION 強大的駕駛能力。



表 1:Bench2Drive 上閉環評估和開環評估的性能對比

此外,如表 2 所示,ORION 還在 Bench2Drive 的多能力評估中表現優異,特別是在超車(71.11%)、緊急剎車(78.33%)和交通標志識別(69.15%)等場景中,ORION 的表現遠超其他方法。這得益于 ORION 通過 VLM 對駕駛場景的理解,能夠更好地捕捉駕駛場景之間的因果關系。



表 2:Bench2Drive 上多能力評估測試對比

可解釋性結果

下圖展示了 ORION 在 Bench2Drive 的閉環評估場景中的可解釋性結果。ORION 可以理解場景中正確的因果關系,并做出準確的駕駛決策,然后根據推理信息指導規劃軌跡預測。



圖 3:可解釋性結果圖

總結

ORION 框架為端到端自動駕駛提供了一種全新的解決方案。ORION 通過生成模型實現語義與動作空間對齊,引入 QT-Former 模塊聚合長時序場景上下文信息,并聯合優化視覺理解與路徑規劃任務,在閉環仿真中取得了卓越的性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
血液科醫生:6種食物是甲醛大戶,常吃會讓白血病找上門

血液科醫生:6種食物是甲醛大戶,常吃會讓白血病找上門

菁媽育兒
2025-04-27 13:26:36
湖人慌了,詹姆斯最后一站并不一定是洛杉磯,為奪冠可能離開湖人

湖人慌了,詹姆斯最后一站并不一定是洛杉磯,為奪冠可能離開湖人

阿雄侃籃球
2025-05-04 19:23:05
賞心悅目!皇馬20歲新星居萊爾飆無敵世界波,現場視角,太絲滑了

賞心悅目!皇馬20歲新星居萊爾飆無敵世界波,現場視角,太絲滑了

側身凌空斬
2025-05-04 20:50:07
這三大星座,總是悄無聲息地離開你

這三大星座,總是悄無聲息地離開你

星座不求人
2025-05-04 21:37:37
35萬人擠爆的榮昌,成了五一最大贏家

35萬人擠爆的榮昌,成了五一最大贏家

金錯刀
2025-05-04 19:13:56
朱立倫、侯友宜、韓國瑜、盧秀燕等人挖坑,國民黨集體往里跳!

朱立倫、侯友宜、韓國瑜、盧秀燕等人挖坑,國民黨集體往里跳!

藍色海邊
2025-05-04 11:34:31
這價格是真的貴,印度早干啥去了,美媒:印度75億美元買26架陣風

這價格是真的貴,印度早干啥去了,美媒:印度75億美元買26架陣風

嘯鷹評
2025-05-04 23:47:23
重大利好!美國法院允許手游開發者將用戶從APP內直接引導至自己的第三方網頁進行充值

重大利好!美國法院允許手游開發者將用戶從APP內直接引導至自己的第三方網頁進行充值

游戲茶館
2025-05-03 21:51:36
去了一趟朝鮮才知道,網上流傳的都是假的,這些才是真實的朝鮮

去了一趟朝鮮才知道,網上流傳的都是假的,這些才是真實的朝鮮

冬天來旅游
2025-04-19 01:37:52
DeepSeek預判下周(5月6日-5月9日)A股走勢。

DeepSeek預判下周(5月6日-5月9日)A股走勢。

風風順
2025-05-04 12:58:49
故事:22歲烏克蘭美女嫁江浙富豪,6年寄1.2億,在別墅撞見了真相

故事:22歲烏克蘭美女嫁江浙富豪,6年寄1.2億,在別墅撞見了真相

甜心泡泡
2025-05-02 21:18:09
徐杰加盟上海男籃?朱芳雨不裝攤牌了,廣東隊引進超級小外援

徐杰加盟上海男籃?朱芳雨不裝攤牌了,廣東隊引進超級小外援

幫主砍球
2025-05-04 12:24:18
突發利好!人民幣升值2200點,阿布達比剛買進22個股票(附名單)

突發利好!人民幣升值2200點,阿布達比剛買進22個股票(附名單)

鵬哥投研
2025-05-04 11:01:29
張庭度假被13歲兒子公主抱,表情夸張一臉幸福,64歲老公像爺爺

張庭度假被13歲兒子公主抱,表情夸張一臉幸福,64歲老公像爺爺

娛圈小愚
2025-05-04 15:58:17
香港電視劇里怎么不說yes sir了?

香港電視劇里怎么不說yes sir了?

港劇叔
2025-05-04 08:42:05
兒子被同學打進醫院,對方卻揚言隨便告,我隨即撥通了大伯的電話

兒子被同學打進醫院,對方卻揚言隨便告,我隨即撥通了大伯的電話

五元講堂
2025-04-24 11:18:13
龔鵬程:我看不上這樣的中國史學

龔鵬程:我看不上這樣的中國史學

尚曦讀史
2025-05-01 20:45:02
在豪華小區居住啥體驗?網友:高檔小區的人也點外賣嗎

在豪華小區居住啥體驗?網友:高檔小區的人也點外賣嗎

娛樂圈人物大賞
2025-05-04 00:15:07
火勇搶七!帕金斯:追夢那身板咋扛得住申京+亞當斯兩大巨獸呢?

火勇搶七!帕金斯:追夢那身板咋扛得住申京+亞當斯兩大巨獸呢?

直播吧
2025-05-04 23:22:09
青島天氣有變!全市將迎對流天氣+降雨+降溫,雷雨時陣風9級!時間就在→

青島天氣有變!全市將迎對流天氣+降雨+降溫,雷雨時陣風9級!時間就在→

魯中晨報
2025-05-04 07:44:07
2025-05-05 00:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10436文章數 142301關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

胡塞武裝高超音速導彈襲擊以機場 以媒:彈頭大威力強

頭條要聞

胡塞武裝高超音速導彈襲擊以機場 以媒:彈頭大威力強

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

教育
房產
時尚
公開課
軍事航空

教育要聞

如果有100度的水加0度的水,最后等于多少度?

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

卷首語 | 今天,致敬青春,致敬自己!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新郑市| 汶川县| 尼玛县| 长乐市| 闸北区| 陆河县| 新民市| 晋城| 阜阳市| 浦城县| 津市市| 仙桃市| 正安县| 青神县| 惠东县| 九寨沟县| 富民县| 桓台县| 富阳市| 循化| 铜鼓县| 进贤县| 鹤庆县| 英吉沙县| 高雄市| 开阳县| 葫芦岛市| 巴林右旗| 密山市| 偏关县| 资中县| 克山县| 八宿县| 尚义县| 张家界市| 仪征市| 平泉县| 福安市| 麻城市| 积石山| 镶黄旗|