網易首頁 > 網易號 > 正文申請入駐

端到端精度暴漲19.61%！華科&小米汽車打造自動駕駛框架ORION

2025-04-10 17:49:03　來源: 機器之心Pro

天津舉報

分享至

近年來，端到端（End-to-End，E2E）自動駕駛技術不斷進步，但在復雜的閉環交互環境中，由于其因果推理能力有限，仍然難以做出準確決策。雖然視覺 - 語言大模型（Vision-Language Model，VLM）憑借其卓越的理解和推理能力，為端到端自動駕駛帶來了新的希望，但現有方法在 VLM 的語義推理空間和純數值軌跡的行動空間之間仍然存在巨大鴻溝。

除此之外，現有的方法常常通過疊加多幀的圖像信息完成時序建模，這會受到 VLM 的 Token 長度限制，并且會增加額外的計算開銷。

為了解決上述問題，本文提出了 ORION，這是一個通過視覺語言指令指導軌跡生成的端到端自動駕駛框架。ORION 巧妙地引入了 QT-Former 用于聚合長期歷史上下文信息，VLM 用于駕駛場景理解和推理，并啟發式地利用生成模型對齊了推理空間與動作空間，實現了視覺問答（VQA）和規劃任務的統一端到端優化。

圖 1：不同的端到端自動駕駛范式的對比

ORION 在具有挑戰性的閉環評測 Bench2Drive 數據集上實現了優秀的性能，駕駛得分為 77.74 分，成功率為 54.62%，相比之前的SOTA方法分別高出 14.28分和 19.61% 的成功率。

此外，ORION 的代碼、模型和數據集將很快開源。

論文標題：ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation

論文地址：https://arxiv.org/abs/2503.19755

項目地址：https://xiaomi-mlab.github.io/Orion/

代碼地址：https://github.com/xiaomi-mlab/Orion

單位：華中科技大學、小米汽車

我們來看一下ORION 框架下的閉環駕駛能力：

ORION 檢測到騎自行車的人并向左變道避免了碰撞。

ORION 檢測到右前方的車輛，先執行減速，然后再改變車道。

ORION 識別停車標志并停車，等待一段時間，然后重新啟動成功通過十字路口。

主要貢獻

本文提出了一個簡單且有效的端到端自動駕駛框架 ORION，主要包含如下幾方面的貢獻:

VLM + 生成模型：利用生成模型彌補了 VLM 的推理空間與軌跡的動作空間之間的差距，從而使 ORION 能夠理解場景并指導軌跡生成。

QT-Former：引入 QT-Former 聚合歷史場景信息，使模型能夠將歷史信息整合到當前推理和動作空間中。

可擴展性：ORION 可以與多種生成模型兼容，實驗證明了所提出框架的靈活性。

性能優異：在仿真數據集 Bench2drive 的閉環測試上取得 SOTA 的性能。

研究動機

經典的 E2E 自動駕駛方法通過多任務學習整合感知、預測和規劃模塊，在開環評估中表現出優秀的能力。然而，在需要自主決策和動態環境交互的閉環基準測試中，由于缺少因果推理能力，這些方法往往表現不佳。

近年來，VLM 憑借其強大的理解和推理能力，為 E2E 自動駕駛帶來了新的解決思路。但直接使用 VLM 進行端到端自動駕駛也面臨諸多挑戰，例如，VLM 的能力主要集中在語義推理空間，而 E2E 方法的輸出是動作空間中的數值規劃結果。

一些方法嘗試直接用 VLM 輸出基于文本的規劃結果，但 VLM 在處理數學計算和數值推理方面存在不足，且其自回歸機制導致只能推斷單一結果，無法適應復雜場景。還有些方法通過設計接口，利用 VLM 輔助經典 E2E 方法，但這種方式解耦了 VLM 的推理空間和輸出軌跡的動作空間，阻礙了兩者的協同優化。

除此之外，長期記憶對于端到端自動駕駛是必要的，因為歷史信息通常會影響當前場景中的軌跡規劃。現有使用 VLM 進行端到端自動駕駛的方法通常通過拼接多幀圖像來進行時間建模。但這會受到 VLM 的輸入 Token 的長度限制，并且會增加額外的計算開銷。

為了解決上述問題，本文提出了 ORION。ORION 的結構包括 QT-Former、VLM 和生成模型。 ORION 通過 QT-Former 聚合長時間上下文信息，并巧妙地結合了生成模型和 VLM，有效對齊了推理空間和動作空間，實現了視覺問答（VQA）和規劃任務的統一端到端優化。

方法概覽

具體來說，ORION 通過以下三大核心模塊，顯著提升了自動駕駛系統的決策能力：

1. QT-Former：長時序上下文聚合

ORION 引入了 QT-Former，通過引入歷史查詢和記憶庫，有效聚合長時視覺上下文信息，增強了模型對歷史場景的理解能力。相比現有方法，QT-Former 不僅減少了計算開銷，還能更好地捕捉靜態交通元素和動態物體的運動狀態。

2. VLM：場景推理與指令生成

ORION 利用 VLM 的強大推理能力，結合用戶指令、長時和當前的視覺信息，能夠對駕駛場景進行多維度分析，包括場景描述、關鍵物體行為分析、歷史信息回顧和動作推理，并且利用自回歸特性聚合整個場景信息以生成規劃 token，用來指導生成模型進行軌跡預測。

3. 生成模型：推理與動作空間對齊

ORION 通過生成模型，將 VLM 的推理空間與預測軌跡的動作空間對齊。生成模型使用變分自編碼器（VAE）或擴散模型，以規劃 token 作為條件去控制多模態軌跡的生成，確保模型在復雜場景中做出合理的駕駛決策。

圖 2：ORION 整體架構圖

實驗結果

本文在 Bench2Drive 數據集上進行閉環評估測試，如表 1 所示，ORION 取得了卓越的性能，其駕駛得分（DS）和成功率（SR）分別達到了 77.74 和 54.62%，相比現在的 SOTA 方法提升了 14.28 DS 和 19.61% SR，展現了 ORION 強大的駕駛能力。

表 1：Bench2Drive 上閉環評估和開環評估的性能對比

此外，如表 2 所示，ORION 還在 Bench2Drive 的多能力評估中表現優異，特別是在超車（71.11%）、緊急剎車（78.33%）和交通標志識別（69.15%）等場景中，ORION 的表現遠超其他方法。這得益于 ORION 通過 VLM 對駕駛場景的理解，能夠更好地捕捉駕駛場景之間的因果關系。

表 2：Bench2Drive 上多能力評估測試對比

可解釋性結果

下圖展示了 ORION 在 Bench2Drive 的閉環評估場景中的可解釋性結果。ORION 可以理解場景中正確的因果關系，并做出準確的駕駛決策，然后根據推理信息指導規劃軌跡預測。

圖 3：可解釋性結果圖

總結

ORION 框架為端到端自動駕駛提供了一種全新的解決方案。ORION 通過生成模型實現語義與動作空間對齊，引入 QT-Former 模塊聚合長時序場景上下文信息，并聯合優化視覺理解與路徑規劃任務，在閉環仿真中取得了卓越的性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.