網易首頁 > 網易號 > 正文申請入駐

科普：智駕系統也有多元路線，從端到端到VLA，誰才是未來？

2025-07-08 18:48:57　來源: 選車偵探

陜西舉報

分享至

隨著自動駕駛技術不斷發展，智駕輔助系統正在從高端車型普及到更多消費者可及的主流市場。從城市NOA到高速自動變道，背后的技術路線卻并不統一。當前智駕圈內部也存在分歧，不同的工程師、不同的公司，選擇了截然不同的造車思維。比如主流的端到端模型和VLA路線到底有什么不同？還有哪些技術路線？下面我們來詳細科普。

什么是“端到端”模型？

端到端，在英文中的表述是End-to-End，這是一種簡單又復雜的技術路線，它試圖用一個超大模型接管整套自動駕駛決策流程：從攝像頭、雷達獲取的數據，直接輸入給模型，由模型輸出控制信號，比如打方向盤、踩剎車這類動作。

端到端不再像傳統架構那樣分成感知、預測、規劃、控制四大模塊，而是希望一步到位學會駕駛行為。得到車企青睞的原因是架構很簡單，越少的模塊意味著出錯的地方也更少；模型可以從真實人類駕駛數據中自我學習，理論上學得越久越聰明，模仿人類駕駛的邏輯，而不是像傳統那樣一板一眼。

但另一方面，也存在問題，模型采用黑箱決策，難追溯原因，比如為何突然剎車，一旦出問題，很難知道是哪一步出錯。其次訓練成本高，需要成千上萬小時的駕駛數據，還有昂貴的算力。當然，工程落地也難。簡單來說，端到端就像讓AI從頭學會開車，但學得又慢又貴，還容易犯錯，是未來派的路線，比如特斯拉的FSD V12就是端到端，國內有華為的ADS3.0。

VLA路線，更穩的中間派

VLA，Vision-Language-Action，直譯就是視覺語言動作，是一種介于傳統模塊化和端到端之間的技術架構。它不直接控制車輛，而是先把路況轉化為“語義信息”，比如把感知硬件看到的車道、障礙物、紅綠燈等信息做成語義標注，包括文本描述+視覺關聯，動作生成器綜合視覺+語義信息輸出決策。

簡單來說，它不像端到端那樣盲目，而是先理解場景，再決定行動。優點在于更容易理解和調試，一旦出錯可以發現錯誤在哪里。同時可以和現有的感知系統搭配，不需要徹底推倒重建，安全性更好，容易通過工程驗證。

缺點則是仍然比傳統架構復雜，尤其語義信息的設計，算力和數據成本仍高，也有人認為，VLA模型是端到端的2.0版本。VLA就像是先看清楚再開車，比起端到端更靠譜一點，適合現在這個想開快車但不敢全交給AI的階段。小鵬和理想等品牌采用VLA方案。

VLA還有一些缺點，比如需同時處理視覺、語言和動作的多模態數據，對車端芯片算力要求高。現有主流芯片難以高效運行，需依賴下一代芯片，如Thor 的1000 TOPS，為滿足算力，部分車企采用多芯片方案，導致算力浪費和整車成本上升，成本轉嫁到消費者身上。

模塊化路線，老派穩妥之選

除了這兩種主流的方案，還有更傳統的模塊化架構，這是自動駕駛早期常見的做法，把整個流程拆分成幾個明確的部分，包括感知、越策、規劃和控制四步，先識別物體、再預測行為、規劃路線，最后再控制車輛。

這種架構在L2級別的輔助駕駛中被廣泛使用，比如ACC自適應巡航、LKA車道保持等。優點是結構清晰、可控，每個模塊都能單獨優化，此外，歷經多年發展，工具鏈、數據體系都很完整。

缺點則是模塊之間協作不夠聰明，有點像流水線作業，這意味著缺乏變變通能力，場景適應性差，復雜的城市工況會讓系統懵圈，當然用戶體驗往往比較僵硬，和真人駕駛有明顯區別。換句話說，模塊化的思路是“別出錯就行”，不靈活，但靠得住，目前被廣泛采用。

除了上述三種主流路線，行業里還有一些新奇但潛力巨大的思路，比如BEV+Transformer，把車周圍信息轉成鳥瞰圖BEV，然后用Transformer模型去理解和預測。另一個方案是圖神經網絡GNN，把路況建模成一個動態圖，每個車輛、行人都是圖中的節點，這種方法在城市擁堵路段表現更好。此外，還有智能體對智能體概念，每輛車都像一個思考的機器人，和其他車輛一起談判怎么走。

選車偵探觀點：總體來說，端到端未來感強，但落地慢、風險高。VLA更快見效，技術先進，但不激進，同時缺點是成本高。更主流的模塊化更穩定、量產無憂，但可能錯過變革。也有車企結合了端到端模型+VLM視覺語言模型，提升復雜交通中的判斷能力。在智駕領域，不同公司根據自己資金實力、人才結構、市場目標選擇不同策略。大家覺得哪一種才是更適合智駕的方案？歡迎討論。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.