隨著自動駕駛技術不斷發展,智駕輔助系統正在從高端車型普及到更多消費者可及的主流市場。從城市NOA到高速自動變道,背后的技術路線卻并不統一。當前智駕圈內部也存在分歧,不同的工程師、不同的公司,選擇了截然不同的造車思維。比如主流的端到端模型和VLA路線到底有什么不同?還有哪些技術路線?下面我們來詳細科普。
什么是“端到端”模型?
端到端,在英文中的表述是End-to-End,這是一種簡單又復雜的技術路線,它試圖用一個超大模型接管整套自動駕駛決策流程:從攝像頭、雷達獲取的數據,直接輸入給模型,由模型輸出控制信號,比如打方向盤、踩剎車這類動作。
端到端不再像傳統架構那樣分成感知、預測、規劃、控制四大模塊,而是希望一步到位學會駕駛行為。得到車企青睞的原因是架構很簡單,越少的模塊意味著出錯的地方也更少;模型可以從真實人類駕駛數據中自我學習,理論上學得越久越聰明,模仿人類駕駛的邏輯,而不是像傳統那樣一板一眼。
但另一方面,也存在問題,模型采用黑箱決策,難追溯原因,比如為何突然剎車,一旦出問題,很難知道是哪一步出錯。其次訓練成本高,需要成千上萬小時的駕駛數據,還有昂貴的算力。當然,工程落地也難。簡單來說,端到端就像讓AI從頭學會開車,但學得又慢又貴,還容易犯錯,是未來派的路線,比如特斯拉的FSD V12就是端到端,國內有華為的ADS3.0。
VLA路線,更穩的中間派
VLA,Vision-Language-Action,直譯就是視覺語言動作,是一種介于傳統模塊化和端到端之間的技術架構。它不直接控制車輛,而是先把路況轉化為“語義信息”,比如把感知硬件看到的車道、障礙物、紅綠燈等信息做成語義標注,包括文本描述+視覺關聯,動作生成器綜合視覺+語義信息輸出決策。
簡單來說,它不像端到端那樣盲目,而是先理解場景,再決定行動。優點在于更容易理解和調試,一旦出錯可以發現錯誤在哪里。同時可以和現有的感知系統搭配,不需要徹底推倒重建,安全性更好,容易通過工程驗證。
缺點則是仍然比傳統架構復雜,尤其語義信息的設計,算力和數據成本仍高,也有人認為,VLA模型是端到端的2.0版本。VLA就像是先看清楚再開車,比起端到端更靠譜一點,適合現在這個想開快車但不敢全交給AI的階段。小鵬和理想等品牌采用VLA方案。
VLA還有一些缺點,比如需同時處理視覺、語言和動作的多模態數據,對車端芯片算力要求高。現有主流芯片難以高效運行,需依賴下一代芯片,如Thor 的1000 TOPS,為滿足算力,部分車企采用多芯片方案,導致算力浪費和整車成本上升,成本轉嫁到消費者身上。
模塊化路線,老派穩妥之選
除了這兩種主流的方案,還有更傳統的模塊化架構,這是自動駕駛早期常見的做法,把整個流程拆分成幾個明確的部分,包括感知、越策、規劃和控制四步,先識別物體、再預測行為、規劃路線,最后再控制車輛。
這種架構在L2級別的輔助駕駛中被廣泛使用,比如ACC自適應巡航、LKA車道保持等。優點是結構清晰、可控,每個模塊都能單獨優化,此外,歷經多年發展,工具鏈、數據體系都很完整。
缺點則是模塊之間協作不夠聰明,有點像流水線作業,這意味著缺乏變變通能力,場景適應性差,復雜的城市工況會讓系統懵圈,當然用戶體驗往往比較僵硬,和真人駕駛有明顯區別。換句話說,模塊化的思路是“別出錯就行”,不靈活,但靠得住,目前被廣泛采用。
除了上述三種主流路線,行業里還有一些新奇但潛力巨大的思路,比如BEV+Transformer,把車周圍信息轉成鳥瞰圖BEV,然后用Transformer模型去理解和預測。另一個方案是圖神經網絡GNN,把路況建模成一個動態圖,每個車輛、行人都是圖中的節點,這種方法在城市擁堵路段表現更好。此外,還有智能體對智能體概念,每輛車都像一個思考的機器人,和其他車輛一起談判怎么走。
選車偵探觀點:總體來說,端到端未來感強,但落地慢、風險高。VLA更快見效,技術先進,但不激進,同時缺點是成本高。更主流的模塊化更穩定、量產無憂,但可能錯過變革。也有車企結合了端到端模型+VLM視覺語言模型,提升復雜交通中的判斷能力。在智駕領域,不同公司根據自己資金實力、人才結構、市場目標選擇不同策略。大家覺得哪一種才是更適合智駕的方案?歡迎討論。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.