[首發于智駕最前沿微信公眾號]特斯拉CEO埃隆·馬斯克認為,在復雜的道路駕駛環境中,模擬生物神經網絡和眼睛的視覺系統才是最為有效的方式。他也曾在在多個場合批評激光雷達技術為“錯誤的解決方案”,并多次強調視覺系統的先進性。純視覺自動駕駛是指在車輛自動駕駛系統中僅依賴攝像頭而不使用激光雷達或毫米波雷達等主動傳感器。特斯拉率先倡導這一路線,宣稱模擬人類駕駛完全可以依靠視覺。在國內,也有一段車企瘋狂追捧純視覺方案的時期,但進入2025年,純視覺的口號逐漸減弱,尤其是隨著“智駕安全第一”呼聲熱烈的當下,純視覺的優勢性似乎不再明顯。那純視覺的自動駕駛會帶來哪些安全問題?今天智駕最前沿就和大家來聊聊這個話題。
感知局限性
攝像頭作為被動傳感器,其感知能力受光照和氣象條件影響極大。在雨雪、霧霾等復雜天氣下,攝像頭捕捉到的圖像易出現模糊或對比度降低,導致感知性能明顯下降;夜間或逆光場景下光線不足,也會嚴重限制攝像頭獲取信息的能力。這些問題容易產生感知盲區或誤檢。特斯拉Autopilot曾有多次事故就是因為系統將白色貨車誤判為天空背景而沒有識別導致的。
此外,純視覺系統需要通過二維圖像推斷三維空間信息。這意味著車輛必須通過多路攝像頭和復雜算法來估計距離和形狀,但這種“2D轉3D”的過程存在先天局限。算法需要從圖像中提取深度和速度等特征,其延時和誤差難以徹底消除。此外,純視覺方案在將二維圖像轉換為三維信息、理解復雜場景細節方面等難度也很大。以特斯拉為例,攝像頭本身無法直接測量物體的深度與速度,為了安全起見,特斯拉在取消毫米波雷達后曾將自動轉向(Autosteer)最高速度限制為120公里/小時并拉大跟車距離,后來才稍作放寬。可見,依賴單一攝像頭感知的方案在距離、深度和速度檢測方面存在不足,難以與激光雷達或毫米波雷達提供的直接測量相匹敵。
環境適應性
純視覺方案需要依賴大量且多樣化的圖像數據來適應不同環境,而實際道路環境千差萬別。在駕乘體驗和安全要求面前,視覺系統面臨復雜度極高的環境適配挑戰。不同國家的交通環境也會對識別效果產生影響,在中國,高速公路曲折蜿蜒、路網立交交錯復雜,環島、多層互通的道路更多;城市道路上行人、電動車通行習慣與西方也有顯著差異。有統計顯示,自動駕駛在美國路口通過要比在中國簡單近十倍,這也使得在中國實現純視覺方案更具挑戰。
由于純視覺系統僅靠攝像頭的實時感知,缺乏超視距的先驗信息和高精地圖的輔助,其“視野”往往局限在攝像頭直接能看到的范圍。在今年年初特斯拉FSD在中國剛推送時,也有很多博主進行了測試,卻發現其有明顯的“水土不服”,在未經中國本地數據訓練情況下難以流暢行駛,而其他廠商通過激光雷達、高精地圖和定位系統提供的先驗信息,則能更好地應對復雜路況。總之,環境差異導致純視覺系統泛化能力受限,一旦遇到訓練數據中未覆蓋的道路標記、交通標志或行駛習慣,車輛就可能出現判斷失誤。
系統魯棒性不足
高度可靠的自動駕駛要求系統具備多重冗余和故障容錯能力。純視覺方案由于僅依賴攝像頭,天然缺乏其他傳感器的互補與冗余。一旦攝像頭受損(如鏡頭被雨滴、污物遮擋)或誤判(光暈、眩光等),整個感知鏈會陷入癱瘓狀態,系統沒有備用數據源來糾正錯誤。這也導致“幽靈剎車”成為純視覺系統難以根治的問題,在純視覺方案中無法直接測量前車速度和加速度,車輛有時會無故急踩剎車以避免預測的碰撞。據中國證券報,美國國家公路交通安全管理局(簡稱“NHTSA”)在一份監管文件中表示,特斯拉在2021年取消毫米波雷達后,幽靈制動投訴數量在一個月內由354起驟增至758起,引發美國監管機構的大規模調查。
純視覺系統的安全設計幾乎沒有多傳感器的功能安全保障。為了達到高級別自動駕駛的安全要求,必須防止單一系統失效帶來風險;但純視覺方案很難滿足這一點。如特斯拉Autopilot被定位為L2級輔助駕駛,需要駕駛員時刻監控駕駛環境;即使如此,美國國家公路交通安全管理局也發現數百起Autopilot相關事故,引發對其安全性的質疑。由此可見,由于缺乏多傳感器的冗余設計,純視覺自動駕駛系統在容錯性和魯棒性方面存在明顯短板,其安全性難以與多傳感器融合方案相比。
模型泛化能力與長尾問題
純視覺方案的感知能力主要依賴深度學習模型,而模型性能高度依賴訓練數據的覆蓋度。由于現實駕駛場景具有極大的多樣性,模型難以通過常規訓練囊括所有可能出現的場景。那些在數據集中出現頻率很低的“長尾”場景(如罕見交通標志、非常規障礙物、突發意外等)往往無法得到充分訓練。結果是模型可能在這類場景下預測失誤,無法做出正確反應。為應對長尾問題,需通過大規模數據采集、數據增強、仿真模擬等方法擴展訓練樣本,但仍無法保證覆蓋所有極端情況。
域外數據與本地應用的差異也會導致泛化不足。例如特斯拉的FSD系統主要訓練于北美路況,對于中國復雜的高速公路環境并不匹配。中國對自動駕駛數據安全監管嚴格,特斯拉在中國采集的數據也難以外傳,這進一步限制了本地化的模型訓練。總之,純視覺系統需要海量高質量的多樣化訓練數據才能提高泛化能力,但在實際應用中獲取和標注這樣的數據既昂貴又耗時,難以迅速彌補模型在新環境下的缺口。
未來趨勢與技術演進
盡管純視覺方案在成本和算法創新上具有獨到之處,業界普遍認為真正的大規模落地仍需要傳感器融合與更先進的AI技術相結合。僅用一種傳感器難以覆蓋所有場景,中短期內要實現高度可靠的環境感知必然依賴多種傳感器融合,尤其是在在L4級自動駕駛中,激光雷達和攝像頭從安全性考慮具備相同的重要性和不可替代性,他們缺一不可。
智駕最前沿以為,今后的智駕路線可能是繼續發展端到端大模型和視覺算法優化,同時保留毫米波雷達或激光雷達等輔助傳感,以兼顧精度與魯棒性。如特斯拉最新發布的FSDV12.5.1版本據稱已引入端到端神經網絡架構,大幅重構了底層代碼,試圖進一步提升純視覺系統的決策表現。此外,傳統自動駕駛公司和供應鏈正在加大對低成本固態雷達、激光雷達和高精地圖的投入,為車載感知增加多樣化的安全冗余。
總之,純視覺自動駕駛在成本與市場落地潛力上具有優勢,但它對感知系統的算法能力和數據支撐提出了極高要求。現實案例表明,依靠攝像頭的方案仍存在可靠性隱患,需要謹慎評估和補強。未來的發展可能會更加平衡,既利用人工智能與視覺算法的進步,也利用多傳感器融合來保證復雜環境下的安全性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.