網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

汽車智駕，有三個致命缺陷！

2025-07-11 16:24:11　來源: 東拉西車

河北舉報

分享至

對于汽車智駕，從廠商到某些車主和吃瓜群眾，都表現(xiàn)出一種莫名其妙的興奮和樂觀，對其中的致命風(fēng)險卻避而不談或視而不見。老話說“生死事大”，然而，某些人在智駕這事兒上偏偏“生死看淡”。

▲智駕成汽車廠商競爭的新熱點(diǎn)

智駕頻頻出事。然而，你也知道現(xiàn)在廠商的手段很厲害，“壞消息”很快會被處理掉，只剩下那些網(wǎng)紅們的驚嘆贊美：“哇，真是絲滑”、“堪比老司機(jī)”、“全程零接管”。

關(guān)于所謂智駕，工信部前不久特意要求廠商“杜絕拿用戶做測試”。意思很明白，智駕并不成熟，有些廠商把車主當(dāng)小白鼠用，而有些車主輕信了廠商的鼓吹，也欣然甘當(dāng)實(shí)驗品。

前兩篇說了智駕的“眼睛”（感知硬件）：攝像頭、毫米波雷達(dá)和激光雷達(dá)，各有各的優(yōu)勢，又都有缺陷。這次接著說智駕的“大腦”，智駕看上去越來越聰明，在很多情況下表現(xiàn)也算正常，但實(shí)際上，智駕的“大腦”是缺幾根弦的。

智駕的算法架構(gòu)現(xiàn)在有三個大缺陷無法克服，而這三大缺陷的病根是AI（人工智能）技術(shù)的先天不足，換句話說，胎里帶的病，除不了根兒。

智駕“大腦”的這些缺陷會讓汽車偶爾撒癔癥，如同精神失常一樣出現(xiàn)怪異表現(xiàn)，對于高速奔跑的鋼鐵機(jī)械來說，后果可能是致命的。

▍幻覺、黑盒與長尾

據(jù)《法制日報》5月份的一個報道：上海車主張先生駕駛某新能源汽車途經(jīng)積水路段時，車載系統(tǒng)突然警示“行人橫穿馬路”并緊急剎停，但實(shí)際路面空無一人。車企事后承認(rèn)，這是視覺算法受雨水干擾引發(fā)的誤判。

另據(jù)《中國汽車報》報道，今年3月3日，美國亞利桑那州，一輛特斯拉Model Y（參數(shù)丨圖片）在十字路口將一名橫穿馬路的行人誤判為“靜止障礙物”，導(dǎo)致行人當(dāng)場喪生。

這就是智駕的第一大缺陷：“幻覺”。

智駕的“幻覺”五花八門，比較多見的是“幽靈剎車”，很多品牌車型都曝出毫無征兆亂剎車的問題。此外，還有把廣告牌當(dāng)紅燈的、有把交通錐桶當(dāng)行人的、有好端端地就突然撲向路中間綠化帶的、有突然和車主爭搶方向盤的、有突然急加速一往無前的……

▲“幽靈剎車”是智駕系統(tǒng)的多發(fā)病（據(jù)《江南都市報》）

人類搞不清楚智駕系統(tǒng)為什么會出現(xiàn)“幻覺”，不明白它到底“看到了什么”，當(dāng)時是“咋想的”，為什么會有令人費(fèi)解的怪異動作。

這就涉及智駕第二個特別棘手的問題：黑盒。

智駕的“大腦”是AI，AI的核心是人工神經(jīng)網(wǎng)絡(luò)，而目前流行的神經(jīng)網(wǎng)絡(luò)架構(gòu)，都是“黑盒”。黑盒這個叫法很直白，意思是這些模型都是“暗箱操作”，不管輸出的結(jié)果是對是錯，人類只能被動接受。

近期影響最大的一起智駕車禍，是小米SU7夜間撞上高速公路施工路段的隔離樁，三個年輕人失去生命。這起車禍的起因，除傳感器問題外，很可能和智駕模型對某些場景的訓(xùn)練數(shù)據(jù)不足有關(guān)。

通俗點(diǎn)說，就是智駕系統(tǒng)碰到不熟悉的場景時，有可能不知所措，或者亂做主張。

在小米SU7這起車禍中，夜間+施工+路障封閉自車道+改道至逆向車道……這些因素組合起來，就是讓智駕發(fā)懵的罕見場景。現(xiàn)實(shí)世界如此復(fù)雜，智駕系統(tǒng)注定要面對沒完沒了的不熟悉場景，這就是智駕面臨的第三個大障礙：“長尾問題”。

▍Transformer讓“端到端”爆紅

2023年8月，馬斯克在一場直播中演示了特斯拉的“端到端”自動駕駛能力（FSD Beta V12），驚艷一時。

▲2023年8月，特斯拉首次公開展示“端到端”自動駕駛能力（圖據(jù)《每日經(jīng)濟(jì)新聞》）

隨后，行業(yè)群起仿效，“端到端”陡然風(fēng)靡，成自動駕駛主流技術(shù)路線。

特斯拉的“端到端”，一端是攝像頭，另一端是方向盤和油門剎車。攝像頭感知到的數(shù)據(jù)，通過一個深度神經(jīng)網(wǎng)絡(luò)的處理，直接轉(zhuǎn)化成控制汽車行動的指令。

▲“端到端”控制簡潔高效

在此之前，自動駕駛的算法是模塊化架構(gòu)，感知、預(yù)測、決策、執(zhí)行幾個模塊各司其職。

模塊化架構(gòu)主要是“規(guī)則驅(qū)動”，工程師要編寫幾十萬行代碼，告訴汽車在什么情況下應(yīng)該什么辦。

而端到端架構(gòu)是“數(shù)據(jù)驅(qū)動”，能從人類的駕駛行為數(shù)據(jù)中找到規(guī)律，自己“學(xué)習(xí)”怎么開車。

端到端自動駕駛的根基，是2017年問世的一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer。

Transformer的首次爆紅，是用在一款叫ChatGPT的聊天機(jī)器人上，它貌似能解答萬物，而且反應(yīng)極快、巧舌如簧。隨后，一批語言、視頻生成的模型雨后春筍一般冒出，Transformer模型還能寫代碼、分析數(shù)據(jù)、炒股、看CT片、分析蛋白質(zhì)結(jié)構(gòu)……看上去多才多藝，前途無量。

▲2021年底公開亮相的ChatGPT展示了Transformer在語言方面的驚人能力

神經(jīng)網(wǎng)絡(luò)，一聽就是在模擬人腦，它是AI最重要、最主流的方向。神經(jīng)網(wǎng)絡(luò)是受人類大腦構(gòu)造和運(yùn)行方式的啟發(fā)，設(shè)計出的一種數(shù)學(xué)模型，比如CNN（卷積神經(jīng)網(wǎng)絡(luò)）是從大腦處理視覺的機(jī)制中獲得靈感，RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）則模仿了大腦語言和記憶處理機(jī)制。

在Transformer之前，CNN和RNN是最重要的兩種神經(jīng)網(wǎng)絡(luò)，也是汽車自動駕駛最依賴的兩種模型，Transformer一出，它們就黯然失色了。

Transformer自然不是幾句話能說清，簡單來說，它最大的本事就是能統(tǒng)攬全局，不像CNN主要擅長處理圖像、RNN專注于處理序列，而Transformer則是多面手，同時能干很多活兒還有條不紊。

自動駕駛能做到“端到端”，就是因為有了Transformer，你把攝像頭、毫米波雷達(dá)、激光雷達(dá)感知到的數(shù)據(jù)一古腦喂給它，它就能指揮車子行動自如。

▲端到端模型比模塊化模型更直接高效（圖據(jù)小米官網(wǎng)）

▍神經(jīng)網(wǎng)絡(luò)的先天缺陷

人腦何其復(fù)雜，何其神秘，人類對自己大腦的運(yùn)作機(jī)制不過是略知皮毛。通過神經(jīng)科學(xué)的研究，人們知道了大腦的基本單位是神經(jīng)元，近1000億個神經(jīng)元通過突觸連接成龐大的網(wǎng)絡(luò)，彼此之間用電脈沖和化學(xué)信號來傳遞信息。

▲神經(jīng)元之間靠突觸連接成龐大的網(wǎng)絡(luò)

神經(jīng)元構(gòu)成不同的網(wǎng)絡(luò)，可以應(yīng)對視覺、聽覺、運(yùn)動和抽象思考等各種任務(wù)。人工神經(jīng)網(wǎng)絡(luò)，是模仿大腦神經(jīng)元工作機(jī)制的數(shù)學(xué)模型，但囿于對大腦的粗淺了解和數(shù)學(xué)模型本身的局限，這些模型的能力仍有諸多缺憾。

人工神經(jīng)網(wǎng)絡(luò)已經(jīng)可以像人一樣“學(xué)習(xí)”，基于Transformer的端到端自動駕駛模型，能從人類的駕駛方式中找到“經(jīng)驗”。比如，人類開車遇到前邊有個人就減速停車，模型學(xué)習(xí)了若干個這樣的例子，就知道“遇見人要停”。

這就是所謂“數(shù)據(jù)驅(qū)動”，喂給它的數(shù)據(jù)越多、數(shù)據(jù)質(zhì)量越高，它學(xué)到的本事越大。這也就是大佬們掛在嘴邊的“越開越好開”。

▲智駕模型需要訓(xùn)練以適應(yīng)各種場景

但問題也跟著來了，對于沒學(xué)習(xí)過的場景，它會不知所措。

自動駕駛面臨一個特別棘手的麻煩，那就是如何應(yīng)對“長尾問題”。如上所說，所謂長尾問題，就是現(xiàn)實(shí)世界中沒完沒了的罕見場景。

人開車，也會遇到“長尾問題”。比如你開車跟著一輛貨車跑，貨車上突然掉下來個一個箱子，這種事兒很少見，就是個“長尾問題”。碰上這種狀況，人想都不用想就知道剎車避讓，但“智駕”如果在數(shù)據(jù)訓(xùn)練時沒見過這場面，可能就沒頭沒腦地撞上去了。

人類對世界是有常識和理解的，也懂得事物之間的因果。神經(jīng)網(wǎng)絡(luò)只是一種數(shù)學(xué)模型，聽上去很是高深，實(shí)際上在很多方面跟白癡無異。

究其本質(zhì)，神經(jīng)網(wǎng)絡(luò)的“學(xué)習(xí)”是在數(shù)據(jù)中找到統(tǒng)計意義上的相關(guān)性，從而總結(jié)出模式。它學(xué)習(xí)到車見了人不能撞，卻不懂為什么不能撞；它見了紅燈也知道停車，但不理解為什么這個地方要有個紅燈。

說穿了，這些數(shù)學(xué)模型對物理世界的常識一無知，也理解不了什么是因果關(guān)系。車上掉下個箱子，人雖然貌似不假思索，但根據(jù)常識就知道這東西最好別撞，也明白撞上去會有什么后果，但面對此情此景，模型的“大腦”可能一片空白。

長尾問題對于智駕是個特別大的麻煩，神經(jīng)網(wǎng)絡(luò)無法基于常識去推演，面對陌生場景的隨機(jī)應(yīng)變能力極差。

靠“數(shù)據(jù)驅(qū)動”的神經(jīng)網(wǎng)絡(luò)還有個毛病，就是不懂裝懂，后果就是出現(xiàn)“幻覺”。

為什么會不懂裝懂？因為它只能模仿而不能真正思考，而且它真的對這個世界毫無常識，用古話說，就是知其然而不知其所以然。

特斯拉的智駕曾經(jīng)把天上的月亮識別成黃燈，很自覺地減速慢行。這讓人覺得啼笑皆非，但在神經(jīng)網(wǎng)絡(luò)眼里，“圓的+發(fā)亮的+黃色的+懸空的”，這么一個東西，它就應(yīng)該是個黃燈。

▲特斯拉智駕系統(tǒng)曾把月亮誤作黃燈

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型，還有一個很不好的毛病，就是辦事不透明，是不可解釋的“黑盒”。

神經(jīng)網(wǎng)絡(luò)的內(nèi)部計算過程極其復(fù)雜，且難以用人類可理解的方式解釋，因此我們往往只能看到輸入和輸出，而無法清晰地理解中間“發(fā)生了什么”。

▲現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型是難以解釋的黑盒

“規(guī)則驅(qū)動”的模型，出了問題能順藤摸瓜找到病根；“端到端模型”出了問題，人類只能干瞪眼，根本搞不懂錯在哪里。

智駕有時候會突然發(fā)神經(jīng)。比如，有報道說，某品牌電動汽車開啟智駕在高速公路上跑，以120公里的時速超過右側(cè)一輛大貨車后，突然急剎，差點(diǎn)導(dǎo)致后方車追尾。

碰上這種情況，人們無法知道智駕系統(tǒng)為什么會緊急制動，就算因此出了車禍，也無法搞清楚原因，更無法區(qū)分是誰的責(zé)任。

▍下一代神經(jīng)網(wǎng)絡(luò)靠譜嗎？

幻覺、長尾和黑盒，神經(jīng)網(wǎng)絡(luò)目前有這三大難題懸而未決。

你和ChatGPT或豆包聊天，它們偶爾會一本正經(jīng)地胡謅。聽到幾句荒唐的話可以付之一笑，但智駕讓高速行駛的汽車突然發(fā)狂，人還笑得出來嗎？

神經(jīng)網(wǎng)絡(luò)引發(fā)的智駕神經(jīng)病，還要靠改進(jìn)神經(jīng)網(wǎng)絡(luò)來治。

長尾問題實(shí)際上是無窮無盡的，雨雪霧等天氣情況+路面上的車禍現(xiàn)場、掉落物、塌陷、施工、動物出現(xiàn)等等+強(qiáng)行變道、強(qiáng)超強(qiáng)會、不規(guī)范使用燈光、行人和電動車鬼探頭等等……在現(xiàn)實(shí)世界中，這些意外狀況的隨機(jī)組合有無數(shù)種，不論給智駕大模型喂多少數(shù)據(jù)，總會有學(xué)不到的corner case（又稱難例或邊緣狀況）。

光靠車子在路上收集現(xiàn)實(shí)中數(shù)據(jù)，corner case猴年馬月也學(xué)不完。于是就有廠商干脆開發(fā)所謂“世界模型”，用仿真的手段模擬出各種狀況，讓大模型在虛擬世界中訓(xùn)練。

▲仿真模型可以“讓AI教AI”（圖為華為“世界引擎”）

好處是可以生成現(xiàn)實(shí)中很少出現(xiàn)的corner case，加快訓(xùn)練速度，但虛擬的究竟是虛擬的，訓(xùn)練好的模型放到真實(shí)環(huán)境中不一定好使。再說，就算虛擬能力再強(qiáng)，總會有虛擬不到的場景。

至于幻覺和黑盒問題，現(xiàn)有的這些神經(jīng)網(wǎng)絡(luò)肯定是沒指望解決了，業(yè)界都把希望寄托在下一代神經(jīng)網(wǎng)絡(luò)技術(shù)上。

目前有廠商在嘗試VLA，也就是“視覺語言行動模型”，大概意思就是讓語言模型去解釋視覺和行動模型。比如現(xiàn)在的智駕中，汽車減速剎車不會給出說法，用上VLA后，模型會解釋一下：前方有行人，所以制動減速。

這貌似能改善黑盒問題，但實(shí)際上作用可能很有限。因為語言只能給出表面化的解釋，模型的黑盒本質(zhì)無法改變。

理想汽車正在VLA上使勁，李想說，VLA走的是一個技術(shù)上的無人區(qū)，結(jié)果無法預(yù)測。

目前業(yè)內(nèi)認(rèn)為比較靠譜的下一代神經(jīng)網(wǎng)絡(luò)，是“神經(jīng)+符號”，用神經(jīng)網(wǎng)絡(luò)把感知到的東西轉(zhuǎn)化成可以解釋的符號，再由符號人工智能（基于規(guī)則和邏輯）去進(jìn)行推理和規(guī)劃。

神經(jīng)符號系統(tǒng)的內(nèi)部運(yùn)作是有跡可循的，有望解決大模型的黑盒問題。但實(shí)現(xiàn)“神經(jīng)+符號”的有機(jī)結(jié)合不是說說那么簡單，這種思路目前還處于原型驗證的實(shí)驗階段，至于什么時候能用到自動駕駛上，不好說。

實(shí)話實(shí)說，現(xiàn)在的智駕離真正的自動駕駛貌似只有一步之遙，但這一步能不能邁過去、什么時候能邁過去，誰也不好說；而且，就算做為駕駛輔助，智駕的問題也有很多，遠(yuǎn)遠(yuǎn)做不到某大佬說的“想撞車都難”。

廣汽埃安的一位高管最近說過良心話，他說熱愛智駕的都是熱血青年，不能讓他們?nèi)ギ?dāng)小白鼠，“不然的話，不管是做人還是做企業(yè)，我認(rèn)為都是不講良心的”。

言下之意是：珍愛生命，慎用智駕。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.