對于汽車智駕,從廠商到某些車主和吃瓜群眾,都表現出一種莫名其妙的興奮和樂觀,對其中的致命風險卻避而不談或視而不見。老話說“生死事大”,然而,某些人在智駕這事兒上偏偏“生死看淡”。
▲智駕成汽車廠商競爭的新熱點
智駕頻頻出事。然而,你也知道現在廠商的手段很厲害,“壞消息”很快會被處理掉,只剩下那些網紅們的驚嘆贊美:“哇,真是絲滑”、“堪比老司機”、“全程零接管”。
關于所謂智駕,工信部前不久特意要求廠商“杜絕拿用戶做測試”。意思很明白,智駕并不成熟,有些廠商把車主當小白鼠用,而有些車主輕信了廠商的鼓吹,也欣然甘當實驗品。
前兩篇說了智駕的“眼睛”(感知硬件):攝像頭、毫米波雷達和激光雷達,各有各的優勢,又都有缺陷。這次接著說智駕的“大腦”,智駕看上去越來越聰明,在很多情況下表現也算正常,但實際上,智駕的“大腦”是缺幾根弦的。
智駕的算法架構現在有三個大缺陷無法克服,而這三大缺陷的病根是AI(人工智能)技術的先天不足,換句話說,胎里帶的病,除不了根兒。
智駕“大腦”的這些缺陷會讓汽車偶爾撒癔癥,如同精神失常一樣出現怪異表現,對于高速奔跑的鋼鐵機械來說,后果可能是致命的。
▍幻覺、黑盒與長尾
據《法制日報》5月份的一個報道:上海車主張先生駕駛某新能源汽車途經積水路段時,車載系統突然警示“行人橫穿馬路”并緊急剎停,但實際路面空無一人。車企事后承認,這是視覺算法受雨水干擾引發的誤判。
另據《中國汽車報》報道,今年3月3日,美國亞利桑那州,一輛特斯拉Model Y(參數丨圖片)在十字路口將一名橫穿馬路的行人誤判為“靜止障礙物”,導致行人當場喪生。
這就是智駕的第一大缺陷:“幻覺”。
智駕的“幻覺”五花八門,比較多見的是“幽靈剎車”,很多品牌車型都曝出毫無征兆亂剎車的問題。此外,還有把廣告牌當紅燈的、有把交通錐桶當行人的、有好端端地就突然撲向路中間綠化帶的、有突然和車主爭搶方向盤的、有突然急加速一往無前的……
▲“幽靈剎車”是智駕系統的多發病(據《江南都市報》)
人類搞不清楚智駕系統為什么會出現“幻覺”,不明白它到底“看到了什么”,當時是“咋想的”,為什么會有令人費解的怪異動作。
這就涉及智駕第二個特別棘手的問題:黑盒。
智駕的“大腦”是AI,AI的核心是人工神經網絡,而目前流行的神經網絡架構,都是“黑盒”。黑盒這個叫法很直白,意思是這些模型都是“暗箱操作”,不管輸出的結果是對是錯,人類只能被動接受。
近期影響最大的一起智駕車禍,是小米SU7夜間撞上高速公路施工路段的隔離樁,三個年輕人失去生命。這起車禍的起因,除傳感器問題外,很可能和智駕模型對某些場景的訓練數據不足有關。
通俗點說,就是智駕系統碰到不熟悉的場景時,有可能不知所措,或者亂做主張。
在小米SU7這起車禍中,夜間+施工+路障封閉自車道+改道至逆向車道……這些因素組合起來,就是讓智駕發懵的罕見場景?,F實世界如此復雜,智駕系統注定要面對沒完沒了的不熟悉場景,這就是智駕面臨的第三個大障礙:“長尾問題”。
▍Transformer讓“端到端”爆紅
2023年8月,馬斯克在一場直播中演示了特斯拉的“端到端”自動駕駛能力(FSD Beta V12),驚艷一時。
▲2023年8月,特斯拉首次公開展示“端到端”自動駕駛能力(圖據《每日經濟新聞》)
隨后,行業群起仿效,“端到端”陡然風靡,成自動駕駛主流技術路線。
特斯拉的“端到端”,一端是攝像頭,另一端是方向盤和油門剎車。攝像頭感知到的數據,通過一個深度神經網絡的處理,直接轉化成控制汽車行動的指令。
▲“端到端”控制簡潔高效
在此之前,自動駕駛的算法是模塊化架構,感知、預測、決策、執行幾個模塊各司其職。
模塊化架構主要是“規則驅動”,工程師要編寫幾十萬行代碼,告訴汽車在什么情況下應該什么辦。
而端到端架構是“數據驅動”,能從人類的駕駛行為數據中找到規律,自己“學習”怎么開車。
端到端自動駕駛的根基,是2017年問世的一種新型神經網絡架構Transformer。
Transformer的首次爆紅,是用在一款叫ChatGPT的聊天機器人上,它貌似能解答萬物,而且反應極快、巧舌如簧。隨后,一批語言、視頻生成的模型雨后春筍一般冒出,Transformer模型還能寫代碼、分析數據、炒股、看CT片、分析蛋白質結構……看上去多才多藝,前途無量。
▲2021年底公開亮相的ChatGPT展示了Transformer在語言方面的驚人能力
神經網絡,一聽就是在模擬人腦,它是AI最重要、最主流的方向。神經網絡是受人類大腦構造和運行方式的啟發,設計出的一種數學模型,比如CNN(卷積神經網絡)是從大腦處理視覺的機制中獲得靈感,RNN(循環神經網絡)則模仿了大腦語言和記憶處理機制。
在Transformer之前,CNN和RNN是最重要的兩種神經網絡,也是汽車自動駕駛最依賴的兩種模型,Transformer一出,它們就黯然失色了。
Transformer自然不是幾句話能說清,簡單來說,它最大的本事就是能統攬全局,不像CNN主要擅長處理圖像、RNN專注于處理序列,而Transformer則是多面手,同時能干很多活兒還有條不紊。
自動駕駛能做到“端到端”,就是因為有了Transformer,你把攝像頭、毫米波雷達、激光雷達感知到的數據一古腦喂給它,它就能指揮車子行動自如。
▲端到端模型比模塊化模型更直接高效(圖據小米官網)
▍神經網絡的先天缺陷
人腦何其復雜,何其神秘,人類對自己大腦的運作機制不過是略知皮毛。通過神經科學的研究,人們知道了大腦的基本單位是神經元,近1000億個神經元通過突觸連接成龐大的網絡,彼此之間用電脈沖和化學信號來傳遞信息。
▲神經元之間靠突觸連接成龐大的網絡
神經元構成不同的網絡,可以應對視覺、聽覺、運動和抽象思考等各種任務。人工神經網絡,是模仿大腦神經元工作機制的數學模型,但囿于對大腦的粗淺了解和數學模型本身的局限,這些模型的能力仍有諸多缺憾。
人工神經網絡已經可以像人一樣“學習”,基于Transformer的端到端自動駕駛模型,能從人類的駕駛方式中找到“經驗”。比如,人類開車遇到前邊有個人就減速停車,模型學習了若干個這樣的例子,就知道“遇見人要?!?。
這就是所謂“數據驅動”,喂給它的數據越多、數據質量越高,它學到的本事越大。這也就是大佬們掛在嘴邊的“越開越好開”。
▲智駕模型需要訓練以適應各種場景
但問題也跟著來了,對于沒學習過的場景,它會不知所措。
自動駕駛面臨一個特別棘手的麻煩,那就是如何應對“長尾問題”。如上所說,所謂長尾問題,就是現實世界中沒完沒了的罕見場景。
人開車,也會遇到“長尾問題”。比如你開車跟著一輛貨車跑,貨車上突然掉下來個一個箱子,這種事兒很少見,就是個“長尾問題”。碰上這種狀況,人想都不用想就知道剎車避讓,但“智駕”如果在數據訓練時沒見過這場面,可能就沒頭沒腦地撞上去了。
人類對世界是有常識和理解的,也懂得事物之間的因果。神經網絡只是一種數學模型,聽上去很是高深,實際上在很多方面跟白癡無異。
究其本質,神經網絡的“學習”是在數據中找到統計意義上的相關性,從而總結出模式。它學習到車見了人不能撞,卻不懂為什么不能撞;它見了紅燈也知道停車,但不理解為什么這個地方要有個紅燈。
說穿了,這些數學模型對物理世界的常識一無知,也理解不了什么是因果關系。車上掉下個箱子,人雖然貌似不假思索,但根據常識就知道這東西最好別撞,也明白撞上去會有什么后果,但面對此情此景,模型的“大腦”可能一片空白。
長尾問題對于智駕是個特別大的麻煩,神經網絡無法基于常識去推演,面對陌生場景的隨機應變能力極差。
靠“數據驅動”的神經網絡還有個毛病,就是不懂裝懂,后果就是出現“幻覺”。
為什么會不懂裝懂?因為它只能模仿而不能真正思考,而且它真的對這個世界毫無常識,用古話說,就是知其然而不知其所以然。
特斯拉的智駕曾經把天上的月亮識別成黃燈,很自覺地減速慢行。這讓人覺得啼笑皆非,但在神經網絡眼里,“圓的+發亮的+黃色的+懸空的”,這么一個東西,它就應該是個黃燈。
▲特斯拉智駕系統曾把月亮誤作黃燈
現在的神經網絡模型,還有一個很不好的毛病,就是辦事不透明,是不可解釋的“黑盒”。
神經網絡的內部計算過程極其復雜,且難以用人類可理解的方式解釋,因此我們往往只能看到輸入和輸出,而無法清晰地理解中間“發生了什么”。
▲現有的神經網絡模型是難以解釋的黑盒
“規則驅動”的模型,出了問題能順藤摸瓜找到病根;“端到端模型”出了問題,人類只能干瞪眼,根本搞不懂錯在哪里。
智駕有時候會突然發神經。比如,有報道說,某品牌電動汽車開啟智駕在高速公路上跑,以120公里的時速超過右側一輛大貨車后,突然急剎,差點導致后方車追尾。
碰上這種情況,人們無法知道智駕系統為什么會緊急制動,就算因此出了車禍,也無法搞清楚原因,更無法區分是誰的責任。
▍下一代神經網絡靠譜嗎?
幻覺、長尾和黑盒,神經網絡目前有這三大難題懸而未決。
你和ChatGPT或豆包聊天,它們偶爾會一本正經地胡謅。聽到幾句荒唐的話可以付之一笑,但智駕讓高速行駛的汽車突然發狂,人還笑得出來嗎?
神經網絡引發的智駕神經病,還要靠改進神經網絡來治。
長尾問題實際上是無窮無盡的,雨雪霧等天氣情況+路面上的車禍現場、掉落物、塌陷、施工、動物出現等等+強行變道、強超強會、不規范使用燈光、行人和電動車鬼探頭等等……在現實世界中,這些意外狀況的隨機組合有無數種,不論給智駕大模型喂多少數據,總會有學不到的corner case(又稱難例或邊緣狀況)。
光靠車子在路上收集現實中數據,corner case猴年馬月也學不完。于是就有廠商干脆開發所謂“世界模型”,用仿真的手段模擬出各種狀況,讓大模型在虛擬世界中訓練。
▲仿真模型可以“讓AI教AI”(圖為華為“世界引擎”)
好處是可以生成現實中很少出現的corner case,加快訓練速度,但虛擬的究竟是虛擬的,訓練好的模型放到真實環境中不一定好使。再說,就算虛擬能力再強,總會有虛擬不到的場景。
至于幻覺和黑盒問題,現有的這些神經網絡肯定是沒指望解決了,業界都把希望寄托在下一代神經網絡技術上。
目前有廠商在嘗試VLA,也就是“視覺語言行動模型”,大概意思就是讓語言模型去解釋視覺和行動模型。比如現在的智駕中,汽車減速剎車不會給出說法,用上VLA后,模型會解釋一下:前方有行人,所以制動減速。
這貌似能改善黑盒問題,但實際上作用可能很有限。因為語言只能給出表面化的解釋,模型的黑盒本質無法改變。
理想汽車正在VLA上使勁,李想說,VLA走的是一個技術上的無人區,結果無法預測。
目前業內認為比較靠譜的下一代神經網絡,是“神經+符號”,用神經網絡把感知到的東西轉化成可以解釋的符號,再由符號人工智能(基于規則和邏輯)去進行推理和規劃。
神經符號系統的內部運作是有跡可循的,有望解決大模型的黑盒問題。但實現“神經+符號”的有機結合不是說說那么簡單,這種思路目前還處于原型驗證的實驗階段,至于什么時候能用到自動駕駛上,不好說。
實話實說,現在的智駕離真正的自動駕駛貌似只有一步之遙,但這一步能不能邁過去、什么時候能邁過去,誰也不好說;而且,就算做為駕駛輔助,智駕的問題也有很多,遠遠做不到某大佬說的“想撞車都難”。
廣汽埃安的一位高管最近說過良心話,他說熱愛智駕的都是熱血青年,不能讓他們去當小白鼠,“不然的話,不管是做人還是做企業,我認為都是不講良心的”。
言下之意是:珍愛生命,慎用智駕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.