對于汽車智駕,從廠商到某些車主和吃瓜群眾,都表現(xiàn)出一種莫名其妙的興奮和樂觀,對其中的致命風(fēng)險卻避而不談或視而不見。老話說“生死事大”,然而,某些人在智駕這事兒上偏偏“生死看淡”。
▲智駕成汽車廠商競爭的新熱點(diǎn)
智駕頻頻出事。然而,你也知道現(xiàn)在廠商的手段很厲害,“壞消息”很快會被處理掉,只剩下那些網(wǎng)紅們的驚嘆贊美:“哇,真是絲滑”、“堪比老司機(jī)”、“全程零接管”。
關(guān)于所謂智駕,工信部前不久特意要求廠商“杜絕拿用戶做測試”。意思很明白,智駕并不成熟,有些廠商把車主當(dāng)小白鼠用,而有些車主輕信了廠商的鼓吹,也欣然甘當(dāng)實(shí)驗品。
前兩篇說了智駕的“眼睛”(感知硬件):攝像頭、毫米波雷達(dá)和激光雷達(dá),各有各的優(yōu)勢,又都有缺陷。這次接著說智駕的“大腦”,智駕看上去越來越聰明,在很多情況下表現(xiàn)也算正常,但實(shí)際上,智駕的“大腦”是缺幾根弦的。
智駕的算法架構(gòu)現(xiàn)在有三個大缺陷無法克服,而這三大缺陷的病根是AI(人工智能)技術(shù)的先天不足,換句話說,胎里帶的病,除不了根兒。
智駕“大腦”的這些缺陷會讓汽車偶爾撒癔癥,如同精神失常一樣出現(xiàn)怪異表現(xiàn),對于高速奔跑的鋼鐵機(jī)械來說,后果可能是致命的。
▍幻覺、黑盒與長尾
據(jù)《法制日報》5月份的一個報道:上海車主張先生駕駛某新能源汽車途經(jīng)積水路段時,車載系統(tǒng)突然警示“行人橫穿馬路”并緊急剎停,但實(shí)際路面空無一人。車企事后承認(rèn),這是視覺算法受雨水干擾引發(fā)的誤判。
另據(jù)《中國汽車報》報道,今年3月3日,美國亞利桑那州,一輛特斯拉Model Y(參數(shù)丨圖片)在十字路口將一名橫穿馬路的行人誤判為“靜止障礙物”,導(dǎo)致行人當(dāng)場喪生。
這就是智駕的第一大缺陷:“幻覺”。
智駕的“幻覺”五花八門,比較多見的是“幽靈剎車”,很多品牌車型都曝出毫無征兆亂剎車的問題。此外,還有把廣告牌當(dāng)紅燈的、有把交通錐桶當(dāng)行人的、有好端端地就突然撲向路中間綠化帶的、有突然和車主爭搶方向盤的、有突然急加速一往無前的……
▲“幽靈剎車”是智駕系統(tǒng)的多發(fā)病(據(jù)《江南都市報》)
人類搞不清楚智駕系統(tǒng)為什么會出現(xiàn)“幻覺”,不明白它到底“看到了什么”,當(dāng)時是“咋想的”,為什么會有令人費(fèi)解的怪異動作。
這就涉及智駕第二個特別棘手的問題:黑盒。
智駕的“大腦”是AI,AI的核心是人工神經(jīng)網(wǎng)絡(luò),而目前流行的神經(jīng)網(wǎng)絡(luò)架構(gòu),都是“黑盒”。黑盒這個叫法很直白,意思是這些模型都是“暗箱操作”,不管輸出的結(jié)果是對是錯,人類只能被動接受。
近期影響最大的一起智駕車禍,是小米SU7夜間撞上高速公路施工路段的隔離樁,三個年輕人失去生命。這起車禍的起因,除傳感器問題外,很可能和智駕模型對某些場景的訓(xùn)練數(shù)據(jù)不足有關(guān)。
通俗點(diǎn)說,就是智駕系統(tǒng)碰到不熟悉的場景時,有可能不知所措,或者亂做主張。
在小米SU7這起車禍中,夜間+施工+路障封閉自車道+改道至逆向車道……這些因素組合起來,就是讓智駕發(fā)懵的罕見場景。現(xiàn)實(shí)世界如此復(fù)雜,智駕系統(tǒng)注定要面對沒完沒了的不熟悉場景,這就是智駕面臨的第三個大障礙:“長尾問題”。
▍Transformer讓“端到端”爆紅
2023年8月,馬斯克在一場直播中演示了特斯拉的“端到端”自動駕駛能力(FSD Beta V12),驚艷一時。
▲2023年8月,特斯拉首次公開展示“端到端”自動駕駛能力(圖據(jù)《每日經(jīng)濟(jì)新聞》)
隨后,行業(yè)群起仿效,“端到端”陡然風(fēng)靡,成自動駕駛主流技術(shù)路線。
特斯拉的“端到端”,一端是攝像頭,另一端是方向盤和油門剎車。攝像頭感知到的數(shù)據(jù),通過一個深度神經(jīng)網(wǎng)絡(luò)的處理,直接轉(zhuǎn)化成控制汽車行動的指令。
▲“端到端”控制簡潔高效
在此之前,自動駕駛的算法是模塊化架構(gòu),感知、預(yù)測、決策、執(zhí)行幾個模塊各司其職。
模塊化架構(gòu)主要是“規(guī)則驅(qū)動”,工程師要編寫幾十萬行代碼,告訴汽車在什么情況下應(yīng)該什么辦。
而端到端架構(gòu)是“數(shù)據(jù)驅(qū)動”,能從人類的駕駛行為數(shù)據(jù)中找到規(guī)律,自己“學(xué)習(xí)”怎么開車。
端到端自動駕駛的根基,是2017年問世的一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu)Transformer。
Transformer的首次爆紅,是用在一款叫ChatGPT的聊天機(jī)器人上,它貌似能解答萬物,而且反應(yīng)極快、巧舌如簧。隨后,一批語言、視頻生成的模型雨后春筍一般冒出,Transformer模型還能寫代碼、分析數(shù)據(jù)、炒股、看CT片、分析蛋白質(zhì)結(jié)構(gòu)……看上去多才多藝,前途無量。
▲2021年底公開亮相的ChatGPT展示了Transformer在語言方面的驚人能力
神經(jīng)網(wǎng)絡(luò),一聽就是在模擬人腦,它是AI最重要、最主流的方向。神經(jīng)網(wǎng)絡(luò)是受人類大腦構(gòu)造和運(yùn)行方式的啟發(fā),設(shè)計出的一種數(shù)學(xué)模型,比如CNN(卷積神經(jīng)網(wǎng)絡(luò))是從大腦處理視覺的機(jī)制中獲得靈感,RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))則模仿了大腦語言和記憶處理機(jī)制。
在Transformer之前,CNN和RNN是最重要的兩種神經(jīng)網(wǎng)絡(luò),也是汽車自動駕駛最依賴的兩種模型,Transformer一出,它們就黯然失色了。
Transformer自然不是幾句話能說清,簡單來說,它最大的本事就是能統(tǒng)攬全局,不像CNN主要擅長處理圖像、RNN專注于處理序列,而Transformer則是多面手,同時能干很多活兒還有條不紊。
自動駕駛能做到“端到端”,就是因為有了Transformer,你把攝像頭、毫米波雷達(dá)、激光雷達(dá)感知到的數(shù)據(jù)一古腦喂給它,它就能指揮車子行動自如。
▲端到端模型比模塊化模型更直接高效(圖據(jù)小米官網(wǎng))
▍神經(jīng)網(wǎng)絡(luò)的先天缺陷
人腦何其復(fù)雜,何其神秘,人類對自己大腦的運(yùn)作機(jī)制不過是略知皮毛。通過神經(jīng)科學(xué)的研究,人們知道了大腦的基本單位是神經(jīng)元,近1000億個神經(jīng)元通過突觸連接成龐大的網(wǎng)絡(luò),彼此之間用電脈沖和化學(xué)信號來傳遞信息。
▲神經(jīng)元之間靠突觸連接成龐大的網(wǎng)絡(luò)
神經(jīng)元構(gòu)成不同的網(wǎng)絡(luò),可以應(yīng)對視覺、聽覺、運(yùn)動和抽象思考等各種任務(wù)。人工神經(jīng)網(wǎng)絡(luò),是模仿大腦神經(jīng)元工作機(jī)制的數(shù)學(xué)模型,但囿于對大腦的粗淺了解和數(shù)學(xué)模型本身的局限,這些模型的能力仍有諸多缺憾。
人工神經(jīng)網(wǎng)絡(luò)已經(jīng)可以像人一樣“學(xué)習(xí)”,基于Transformer的端到端自動駕駛模型,能從人類的駕駛方式中找到“經(jīng)驗”。比如,人類開車遇到前邊有個人就減速停車,模型學(xué)習(xí)了若干個這樣的例子,就知道“遇見人要停”。
這就是所謂“數(shù)據(jù)驅(qū)動”,喂給它的數(shù)據(jù)越多、數(shù)據(jù)質(zhì)量越高,它學(xué)到的本事越大。這也就是大佬們掛在嘴邊的“越開越好開”。
▲智駕模型需要訓(xùn)練以適應(yīng)各種場景
但問題也跟著來了,對于沒學(xué)習(xí)過的場景,它會不知所措。
自動駕駛面臨一個特別棘手的麻煩,那就是如何應(yīng)對“長尾問題”。如上所說,所謂長尾問題,就是現(xiàn)實(shí)世界中沒完沒了的罕見場景。
人開車,也會遇到“長尾問題”。比如你開車跟著一輛貨車跑,貨車上突然掉下來個一個箱子,這種事兒很少見,就是個“長尾問題”。碰上這種狀況,人想都不用想就知道剎車避讓,但“智駕”如果在數(shù)據(jù)訓(xùn)練時沒見過這場面,可能就沒頭沒腦地撞上去了。
人類對世界是有常識和理解的,也懂得事物之間的因果。神經(jīng)網(wǎng)絡(luò)只是一種數(shù)學(xué)模型,聽上去很是高深,實(shí)際上在很多方面跟白癡無異。
究其本質(zhì),神經(jīng)網(wǎng)絡(luò)的“學(xué)習(xí)”是在數(shù)據(jù)中找到統(tǒng)計意義上的相關(guān)性,從而總結(jié)出模式。它學(xué)習(xí)到車見了人不能撞,卻不懂為什么不能撞;它見了紅燈也知道停車,但不理解為什么這個地方要有個紅燈。
說穿了,這些數(shù)學(xué)模型對物理世界的常識一無知,也理解不了什么是因果關(guān)系。車上掉下個箱子,人雖然貌似不假思索,但根據(jù)常識就知道這東西最好別撞,也明白撞上去會有什么后果,但面對此情此景,模型的“大腦”可能一片空白。
長尾問題對于智駕是個特別大的麻煩,神經(jīng)網(wǎng)絡(luò)無法基于常識去推演,面對陌生場景的隨機(jī)應(yīng)變能力極差。
靠“數(shù)據(jù)驅(qū)動”的神經(jīng)網(wǎng)絡(luò)還有個毛病,就是不懂裝懂,后果就是出現(xiàn)“幻覺”。
為什么會不懂裝懂?因為它只能模仿而不能真正思考,而且它真的對這個世界毫無常識,用古話說,就是知其然而不知其所以然。
特斯拉的智駕曾經(jīng)把天上的月亮識別成黃燈,很自覺地減速慢行。這讓人覺得啼笑皆非,但在神經(jīng)網(wǎng)絡(luò)眼里,“圓的+發(fā)亮的+黃色的+懸空的”,這么一個東西,它就應(yīng)該是個黃燈。
▲特斯拉智駕系統(tǒng)曾把月亮誤作黃燈
現(xiàn)在的神經(jīng)網(wǎng)絡(luò)模型,還有一個很不好的毛病,就是辦事不透明,是不可解釋的“黑盒”。
神經(jīng)網(wǎng)絡(luò)的內(nèi)部計算過程極其復(fù)雜,且難以用人類可理解的方式解釋,因此我們往往只能看到輸入和輸出,而無法清晰地理解中間“發(fā)生了什么”。
▲現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型是難以解釋的黑盒
“規(guī)則驅(qū)動”的模型,出了問題能順藤摸瓜找到病根;“端到端模型”出了問題,人類只能干瞪眼,根本搞不懂錯在哪里。
智駕有時候會突然發(fā)神經(jīng)。比如,有報道說,某品牌電動汽車開啟智駕在高速公路上跑,以120公里的時速超過右側(cè)一輛大貨車后,突然急剎,差點(diǎn)導(dǎo)致后方車追尾。
碰上這種情況,人們無法知道智駕系統(tǒng)為什么會緊急制動,就算因此出了車禍,也無法搞清楚原因,更無法區(qū)分是誰的責(zé)任。
▍下一代神經(jīng)網(wǎng)絡(luò)靠譜嗎?
幻覺、長尾和黑盒,神經(jīng)網(wǎng)絡(luò)目前有這三大難題懸而未決。
你和ChatGPT或豆包聊天,它們偶爾會一本正經(jīng)地胡謅。聽到幾句荒唐的話可以付之一笑,但智駕讓高速行駛的汽車突然發(fā)狂,人還笑得出來嗎?
神經(jīng)網(wǎng)絡(luò)引發(fā)的智駕神經(jīng)病,還要靠改進(jìn)神經(jīng)網(wǎng)絡(luò)來治。
長尾問題實(shí)際上是無窮無盡的,雨雪霧等天氣情況+路面上的車禍現(xiàn)場、掉落物、塌陷、施工、動物出現(xiàn)等等+強(qiáng)行變道、強(qiáng)超強(qiáng)會、不規(guī)范使用燈光、行人和電動車鬼探頭等等……在現(xiàn)實(shí)世界中,這些意外狀況的隨機(jī)組合有無數(shù)種,不論給智駕大模型喂多少數(shù)據(jù),總會有學(xué)不到的corner case(又稱難例或邊緣狀況)。
光靠車子在路上收集現(xiàn)實(shí)中數(shù)據(jù),corner case猴年馬月也學(xué)不完。于是就有廠商干脆開發(fā)所謂“世界模型”,用仿真的手段模擬出各種狀況,讓大模型在虛擬世界中訓(xùn)練。
▲仿真模型可以“讓AI教AI”(圖為華為“世界引擎”)
好處是可以生成現(xiàn)實(shí)中很少出現(xiàn)的corner case,加快訓(xùn)練速度,但虛擬的究竟是虛擬的,訓(xùn)練好的模型放到真實(shí)環(huán)境中不一定好使。再說,就算虛擬能力再強(qiáng),總會有虛擬不到的場景。
至于幻覺和黑盒問題,現(xiàn)有的這些神經(jīng)網(wǎng)絡(luò)肯定是沒指望解決了,業(yè)界都把希望寄托在下一代神經(jīng)網(wǎng)絡(luò)技術(shù)上。
目前有廠商在嘗試VLA,也就是“視覺語言行動模型”,大概意思就是讓語言模型去解釋視覺和行動模型。比如現(xiàn)在的智駕中,汽車減速剎車不會給出說法,用上VLA后,模型會解釋一下:前方有行人,所以制動減速。
這貌似能改善黑盒問題,但實(shí)際上作用可能很有限。因為語言只能給出表面化的解釋,模型的黑盒本質(zhì)無法改變。
理想汽車正在VLA上使勁,李想說,VLA走的是一個技術(shù)上的無人區(qū),結(jié)果無法預(yù)測。
目前業(yè)內(nèi)認(rèn)為比較靠譜的下一代神經(jīng)網(wǎng)絡(luò),是“神經(jīng)+符號”,用神經(jīng)網(wǎng)絡(luò)把感知到的東西轉(zhuǎn)化成可以解釋的符號,再由符號人工智能(基于規(guī)則和邏輯)去進(jìn)行推理和規(guī)劃。
神經(jīng)符號系統(tǒng)的內(nèi)部運(yùn)作是有跡可循的,有望解決大模型的黑盒問題。但實(shí)現(xiàn)“神經(jīng)+符號”的有機(jī)結(jié)合不是說說那么簡單,這種思路目前還處于原型驗證的實(shí)驗階段,至于什么時候能用到自動駕駛上,不好說。
實(shí)話實(shí)說,現(xiàn)在的智駕離真正的自動駕駛貌似只有一步之遙,但這一步能不能邁過去、什么時候能邁過去,誰也不好說;而且,就算做為駕駛輔助,智駕的問題也有很多,遠(yuǎn)遠(yuǎn)做不到某大佬說的“想撞車都難”。
廣汽埃安的一位高管最近說過良心話,他說熱愛智駕的都是熱血青年,不能讓他們?nèi)ギ?dāng)小白鼠,“不然的話,不管是做人還是做企業(yè),我認(rèn)為都是不講良心的”。
言下之意是:珍愛生命,慎用智駕。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.