輔助駕駛里面到底用純視覺,還是激光雷達(dá),是個(gè)既陳舊又新鮮的話題。2022年特斯拉成為堅(jiān)定的視覺派,大多數(shù)國(guó)內(nèi)車企站在他的對(duì)面。到了2024年,有些已經(jīng)推出多款搭載激光雷達(dá)產(chǎn)品的品牌,開始轉(zhuǎn)而推純視覺產(chǎn)品。今年3月之后,好像這個(gè)“燒餅”又翻過來了,激光雷達(dá)派又開始占優(yōu)。
看似折騰,實(shí)則和掌握的技術(shù)階段(算力和算法、傳感器的技術(shù)水平)有關(guān)系。因此可以預(yù)見,這個(gè)話題還將持續(xù)下去,直到?jīng)]有明顯的技術(shù)瓶頸。
機(jī)器學(xué)習(xí)的四階段
先要澄清一下,不存在“純視覺 PK激光雷達(dá)”這個(gè)對(duì)決關(guān)系。沒有哪一輛車只裝了激光雷達(dá)不裝攝像頭。激光雷達(dá)定位就是打輔助的角色。所以合適的對(duì)壘雙方,應(yīng)該是純視覺VS視覺+激光雷達(dá)。
乍一看,后者的傳感器組合多了一個(gè)“幫手”,就像二郎神有三只眼一樣,多少會(huì)對(duì)眼神有幫助吧。不過問題比“乍一看”要麻煩得多。
最初像Waymo嘗試做L4、L5一步到位的企業(yè),測(cè)試車上都頂著“花盆”——昂貴的機(jī)械旋掃雷達(dá),價(jià)格當(dāng)時(shí)高達(dá)10萬(wàn)美元,比街上跑的絕大多數(shù)車都貴。當(dāng)時(shí)不僅是攝像頭能力不行的問題,而在于當(dāng)時(shí)的算法認(rèn)知,還停留在“專家學(xué)習(xí)系統(tǒng)”層面,就是將知識(shí)和規(guī)則,用算法的方式定好,交給機(jī)器去執(zhí)行。
后來往前走了一步,簡(jiǎn)稱為“特征工程”。就是將特征提取出來,交給機(jī)器去學(xué)習(xí)。這和人開車的思路,開始有點(diǎn)像了,因?yàn)槿祟愄焐鷮?duì)變化特別敏感。比如顏色、形狀、大小、位置變了,對(duì)注意力影響大。注意力機(jī)制也是構(gòu)建AI架構(gòu)的靈感來源。人傾向于將車窗外的場(chǎng)景變化,簡(jiǎn)化為“可駕駛”、“不可駕駛”兩種狀態(tài),再疊加常識(shí)(運(yùn)動(dòng)推斷)和交通規(guī)則,決定駕駛行為。
到了第三階段,即“機(jī)器學(xué)習(xí)”,可以直接將原始數(shù)據(jù)和少數(shù)標(biāo)簽交給機(jī)器,讓機(jī)器自己學(xué)習(xí)特征。這一階段,AI取得了驚人的發(fā)展。機(jī)器在圖像(語(yǔ)音)識(shí)別、分類能力上開始超過人類。
這個(gè)時(shí)候,特斯拉發(fā)明了一個(gè)算法,叫“Occupancy NetWork”(占用網(wǎng)絡(luò))。簡(jiǎn)單說,就是將運(yùn)動(dòng)路徑上三維空間虛擬切割無(wú)數(shù)立體小方塊,如果檢測(cè)到某個(gè)小方塊被占用,還分為移動(dòng)和非移動(dòng),那么就可以規(guī)避。不會(huì)出現(xiàn)以前那種、只有識(shí)別出是啥東西才能響應(yīng)的弊端。以前特斯拉有過無(wú)視翻倒的貨車、突然出現(xiàn)的牛等“非結(jié)構(gòu)性”障礙等負(fù)面案例。
這一技術(shù)是特斯拉走純視覺路線的最大底氣。不過馬斯克說,既然人能用兩只眼開車,純視覺就沒什么問題。
這屬于偷換概念。原因在于,機(jī)器尚未達(dá)到第四階段,即機(jī)器可以像人一樣感知和理解世界;像人一樣在幾乎所有環(huán)境當(dāng)中進(jìn)行學(xué)習(xí)和適應(yīng),即實(shí)現(xiàn)“通用人工智能”。因此,純視覺至少現(xiàn)在還比人的能力低。
純視覺不如人眼,問題在于大腦
這種前提下,討論AEB(主動(dòng)剎車)的速度上限,其實(shí)沒有太大價(jià)值??梢岳斫鉃樯虡I(yè)話術(shù)。
純視覺劣于人的能力,已經(jīng)不再是“眼神”(也就是傳感器能力)問題。人的大腦,出生時(shí)自帶一個(gè)模型,準(zhǔn)確說只有一個(gè)模型框架,數(shù)據(jù)量非常少。比如出生3個(gè)月的嬰兒,視覺已經(jīng)沒大問題(能感知5米外的物體,但缺乏細(xì)節(jié)),從未見過蛇。當(dāng)其見到蛇的視頻之后,表現(xiàn)出明顯不安——瞳孔收縮、肢體語(yǔ)言僵硬、哭鬧等。這就是模型殘留的少量參數(shù)。大量參數(shù)都是后天習(xí)得,而且在此過程中(0-3歲),人類裁剪了大量不活躍的腦神經(jīng)連接——代價(jià)是人喪失了這段時(shí)間的長(zhǎng)期記憶。
相對(duì)人的能力,智能機(jī)器很難預(yù)測(cè)行為的所有潛在后果。其行為經(jīng)常出現(xiàn)“不可解釋”的現(xiàn)象,因?yàn)樗狈θ祟惖慕?jīng)驗(yàn)。任何形式化的方法,不可能為所有對(duì)象和行為建立模型。比如,如何與其他智能體互動(dòng)、合作,并預(yù)料到會(huì)導(dǎo)致什么。機(jī)器智能仍有重大缺陷。這不是訓(xùn)練量可以解決的。
端到端的中間結(jié)果,往往不可解釋。對(duì)這類不可控的可能性,我們都是直接上硬規(guī)則來做兜底約束。比如,告訴機(jī)器,不管如何動(dòng)作,絕對(duì)不能闖紅燈。但是救護(hù)車、消防車就可以在確認(rèn)安全前提下闖紅燈。為了避免規(guī)則的復(fù)雜化,應(yīng)用場(chǎng)景必然受限。
所以,盡管攝像頭對(duì)于強(qiáng)光、照度快速變化、低照度、視線受阻(雨雪霧風(fēng))的應(yīng)對(duì)能力提高了很多,但大問題在腦子里(算力和算法),因此也別指望當(dāng)前階段純視覺能夠替代人。
激光雷達(dá)是個(gè)好輔助嗎?
這個(gè)時(shí)候,外掛(激光雷達(dá))再度有了用武之地。預(yù)測(cè)能力不行沒關(guān)系,真實(shí)世界是三維的,純視覺的本質(zhì)是三維世界的投影(二維圖像)。缺少的信息維度(深度),激光雷達(dá)直接測(cè)得。而且,視覺是被動(dòng)接受光信號(hào),光線的影響不可控。其實(shí)人眼也有這個(gè)問題,同樣一輛車,夜晚和白天看起來可能完全不同。激光雷達(dá)是主動(dòng)照射,不受可見光影響。
視覺感知的是顏色和亮度,激光雷達(dá)感知的是輪廓。對(duì)同一輛車,外形輪廓往往更穩(wěn)定,而顏色和亮度,在不同光線下是不穩(wěn)定的。理論上,激光雷達(dá)測(cè)得的數(shù)據(jù)更可信。
但是,激光雷達(dá)的成本雖然壓下來了(仍然比攝像頭貴15倍),但激光雷達(dá)的缺陷也與其主動(dòng)工作方式有關(guān)。距離遠(yuǎn)了,激光的發(fā)散角擴(kuò)大,能量密度降低很快(和距離的平方成反比衰減)。
目前的技術(shù)水平,光照好的時(shí)候,對(duì)200米以外的物體,192線激光雷達(dá)可以獲得的信息,其實(shí)不如800萬(wàn)像素的攝像頭。這樣的條件下,純視覺算法可以輕易識(shí)別出類型,但視覺+激光雷達(dá),花費(fèi)大量算力處理點(diǎn)云-圖像融合數(shù)據(jù),結(jié)果辨識(shí)能力反而不如純視覺。
一線的技術(shù)高管告訴我們,和刻板印象相反,激光雷達(dá)對(duì)天氣非常敏感。如果不是特別大的雪,不會(huì)過于遮擋視線(人類大腦和視覺算法都會(huì)自動(dòng)濾除),但這些半透明的小玩意,會(huì)在激光雷達(dá)幾米處形成一團(tuán)噪點(diǎn),很難穿透雪花這種本該無(wú)視的障礙物。
真正能無(wú)視各種極端天氣的,其實(shí)是毫米波雷達(dá)(波長(zhǎng):毫米波>攝像頭>激光雷達(dá)),因?yàn)椴ㄩL(zhǎng)越長(zhǎng),繞射性越好。但也因?yàn)檫@一點(diǎn),毫米波雷達(dá)的精度相當(dāng)感人,無(wú)法精確測(cè)距。
實(shí)際應(yīng)用中,激光雷達(dá)會(huì)掃射到很多物體,產(chǎn)生很多回波(多徑效應(yīng)),信號(hào)混疊在一起,給辨識(shí)帶來困難。激光雷達(dá)處理的幀率,遠(yuǎn)不及攝像頭。低幀率看遠(yuǎn)距離的高速物體,誤差比攝像頭大。這其實(shí)是算力的鍋。激光雷達(dá)的信息密度大,無(wú)用信息多,吃算力也多。
也因?yàn)檫@些缺陷,激光雷達(dá)不能單獨(dú)挑大梁,只用來補(bǔ)盲。這樣一來,問題就變成激光雷達(dá)只作為特殊條件下輔助,值不值得。所謂特殊條件,低照度、簡(jiǎn)單路況、高速行駛,即攝像頭看不了太遠(yuǎn),但又需要系統(tǒng)提供較長(zhǎng)“接管窗口”的時(shí)候,激光雷達(dá)是不錯(cuò)的補(bǔ)盲手段。
碰到這樣的場(chǎng)景, 純視覺輔助的駕駛者,想確保安全,有兩種選擇:一種是使用輔助駕駛,速度放慢(低照度時(shí)必須降至100公里時(shí)速以下),給可能的接管留出5~10秒的時(shí)間;另一種選擇是人工開,不進(jìn)入輔助駕駛。
激光雷達(dá)能解決類似的困境。綜合成本貴上1~2萬(wàn)。何去何從,可以自己選擇了。無(wú)論如何,理智的駕駛者會(huì)避免自身處于危險(xiǎn)邊緣。激光雷達(dá)的確能在某些場(chǎng)景帶來更大的自由度。
當(dāng)然,如果天氣過于極端,如果多數(shù)人不敢出行的天氣(比如超級(jí)大風(fēng)、大雪大雨等),建議靠邊等待,而非仰仗輔助駕駛,行人所不能之事。
如此看來,將兩種不同適應(yīng)寬度、不同成本的方案放在一起互掐,即便形成了結(jié)論,也要加繁瑣的限定條件。而且,隨著技術(shù)的發(fā)展,結(jié)論可能改變。
比如算力變得廉價(jià),根本不在乎激光雷達(dá)吃掉一部分,或者濾波算法可以解決各種融合問題,能處理的極端場(chǎng)景也會(huì)增加。未來也可能出現(xiàn)其他傳感器,低成本下實(shí)現(xiàn)更寬泛的視覺+3D測(cè)量,但至少目前我們還看不到。
注:圖片部分來源網(wǎng)絡(luò),如有侵權(quán),聯(lián)系刪除。
風(fēng)阻爭(zhēng)端,關(guān)于工程問題更為復(fù)雜
L3,今年真能商業(yè)化嗎關(guān)稅大戰(zhàn),裂解了全球汽車價(jià)值鏈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.