當前,輔助駕駛已實現“全國都能開”的基礎覆蓋,但用戶從“能用”到“愛用”的鴻溝依然顯著。核心痛點在于“安心感不足”——系統決策缺乏解釋性、盲區預判能力薄弱、人機交互過于機械化等問題,導致用戶對智駕系統缺乏信任。
而理想與元戎啟行同期押注VLA(視覺-語言-動作)模型,正是針對這一痛點,通過技術升維破解智駕體驗的“最后一公里”。
VLA模型的本質是通過運用語言模型,增強系統的推理能力,讓系統對社會常識有更全面的認知,從而解決更多的長尾場景。
當下智駕面臨的挑戰和質疑,主要歸類為以下幾類問題:
首先是模型存在不可解釋性。
用戶并不知道系統為何會無故加速、減速,甚至退出。信息的不透明導致用戶對智駕系統喪失安全感和信任,不敢用輔助駕駛系統。
其次是防御型駕駛能力不足。
防御型駕駛能力的高低是新老司機的最大區別。
最典型的就是高架橋的橋墩盲區。匝道匯入主路時,一側的橋墩會遮住司機大半個視野,新手司機可能察覺不到,但老司機會提前減速觀察,避免突然出現車輛。
交管部門數據顯示,在眾多交通傷亡事故中,因內輪差和盲區引發的事故占比達到 70% 以上。現在多數智駕遇到鬼探頭只能做到急剎避讓,但防御型駕駛是要能提前結合場景,預知鬼探頭風險提前減速。
最后是人機交互過于機械化。
目前大多數車輛進入輔助駕駛狀態后,用戶選擇僅限于接管和不接管,沒有專屬用戶的定制化駕駛風格,與個性化的語音交互,這也是系統決策容易偏離用戶預期的原因質疑,智駕行業都沒有徹底解決用戶“安心感”的問題。
在此背景下,以理想、元戎為代表的玩家堅定押注VLA技術路線,運用語言模型的能力來解決以上這些問題。
首先,元戎和理想的VLA模型將語音交互控車進行了全面升級——用戶能在車輛在輔助駕駛中,語音控制車輛的動作、車速、車道選擇等,甚至還釋放了豪車識別功能。若遇上豪車,智駕則會更加謹慎,展示了VLA系統對場景深刻精準的理解能力。
語音控車指令
此外元戎啟行還釋放了空間語義理解、異形障礙物識別、文字類引導牌理解三大功能。
空間語義理解,即 VLA 可以解決盲區場景設計的問題。相當于為系統裝上透視眼,預判行車中的交通盲區。
例如,在通過無紅綠燈的路口時,VLA模型能提前識別到“注意橫穿,減速慢行”的指示牌,即使公交車通行造成動態盲區,VLA也會結合公交車的動作去做出準確的決策。當公交車進行減速時,它會通過推理前方可能有行人穿行,并做出“立即減速、注意風險、謹慎通行”的決策。
公交車動態盲區遮擋
異形障礙物識別屬于智駕的算法長尾問題,過去經常被歸類為 1% 的極端路況。但依靠 VLA 模型,即便識別到“變形”的超載小貨車,也能結合實際路況,執行減速繞行或靠邊駕駛。
異形障礙物識別
此外,VLA 也可以加強系統對文字類引導牌的理解能力。元戎啟行的 VLA 模型能識別并理解各種圖形、文字類路牌信息,按照路牌引導內容行駛。
特殊路標識別
面對左轉待行區、可變車道、潮汐車道等 “動態規則路段”,VLA模型能夠讀懂字符與圖標的含義,高效匹配實時路況。在多車道復雜路口選道直行的場景中,能夠準確識別車輛前方的文字及圖案標識牌,從左轉右轉混雜的路口準確找到左轉車道,并執行操作。
元戎啟行正在通過VLA模型,打造能防御型駕駛的 AI 司機。
據悉,元戎的 VLA 模型將會在第三季度量產上車 5 款車型。接下來,智駕是否具備更長遠的思維、推測能力,VLA 能否大規模量產上車,也將是下半年智駕玩家們能否進入 VLA 第一梯隊的關鍵。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.