重要的話先說:
李想在AI Talk中表示將用三年時間實現智能駕駛L4。條件是理想團隊內部人才、資金、技術到位,外部政策環境到位,消費者對于人工智能的信任到位。
信任是最難解決的一環。無法充分信任他人是人的本性,更別說信任機器了。拉升智能駕駛普及率的前提是解決信任危機。這是行業共識,因此初級智能駕駛功能普及后就有相應增強信任的功能出現。
1.0時代車企推出ADS可視化。它通常在儀表屏上顯示本車與外界車輛、環境的相對信息。該功能在規則算法時代是有用的。前車停,我即停;前車慢,我即變道……算法鎖死了車輛識別到的信息即對應做出的動作。用戶知道,只要車能看見外邊的世界,它的行為可能不是最高效的,但一定不會犯規。
現在的情況是智駕正在拋棄規則算法,智駕進入城市面臨復雜的交通狀況,與眾多道路參與者博弈。累死工程師也不可能窮盡所有預設場景,corner case(難例數據)必然存在。實現城市NOA(根據導航路線的領航輔助駕駛),車要像人一樣思考。對智駕更高維度的考驗是不只要平安到達目的地,還要高效。系統要像老司機一樣選擇最優車道,而不是鎖死在規則定義中的快車道。
于是端到端成為2024年最熱的關鍵詞,它代表著規則算法向AI人工智能算法的進化。特斯拉FSD V12系統改用端到端模型后,算法從此前的三十萬行驟降到三千行。理想AD Max V13.0是端到端+VLM智能駕駛的最新版本號,具備「全球首家」車位到車位智駕、「全國任意」高速收費站ETC自主通行等重磅功能。它的水平相當于特斯拉北美FSD最新版本V13.2水平。
端到端的出現讓1.0時代的人機信任崩盤。因為車不再只有眼睛,它們擁有了大腦開始思維,用戶需要看到車的思維才能給予信任。理想AD Max V13.0同時也具備AI推理可視化功能,其在1月16日隨OTA7.0版本正式推出,由此開啟人機信任的2.0時代。
AI推理可視化界面分為三個板塊:
端到端模型。在多車博弈過程中,它提供10條規劃路線并自行給出合理性判斷。
注意力系統。實時視頻流當中,對智駕決策影響大的道路參與者以暖色(偏紅)標注,對決策影響較小的則用冷色(偏藍)標注。
VLM視覺語言模型。當識別到有對智能駕駛決策有影響的環境路況和交通規則變化時,VLM 能夠及時感知信息,并用對話框信息的形式告訴駕駛者車輛的推理決策。
在這些功能點背后理想團隊是怎么思考的?
| 直給信息,不炫技
理想團隊在定義注意力系統和視覺語言模型的交互界面時,博弈的點在于直給用戶臨場的視頻流信息,還是將視頻流做高大上的渲染再呈現給用戶。
為什么選前者?
2023年底,理想曾向用戶短暫地開放了智駕系統的工程界面。這個界面展現的不是精致渲染后的ADS可視化界面,而是攝像頭、激光雷達等傳感器識別到的信息在系統中拼合完是什么樣。系統看到的世界相當簡單,用一些線和框就能描述復雜的外部世界。
界面下線后,大量用戶呼吁工程師再把它更新回來。這種熱情不難理解。系統視角代表著真實,渲染出來的界面反而代表虛假。真實的信息給人更強的安全感。
另外,中國有一波偏專業的用戶群體,塑造這群人的是十年前的小米和蘋果。小米刷機、蘋果越獄,這兩件事培養了大量動手能力強的人自己上手做系統。彼時百度貼吧里有大量刷機教程。一夜間,過街天橋上小商販們全都把“手機貼膜”的招牌換成了“刷機、越獄”。中國智能汽車的興起承接了這波用戶的興趣。他們喜歡研究系統,探索系統看世界的獵奇視角。
用戶洞察之外,理想團隊希望用戶的關注點更在技術本身,所以要直給、直給、直給……
| 克制信息量,不打擾
AI推理可視化功能本身是一種交互設計,設計透傳理想的審美。通常高級的審美都需要克制。
什么是克制?
小孩喜歡吃糖,它能直接刺激大腦分泌多巴胺。成年人會克制自己吃糖的欲望,因為他們會看到糖有害的一面而放棄。高級消費者更知道什么東西真正適合自己,替代品可能是茶、咖啡、紅酒……
人們在裝修房子時開始放棄看似華麗的吊燈。它會大幅侵占屋子的縱向空間,使觀感壓抑,而且照明效果并不好。越來越多人選擇無主燈設計,把燈藏起來,通過漫反射照明全屋。比起花里胡哨,明亮、通透是真正讓人生活舒適的風格。
理想、蔚來的內飾氛圍與無主燈的起居室異曲同工。內飾設計給用戶提供的價值是舒適。對立面是當代奔馳S級(參數丨圖片)、寶馬7系,它們內飾氛圍更像KTV,提供完全相反的用戶價值。
AI推理可視化向用戶傳遞信息以建立信任。過度的信息會打擾用戶,與理想創造家和舒適感的品牌理念背道而馳。
視覺語言模型交互窗口容易信息飽和,它傳遞圖片+文字兩種信息。讀圖是容易的,讀文字需要較長時間且分散注意力。所以視覺語言模型的不是全時段提供信息,否則會打擾用戶。它的作用是當用戶處在緊張環境中時,給予反饋,安撫情緒。
Corner case是無法被窮盡的,但讓人產生不安感的環境可以。比如夜晚無燈小路、丁字路口、公交車道(無限行時間)、公交車道(有限行時間)、學校路段減速、上下高架時導航糾偏、主輔路切換時導航糾偏、隧道內外、坑洼路面/土路、施工場景、變道、轉彎、急減速、紅綠燈剎停/起步、路面靜態障礙物、駛入匝道、旁邊存在大車。視覺語言模型的交互只會出現在這類場景中。
最后
蔚來十周年之際,李斌的內部信如同戰斗檄文。這是汽車行業從排位賽進入淘汰賽的轉折點。上汽總裁的內部講話、吉利的《臺州宣言》,這些預示著未來行業競爭會加倍激烈。車企想應對更高維度的競爭唯有加碼技術。理想轉型AI公司是一種方式,在汽車的框架外為汽車產品賦能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.