智能汽車行業如此內卷智能駕駛,最后的終點在哪里?
從去年下半年開始,蔚來、小鵬、理想和比亞迪等車企們向智能駕駛領域快速地奔跑起來,紛紛提出以BEV+Transformer或OCC占用網絡為關鍵技術的無圖城市NOA方案。
再到今年,由于受到特斯拉的啟發,整個智能駕駛行業又紛紛奔向端到端技術上,就目前來看幾乎所有主流車企、L2+智駕方案供應商們都已經提出了各自的端到端技術架構,以至于讓“是否應用端到端技術”成為目前考量智駕方案是否掉隊的一大指標。
以技術趨勢角度來看,行業內對于智能座艙的發展有著一定的共識——最終要實現真正的自然和主動交互,讓整個智能汽車與駕乘用戶的交互上更加人性、自然和聰明。
但對于智能駕駛的發展上,按照飛說智行的觀察,截至目前還沒有這樣明確的共識。
飛說智行曾在《從BEV感知到端到端模型,智駕行業“追熱詞”為搶技術終局優勢?》這篇文章中引用的《端到端自動駕駛行業研究報告》為例,智駕行業對于“端到端技術是否是智駕終局”的判斷上,都呈現出三種不同的陣營。
正因如此,智能駕駛行業中有越來越多人問出了開頭的那個問題。雖然從技術層面來看,這一問題目前沒有確定的答案,但并不意味該問題就沒有答案。
因為從本質上看,L2+的智能輔助駕駛,最后為其買單和使用的人群,都是廣大的消費者。因此,在飛說智行看來,智能駕駛就是一個強體驗的產品。以此為角度,智能駕駛的發展趨勢自然就浮現出來了——讓消費者真正愛用智能駕駛功能。
值得注意的是,要做到“愛用”這一目標,并不是一蹴而就的,而是需要先邁過“能用”和“好用”兩個階段。目前主流的智能車企們都已邁過能用的1.0時代,正無限接近好用的2.0時代。那么,愛用的3.0時代,何時能實現?
就在最近的成都車展上,飛說智行受理想汽車邀請,在媒體圓桌交流會上聽到了這個問題的答案。
按照理想汽車智能駕駛研發副總裁郎咸朋的表態,他們預計最早今年底、最晚明年上半年就會讓用戶們愛用理想的智駕產品。要實現這一目標,則是需要基于會在同期落地的“有監督的自動駕駛”功能。
不可否認,在目前整個智能駕駛行業中,理想汽車是為數不多在公開場合下提出要落地交付自動駕駛功能時間表的車企。
理想汽車會這樣敢于人先,主要得益于他們在智能駕駛領域獲得的諸多正向反饋。
根據飛說智行獲悉,理想汽車在今年7月底開始,向1000名內測用戶推送了基于端到端模型、VLM視覺語言模型和世界模型的全新自動駕駛技術架構,開始了“千人團內測”。
經過不到一個月的內測,千人團用戶總城市NOA行駛里程達到21.1萬公里,單日城市NOA駕駛最長里程391公里,最為關鍵的MPI(平均接管里程)上,從第一個版本的12.2公里,提升至目前的21.8公里,換句話說,用戶開啟智駕功能后,車輛自主駕駛的距離越來越長。
除了城市無圖NOA之外,理想在智駕主動安全方面也有功能的迭代。今年7月中旬,理想汽車正式推送全自動緊急轉向AES。這一功能簡單說,就是當車輛AEB(自動緊急制動系統)全力制動也無法避免碰撞的物理極限場景下,AES功能可以無需人工接管自主執行車輛的避讓,避免碰撞事故的發生。
但這一功能此前也存在一個Bug,就是當車輛執行一次AES避讓后,如果臨近車道也有車輛的話,那么碰撞也無法避免?;蛟S理想也意識到了這一風險,因此在此次成都車展上也宣布他們正在研發連續兩次避讓的AES能力。
圖源飛說智行攝
未來,AES能力也會涵蓋更高的極限性能和更多的場景能力,例如跨越車道避讓、連續繞行避讓等能力,以及應對極限近距離加塞、極限行人鬼探頭等危險場景。
要實現有監督的自動駕駛,自然少不了算法層面的迭代,而這背后也需要基于算力和數據的支持。在這兩方面,理想汽車也在積極為此做著準備。
首先在算力上,按照郎咸朋的介紹,理想汽車當前訓練算力達到5.39 EFLOPS,預計到今年底將超過8 EFLOPS,理想汽車每年在訓練算力的投入超過10億元。
再則是數據上,基于理想汽車快速增長的銷量規模,目前積累的訓練里程已超過22億公里,預計到今年底將超過30億公里。
圖源理想汽車
數據多并不代表就能訓出好的算法和模型,而是需要高質量的數據“養料”。
對此,理想汽車采取了“兩條腿”走路的方案。一方面,對于車輛跑出來的的數據,用“問診臺”和“錯題集”等創新性的AI模型來做分類和針對性的訓練;另一方面,通過生成式數據,來實現閉環的仿真訓練,來提升模型對于世界的認識和理解能力
基于以上分析,在飛說智行看來,此前在智能化領域“慢幾步”的理想汽車,能用很快的時間完成追趕、并在目前站在智駕行業第一梯隊中,屬實正常。但對于理想來說,隨著特斯拉FSD入華、以及整個智駕行業更加內卷,未來也會有一定的挑戰。
以下為飛說智行與理想汽車智能駕駛研發副總裁郎咸朋和理想汽車智能駕駛高級算法專家詹錕的深度對話,略有刪減和修改:
1、在端到端技術上的思考和探索
飛說智行:現階段理想智駕研發架構中分為算法研發和量產研發,分別對應著不同的小組,小組對應的是端到端不同模塊。隨著未來算法的迭代和成本的優化,未來的組織架構是否會進行調整?朝哪些方向來做調整?這個過程中有遇到哪些難題?
郎咸朋:在整體戰略規劃和業務戰略里,我們對于業務組織有清晰的布局。組織根據業務變化,業務的目標和迭代來進行戰略調整,這就是我們的BLM流程(業務領導力模型),我們原來叫LSA流程(理想汽車戰略分析法)。
我們的組織變化要追溯到去年或者更早。我們把智能駕駛作為公司戰略之后,業務和組織才開始發生迭代和變化。在去年秋季的雁棲湖戰略會,我們首次明確提出PD和RD都非常重要,但是其實在那之前PD、RD已經有了,只是在戰略會上,進一步明確了將智能駕駛和RD都作為公司級戰略展開,所以業務發生了變化。接下來組織會不會發生變化,要看跟業務是否有關聯。
飛說智行:目前所有的車企能夠量產車型都是L2級輔助駕駛,理想汽車端到端+VLM怎么保證智駕的安全?
郎咸朋:從流程上來講,內部主要研發流程分為產品交付研發流程以及智能AI的研發流程,兩個流程相互配合。
端到端+VLM這套技術系統在一個月的測試過程中,雖然開啟城市NOA功能始終是通過撥兩次方向盤桿,實現從A點到B點的智能駕駛,但是模型迭代的能力卻在不斷提升。
在模型迭代的時候,整個功能跟原來完全一樣,所以這個功能之前做的測試仍然有效。對于這個能力的表現,我們用生成和重建的方式做模型的泛化測試和檢驗,比實車在全中國駕駛測試好得多。這是我們在 AI 時代到來之后,對于產品研發的深度思考,從而帶來的研發變化。
安全的另外一層含義就是:怎么能在產品交付之前,做更多更有效的測試。如果用實車做測試,一方面是成本,另一方面是是測試效果可能達不到交付有監督自動駕駛的程度,特別是當模型迭代比較迅速的時候。
我們現在用Diffusion transformer技術,再加上3DGS技術,能夠把曾經遇到過錯題以及遇到過的場景,舉一反三地形成模擬題,實現不斷地測試模型能力,不斷地優化各個城市表現。
我們在每一個維度上都有非常嚴格的打分,比如安全、法律法規等維度。如果不安全、不合規,模型就不能交付給用戶?,F在在千人團內測階段,還沒有到量產階段,所以在安全、合規方面的要求會更加嚴格,確保我們的產品是一個安全可靠的產品。
詹錕:我從技術角度來說,我們有安全兜底模塊,甚至有些東西我們會保證它有絕對的下限。以前寫了很多規則應對不同的場景,但是現在只需要寫下限的規則,上限全靠端的端 、VLM去捕捉,甚至有些防御性駕駛,VLM都可以提前告訴系統,比如丁字路口、坑洼小路等,這些都在一定程度上提升了系統安全性。
無論是數據還是算法,都是在把安全性往上提升。并不是大家說的那樣,用端到端了安全就差了,這是針對設計不完善的一種想法。另外,AEB/AES其實是在最極端的情況下,最兜底的一種保證絕對安全的方式。這就是用算法、冗余一起來解決安全問題。
飛說智行:現在從生成到輸出,對于傳感器包括數據需要有一些質量監測,這個過程中如果出現惡意攻擊,甚至說出現各種故障,這種情況理想汽車怎么解決這數據安全的問題?
詹錕:面對數據被污染或者傳感器遭受惡意攻擊,以及對神經網絡進行對抗性破壞,我們已經將這種情況涵蓋到整個網絡訓練過程中。
模型訓練并不是針對單一的傳感器,比如一個傳感器損壞,我們能夠通過BEV解決。即使在雨天某個傳感器臟污的很厲害,我們依然能穩健駕駛,同時能給用戶對應提醒,會告訴你找個安全的地方停車,不會讓系統直接失效。
因為有Radar、Lidar等多個傳感器,各個傳感器在不同環境下能冗余互補,單一的攻擊很難起效,這就是為什么很難有單一的攻擊策略能讓智駕系統失效,因為在技術上做了很多防護。
飛說智行:智能駕駛的技術升級是否能帶來銷量提升?
郎咸朋:銷售有幾個非常重要的漏斗。第一個是品牌,只有用戶認可品牌后才會比較智駕、電池、續航等。如果說一開始品牌就不在老百姓的選擇范圍內,那可能做什么都跟銷量沒有關系。
飛說智行:目前,理想AD Max由兩顆Orin X來支撐現在測試的能力開發,端到端方案對車端算力的要求是什么樣的?是更高還是更低?那么未來隨著端到端上車會不會變得更加強大?這究竟是個什么樣的關系?能不能解讀一下?
詹錕:各家在使用算法的時候,都會跟自己的硬件做匹配,無論是用地平線方案,還是Orin方案。雙Orin X可以完美適配我們的雙系統方案,如果要給出一個固定的上限,不是很好直接預測或配置。但是我們可以知道,隨著算力增加,整個能力是一個非常線性的增加,包括特斯拉也證明了12.5版本比12.3提升了五倍,這也完美符合這種大模型的Scaling Law。
對我們來說,到Thor階段我們肯定會有一個更大規模數據量訓練的端到端大模型,效果會進一步提升。我們可以看到它的趨勢,我們會基于芯片對它進行相關算法的定制化調整;同時模型規模越來越大,最后產出的端到端效果會越來越好。
另外,其實也可以看到特斯拉現在正在宣傳2026年要做一個AI的芯片,大概有3000到4000 TOPS的水平,這個階段是他在做Robotaxi的一個想法。我們也在持續關注高算力的車端芯片的性能。
郎咸朋:我補充一點,Thor芯片上車后,因為它的算力比現在Orin X又大了很多,那么我們會在Thor上更多地發展我們系統化VLM的模型能力。端到端模型我們認為是比較吃算力的,但是它使用算力的上限比VLM少很多,而且它有一定的上限,要1,000萬clips,訓練這樣一個模型所需要的參數量非常大。
所以在向L4發展過程中,整個系統需要讓它具備更好地應對未知場景的能力,而未知場景能力的提升,需要提升的是系統2,就是VLM的模型能力,所以我們現在22億的產出量,將來可能再去擴大。
飛說智行:目前在理想的算法模型訓練中,使用仿真訓練和車輛跑出來數據的比例分別是多少?
詹錕:我們的評分體系是非常嚴格,不是所有的車主數據都會拿過來訓練,我們會有非常嚴格的分數,分數會卡在3%-5%的水平,隨著后面數據采集的越多,對質量的要求并不會降低,這是我們訓練的體系。
22億的數據里面只有高質量的數據有價值的數據會拿出來用。仿真我們會把無論是自動駕駛還是人開的不好的場景我們會拿進來用,這個比例隨著用戶使用程度越來越高,我們會越來越收緊。
相當于大的仿真考試題庫一樣,我們會持續驗證是不是每個版本都可以了,是一個積累的過程,并不是說我單獨選擇一個值。目前我們有一千萬公里的仿真測試集,這是實車測試不可能在短期內實現的。
郎咸朋:我們每個模型的發版至少進行了一千萬公里的測試,不僅節省做路試的時間,效果也有顯著的提升。而且錯題集一定是有代表性的場景,比如有安全類問題、效率類問題等。今天我們在發布會上重點講了系統1和系統2模型,后面我們會給大家介紹更多訓練模型相關的信息。
現在我們做到了每兩到三天迭代一次模型,這其中最關鍵的技術就是AI評價體系,也就是測試系統。測試系統需要很多人、很多車進行路試,消耗大量的人力和物力。但是我們覺得這依然不夠,第一模型迭代速度過慢,第二場景收到限制,我們不可能將同樣的場景開過兩次,也不可能在夏天去模擬冬天的場景,所以我們做了AI評價體系,上千萬公里的錯題集對應的是上百萬個case。
在錯題集之外我們還有模擬題,將以前的錯題在不同的場景下生成用來評測是否依然能夠開的比較好,而且要達到我們80分的及格線。此外我們在云端有非常強大的模型,收集到有問題的用戶數據之后,模型能夠幫助我們進行分類并且直接放入錯題庫,這樣的效率是非常高的。如果我們想要去訓練模型、迭代模型,這樣非常厲害的評價系統是必須的,就像考試要有人批卷子,有人告訴你哪里對哪里錯。
現在路試的數據還沒有用完,是22億公里。我們到了100億公里量級時候,可能路試的數據就不那么多了,那個時候我們在下一階段會用很多的仿真數據。而且大家也可以看到生成模擬器的生成場景不仔細看的話是無法辨別是真實的還是模擬的。
我們做出“有監督的自動駕駛”以后,這套模型迭代會比現在快很多,能夠直接生成訓練數據,這樣我們在訓練下一階段的L4自動駕駛的時候,我們肯定會用到仿真數據。
2、智能駕駛行業的未來在哪里?
飛說智行:現在行業中有個共識,智能駕駛會分為能用,好用和愛用三個階段,目前理想汽車的智駕做到了哪個階段,大概需要多長時間可以做到“愛用”階段,哪一年可以達到這個目標?
郎咸朋:能用、好用和愛用這其實是由用戶決定的。我們的千人團車主以及購買AD Max的車主比例顯著提升,我認為這就已經進入到了“能用”階段。我認為端到端內測推送之后就是一個“好用”的狀態。我自己上下班的智能駕駛比例達到95%以上,好用和愛用是培養大眾對于智能駕駛理念認同的過程。
我們現在的千人團、萬人團包括一些發燒友車主,他們依然處于早期大眾的階段。當步入晚期大眾,也就是50%的消費者在沒有智能駕駛的時候會不習慣甚至不會開了,等進入到這個階段就是真正的“愛用”階段,或者說是必須要用。
理想汽車的研發迭代速度是非???,我們最早今年年底,最晚明年上半年就會將這套“有監督的自動駕駛”量產交付,那個時候一定會讓大家非常愛用這個產品。
飛說智行:全行業都在探索自動駕駛,沒有一個共識方案,所以理想端到端+VLM進入市場的同時,還會不會有其他探索?關于智能駕駛的短期目標,或者最終目標是怎么樣?
詹錕:第一個事實是,大家都在研發階段、嘗試階段,我們之所以敢把目前的版本推送給用戶,是因為我們覺得可以類比CNN深度學習網絡時期,當時因為一個競賽,CNN的性能優化了10%左右,性能和體驗得到了大幅提升。
第二個事實是,在這個過程當中,不同數據、不同的模型結構、不同的訓練方法,對模型的迭代都有幫助。這其實是各家都在做的一個關鍵,解決數據和訓練算力的基礎問題之后,我相信我們,包括特斯拉都能成功“煉丹”。但是煉丹第一步就是得有原材料,當原材料得到解決,煉丹的比例調整好,這個丹的作用才大。
類似于以前煉火藥,按照一硝二磺三木炭的比例來,火藥的威力就大,如果1:1:1做出來的就是“呲花”,這就是各家在迭代過程當中的一些技術訣竅。
我們和用戶共同成長,所以我們也需要知道每一套模型實際的表現如何,我們內部有自己的測試,如果表現不好就會內部消化,這種模型就不讓去用戶使用,但是每當模型有迭代、有提升的時候,我們都會拿給用戶去進行測試、驗證,這是我們研發過程當中的一些迭代。
關于下一代方案,不知道大家有沒有看上周智元的發布會,智元展示了G1到G5的具身智能過程。其實我們內部也有自動駕駛整個研發過程的階段,我認為在現階段,無論是對于理想汽車來說,還是對于特斯拉來說,其實都是在向雙系統方向發展。
所以端到端肯定是一個非常好的階段,我們認為已經達到了L3。我們想進一步向L4發展,其實就是需要端到端+VLM雙系統,我們認為這是面向L4的一個終局方案。
那再往后,L4不是終局的話,我們還有L5,像智元發布的G5一樣,我們肯定還會有一體化的、超大規模的統一模型,像GPT-4o模型。未來,肯定要把兩個模型合在一起,實現手腦完全結合的大模型方案,這是我們之后要嘗試,要探索的東西。
飛說智行:智駕行業的未來商業前景是怎么樣的?
郎咸朋:我認為對于智能車,智能駕駛和自動駕駛是不可分割的一部分。如果收費,就會涉及到不繳費的智能車體驗會不好。我們的智能駕駛功能是免費的,當技術和能力到了一定程度之后會催生出一些新的商業場景和模式。
大家現在會有很多的暢想,如果實現自動駕駛會有各種各樣的場景、產品,現在端到端+VLM是一個分水嶺,之前無論是有圖還是無圖,都是用非人工智能的方式來做智駕,我們做詳細產品的需求、規劃、拆解以及驗證,而對于端到端,與其說我來測試它不如說我來體驗它,體驗一下它今天學到了什么樣的能力。
所以大家要用不同的思路和眼光來審視接下來人工智能時代的自動駕駛,它一定會超越所有人的預期,我們提到一個月內迭代12代,會有些人覺得我們測試不充分,但是兩個月,三個月,甚至一年之后就不會再這樣想了,因為自動駕駛會大規模落地。
飛說智行:理想是怎么看待車企做Robotaxi呢?
郎咸朋:我認為Robotaxi是一個產品或商業的形式,并不是技術。在技術發展到一定程度之后,它可能會催生很多的商業形態,比如Robotaxi,Robobus等。第二,消費者的需求是不是已經到了大家更愿意用Robotaxi的階段,或者用自己車來做Robotaxi。
當然還有一些相關的國家法規,國家法規激勵新能源車,才能讓我們走到現在,所以者和國家法規對這些產品形態的支持。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.