特斯拉提出的端到端理念又一次在自動駕駛領域引起軒然大波。目前,國內蔚小理華,地絕元魔等企業已經在端到端上激戰數百回合。端到端也加速了行業的快速發展與出清。在行業端,余凱,曹旭東都認為憑借端到端技術,自動駕駛會在3-5年內迎來大爆發;在企業端,市場也在加速出清技術落后的企業,Momenta瘋狂拿單,元戎啟行獲得巨額融資都說明了這一點。
此時,我們需要對端到端有一些清醒的認知:端到端到底到哪一步了?誰才是目前該技術的執牛耳者?
從目前企業公布的情況來看,我們可以梳理出一些基本信息:
1、主機廠在端到端落地上整體落后于供應商;
2、主機廠在技術先進性上也落后于供應商;
3、端到端之外,企業應該有自己的know-how。
端到端落地,供應商更快一步
這一波的新技術浪潮中,拋開特斯拉的引導作用不談,國內供應商總體走在主機廠前面。
國內主機廠中,理想最早在公開場合提出端到端的概念,相較于主機廠在端到端上突然發現新大陸的驚訝,供應商們早已在端到端上暗流涌動。
2023年,地平線就作為第一作者提出了Unified Autonomous Driving(UniAD),首次為自動駕駛端到端通用網絡架構的設想給出了具體范式,并拿下了CVPR 2023 最佳論文。
如果按照宣發口徑來看,商湯絕影是國內第一個提端到端的智駕企業。2022 年底,商湯科技推出行業首個感知決策一體的自動駕駛通用模型 UniAD,2023 年,UniAD 獲 CVPR 最佳論文獎。
目前整個行業在端到端上基本是3個思路:一種是非常傳統的兩端式端到端,感知一個模型,規控預測一個模型,這是目前大部分企業在采取的方案;另一種是三網合一的模型,感知,規控是兩個模型,但彼此之間相互交叉,存在交集,再加一個安全兜底的網絡,典型代表是小鵬,華為,官方將其稱之為“三網合一”;第三種就是完全一段式,感知、規控、預測一個模型。官方的傳播口徑中,目前只有元戎啟行和Momenta和商湯絕影采用了這種架構。
盡管車企一直在強調全棧自研的可控性,但面對巨大的生存危機感,供應商比主機廠展現出更強的內生力,這也反映在端到端的落地上。元戎啟行其實在2023年中旬就通過端到端量產了城市領航高階智駕,并且邀請企業去測試。2024年,元戎也通過激進的技術路線獲得了長城汽車1億美元戰略投資。
曹旭東在接受媒體采訪時也表示,Momenta在2023年4月就已經落地了兩段式端到端,甚至再往前追溯,2019年就開始了規控端到端的研發,只不過當時并沒有兩段式端到端的概念,也就沒有對外提及,今年切換到了一段式。技術上的持續進化讓Momenta成為智駕供應商的接單狂魔,目前已經合作的車企包括上汽,廣汽,比亞迪,豐田,日產,奔馳等多家國內外車企。
此外,包括地平線,商湯絕影,博世等供應商也都明確表示會在2025年量產一段式端到端無圖NOA方案。其中,大部分會集中在明年上半年。
相較而言,主機廠在這方面比供應商要相對滯后。
小鵬選擇在520當天推送了兩段式端到端架構,算是搶了一個主機廠的首發宣傳口徑;10月,理想向所有用戶推送了“端到端+VLM”雙系統,按照7月份的發布會描述應該屬于分段式端到端;華為也在今年下半年推送了分段式端到端ADS3.0版本。
最新消息顯示,蔚來會在2025年4月份推送分段式端到端架構。《36氪汽車》報道,華為則是在今年7月調集了一票人馬研發One Model大模型,并且會在明年推出基于一段式端到端的ADS 4.0智駕系統。
這里還有一個有意思的小插曲,盡管采取多個模型,但小鵬汽車堅持認為自己采用的是一段式端到端結構。小鵬汽車智駕負責人李力耘認為,雖然采用3張網絡,但小鵬的系統屬于One Model端到端,“這(小鵬的智駕系統)不是一個分段式的架構,因為三張網絡是互相交疊、互相重合的,他們在網絡原生層面有很多共享的部分,是一個既有側重、可以分開預訓練,又可以聯合訓練的網絡。”
小鵬自動駕駛產品高級總監袁婷婷解釋,“分段式是先完成 A,A 的箭頭指向 B,B 的箭頭指向 C。我們現在做的三網合一模型有三個圓,它們其實是耦合在一起的,既有重合的部分,又有分開的部分,并不是各自做一張網。因此它不是分段式的邏輯。”
但也有技術人員認為,將一個完整的模型拆開,加入rule-based,從邏輯上就應該屬于分段式結構。
當然,車企代表中最具爭議的還是特斯拉目前的技術狀態。盡管一直到今天,特斯拉都沒有公布過其技術細節,但是不少人從現有的信息找到了一些蛛絲馬跡。特斯拉全球副總裁陶琳近日在微博透露,特斯拉目前的大模型已經實現了“光子進,決策出”的效果,考慮到分段式帶來的信息損失,不少人推測特斯拉其實已經實現了一段式端到端大模型,而且大型參數量非常大。
端到端一段式兩段式哪個更好
另一個引發爭議的點是端到端兩段式和一段式的優缺點,保守派和激進派各執一詞。保守派認為,端到端具有不可解釋性,存在上限高,下限也低的問題,必須采取一定的措施,比如加入大量的rule-based規則兜底。激進派認為,一段式端到端的結構更完整,信息損失更低。
端到端帶來的影響巨大,很多車企被迫基于端到端調整組織架構。傳統的規則算法到底還有沒有生存空間,在長達一年的時間里,雙方人員都在激烈“交火”。
李力耘認為,端到端中間的某些部分可能是不可解釋的。小鵬通過 “三網合一” 的架構可以通過調試,看問題具體是出在哪個方面。
但技術激進派商湯絕影認為,兩段式感知和決策兩個模型之間的信息傳遞仍然會有過濾和丟失,“兩段式”端到端方案降低了難度,同時也拉低了能力上限。
整個在處理端到端下限低的常規思路是通過rule-based給他兜底。但曹旭東認為,rule-based根本不能給端到端兜底,把規則比作小腦,端到端比作大腦,小腦很難給大腦兜底,兜不住。因為rule-based能夠考慮到的場景有限,而corner case的場景無窮無盡。所以Momenta的解題思路是一個模型走到底,然后通過數據訓練的方式去保證系統能力。
曹旭東介紹,Momenta雖然會有少量的規則算法,但并不是用來給端到端兜底。雖然目前或多或少都會有規則存在,但是在AI技術不斷演進的趨勢下,整個行業都在向著“去規則化”和一段式端到端的方向演進。
端到端之外,智駕公司還需要有更多know-how
端到端優勢明顯,但它并不是自動駕駛的終極答案,并不是說有了端到端就萬事大吉,甚至從大部分企業的反饋來看,端到端可能只是前提條件。
元戎啟行CEO周光介紹了其最新的自動駕駛VLA模型,一個將端到端和文本視覺語言模型合二為一的模型。周光表示,VLA才是目前最先進的自動駕駛架構。
有意思的是,這個說法得到了理想汽車的認可,雖然理想今年以來一直在大力鼓吹“端到端+VLM”,但他自己也承認,VLA架構確實更勝一籌,并且理想自己也在默默研發VLA架構。
Momenta獨創了長短記憶的邏輯,按照曹旭東解釋,短記憶可以理解成一個數據篩選器,海量的數據丟入里面,然后篩選出高質量,對系統有幫助的“黃金數據”輸入長記憶,長記憶就像是存儲器,把這些高質量數據存儲起來,供系統隨時調用。兩種記憶組成循環神經網絡,形成數據飛輪。這和理想的快慢思考完全是兩種邏輯。
小鵬汽車則強調了大模型的優勢,大概意思是在云端訓練更大的模型,然后蒸餾到車端。小鵬認為只有大模型才能解決自動駕駛的長尾問題,但很多自動駕駛公司沒有云端芯片和數據量資源,只能采用單個。
端到端能夠很好地處理常規場景,但是搞不定復雜罕見的駕駛場景,還需要一個視覺語言多模態大模型(Large Vision-Language Models,LVLM),與端到端模型互為補充,充當駕駛決策的“大腦”。
注意,這里其實包含了2個模型,跟理想的“端到端+VLM”有點像。但地平線的思路是通過Senna系統把這兩個模型連接起來,重點解決端到端模型魯棒性差,泛化性弱問題。
Senna的優勢主要有3點:
1、模型層層遞進,大模型生成決策指令,并通過端到端模型生成具體的軌跡。并且針對環視和多圖做了特殊優化,通過圖像token壓縮和環視prompt提高多模態大模型對駕駛場景的理解。
2、數據問答。大規模自動標注的面向規劃的駕駛問答數據,包括場景描述、交通參與者行為預測、交通信號識別以及自車決策等。
3、三段式大模型訓練策略。不僅提升了Senna在駕駛場景的表現,且有效保留了其常識知識而不至于出現模式坍塌的問題。
這就是地平線獨創的“大模型高維駕駛決策-端到端低維軌跡規劃”的新駕駛范式。這里我的理解應該是大模型負責復雜場景,端到端負責常規場景。
車企在形成基本共識的同時,新問題也在不斷涌現:模型種類、大小、參數量,規則算法到底是否還有必要等等,需要時間給出答案。然而一個不爭的事實是, 在新一輪的端到端競賽中,車企總體上已經落后于供應商。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.