從去年到今年,國(guó)內(nèi)幾家新勢(shì)力和供應(yīng)商(華為、元戎、Momenta等)紛紛喊著要上“端到端”智駕,并將其作為2024下半年的工作重點(diǎn)。“端到端”是不是特斯拉首倡存在爭(zhēng)議,但毫無(wú)疑問(wèn),特斯拉是第一個(gè)將其工程化和商業(yè)化的企業(yè)。
如果以“全量推送”為考核點(diǎn),2024年3月,特斯拉在北美推送FSD V12正式版。但在中國(guó)落地,仍在走流程。這給了國(guó)內(nèi)很多企業(yè)說(shuō)自己不亞于、甚至在中國(guó)強(qiáng)于特斯拉智駕模型的機(jī)會(huì)。
7月30日,小鵬向全球推送AI天璣系統(tǒng)XOS 5.2.0版本;
9月11日,華為鴻蒙智行推送ADS3.0。有意思的是,無(wú)論哪個(gè)界,都在大談“端到端”的時(shí)候淡化了“華為”;
10月23日,理想推送了“端到端+VLM”,聲稱(chēng)行業(yè)首創(chuàng)。理想的確是第一個(gè)將二者實(shí)際結(jié)合的品牌;
蔚來(lái)稍微落后一點(diǎn),高調(diào)發(fā)聲的“世界模型”尚未落地——7月份推出了包含個(gè)別功能的Demo版。
一個(gè)人腦決策的模擬
既然“端到端”這么時(shí)髦,到底什么是“端到端”( End-to-End, E2E)?抱歉,沒(méi)有公認(rèn)的準(zhǔn)確定義,就像端到端的機(jī)理一樣,基本上屬于自拉自唱的節(jié)目。
低情商解釋——“端到端”是實(shí)現(xiàn)智駕的一條技術(shù)路線。智駕從CNN、RNN、GAN、到Transformer大模型(典型應(yīng)用是城區(qū)輕圖NOA),直到如今的端到端。“端到端”即將經(jīng)典感知、規(guī)劃、決策、執(zhí)行多模塊智駕,合成一體,由感知直接“生成”決策和執(zhí)行。
看到“生成”倆字,就很容易理解,這和ChatGPT是一個(gè)路子,即建立一個(gè)茫茫多參數(shù)(可能多達(dá)100B以上,1B=10億)模型,通過(guò)強(qiáng)大算力,不斷用數(shù)據(jù)訓(xùn)練這個(gè)模型,期待它產(chǎn)生明智的決策,無(wú)論下一個(gè)新場(chǎng)景,它有沒(méi)有碰到過(guò)。這樣一來(lái),端到端其實(shí)就是用大模型的方式,來(lái)解決智駕的長(zhǎng)尾(罕見(jiàn)場(chǎng)景)問(wèn)題。
高情商解釋——不了解上文那一大堆縮寫(xiě)?沒(méi)事!比如你牛馬附體,駕車(chē)下班路上還不斷打電話處理公務(wù),不知不覺(jué)就開(kāi)回家了,回頭都想不起怎么回的家。這一路的駕駛行為,就是端到端。
說(shuō)白了,就是試圖用大模型模擬人腦的決策方式,明智地處理無(wú)窮無(wú)盡的新場(chǎng)景。
有些人覺(jué)得這一通解釋?zhuān)f(shuō)了跟沒(méi)說(shuō)一樣。其實(shí)這么想有道理,這很像“將大象推入冰箱”的任務(wù),開(kāi)門(mén)關(guān)門(mén)都非常清楚(因?yàn)榉先说纳罱?jīng)驗(yàn)),但對(duì)于將大象推進(jìn)去的關(guān)鍵步驟,卻語(yǔ)焉不詳。
不怪搞技術(shù)的,因?yàn)榈拇_說(shuō)不清楚。他們的解釋是“可解釋性差”,氣人不?
但是不著急,之于用戶(hù),對(duì)于端到端的推崇以及呼聲,從一個(gè)窄眾群體(發(fā)燒友以及智能愛(ài)好者們)到當(dāng)下全民,越來(lái)越有成為全民興奮點(diǎn)的趨勢(shì)。端到端的全量推送,對(duì)國(guó)產(chǎn)品牌高度關(guān)注的用戶(hù)們,討論度一點(diǎn)都不比投資者們少,他們?cè)谄诖撤N意義的反擊(雖然他們獲取或者了解的信息量參差不齊)。
目前人類(lèi)的技術(shù),感知沒(méi)問(wèn)題,決策到執(zhí)行段也沒(méi)問(wèn)題。如何從感知到?jīng)Q策,有大問(wèn)題。人腦是怎么思考的,大家其實(shí)不知道。但原則是“經(jīng)驗(yàn)決定預(yù)測(cè)”,這是當(dāng)前人類(lèi)駕駛比AI強(qiáng)的地方。一個(gè)數(shù)理邏輯不好的人,甚至沒(méi)太多文化的人,也能開(kāi)好車(chē),就是這個(gè)道理。端到端省去了規(guī)控這一塊,直接決策,反饋加快了,企業(yè)希望決策準(zhǔn)確度不降反升。
保守派和原教旨派
有人提出,端到端的本質(zhì)應(yīng)當(dāng)是感知信息的無(wú)損傳遞,雖有道理但難懂。其實(shí)端到端的精髓,莫過(guò)于考慮如何不用規(guī)則來(lái)思考。這并非指拋棄交通規(guī)則,而是無(wú)需程序員事先對(duì)每一個(gè)可能場(chǎng)景編好應(yīng)對(duì)方案,AI自己就會(huì)基于眼前場(chǎng)景找到最優(yōu)答案。 因此,可以將端到端近似描述為“基于經(jīng)驗(yàn)和基礎(chǔ)規(guī)則的預(yù)測(cè)模型”。
(經(jīng)典規(guī)控模型)
端到端之前的智駕方案,都是多個(gè)模塊的組合。感知、規(guī)劃、控制都是獨(dú)立的。信息在串聯(lián)模塊當(dāng)中傳遞有延遲和數(shù)據(jù)缺失,而且誤差的逐級(jí)積累,也可能帶來(lái)安全隱患。
理論上,端到端應(yīng)該將三者合一,消除內(nèi)部數(shù)據(jù)接口。但是,小鵬、極越等“保守派”仍實(shí)行兩段式“端到端”,即將感知和規(guī)控分為兩個(gè)模型。小鵬前者叫Xnet(感知神經(jīng)網(wǎng)絡(luò)),后者叫規(guī)劃神經(jīng)網(wǎng)絡(luò)(XPlanner)和視覺(jué)語(yǔ)言模型(VLM)XBrain。
而原教旨派則認(rèn)為“兩段式”沒(méi)有脫離傳統(tǒng)智駕的窠臼,即兩個(gè)網(wǎng)絡(luò)中間,仍然是人工定義的接口。傳統(tǒng)智駕的信息漂移、延遲的毛病都繼承下來(lái)了(盡管有改善)。
兩段式的好處在于,既然人類(lèi)定義了中間接口,人類(lèi)就能看懂中間結(jié)果,便于檢查系統(tǒng)、找出毛病。比如感知出了問(wèn)題,不用將整個(gè)系統(tǒng)用“好數(shù)據(jù)”重新訓(xùn)練。也容易兜住系統(tǒng)下限,避免出現(xiàn)令人匪夷所思的錯(cuò)誤。
但是,10月23日理想公布的“4D One Model”和特斯拉一樣,是一段式,即端到端+VLM。
VLM看來(lái)必不可少,其實(shí)也是個(gè)大模型。它可以從圖像(交通場(chǎng)景)和文本(交通標(biāo)識(shí))中學(xué)習(xí)的多模態(tài)模型。簡(jiǎn)單說(shuō),輸入了圖像和文本,輸出(生成)文本。這個(gè)文本用于規(guī)控模型來(lái)理解場(chǎng)景意義。
VLM和端到端模型本身的區(qū)別在于,它不用訓(xùn)練就具有泛化能力(當(dāng)然能訓(xùn)練更好)。其最重要的工作在于,獲取圖像中的空間屬性,即識(shí)別障礙和運(yùn)動(dòng)路徑。
無(wú)論VLM,還是端到端大模型,都是黑盒子。人們不知道它怎么生成了認(rèn)知和決策,就像不知道如何將大象推入冰箱一樣,但看結(jié)果是推進(jìn)去了。
這就是所謂的“可解釋性低”。即決策邏輯可以理解,但過(guò)程不可理解。一旦決策結(jié)果出了問(wèn)題,沒(méi)別的辦法,只能不斷加大數(shù)據(jù)填喂量,調(diào)整模型參數(shù),盡可能堆高模型準(zhǔn)確率,但不保證100%安全。
必須承認(rèn),端到端同時(shí)擴(kuò)張了智駕系統(tǒng)的上下限,這就是為什么有的企業(yè)跟風(fēng)做端到端,訓(xùn)練了好久,發(fā)現(xiàn)系統(tǒng)表現(xiàn)反而更差了。這就麻纏了,因此需要“劃紅線”,比如絕對(duì)不能闖紅燈等規(guī)則,明確到神經(jīng)網(wǎng)絡(luò)中去。這就是兜底原則。
大模型需要“奶媽”
建造和訓(xùn)練大模型,首先要很多錢(qián)。因?yàn)榈搅薆級(jí)參數(shù)量級(jí),連存儲(chǔ)數(shù)據(jù)都很貴,匡論算力。
目前特斯拉超算中心的算力支持由D1芯片和超算Dojo組成。投資10億美元,總算力100EFLOPs(1EFLOPs為每秒1018次浮點(diǎn)運(yùn)算),這一部署尚未完成。
而智能云端算力的門(mén)檻大致為1EFLOPs,車(chē)企目前平均后臺(tái)算力為3 EFLOPs。華為后臺(tái)算力可能為7.5 EFLOPs。三大電信運(yùn)營(yíng)商的算力部署規(guī)劃從15到21 EFLOPs不等。
(端到端流程示意)
理想訓(xùn)練算力(不等同于總算力)為5.39 EFLOPs,由5000塊計(jì)算卡組成(英偉達(dá)A100和A800)而一塊用于訓(xùn)練生成式大模型的A100,報(bào)價(jià)10萬(wàn)元人民幣,A800則至少在12萬(wàn)元以上。
顯然,超算中心搭建必須有大資金支持,就算每月電費(fèi)也可能高達(dá)數(shù)百萬(wàn)元。在汽車(chē)圈,今后幾年內(nèi)特斯拉用于訓(xùn)練的算力規(guī)模,顯然是最大的。
有了硬件,還得有數(shù)據(jù)。數(shù)據(jù)量決定了訓(xùn)練質(zhì)量。
7月份馬斯克在財(cái)報(bào)會(huì)議上打的比方廣為人知,他說(shuō)FSD V12“訓(xùn)練了100萬(wàn)個(gè)視頻案例,勉強(qiáng)工作;200 萬(wàn)個(gè),稍好一些;300 萬(wàn)個(gè),你就會(huì)感到,Wow;1000 萬(wàn)個(gè),它將變得難以置信。”當(dāng)然,老馬作為傳播教父,具體數(shù)據(jù)不用糾結(jié),知道數(shù)據(jù)量與系統(tǒng)決策正確性正相關(guān)即可。
需要明確的是,“壞數(shù)據(jù)”(青澀的駕駛、糟糕的駕駛習(xí)慣、違反交通規(guī)則等)會(huì)“向下拖曳”大模型的訓(xùn)練效果。簡(jiǎn)單說(shuō),最好是理智守法克制的老司機(jī)。
特斯拉的影子駕駛,能扒到大量數(shù)據(jù)。訓(xùn)練的本質(zhì)是模仿。仿著仿著就出徒了。那么問(wèn)題來(lái)了,填喂數(shù)據(jù)的質(zhì)量誰(shuí)來(lái)保證?還是得人工審核。即便不是純?nèi)斯ぃ惨瞿撤N人工規(guī)則下篩選。就像無(wú)圖(其實(shí)是輕圖)同樣要做人工標(biāo)注一樣。
堆人力資源也是昂貴的投資,且注定改善訓(xùn)練不會(huì)太快。高質(zhì)量數(shù)據(jù)則意味著罕見(jiàn)場(chǎng)景+好數(shù)據(jù)。如果產(chǎn)品的保有量上不去,也意味著扒不到太多好數(shù)據(jù),訓(xùn)練改善就慢,系統(tǒng)迭代就會(huì)落后于對(duì)手。
思路、投資和技術(shù)路徑相似的前提下,產(chǎn)品保有量成了智駕水平最重要的致勝(參數(shù)丨圖片)因素。那么,誰(shuí)的算力投資大、路徑清晰、產(chǎn)品的絕對(duì)保有量更大呢?結(jié)論呼之欲出。
(特斯拉FSD狀態(tài))
如是,端到端的“奶媽”是投資、數(shù)據(jù)、人力和耐心!
端到端的思路誕生于大模型和算力的突破,只是一條看似很有希望的路線。現(xiàn)在的問(wèn)題是,訓(xùn)練到一定量級(jí),系統(tǒng)改善可能遭遇瓶頸(訓(xùn)練量逐漸與效果脫鉤)。現(xiàn)在走在前面的企業(yè),可能都碰到了“數(shù)據(jù)墻”,但他們都諱莫如深。如今有人認(rèn)為,既然力大磚飛,端到端模型參數(shù)到達(dá)100B(和ChatGPT4.0差不多量級(jí)),訓(xùn)練量到億級(jí),智駕水平會(huì)不會(huì)發(fā)生質(zhì)的飛躍?
這個(gè)暫時(shí)還沒(méi)人試過(guò)。在產(chǎn)生足夠的經(jīng)濟(jì)回報(bào)之前,搭建這樣的系統(tǒng),懷疑荷包先撐不住。馬斯克的“第一性”是好東西,但不等于馬老師本人就是第一性。
從Transformer+BEV,到端到端,一直是國(guó)內(nèi)第一梯隊(duì)跟緊特斯拉思路,落后半年到1年,而第二梯隊(duì)則落后特斯拉兩年左右,即剛開(kāi)始搭建系統(tǒng)。迄今為止,說(shuō)特斯拉是智駕領(lǐng)路人,并不為過(guò)。而Waymo的Robotaxi,則沒(méi)有產(chǎn)生這么大的影響力。現(xiàn)在特斯拉也開(kāi)始鼓吹Robotaxi,國(guó)內(nèi)車(chē)企是否繼續(xù)跟進(jìn),也是看點(diǎn)。總體而言,大家都在圍繞銷(xiāo)量做文章。至于影響和塑造人類(lèi)交通和生活方式這種宏大敘事,那得活下來(lái)的企業(yè)才有資格想這個(gè)問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.