本文基于近日對(duì)理想汽車智能駕駛副總裁-郎咸朋、理想汽車智能駕駛技術(shù)研發(fā)負(fù)責(zé)人-賈鵬的對(duì)話所撰,其中關(guān)鍵話題包括:理想的端到端系統(tǒng)思路、技術(shù)路線變化及反思、智駕人員優(yōu)化、對(duì)L3及L4的看法等等。
“你們后悔嘗試通勤NOA模式嗎?”
“不后悔,研發(fā)就是‘蹚坑‘的過程。一旦發(fā)現(xiàn)是坑,就要趕緊往外爬?!?/strong>
面對(duì)友商各式各樣的「端到端」智駕方案,郎咸朋和賈鵬看出,其中還有人并不舍得拋棄曾經(jīng)的積累。但通過理想前幾代的研發(fā)教訓(xùn),他們意識(shí)到,不舍得扔掉過去的方案,就會(huì)在坑里越陷越深。
“不能猶豫,也不要再去糾結(jié)自己為啥掉到坑里,趕緊往上爬就對(duì)了?!?/strong>
在他們看來,每次試錯(cuò)付出的代價(jià)是不容回首的,因?yàn)锳I和自動(dòng)駕駛的飛速發(fā)展,不允許任何人回頭看。因此,理想在“百城計(jì)劃“之后,迅速與過去方案“斷舍離“,部署了全新的解法。
為何必須“出坑”?
去年9月,李想在戰(zhàn)略會(huì)上明確,將智能駕駛定為公司的主要戰(zhàn)略,這也是通向未來AI最重要的工作。
在此之前,理想用一年時(shí)間,做了三代技術(shù)研發(fā)——NPN(神經(jīng)先驗(yàn)網(wǎng)絡(luò)),無圖方案(BEV+OCC),以及端到端。
在“蹚坑”的過程中,他們意識(shí)到,如果想做到L3-L4級(jí)自動(dòng)駕駛的話,傳統(tǒng)方案存在著非常大的缺陷——難以應(yīng)對(duì)未知。
“在規(guī)則時(shí)代,只有已知場景或者訓(xùn)練過的數(shù)據(jù),才能讓系統(tǒng)執(zhí)行得比較好。可如果要讓系統(tǒng)完全替代人來開車,那就必須讓它像人一樣,有應(yīng)對(duì)未知場景的能力?!崩上膛蟊硎?,端到端可以讓系統(tǒng)擁有對(duì)場景的理解,以及對(duì)知識(shí)的邏輯推理能力。
在他看來,理想采用的「雙系統(tǒng)」,正是對(duì)人類認(rèn)知機(jī)制的一種闡述——「快系統(tǒng)」進(jìn)行實(shí)時(shí)處理響應(yīng),「慢系統(tǒng)」VLM應(yīng)對(duì)復(fù)雜邏輯判斷。
未來能否合二為一?
實(shí)際上,VLM也是每時(shí)每刻都在做決策,而并非只為應(yīng)急。它輸出的價(jià)值包括兩個(gè)層面:1、決策:例如決定是讓行減速還是避讓;2、參考軌跡:例如車道選擇。
“VLM最大的特點(diǎn)是具備思維鏈(CoT)的過程——它可以進(jìn)行多輪問答,例如行車動(dòng)作的原因、結(jié)果,合理性等等?!?/p>
據(jù)賈鵬介紹,系統(tǒng)一的端到端模型需要高頻實(shí)時(shí)控車,大概有3-4億參數(shù)量;而VLM模型有22億參數(shù)。而由于算力限制,目前系統(tǒng)二有0.3秒的延時(shí)(這兩套系統(tǒng)各采用一顆Orin-X。)
“如果未來算力足夠,VLM也有望跑進(jìn)10-20赫茲,達(dá)到實(shí)時(shí)。但就目前來說,我們基本把所有招都用上了,300ms延時(shí)這一結(jié)果也算是做到極致了。”賈鵬將希望寄托于未來應(yīng)用的Thor平臺(tái)上,它不僅擁有大算力,還具備專門針對(duì)Transformer的加速器,屆時(shí)VLM也有望做到實(shí)時(shí)。
同理,之所以「慢系統(tǒng)」VLM還需要獨(dú)立出來,也是因?yàn)檐嚩怂懔κ芟蕖?/p>
“Orin-X本身不是大算力的芯片,隨著Thor等大算力芯片的到來,兩個(gè)系統(tǒng)最終肯定會(huì)合成一個(gè)統(tǒng)一的模型。而且兜底策略可能也會(huì)被VLM消化掉,因?yàn)樗旧砭陀羞壿嬎季S的能力?!?/p>
賈鵬介紹稱,目前預(yù)研團(tuán)隊(duì)已經(jīng)在做相關(guān)研發(fā)——當(dāng)模型的規(guī)模和容量變得更大,且?guī)首兊酶撸P途陀锌赡芎隙橐弧?/p>
One Model才叫端到端
在郎咸朋看來,盡管大家都在談端到端,但其中又存在著極大的區(qū)別。
“之前的「串聯(lián)式端到端端」,還是分小模塊的方式,它本質(zhì)上還是傳統(tǒng)的產(chǎn)品研發(fā)思路,即先定義需求,再將需求場景拆解成很多研發(fā)模塊,然后利用規(guī)則去實(shí)現(xiàn)。而如果是One Model的端到端,其中沒有任何規(guī)則,我們能做的就是提供高質(zhì)量的數(shù)據(jù)。”
實(shí)際上,理想走的也是「漸進(jìn)式端到端」路線——上一代的無圖NOA,其實(shí)就是分段式端到端——由感知+規(guī)控+決策模型組成。
不過最終,理想還是采用了一段式端到端+VLM的形式,并采用了Dense(全連接層)的數(shù)據(jù)傳輸方式,最大限度減少中間數(shù)據(jù)及信息的損失。
數(shù)據(jù)“煉丹爐”
在研發(fā)過程中,郎咸朋及其團(tuán)隊(duì)得以驗(yàn)證馬斯克的一種觀點(diǎn)——100萬量級(jí)參數(shù)可以使模型開始工作,300萬可以工作得挺比較好,達(dá)到1,000萬時(shí),模型就能有很好的表現(xiàn)了。但這一觀點(diǎn)的前提是,數(shù)據(jù)價(jià)值要高。
“我們現(xiàn)在基本上做到300萬的量級(jí)了,而且理想對(duì)數(shù)據(jù)的選擇是非常有講究的。首先產(chǎn)品團(tuán)隊(duì)和主觀評(píng)價(jià)團(tuán)隊(duì)會(huì)篩選出優(yōu)秀的老司機(jī),記錄他們的片段?!?/p>
從12億公里的數(shù)據(jù)中,理想篩出來了1000萬公里的老司機(jī)數(shù)據(jù),并運(yùn)用了自己的一套工具鏈,進(jìn)行數(shù)據(jù)配比。
“為什么小鵬的智駕在廣州表現(xiàn)尤其好,華為在上海也是如此?包括特斯拉也是在網(wǎng)紅路線和西海岸線開的好,東海岸就比較差。”郎咸朋認(rèn)為,這與數(shù)據(jù)分布有直接關(guān)系。“理想的一大優(yōu)勢(shì)在于增程車的出行范圍,其數(shù)據(jù)的區(qū)域分布和場景分布肯定高于純電動(dòng)車。”
郎咸朋及賈鵬表示,數(shù)據(jù)配比的均衡對(duì)于端到端至關(guān)重要。未來,車端模型會(huì)越來越大,算力還是會(huì)受限。因此必須按照?qǐng)鼍叭ゾ珳?zhǔn)配置數(shù)據(jù),而不是因?yàn)槟硞€(gè)地域的用戶多,就多加當(dāng)?shù)氐臄?shù)據(jù)。
“例如新疆放多少,北京放多少,雨天放多少,雪天放多少…我們花了大量的工夫去進(jìn)行配置,這有點(diǎn)類似煉丹或者調(diào)倉的感覺,同時(shí)這也是端到端時(shí)代大家面臨的一個(gè)最大的挑戰(zhàn)?!崩上膛笳f道。
生成式模型,仍不能直接用于仿真
近日,世界模型和生成式模型的仿真能力也備受關(guān)注,其一大特點(diǎn)是可以通過學(xué)習(xí),重建、生成仿真數(shù)據(jù)。但是在郎咸朋和賈鵬看來,這種類似SORA的DIT模型,生成的視頻仍存在幻覺。
“我們也考慮過利用純生成式的世界模型來做仿真,但后來發(fā)現(xiàn)并不可行。仔細(xì)看會(huì)發(fā)現(xiàn),這些生成視頻的車道線等元素不怎么符合世界規(guī)律,顯得很詭異。”
賈鵬介紹稱,理想的世界模型只是考試系統(tǒng),并非完全基于生成的,而是先用3D GS (3D Gaussian Splatting)進(jìn)行重建,提供一個(gè)基本符合現(xiàn)實(shí)規(guī)律的物理結(jié)構(gòu),再延伸出一些泛化場景。
“這可以利用世界規(guī)律的這套先驗(yàn),去約束生成的結(jié)果。自動(dòng)駕駛還是比較嚴(yán)肅的,我們不可能直接用SORA生成的東西?!?/p>
小目標(biāo):量產(chǎn)L3/L4
理想采用端到端新路線的主要目標(biāo),是要讓技術(shù)迭代可持續(xù)至L3乃至L4。其中,系統(tǒng)一在L3階段可以發(fā)揮主要作用,但一旦步入L4,那系統(tǒng)二就會(huì)起到關(guān)鍵作用。
“我們必須在L3階段去做雙系統(tǒng)的驗(yàn)證和迭代,才能讓系統(tǒng)二在L4階段發(fā)揮非常重要的決策和判斷作用??傮w看來,在一些未知場景下,系統(tǒng)二的能力決定了能否達(dá)到L4,但系統(tǒng)一的技術(shù)能力是L3的必要保障?!?/p>
未來,理想希望走向量產(chǎn)級(jí)的L4,而不是只在特定區(qū)域內(nèi)運(yùn)營的L4。而至于L3的量產(chǎn),或許最快今年就會(huì)有消息了。
走過的彎路
在去年推進(jìn)城市NOA的過程中,理想曾認(rèn)為主要的障礙就是高精地圖,所以智駕團(tuán)隊(duì)首先考慮的是只在復(fù)雜道路用圖。
但后來大家發(fā)現(xiàn),即便采用輕圖方案,也解決不了“全國都能開”的問題:“無論輕圖還是重圖,只要你用圖,就擴(kuò)展不到全國。就算一時(shí)做到全國,迭代速度也會(huì)有問題?!?/strong>郎咸朋說道。
直到做完百城,理想才從NPN切換到無圖方案。
因?yàn)槿绻豢幢鄙蠌V深等大城市,還會(huì)誤以為NPN方案表現(xiàn)可行。但只有做到百城規(guī)模之后,才會(huì)發(fā)現(xiàn)它確實(shí)解決不了問題。
而無圖方案的問題,則在于規(guī)則:“規(guī)則中還是有一些不符合人類駕駛習(xí)慣風(fēng)格的問題,可用戶需要的是擬人的駕駛體驗(yàn),這使得接管率無法成為單一評(píng)判標(biāo)準(zhǔn)。如果我不摒棄現(xiàn)在無圖的這套技術(shù)的話,就永遠(yuǎn)做不到擬人。于是就有了端到端?!?/p>
郎咸朋表示,端到端基于AI驅(qū)動(dòng),可以完全按照人類的思路去學(xué)習(xí)。雖然切換路線需要付出成本,也要付出組織管理上的一些代價(jià),但都是值得的。
對(duì)人員調(diào)整的解釋
無圖方案帶來的問題,不僅在于能力上限,還有資源的耗費(fèi)。因?yàn)樗枰罅咳藛T來設(shè)計(jì)、實(shí)現(xiàn)和測(cè)試各種各樣的場景。去年年底,理想發(fā)布的“2000人”的團(tuán)隊(duì)規(guī)劃,正是按照這個(gè)思路去設(shè)計(jì)的。
出于能力和資源兩方面的考慮,理想決定轉(zhuǎn)向預(yù)研中的端到端路線。隨即,就有了后來的智駕團(tuán)隊(duì)裁員消息。
“一旦轉(zhuǎn)向這個(gè)方案,我們確實(shí)用不了這么多人,因?yàn)槎说蕉说难邪l(fā)流程主要在于挑選數(shù)據(jù)和訓(xùn)練模型,評(píng)估模型的話也可以使用世界模型(系統(tǒng)3,針對(duì)系統(tǒng)1和系統(tǒng)2的考試系統(tǒng)),不需要人工執(zhí)行,這會(huì)大大減少人力使用?!?/strong>
所以,理想今年的人員調(diào)整,其實(shí)正是基于這一業(yè)務(wù)變化?!皬奶厮估闹邱{團(tuán)隊(duì)來看,它只需要約200人就能維護(hù)所有的軟件和算法?!?/p>
不過同時(shí),郎咸朋和賈鵬還在大量招聘AI和通用大模型行業(yè)的人才,而校招生更是只看QS Top 100院校的畢業(yè)生?!斑@是我們團(tuán)隊(duì)保持活力和技術(shù)先進(jìn)性的一個(gè)前提?!?/p>
“10億美元/年“是個(gè)檻
郎咸朋認(rèn)為,在端到端的新起跑線上,友商之間的差距一定會(huì)被拉大。這其中主要拼的就是兩件事:數(shù)據(jù)和算力。在他看來,這兩點(diǎn)同時(shí)代表著車型保有量和資金儲(chǔ)備。
“現(xiàn)在理想每年投在訓(xùn)練上的資金是10億人民幣,但我們預(yù)估將來花費(fèi)要達(dá)到每年10億美金。這只是訓(xùn)練的算力,還不包括其他的人員等其他成本……所以說如果你一年拿不出10億美元去做訓(xùn)練的話,就可能面臨淘汰。”
(理想汽車智能駕駛副總裁:郎咸朋)
他認(rèn)為,之所以馬斯克之前不在乎公開自己的方案,是因?yàn)樗V定其他人無法像他那樣買七八萬張卡,或者賣那么多車。
“不可能每家車企都像特斯拉似的賣那么多卡,同時(shí)也不是每家企業(yè)都能做自動(dòng)駕駛。如果缺失數(shù)據(jù)或算力資源,要么迭代速度慢,要么競爭力不足,終究會(huì)面臨淘汰。”
對(duì)此,賈鵬介紹稱,理想目前有15,000張卡,但日常用起來還是很緊張。未來,模型的參數(shù)量至少會(huì)再提升3-4倍,理想會(huì)照著“10萬張A100(或A800)”這個(gè)小目標(biāo)去努力,也就是要對(duì)應(yīng)30 EFlops的算力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.