最近,小馬智行CTO樓天城和理想汽車CEO李想分別接受了《晚點Auto》和騰訊新聞《潛望》的采訪。有意思的是,面對同樣的問題,二者卻有著不一樣的思考。
關(guān)于自動駕駛L2和L4的實現(xiàn)路徑,樓天城認(rèn)為依靠L2的端到端永遠無法實現(xiàn)L4的自動駕駛。
這個觀點其實是從第一性原理出發(fā)。他認(rèn)為L2端到端的核心是通過人類駕駛的真實數(shù)據(jù)模仿學(xué)習(xí)更像人,它的主要作用是幫助人開好車;而L4的要求則必須要超越人,它的目的是替代人,安全性就必須高于人類安全10倍以上。
基于這個邏輯,樓天城認(rèn)為,L2和L4永遠不可能互為通路,即L2無法通過現(xiàn)實數(shù)據(jù)的“升級打怪”實現(xiàn)L4;反之,L4也無法通過降維實現(xiàn)L2。
因為L2輔助駕駛的邏輯是在碰到極端復(fù)雜的情況時人及時接管保證,強調(diào)系統(tǒng)“知難而退”,提高人的優(yōu)先級;而L4的邏輯恰好相反,他強調(diào)系統(tǒng)在這種情況下“要迎難而上”,解決它,系統(tǒng)具有唯一決定權(quán)。
樓天城把L2和L4的技術(shù)稱之為Learning by Watching和 Learning by Practicing,觀察學(xué)習(xí)和訓(xùn)練學(xué)習(xí)。他認(rèn)為L2的端到端就是模仿學(xué)習(xí),而基于世界模型的L4屬于訓(xùn)練學(xué)習(xí)。端到端可以實現(xiàn)L2,無法實現(xiàn)L4,L4必須用世界模型來實現(xiàn)。
樓天城認(rèn)為L2和L4之間存在交集,但是到了一個分岔口以后就分道揚鑣。這里他舉了一個長短跑的例子,二者都能達到強身健體的目的,但是要成為專業(yè)運動員,二者需要具備的能力不同。L2需要的能力是端到端,而L4需要的能力則是世界模型。
他將世界模型比喻成一個factory,而自動駕駛技術(shù)的差別在factory的精度,而不是端側(cè)模型的能力。因為世界模型可以模擬5-10秒發(fā)生的事情,然后拿系統(tǒng)去驗證它,但端到端只能預(yù)測,預(yù)測出來的結(jié)果未必準(zhǔn)確,在實際駕駛中就容易出錯。
到這里我們來看點有意思的,這幾天理想汽車也密集對外闡述其智駕理念,按照李想的設(shè)想,通過“端到端+VLM”架構(gòu),理想能夠在明后年實現(xiàn)L3(既有監(jiān)督自動駕駛),而L4又是L3的延續(xù);通過L3最終升級到L4,屬于一個范疇。
李想還提到端到端只能實現(xiàn)L3,要實現(xiàn)L4必須使用VLA,一個包含了視覺,語言和行動的多模態(tài)模型。
這和樓天城的觀點有沖突:
1、李想定義的L2和L4是兩個完全不同的東西,L2是輔助駕駛,L3是有監(jiān)督自動駕駛,L4是完全自動駕駛,L4是L3的延續(xù),屬于一個范疇。樓天城也認(rèn)為L2和L4是兩回事,分歧在于樓天城認(rèn)為端到端不能實現(xiàn)L4的自動駕駛,但李想又說端到端能夠?qū)崿F(xiàn)L3,即有條件的自動駕駛。
2、樓天城認(rèn)為實現(xiàn)L4的自動駕駛需要世界工廠來完成,而李想認(rèn)為是VLA。世界工廠是人為構(gòu)建出來的一個虛擬世界,而VLA則是一個端側(cè)大模型。
3、李想認(rèn)為端到端無法實現(xiàn)L4的理由是泛化不夠,需要通過VLA來解決,這里強調(diào)的是模型的重要性;而樓天城認(rèn)為端到端無法實現(xiàn)L4的理由是現(xiàn)實世界數(shù)據(jù)遠遠無法達到自動駕駛需求的上限,必須自己構(gòu)建世界模型,并且保證足夠高的精度,而且有閉環(huán)能力。他認(rèn)為模型本身不重要,重要的是世界模型構(gòu)建的閉環(huán)能力。
4、理想還提到要在明后智駕MPI達到500km,甚至1000km以上,但樓天城認(rèn)為,MPI 為 1000 公里的 L2 產(chǎn)品不存在,因為它反人性。
樓天城認(rèn)為,今天大部分 L2 系統(tǒng)的 MPCI,大概最高到 300 公里,而 L4 至少是 10 萬公里級別。而理想近期的目標(biāo)是MPI達到100km。
5、李想認(rèn)為,L4首要解決的應(yīng)該是泛化性和通用性問題。但樓天城認(rèn)為,適用范圍并不是L4 Robotaxi的首要任務(wù),它可以不需要特別大的范圍,比如在一個城市里也可以,所以這方面不是它最大的優(yōu)化目標(biāo),安全性才是。
這里我們在引入一個特斯拉的案例,特斯拉做L2輔助駕駛和L4 Robotaxi的思路是通過一套FSD系統(tǒng)不斷進行數(shù)據(jù)積累“升級打怪”來完成,Robotaxi要實現(xiàn)商業(yè)價值的前提必須拿掉駕駛員,那就屬于L4的范疇。當(dāng)然,中間可能會加入世界模型的幫助,但無論如何,這和樓天城與李想的觀點有悖。
有意思的是,李想和樓天城都對自己的觀點絕對自信。樓天城認(rèn)為,將來特斯拉要實現(xiàn)L4的Robotaxi一定會切換到世界模型。李想則認(rèn)為,要實現(xiàn)廣泛性、通用性、而不是特定區(qū)域的L4,一定是VLA。而且Waymo、特斯拉最后也會變成VLA。所有想通往L4的企業(yè)可能都是VLA,或者比VLA更好的方式。
樓天城一直在強調(diào)閉環(huán)的能力,它認(rèn)為只有世界模型才能閉環(huán),包括生成數(shù)據(jù),評價好壞,高度仿真,數(shù)據(jù)挖掘。而模仿學(xué)習(xí)的方式永遠不可能閉環(huán)。
亦如10年前大家對自動駕駛技術(shù)的分歧一樣,時至今日,L2輔助駕駛商業(yè)化已經(jīng)率先落地,L4商業(yè)化也是曙光乍現(xiàn)。在商業(yè)化落地前夕,樓天城和李想的觀點代表了行業(yè)頂級大腦的不同思考。共性的點在于,二者都認(rèn)為L4技術(shù)會在3年內(nèi)取得重大突破,屆時答案一目了然。不著急,讓時間給出答案吧。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.