每經(jīng)記者:孫磊 每經(jīng)編輯:余婷婷
“AI(人工智能)工具可劃分為信息工具、輔助工具和生產(chǎn)工具三個層級。我覺得人工智能變成生產(chǎn)工具,才是真正人工智能爆發(fā)的時刻。”理想汽車董事長、CEO李想在5月7日晚的《理想AI Talk第二季》中,分享了他對于人工智能的最新思考,VLA司機大模型的作用、訓練方法和挑戰(zhàn),這距離他上一季談及人工智能已經(jīng)過去了130多天。
圖片來源:企業(yè)供圖
李想表示:“判斷Agent(智能體)是否真正智能,關鍵在于它是否成為生產(chǎn)工具。只有當人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻。就像人類會雇用司機,人工智能技術最終也會承擔類似職責,成為真正的生產(chǎn)工具。”
就理想汽車而言,其研發(fā)的VLA司機大模型則是以“司機Agent”的產(chǎn)品形態(tài)呈現(xiàn)。“用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。簡單通用的短指令由端側的VLA直接處理,復雜指令則先由云端的VL基座模型解析,再交由VLA處理。”理想汽車方面表示。
此外,李想還回應了“有人覺得輔助駕駛應該被叫停”的問題。“經(jīng)過多年,從規(guī)則算法到端到端+VLM(視覺語言),再到現(xiàn)在真正邁入VLA階段,現(xiàn)在比較像‘黎明前的黑暗’。我覺得黎明馬上就要來了。但是會先經(jīng)歷一個黑暗的過程,之所以有黑暗是因為要迎來黎明。”李想說。
VLA是端到端+VLM的合體
所謂“VLA”,即視覺語言動作模型(Vision-Language-Action Model)。最早由DeepMind于2023年提出,應用在機器人領域,輸入給定的文本和視覺數(shù)據(jù),輸出機器人可執(zhí)行的動作,天然便帶有AI與物理世界交互的基因。
與當前理想汽車使用的“著重于圖像和場景的理解,作為智駕決策規(guī)劃輸入,讓車輛行為更合理”的VLM模型不同,VLA模型會將端到端與多模態(tài)大模型結合得更徹底,能夠根據(jù)感知直接生成車輛的運動規(guī)劃和決策,更加接近“圖像輸入、控制輸出”的端到端智駕理想狀態(tài)。
在業(yè)內(nèi)看來,VLA模型可看成是端到端+VLM的合體,其遇到一些復雜的交通規(guī)則、潮汐車道、長時序推理等特殊場景時,會比過往理解、應對得更好。“對于理想汽車而言,VLA是一個司機大模型,像人類的司機一樣去工作的一個模型。”李想說。
據(jù)悉,就推理時長而言,在傳統(tǒng)rule-based(基于規(guī)則)方案下,智能輔助駕駛只能推理1秒鐘路況信息然后做出決策控制;端到端1.0階段系統(tǒng)能夠推理出未來7秒的路況,而VLA模型則能對幾十秒路況進行推理。
李想透露,達到VLA模型階段并非突變的過程,而是進化的過程,經(jīng)歷了三個階段:第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM輔助駕駛,接近“哺乳動物智能”。
“在端到端的基礎上,到第三階段,VLA將開啟‘人類智能’階段。它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運作方式。”李想說。
有觀點認為,伴隨著VLA模型的出現(xiàn),理想汽車或放棄端到端技術。對此,李想表示:“沒有放棄,端到端是VLA的基礎。如果你把端到端想象成一個個具身智能執(zhí)行的環(huán)節(jié),那它其實就是VLA的A(action行動)的部分。只是我要多語言的部分,還要更多更強的3D vision和高清2D vision的部分。”
“現(xiàn)階段VLA是能力最強的架構”
值得注意的是,VLA近來一直受到自動駕駛領域的熱捧,除理想汽車外,元戎啟行等企業(yè)也在該領域進行布局。有行業(yè)人士表示,VLA模型對智能輔助駕駛的演進意義重大,在L2輔助駕駛到L4自動駕駛的飛躍中,VLA可能會成為關鍵跳板;另一方面,VLA模型也可能成為智能駕駛走向更廣闊的具身智能行業(yè)的連接點。
“目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段,而VLA能夠讓AI真正成為司機,成為交通領域的專業(yè)生產(chǎn)工具。對理想汽車而言,未來的VLA就是一個像人類司機一樣工作的司機大模型。”李想說,“我自己認為VLA(司機大模型)能夠解決全自動駕駛,至于VLA是否是效率最高的方式還要打個問號。但現(xiàn)階段VLA是能力最強的架構。”
值得一提的是,行業(yè)也存有共識,VLA模型的上車難度不小——將端到端與VLM模型二合一后,車端模型參數(shù)變得更大,既要有高效實時推理能力,同時還要有大模型認識復雜世界并給出建議的能力,對車端芯片硬件有相當高的要求。
“理想汽車有編譯團隊,有芯片的能力,有板子設計能力,有操作系統(tǒng)能力。所以我們是能夠把兩個Orin-X帶寬做到足夠的大,它同樣可以跑同等規(guī)模的VLA的模型。”李想表示,“我自己還是認為,規(guī)模小的時候可能無所謂,規(guī)模大的時候基本功和能力永遠是無法逾越的。”
值得注意的是,李想的這番言論也折射出當前智能輔助駕駛行業(yè)的一個現(xiàn)狀——技術路徑的快速迭代升級與競爭態(tài)勢的加速轉(zhuǎn)變,對那些尚未在端到端解決方案領域建立優(yōu)勢的企業(yè)而言,形成了更高的準入壁壘,使得后來者居上的可能性顯著降低。
“今天很多企業(yè)做端到端都很吃力,是因為在規(guī)則算法的時候都沒做好。”李想說,“如果你規(guī)則算法都做不好,你根本不知道怎么去做端到端;如果你端到端沒有做到一個非常極致的水平,你連VLA怎么去訓練都不知道。”
“美國很多頂級的公司,像蘋果、特斯拉,他們基本功特別扎實,這個是我們真正要去學的。尤其是在今天這種內(nèi)卷環(huán)境下,包括外部不確定的環(huán)境下,這時候更是每個企業(yè)扎扎實實練基本功最好的時候。而且到了人工智能時代,基本功就更是不可跳躍的。”李想補充道。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.