一夜醒來,自動駕駛行業(yè)大變天。端到端技術還沒普及,新的技術形態(tài)又出來了。
前兩天,小鵬汽車發(fā)布了 “云端基座模型”。希望通過知識蒸餾和強化學習的方式持續(xù)提升車端系統(tǒng)的能力上限。知識蒸餾是DeepSeek對Open AI彎道超車的大殺招,如今被小鵬用在了自動駕駛上。
為了開發(fā)這個世界基座模型。小鵬汽車專門打造了一座“云端模型工廠”,工廠“車間”涵蓋基座模型預訓練和后訓練(強化學習訓練)、模型蒸餾、車端模型預訓練到部署上車的全流程生產(chǎn)鏈路。
小鵬汽車自動駕駛負責人李力耘介紹,小鵬基模是一個以大語言模型為骨干網(wǎng)絡,使用海量優(yōu)質(zhì)駕駛數(shù)據(jù)訓練的多模態(tài)大模型,具備視覺理解能力、鏈式推理能力和動作生成能力。提升智駕能力上限。
“端到端的車端模型也許可以給大家提供一個非常好的極致的L2的+++的體驗,但作為我們自動駕駛人的初心要最終走向L3、L4的自動駕駛。”
李力耘認為,車端訓練的算力有限,能夠承載的數(shù)據(jù)量有限,即便端到端技術范式下,智駕的能力也不會太高。小鵬希望通過“云端基座模型”訓練更多的數(shù)據(jù),無限提升智駕的能力上限。
它可以理解成一個云端大模型,大模型結構的第一層采用Encoder編碼器,對所有信號進行融合。你沒有看錯,是各種信息,包括視頻信號,以及導航音頻、車載視頻,甚至耳朵、超聲波雷達、毫米波雷達聽到的各種信號。目前能夠處理的參數(shù)量達到720億參數(shù)(一個模型是72B),VLA模型參數(shù)差不多在1B-2B之間,大概是35倍的差值。
接下來就來到了最核心的部分,小鵬通過語言大模型(LLM)讓各種各樣的傳感器信息、元素對齊,使它能夠作為標準化“符號”被處理,這樣大語言模型就具備了推理能力,以及持續(xù)的思維鏈能力,通過前方車輛的繞行推測前方可能有障礙物,進而推理出前方施工等場景,從而提前做出應對。
經(jīng)過Encoder(編譯器/編碼器)到語言大模型之后,模型會變成一個聰明的學生或者剛入行的聰明的青年教師。經(jīng)驗少,但是天賦高。然后再通過高質(zhì)量數(shù)據(jù)的方式強化學習讓系統(tǒng)變成一個經(jīng)驗豐富的老教授先放到車端。
強化學習是大模型訓練的經(jīng)典思路,Open AI的很多模型都是采取這個方式。先通過設置獎勵函數(shù)給系統(tǒng)設置一些邊界,再通過獎勵模型提供更連續(xù)、更泛化、更多維的獎勵信息給到強化學習,最后再通過世界模型對他進行多維度的模擬驗證。
于是,一個經(jīng)過海量數(shù)據(jù)訓練的優(yōu)秀老司機云端大模型就這樣誕生了。最后再通過蒸餾的方式把云端訓練的能力沉淀出來,生成“小身材、大智商”的端側模型,下放在車端。
小鵬說這個基座模型可以為不同需求的汽車定制不同的“大腦”,讓“千人千面”的模型研發(fā)成為可能。
這里其實有一個非常有意思的地方。地平線余凱,博世吳勇橋等都認為,自動駕駛將來會是一個標準件一樣的東西,智駕不會出現(xiàn)郭德綱和林志玲的不同風格,但是這里又說智駕千人千面。我的理解是不是不同的車型搭載的硬件不一樣,模型參數(shù)量不一樣從而產(chǎn)生差異化的情況。
這個世界基礎模型更像是小鵬做了一個數(shù)據(jù)訓練模型的放大器,讓模型能夠吞吐更大規(guī)模的參數(shù)量,并且開發(fā)了一系列的配套小模型,然后在把海量數(shù)據(jù)訓好的小模型下放在車端。
到這里其實思路已經(jīng)比較清晰了,小鵬希望通過這套世界模型解決更高維度L3,甚至L4的問題。這列理念算不上新,小馬智行CTO樓教主很早就說過了。但是小鵬推進的效果更迅猛。
世界基礎模型的設想很美好,但實際實施起來并不容易。
首先是端側芯片算力,即便是蒸餾過后的模型,也比目前的端到端模型大很多。目前市面上的芯片基本都是公用芯片,在特定模型的處理效率上并不高。這也是小鵬選擇自研芯片的原因。何小鵬透露,小鵬專門針對其自研的世界基座大模型設計的芯片將會在今年2季度量產(chǎn)上車,它的專屬性更強,效率更高。
另一個就是云端算力。小鵬目前的AI算力已經(jīng)達到了10EFLOPS,實現(xiàn)了萬卡集群。并且云端的訓練集群常年保持在90%以上利用率。
除了GPU,多模態(tài)大模型還需要解決數(shù)據(jù)訪問的效率問題。小鵬汽車自主開發(fā)了底層的數(shù)據(jù)基礎設施(Data Infra),使數(shù)據(jù)上傳規(guī)模提升22倍、訓練中的數(shù)據(jù)帶寬提升15倍;通過聯(lián)合優(yōu)化GPU / CPU以及網(wǎng)絡I/O,最終使模型訓練速度提升了5倍。如果把數(shù)據(jù)傳輸理解成一個水管放水,小鵬相當于專門為這個數(shù)據(jù)工廠建了一個抽水泵,讓它的效率更高。
解決了進水效率,“水”(數(shù)據(jù))從哪來?
小鵬一方面通過多賣車來收集數(shù)據(jù)。這里可以聯(lián)想一下小鵬去掉激光雷達的邏輯,去掉激光雷達降車價帶來的銷量提升立竿見影;另一方面其實上文也有提到,在世界基座模型工廠里其實有世界模型,專門用來生產(chǎn)仿真數(shù)據(jù)。還用于調(diào)教真實的Smart Agent(智能體)的反饋,和它之間的博弈和接下來要做哪些動作。
目前,小鵬汽車用于訓練基座模型的視頻數(shù)據(jù)量高達2000萬clips,這一數(shù)字今年將增加到2億clips。
在這些基礎設施之上,小鵬的云端基礎模型更像是一個車端模型的效率工廠。它能夠快速在12小時就能訓練一版模型。
這套理論最核心的支撐點在于Scaling Law(尺度定律:參數(shù)量越大,模型訓練效果越好),這個已經(jīng)在大語言模型被證明的定律。
當然,在這之前,小鵬需要回答另一個問題是,蒸餾之后的模型效果到底好不好?達到什么樣的標準才能上車?
Deepseek的邏輯是不管怎么蒸餾,模型始終在云端。但小鵬這個的邏輯是大模型蒸餾之后下放到車端。
李力耘的說法是,加大車端算力,模型的承載能力也會更大。這其實又回到了小鵬自研芯片的邏輯。
目前,小鵬的大模型還在訓練“老師”(云端大模型)階段,也就是所謂的基礎大模型,目標是接近L3,但目前還沒有量化的數(shù)據(jù)出來,“學生”(蒸餾后的端側模型)的能力更是無從得知,但從小鵬X9在香港的測試來看,內(nèi)部認為其實表現(xiàn)出來的能力已經(jīng)遠超目前系統(tǒng)的能力。
雖然還沒上車,但小鵬已經(jīng)驗證了幾個基本規(guī)律:
1、驗證規(guī)模法則在自動駕駛領域持續(xù)生效。也就是說大模型的Scaling Law在自動駕駛同樣奏效;
2、在后裝算力的車端成功實現(xiàn)基模控車;
3、啟動72B參數(shù)基模訓練,搭建針對強化學習的模型訓練框架。
十年前,小鵬汽車成立時就堅定了自動駕駛的大方向,它是第一個將激光雷達量產(chǎn)落地在輔助駕駛的乘用車企,兜兜轉轉幾年之后小鵬又重新去掉激光雷達,采用純視覺方案。毫無疑問,這是一條完全Follow特斯拉的技術路線。在智能駕駛到來的浪潮前夕,中美企業(yè)代表再一次同頻共進。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.