機器之心報道
作者:澤南
L3 級別智能駕駛的關(guān)鍵:大算力、大模型、大數(shù)據(jù)。
端到端智能駕駛,正在沿著大模型 Scaling Laws 的道路狂奔。
上周三,全球首款 L3 級算力「AI 汽車」小鵬 G7 正式亮相,其首發(fā)搭載的三顆自研圖靈 AI 芯片,超過 2200TOPS 有效算力,本地部署的 VLA+VLM 模型等特性引發(fā)了關(guān)注。
基于超高端側(cè)算力,小鵬 G7 行業(yè)首發(fā)了智駕大腦 + 小腦 VLA-OL 模型,第一次給智能輔助駕駛加入了「運動型大腦」的決策判斷能力。
小鵬 G7 同時首發(fā)了 VLM(視覺大模型),它可以作為車輛理解世界的 AI 大腦,將會是人與汽車交互的新一代入口。作為車輛行動的中樞,可以指導(dǎo)智能輔助駕駛和智艙等整車能力,未來還可以實現(xiàn)本地聊天、主動服務(wù)、多語言等功能。
同樣是在上周,美國納什維爾舉行的全球計算機視覺頂會 CVPR 2025 上,小鵬作為唯一受邀的中國車企分享了其自動駕駛基座模型的研發(fā)進展。
小鵬自去年 5 月就宣布了量產(chǎn)端到端大模型上車,并構(gòu)建了從算力、算法到數(shù)據(jù)的全面體系。今年 4 月,小鵬官宣正在研發(fā)下一代自動駕駛基座模型。今年的 CVPR 上,小鵬首次對外曬出了其世界基座模型的技術(shù)細(xì)節(jié)。
小鵬世界基座模型負(fù)責(zé)人劉先明展示了基座模型在真實城市環(huán)境復(fù)雜路面的控車能力。在沒有任何規(guī)則代碼托底的情況下,AI 面對復(fù)雜路口可以實現(xiàn)正確變道繞行,避開侵入車道的大貨車,再避讓逆行的自行車:
在經(jīng)過施工區(qū)域前,它能提前繞行避障:
還可以完成一連串的復(fù)雜動作:直行道上,前方大車切出后,看到臨停車變道繞行;遇到突然橫穿馬路的電動摩托車,成功避讓;左側(cè)忽然有一輛大貨車加塞,減速靈活應(yīng)對。
盡管只是在后裝算力的車輛上用早期版本的模型進行測試,小鵬自動駕駛基模已經(jīng)展現(xiàn)出令人驚嘆的智能和擬人水平。
今年的 CVPR 大會上,與小鵬共同登臺的是 Waymo、英偉達(dá)、UCLA、圖賓根大學(xué)等工業(yè)界、學(xué)術(shù)界的自動駕駛頂流??雌饋恚※i的智能駕駛已走到了業(yè)界領(lǐng)先的位置,其智能駕駛體系開始在主流 AI 圈層「上桌吃飯」。
從端到端到世界模型
開啟智能駕駛下一個 Level
過去幾年,在智駕和智能座艙上,我們都見證了不少新功能的上線,但不論是城市范圍的智能駕駛,還是讓汽車有了「人的溫度」的座艙語音助手,其進步都往往體現(xiàn)在細(xì)節(jié)能力的橫向擴展,從智能化的高度來看,縱向的提升卻不明顯。
ChatGPT 引爆的新一輪 AI 技術(shù)躍進,讓基于端到端的全新技術(shù)范式,逐漸成為了駕駛通向 L3、L4 智能駕駛的敲門磚。
整個智能駕駛行業(yè)在 L2 階段已經(jīng)停留太久。小鵬認(rèn)為,「大算力 + 大模型」時代的到來,已為整個行業(yè)的 L3 進階鋪好了基石。
小鵬汽車董事長何小鵬在前幾天的 G7 新車發(fā)布會上指出,邁向 L3 級算力 AI 汽車需要滿足兩個前提條件:本地有效算力大于 2000TOPS,在本地部署 VLA+VLM 大模型。為此,他們很早就開始布局自動駕駛基座模型賽道,并構(gòu)建了從算力、算法到數(shù)據(jù)的全面體系,在新方向上一直保持著領(lǐng)先的身位。
在 CVPR 2025 的自動駕駛研討會 WAD(Workshop on Autonomous Driving)上,劉先明發(fā)表了題為《通過大規(guī)模基礎(chǔ)模型實現(xiàn)自動駕駛的規(guī)模化》(Scaling up Autonomous Driving via Large Foudation Models)的演講,介紹了小鵬自研業(yè)界首個超大規(guī)模自動駕駛基座模型的歷程,還披露了其在模型預(yù)訓(xùn)練、強化學(xué)習(xí)、模型車端部署、AI 基礎(chǔ)設(shè)施搭建方面的一系列探索。
在發(fā)布 G7 時,小鵬表示「大算力 + 物理世界大模型 + 大數(shù)據(jù)」將共同定義未來「AI 汽車」的能力上限,其中的「物理世界大模型」正是劉先明團隊研發(fā)的自動駕駛基座模型。
對于自動駕駛來說,如何能夠保證行駛的安全、穩(wěn)定,讓 AI 系統(tǒng)在出現(xiàn)「前所未見」情況時能夠做出正確決策,一直是技術(shù)的最大挑戰(zhàn)?;谑澜缁P偷男乱淮軜?gòu),為業(yè)界帶來了希望。
今年 4 月,小鵬汽車首次披露了自身的下一代自動駕駛基座模型。該云端基礎(chǔ)模型參數(shù)規(guī)模達(dá)到 720 億,目前訓(xùn)練數(shù)據(jù)已超過 2000 萬條視頻片段(每條時長 30 秒)。它以大語言模型為骨干,使用海量優(yōu)質(zhì)多模態(tài)駕駛數(shù)據(jù)進行訓(xùn)練,具備視覺理解、鏈?zhǔn)酵评恚–oT)和動作生成能力。通過強化學(xué)習(xí)(RL)后訓(xùn)練,它可以不斷自我進化,逐步發(fā)展出了更全面、更擬人的自動駕駛技術(shù)。
世界基座模型的一大優(yōu)勢是具備 CoT 能力。就像 DeepSeek R1 在回答問題時展示的「強推理」過程一樣,自動駕駛的 AI 模型也能在充分理解現(xiàn)實世界規(guī)律的基礎(chǔ)上,像人類一樣進行相對復(fù)雜的常識推理,做出行動決策,如輸出打方向盤、剎車等控制信號,實現(xiàn)與物理世界的交互。
這大幅提升了自動駕駛的能力?,F(xiàn)在 AI 在遇到復(fù)雜、危險或特別少見(訓(xùn)練時未見過)的場景時,能夠進行條理清晰的邏輯推理,正確分析道路交通環(huán)境,關(guān)注到對自車行為有影響的關(guān)鍵目標(biāo)、交通信號燈等指示,并對自身下一步?jīng)Q策作出推理,隨后形成動作規(guī)劃,生成下一步的軌跡。
如果說傳統(tǒng)的自動駕駛模型是負(fù)責(zé)「開車」這項運動的「小腦」,基于大語言模型和海量優(yōu)質(zhì)數(shù)據(jù)訓(xùn)練的新一代基座模型,則是同時具備開車和思考能力的「大腦」—— 它能像人類一樣主動思考并理解世界,絲滑地處理訓(xùn)練數(shù)據(jù)中未見過的長尾場景(corner case),相比上代基于大量內(nèi)嵌規(guī)則的智能駕駛更加安全,更具可解釋性,駕駛風(fēng)格也更加擬人化。
有了「云端超級大腦」,接下來的挑戰(zhàn),就是讓它在車輛端側(cè)高效運行。
由于車端算力的限制,能夠部署上車的 AI 模型必須經(jīng)過剪枝、蒸餾等方法進行壓縮,目前業(yè)界主流的車端模型參數(shù)一般在幾百萬到十億級別。如果比照車端算力的容量直接訓(xùn)練小模型,模型的性能上限會受到極大限制,更無從實現(xiàn) CoT 等能力。
小鵬選擇了蒸餾的技術(shù)路線,先在云端「不計成本」地訓(xùn)練大規(guī)?;P?,再通過蒸餾的方式壓縮以適配車端算力,通過知識遷移的方式最大限度保留基模核心能力,幫助車端模型提升性能。
「云端基座模型 + 強化學(xué)習(xí)的組合,是讓模型性能突破的最好方法。云端基座模型好比一個人天生的智商,強化學(xué)習(xí)好比能力激化器,用來激發(fā)云端基座模型的智力潛能,提高基模的泛化能力,」劉先明表示。
在基座模型完成預(yù)訓(xùn)練、監(jiān)督精調(diào)(SFT)之后,模型會進入強化訓(xùn)練階段。小鵬開發(fā)了自己的強化學(xué)習(xí)獎勵模型(Reward Model),主要從安全、效率、合規(guī)三個方向提升模型能力。
「這也是人類駕駛行為中的幾個核心原則,遇到不認(rèn)識的障礙物要繞行,這是為了安全;路上遇到特別慢的車,適時變道超車,可以提高效率;按照紅綠燈、車道線、道路標(biāo)牌的指示開車,這是合規(guī),」劉先明表示。
在這個階段,小鵬以往輔助駕駛能力的研發(fā)經(jīng)驗也被用于設(shè)計強化學(xué)習(xí)的獎勵函數(shù),轉(zhuǎn)化成了新的生產(chǎn)力。
為了進一步提升自動駕駛的能力,提升泛化性,自動駕駛系統(tǒng)還需要接入世界模型。
小鵬自動駕駛團隊正在開發(fā)世界模型(World Model),未來計劃將其用作一種實時建模和反饋系統(tǒng),基于動作信號模擬出真實環(huán)境狀態(tài),渲染場景,并生成場景內(nèi)其他智能體(也即交通參與者)的響應(yīng),從而構(gòu)建一個閉環(huán)的反饋網(wǎng)絡(luò),幫助基座模型進行強化學(xué)習(xí)等訓(xùn)練。
也就是說,小鵬訓(xùn)練好之后的基座模型并不是靜態(tài)的,它會持續(xù)學(xué)習(xí)、不斷迭代提升。
小鵬汽車的基座模型迭代過程分成內(nèi)、外兩個循環(huán),內(nèi)循環(huán)是指包含預(yù)訓(xùn)練、后訓(xùn)練(包括監(jiān)督精調(diào) SFT 和強化學(xué)習(xí) RL)和蒸餾部署的模型訓(xùn)練過程;外循環(huán),是指模型在車端部署之后,持續(xù)獲取新的駕駛數(shù)據(jù)和用戶反饋,數(shù)據(jù)回流云端,繼續(xù)用于云端基模的訓(xùn)練。
說到世界模型,最近越來越多的 AI 研究者已經(jīng)把它擺在了「通向 AGI 方向」的位置。圖靈獎得主 Yann LeCun 認(rèn)為,世界模型是 AI 系統(tǒng)用于模擬和理解外部世界運作方式的內(nèi)部模型。基于世界模型,AI 系統(tǒng)可以不斷適應(yīng)新的動態(tài)環(huán)境,并高效地學(xué)習(xí)新技能。
Google DeepMind 近日提交的一份研究甚至證明:如果一個大模型智能體能夠處理復(fù)雜、長期的任務(wù),那么它就一定學(xué)習(xí)過一個內(nèi)部世界模型,越是通用的 AI,就學(xué)習(xí)得越精確。大模型和世界模型的發(fā)展,或許是殊途同歸。
小鵬在智能駕駛上的實踐,可以說提前判斷到了正確方向。未來,小鵬還將用這套技術(shù)賦能 AI 機器人、飛行汽車等設(shè)備。
轉(zhuǎn)型 AI 公司
驗證自動駕駛的 Scaling Laws
如果說端到端、世界模型是智能駕駛通向下一階段的方向,那么 AI 規(guī)模的擴展則可以說是驗證這一路線的核心標(biāo)尺。
過去兩年半時間里,AI 性能的提升很大程度上得益于規(guī)模的擴展。大模型第一性原理擴展定律(Scaling Laws)不斷獲得驗證,已經(jīng)讓 AI 在很多領(lǐng)域中獲得了接近甚至超越人類的能力。
進入大模型時代的自動駕駛又是如何?
近日,Waymo 使用大量內(nèi)部數(shù)據(jù)進行了一項全面的研究,發(fā)現(xiàn)與大語言模型(LLM)類似,自動駕駛過程中 AI 對于運動預(yù)測的質(zhì)量也遵循訓(xùn)練計算的冪律 —— 模型參數(shù)規(guī)模擴大、訓(xùn)練數(shù)據(jù)量的擴展、大規(guī)模的并行計算對于提高模型處理更具挑戰(zhàn)性的駕駛場景的能力來說至關(guān)重要。
圖片來自 Waymo。
其實小鵬此前在構(gòu)建智駕系統(tǒng)時,也清晰地觀察到了 Scaling Laws 顯現(xiàn)。他們是大模型浪潮以來,行業(yè)內(nèi)首個基于大規(guī)模量產(chǎn)車隊和海量真實用戶數(shù)據(jù),對自動駕駛 Scaling Laws 做出驗證的研發(fā)團隊。
事實上,小鵬很早就啟動了向 AI 公司轉(zhuǎn)型的進程。
小鵬自 2024 年開始布局 AI 基礎(chǔ)設(shè)施,建成了國內(nèi)汽車行業(yè)首個萬卡智算集群,用以支持基座模型的預(yù)訓(xùn)練、后訓(xùn)練、模型蒸餾、車端模型訓(xùn)練等任務(wù)。這套從云到端的生產(chǎn)流程被稱為「云端模型工廠」,擁有 10 EFLOPS 的算力,集群運行效率常年保持在 90% 以上,全鏈路迭代周期可快至平均五天一次。
如此算力規(guī)模和運營效率,堪比頭部 AI 企業(yè)。
從行業(yè)的視角看,我們或許可以從特斯拉 FSD 領(lǐng)先的能力中窺見大規(guī)模 AI 基礎(chǔ)設(shè)施的重要性。但在造車新舊勢力中,目前擁抱 AI、敢于投入大量資源的玩家尚不多見。
這其中有機遇,必然也意味著挑戰(zhàn)。劉先明表示,比起大語言模型,自動駕駛基座模型的研發(fā)更復(fù)雜、更具挑戰(zhàn)性。自動駕駛的訓(xùn)練數(shù)據(jù)模態(tài)更多、信息量多出幾個數(shù)量級,對于自動駕駛?cè)蝿?wù)來說,所有技術(shù)都要基于對物理世界的認(rèn)知進行從頭驗證。
敢于轉(zhuǎn)型 AI 公司的玩家,必須要做到長期大規(guī)模投入,并發(fā)展出完善、高效率的技術(shù)棧。
在 CVPR 大會現(xiàn)場,小鵬揭秘了兩個核心數(shù)據(jù):
- 小鵬的云上基模在訓(xùn)練過程中已處理超過 40 萬小時的視頻數(shù)據(jù);
- 其流式多處理器的利用率(streaming multiprocessor utilization)已達(dá)到 85%。
前者驗證了小鵬的數(shù)據(jù)處理能力,后者是指 GPU 的核心計算單元的運行效率,是評判計算資源使用效率的重要指標(biāo)。據(jù)業(yè)內(nèi)人士評估,85% 的利用率數(shù)字基本摸到了行業(yè)天花板,在大模型圈內(nèi)也屬于頂尖水平。
劉先明透露,小鵬對標(biāo)業(yè)內(nèi)領(lǐng)先 AI 公司的標(biāo)準(zhǔn),從頭搭建了自己的數(shù)據(jù)和 AI 基礎(chǔ)設(shè)施,有充分的信心做到行業(yè)前列。他從云端模型訓(xùn)練和車端模型部署兩個層面,分別介紹了自動駕駛團隊提升模型訓(xùn)練效率的方法。
在模型訓(xùn)練層面,研發(fā)團隊分別對 CPU、GPU 的效率、容錯性等方面進行聯(lián)合優(yōu)化,著重解決數(shù)據(jù)加載、并行通信等瓶頸問題。在 CPU 的利用上,團隊啟用了額外 CPU 節(jié)點提升數(shù)據(jù)加載能力,對 PyTorch 進行定制化,采取了激進的數(shù)據(jù)物化策略,并通過優(yōu)化打亂模式,在速度與隨機性之間取得了平衡。
在 GPU 計算資源的利用上,研發(fā)團隊使用 FSDP 2 實現(xiàn)了模型分片,使用 FP8 混合精度進行訓(xùn)練,自定義了 Triton 內(nèi)核,并引入了 Flash Attention 3 加快計算速度。
到了模型部署層面,小鵬為 AI 大模型定制的「圖靈 AI 芯片」、全鏈路調(diào)優(yōu)的優(yōu)勢進一步顯現(xiàn)。在 G7 新車落地的過程中,模型、編譯器、芯片團隊針對下一代模型開展聯(lián)合研發(fā),比如定制 AI 編譯器以最大化執(zhí)行效率,協(xié)同設(shè)計硬件、量化友好的模型架構(gòu),確保軟硬件充分耦合,最終「榨干」了車端算力。
「車端計算負(fù)載的重要來源是輸入 token 數(shù)量。以配備 7 個攝像頭的 VLA 模型為例,每輸入約兩秒視頻就會產(chǎn)生超過 5000 token。我們一方面要壓縮輸入中的冗余信息,降低計算延遲。另一方面要確保輸入視頻的長度,以獲得更豐富的上下文信息,」劉先明介紹道。
小鵬團隊為此專門設(shè)計了針對 VLA 模型的 token 壓縮方法,可在不影響上下文長度的情況下,將車端芯片的 token 處理量壓縮 70%。
從「軟件開發(fā)汽車」走向「AI 開發(fā)汽車」
從 AI 基礎(chǔ)設(shè)施做起,進行全鏈路優(yōu)化,打造高度自研的體系,這條路線或許會成為未來自動駕駛技術(shù)向上突破的范式。
更長遠(yuǎn)地看,在轉(zhuǎn)型成為 AI 公司之后,逐漸理解世界的通用化模型不僅能服務(wù)自動駕駛,也能夠為更多全新的自動化能力打開想象空間?;蛟S正如黃仁勛所說的,在不遠(yuǎn)的未來,AI 芯片的集群將不再是芯片,而會化身為「思考機器」,實現(xiàn)自我思考、自我進化。
小鵬 G7 發(fā)布時,何小鵬就透露道,就在今年內(nèi),G7 還會擁有「極其重大」的新功能。
期待 AI 進化的下一個節(jié)點。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.