機器之心報道
作者:澤南
L3 級別智能駕駛的關鍵:大算力、大模型、大數據。
端到端智能駕駛,正在沿著大模型 Scaling Laws 的道路狂奔。
上周三,全球首款 L3 級算力「AI 汽車」小鵬 G7 正式亮相,其首發搭載的三顆自研圖靈 AI 芯片,超過 2200TOPS 有效算力,本地部署的 VLA+VLM 模型等特性引發了關注。
基于超高端側算力,小鵬 G7 行業首發了智駕大腦 + 小腦 VLA-OL 模型,第一次給智能輔助駕駛加入了「運動型大腦」的決策判斷能力。
小鵬 G7 同時首發了 VLM(視覺大模型),它可以作為車輛理解世界的 AI 大腦,將會是人與汽車交互的新一代入口。作為車輛行動的中樞,可以指導智能輔助駕駛和智艙等整車能力,未來還可以實現本地聊天、主動服務、多語言等功能。
同樣是在上周,美國納什維爾舉行的全球計算機視覺頂會 CVPR 2025 上,小鵬作為唯一受邀的中國車企分享了其自動駕駛基座模型的研發進展。
小鵬自去年 5 月就宣布了量產端到端大模型上車,并構建了從算力、算法到數據的全面體系。今年 4 月,小鵬官宣正在研發下一代自動駕駛基座模型。今年的 CVPR 上,小鵬首次對外曬出了其世界基座模型的技術細節。
小鵬世界基座模型負責人劉先明展示了基座模型在真實城市環境復雜路面的控車能力。在沒有任何規則代碼托底的情況下,AI 面對復雜路口可以實現正確變道繞行,避開侵入車道的大貨車,再避讓逆行的自行車:
在經過施工區域前,它能提前繞行避障:
還可以完成一連串的復雜動作:直行道上,前方大車切出后,看到臨停車變道繞行;遇到突然橫穿馬路的電動摩托車,成功避讓;左側忽然有一輛大貨車加塞,減速靈活應對。
盡管只是在后裝算力的車輛上用早期版本的模型進行測試,小鵬自動駕駛基模已經展現出令人驚嘆的智能和擬人水平。
今年的 CVPR 大會上,與小鵬共同登臺的是 Waymo、英偉達、UCLA、圖賓根大學等工業界、學術界的自動駕駛頂流??雌饋恚※i的智能駕駛已走到了業界領先的位置,其智能駕駛體系開始在主流 AI 圈層「上桌吃飯」。
從端到端到世界模型
開啟智能駕駛下一個 Level
過去幾年,在智駕和智能座艙上,我們都見證了不少新功能的上線,但不論是城市范圍的智能駕駛,還是讓汽車有了「人的溫度」的座艙語音助手,其進步都往往體現在細節能力的橫向擴展,從智能化的高度來看,縱向的提升卻不明顯。
ChatGPT 引爆的新一輪 AI 技術躍進,讓基于端到端的全新技術范式,逐漸成為了駕駛通向 L3、L4 智能駕駛的敲門磚。
整個智能駕駛行業在 L2 階段已經停留太久。小鵬認為,「大算力 + 大模型」時代的到來,已為整個行業的 L3 進階鋪好了基石。
小鵬汽車董事長何小鵬在前幾天的 G7 新車發布會上指出,邁向 L3 級算力 AI 汽車需要滿足兩個前提條件:本地有效算力大于 2000TOPS,在本地部署 VLA+VLM 大模型。為此,他們很早就開始布局自動駕駛基座模型賽道,并構建了從算力、算法到數據的全面體系,在新方向上一直保持著領先的身位。
在 CVPR 2025 的自動駕駛研討會 WAD(Workshop on Autonomous Driving)上,劉先明發表了題為《通過大規?;A模型實現自動駕駛的規?;罚⊿caling up Autonomous Driving via Large Foudation Models)的演講,介紹了小鵬自研業界首個超大規模自動駕駛基座模型的歷程,還披露了其在模型預訓練、強化學習、模型車端部署、AI 基礎設施搭建方面的一系列探索。
在發布 G7 時,小鵬表示「大算力 + 物理世界大模型 + 大數據」將共同定義未來「AI 汽車」的能力上限,其中的「物理世界大模型」正是劉先明團隊研發的自動駕駛基座模型。
對于自動駕駛來說,如何能夠保證行駛的安全、穩定,讓 AI 系統在出現「前所未見」情況時能夠做出正確決策,一直是技術的最大挑戰?;谑澜缁P偷男乱淮軜嫞瑸闃I界帶來了希望。
今年 4 月,小鵬汽車首次披露了自身的下一代自動駕駛基座模型。該云端基礎模型參數規模達到 720 億,目前訓練數據已超過 2000 萬條視頻片段(每條時長 30 秒)。它以大語言模型為骨干,使用海量優質多模態駕駛數據進行訓練,具備視覺理解、鏈式推理(CoT)和動作生成能力。通過強化學習(RL)后訓練,它可以不斷自我進化,逐步發展出了更全面、更擬人的自動駕駛技術。
世界基座模型的一大優勢是具備 CoT 能力。就像 DeepSeek R1 在回答問題時展示的「強推理」過程一樣,自動駕駛的 AI 模型也能在充分理解現實世界規律的基礎上,像人類一樣進行相對復雜的常識推理,做出行動決策,如輸出打方向盤、剎車等控制信號,實現與物理世界的交互。
這大幅提升了自動駕駛的能力?,F在 AI 在遇到復雜、危險或特別少見(訓練時未見過)的場景時,能夠進行條理清晰的邏輯推理,正確分析道路交通環境,關注到對自車行為有影響的關鍵目標、交通信號燈等指示,并對自身下一步決策作出推理,隨后形成動作規劃,生成下一步的軌跡。
如果說傳統的自動駕駛模型是負責「開車」這項運動的「小腦」,基于大語言模型和海量優質數據訓練的新一代基座模型,則是同時具備開車和思考能力的「大腦」—— 它能像人類一樣主動思考并理解世界,絲滑地處理訓練數據中未見過的長尾場景(corner case),相比上代基于大量內嵌規則的智能駕駛更加安全,更具可解釋性,駕駛風格也更加擬人化。
有了「云端超級大腦」,接下來的挑戰,就是讓它在車輛端側高效運行。
由于車端算力的限制,能夠部署上車的 AI 模型必須經過剪枝、蒸餾等方法進行壓縮,目前業界主流的車端模型參數一般在幾百萬到十億級別。如果比照車端算力的容量直接訓練小模型,模型的性能上限會受到極大限制,更無從實現 CoT 等能力。
小鵬選擇了蒸餾的技術路線,先在云端「不計成本」地訓練大規模基座模型,再通過蒸餾的方式壓縮以適配車端算力,通過知識遷移的方式最大限度保留基模核心能力,幫助車端模型提升性能。
「云端基座模型 + 強化學習的組合,是讓模型性能突破的最好方法。云端基座模型好比一個人天生的智商,強化學習好比能力激化器,用來激發云端基座模型的智力潛能,提高基模的泛化能力,」劉先明表示。
在基座模型完成預訓練、監督精調(SFT)之后,模型會進入強化訓練階段。小鵬開發了自己的強化學習獎勵模型(Reward Model),主要從安全、效率、合規三個方向提升模型能力。
「這也是人類駕駛行為中的幾個核心原則,遇到不認識的障礙物要繞行,這是為了安全;路上遇到特別慢的車,適時變道超車,可以提高效率;按照紅綠燈、車道線、道路標牌的指示開車,這是合規,」劉先明表示。
在這個階段,小鵬以往輔助駕駛能力的研發經驗也被用于設計強化學習的獎勵函數,轉化成了新的生產力。
為了進一步提升自動駕駛的能力,提升泛化性,自動駕駛系統還需要接入世界模型。
小鵬自動駕駛團隊正在開發世界模型(World Model),未來計劃將其用作一種實時建模和反饋系統,基于動作信號模擬出真實環境狀態,渲染場景,并生成場景內其他智能體(也即交通參與者)的響應,從而構建一個閉環的反饋網絡,幫助基座模型進行強化學習等訓練。
也就是說,小鵬訓練好之后的基座模型并不是靜態的,它會持續學習、不斷迭代提升。
小鵬汽車的基座模型迭代過程分成內、外兩個循環,內循環是指包含預訓練、后訓練(包括監督精調 SFT 和強化學習 RL)和蒸餾部署的模型訓練過程;外循環,是指模型在車端部署之后,持續獲取新的駕駛數據和用戶反饋,數據回流云端,繼續用于云端基模的訓練。
說到世界模型,最近越來越多的 AI 研究者已經把它擺在了「通向 AGI 方向」的位置。圖靈獎得主 Yann LeCun 認為,世界模型是 AI 系統用于模擬和理解外部世界運作方式的內部模型。基于世界模型,AI 系統可以不斷適應新的動態環境,并高效地學習新技能。
Google DeepMind 近日提交的一份研究甚至證明:如果一個大模型智能體能夠處理復雜、長期的任務,那么它就一定學習過一個內部世界模型,越是通用的 AI,就學習得越精確。大模型和世界模型的發展,或許是殊途同歸。
小鵬在智能駕駛上的實踐,可以說提前判斷到了正確方向。未來,小鵬還將用這套技術賦能 AI 機器人、飛行汽車等設備。
轉型 AI 公司
驗證自動駕駛的 Scaling Laws
如果說端到端、世界模型是智能駕駛通向下一階段的方向,那么 AI 規模的擴展則可以說是驗證這一路線的核心標尺。
過去兩年半時間里,AI 性能的提升很大程度上得益于規模的擴展。大模型第一性原理擴展定律(Scaling Laws)不斷獲得驗證,已經讓 AI 在很多領域中獲得了接近甚至超越人類的能力。
進入大模型時代的自動駕駛又是如何?
近日,Waymo 使用大量內部數據進行了一項全面的研究,發現與大語言模型(LLM)類似,自動駕駛過程中 AI 對于運動預測的質量也遵循訓練計算的冪律 —— 模型參數規模擴大、訓練數據量的擴展、大規模的并行計算對于提高模型處理更具挑戰性的駕駛場景的能力來說至關重要。
圖片來自 Waymo。
其實小鵬此前在構建智駕系統時,也清晰地觀察到了 Scaling Laws 顯現。他們是大模型浪潮以來,行業內首個基于大規模量產車隊和海量真實用戶數據,對自動駕駛 Scaling Laws 做出驗證的研發團隊。
事實上,小鵬很早就啟動了向 AI 公司轉型的進程。
小鵬自 2024 年開始布局 AI 基礎設施,建成了國內汽車行業首個萬卡智算集群,用以支持基座模型的預訓練、后訓練、模型蒸餾、車端模型訓練等任務。這套從云到端的生產流程被稱為「云端模型工廠」,擁有 10 EFLOPS 的算力,集群運行效率常年保持在 90% 以上,全鏈路迭代周期可快至平均五天一次。
如此算力規模和運營效率,堪比頭部 AI 企業。
從行業的視角看,我們或許可以從特斯拉 FSD 領先的能力中窺見大規模 AI 基礎設施的重要性。但在造車新舊勢力中,目前擁抱 AI、敢于投入大量資源的玩家尚不多見。
這其中有機遇,必然也意味著挑戰。劉先明表示,比起大語言模型,自動駕駛基座模型的研發更復雜、更具挑戰性。自動駕駛的訓練數據模態更多、信息量多出幾個數量級,對于自動駕駛任務來說,所有技術都要基于對物理世界的認知進行從頭驗證。
敢于轉型 AI 公司的玩家,必須要做到長期大規模投入,并發展出完善、高效率的技術棧。
在 CVPR 大會現場,小鵬揭秘了兩個核心數據:
- 小鵬的云上基模在訓練過程中已處理超過 40 萬小時的視頻數據;
- 其流式多處理器的利用率(streaming multiprocessor utilization)已達到 85%。
前者驗證了小鵬的數據處理能力,后者是指 GPU 的核心計算單元的運行效率,是評判計算資源使用效率的重要指標。據業內人士評估,85% 的利用率數字基本摸到了行業天花板,在大模型圈內也屬于頂尖水平。
劉先明透露,小鵬對標業內領先 AI 公司的標準,從頭搭建了自己的數據和 AI 基礎設施,有充分的信心做到行業前列。他從云端模型訓練和車端模型部署兩個層面,分別介紹了自動駕駛團隊提升模型訓練效率的方法。
在模型訓練層面,研發團隊分別對 CPU、GPU 的效率、容錯性等方面進行聯合優化,著重解決數據加載、并行通信等瓶頸問題。在 CPU 的利用上,團隊啟用了額外 CPU 節點提升數據加載能力,對 PyTorch 進行定制化,采取了激進的數據物化策略,并通過優化打亂模式,在速度與隨機性之間取得了平衡。
在 GPU 計算資源的利用上,研發團隊使用 FSDP 2 實現了模型分片,使用 FP8 混合精度進行訓練,自定義了 Triton 內核,并引入了 Flash Attention 3 加快計算速度。
到了模型部署層面,小鵬為 AI 大模型定制的「圖靈 AI 芯片」、全鏈路調優的優勢進一步顯現。在 G7 新車落地的過程中,模型、編譯器、芯片團隊針對下一代模型開展聯合研發,比如定制 AI 編譯器以最大化執行效率,協同設計硬件、量化友好的模型架構,確保軟硬件充分耦合,最終「榨干」了車端算力。
「車端計算負載的重要來源是輸入 token 數量。以配備 7 個攝像頭的 VLA 模型為例,每輸入約兩秒視頻就會產生超過 5000 token。我們一方面要壓縮輸入中的冗余信息,降低計算延遲。另一方面要確保輸入視頻的長度,以獲得更豐富的上下文信息,」劉先明介紹道。
小鵬團隊為此專門設計了針對 VLA 模型的 token 壓縮方法,可在不影響上下文長度的情況下,將車端芯片的 token 處理量壓縮 70%。
從「軟件開發汽車」走向「AI 開發汽車」
從 AI 基礎設施做起,進行全鏈路優化,打造高度自研的體系,這條路線或許會成為未來自動駕駛技術向上突破的范式。
更長遠地看,在轉型成為 AI 公司之后,逐漸理解世界的通用化模型不僅能服務自動駕駛,也能夠為更多全新的自動化能力打開想象空間?;蛟S正如黃仁勛所說的,在不遠的未來,AI 芯片的集群將不再是芯片,而會化身為「思考機器」,實現自我思考、自我進化。
小鵬 G7 發布時,何小鵬就透露道,就在今年內,G7 還會擁有「極其重大」的新功能。
期待 AI 進化的下一個節點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.