6月11日,在小鵬G7上市發(fā)布會的同一天,小鵬汽車世界基座模型負責人劉先明博士在美國參加了AI頂會——CVPR 2025,并于CVPR WAD(Workshop on Autonomous Driving)上發(fā)表了演講。
他圍繞小鵬布局在云端的自動駕駛基座模型,披露了其團隊在模型預(yù)訓練、強化學習、模型車端部署、AI和數(shù)據(jù)基礎(chǔ)設(shè)施搭建等方面的前沿探索和實踐經(jīng)驗。
此時,距離來自中國的「端到端自動駕駛」相關(guān)論文獲得CVPR Best paper已有兩年,智駕技術(shù)框架已從Rule-based全面進化至Data-based,而后又發(fā)展出VLM、VLA、強化學習、,以及針對基礎(chǔ)模型的多種算法。
相比于2023年獲得殊榮的《以路徑規(guī)劃為導向的自動駕駛》,再看小鵬的演講標題《通過大規(guī)模基礎(chǔ)模型實現(xiàn)自動駕駛的規(guī)模化》,足以體現(xiàn)出自動駕駛的發(fā)展之快,以及小鵬將前沿技術(shù)量產(chǎn)落地的執(zhí)行力。
盡管在大洋彼岸的小鵬G7發(fā)布會上,信息已經(jīng)非常豐富,但只有通過此次演講的內(nèi)容,才會意識到G7不只是何小鵬所說的「L3級算力的AI汽車」這么簡單。
Scaling Law在VLA上持續(xù)生效
在G7的發(fā)布會上,何小鵬指出了「L3級算力平臺」的兩大標準:1、有效算力大于2000TOPS;2、搭載本地部署的「VLA+VLM模型」。
這兩大標準,相當于走向高階智駕的一種硬性門檻,也意味著一輛車能擁有更高的能力上限。
但是,在這樣的車端門檻背后,也需要不停探索上限的云端推手。小鵬的關(guān)鍵「推手」之一,就是劉先明團隊研發(fā)的自動駕駛基座模型——「物理世界大模型」。
據(jù)劉先明介紹,小鵬的下一代基座模型是以大語言模型為骨干網(wǎng)絡(luò),并使用海量優(yōu)質(zhì)駕駛數(shù)據(jù)訓練的VLA大模型。
除了具備視覺理解能力、鏈式思考能力(CoT)和動作生成能力,它還具備后訓練階段的強化學習。
其中,CoT邏輯推理高度類人——先看清道路交通環(huán)境,關(guān)注到對自車行為有影響的關(guān)鍵目標物,隨后分析交通信號燈的指示,并作出推理,生成下一步的軌跡。
為了達到理想的推理效果,小鵬自動駕駛基座模型的訓練數(shù)據(jù)包括了攝像頭信息、導航信息等關(guān)于物理世界的多模態(tài)數(shù)據(jù)。
“小鵬在云上訓練了10億、30億、70億、720億等多個參數(shù)的模型,并持續(xù)向模型投喂更大規(guī)模的訓練數(shù)據(jù),目前基座模型累計吃下了2000多萬條視頻片段(每條時長30秒)。”
劉先明表示,在此過程中,研發(fā)團隊明確驗證了Scaling Law在自動駕駛VLA模型上持續(xù)生效。
值得注意的是,小鵬G7首發(fā)的VLA-OL模型,正式通過蒸餾技術(shù),將云端基模的能力部署到車端,同時還實現(xiàn)了全本地端運行,無需依賴網(wǎng)絡(luò)連接,從而擺脫了網(wǎng)絡(luò)和地域限制,確保了無延遲的復雜判斷執(zhí)行。
RL:讓基模持續(xù)突破的神器
大家能留意到了,小鵬G7搭載的VLA多了個后綴——OL(Online Reinforcement Learning)。這也就意味著,自G7開始,小鵬的「持續(xù)強化學習」道路正式鋪開。而且何小鵬表示,這項能力在下一代會逐步進化為自主強化學習。
“云端基座模型好比一個人天生的智商,強化學習則好比能力激化器。”劉先明表示,云端基座模型+強化學習的組合,是讓模型性能突破天際的最好方法。
這里還必須要提及如今業(yè)界最熱門的一種「評分方法」——強化學習獎勵模型(Reward Model)。
據(jù)劉先明介紹,小鵬的基座模型在完成預(yù)訓練、監(jiān)督精調(diào)(SFT)之后,就會進入強化訓練階段。而強化學習的獎勵模型主要從三個方面激發(fā)基模潛能:安全、效率、合規(guī),這也是人類駕駛行為中的幾個核心原則。
據(jù)劉先明介紹,目前,小鵬就已經(jīng)在后裝算力的車端上用小尺寸的基模實現(xiàn)了控車,在沒有任何規(guī)則代碼托底的情況下,新的「AI大腦」展現(xiàn)出令人驚喜的基礎(chǔ)駕車技能,能夠絲滑地加減速、變道繞行、轉(zhuǎn)彎掉頭、等待紅綠燈等等。
(提前變道,避讓施工區(qū);繼續(xù)通行,遇到從小路匯入主路的大貨車,減速應(yīng)對。)
“我們的基座模型不是靜態(tài)的,它在持續(xù)學習、循環(huán)進化(Continued Online Learning)。”
模型的迭代過程分成內(nèi)、外兩個循環(huán):內(nèi)循環(huán)是指包含預(yù)訓練、后訓練(包括監(jiān)督精調(diào)SFT和強化學習RL)和蒸餾部署的模型訓練過程;外循環(huán),是指模型在車端部署之后,持續(xù)獲取新的駕駛數(shù)據(jù)和用戶反饋,數(shù)據(jù)回流云端,繼續(xù)用于云端基模的訓練。”
將這樣已經(jīng)形成訓練閉環(huán)、并且能持續(xù)強化學習的云端基模「賦能」到車端,再加上高達2200 TOPS的天花板級算力,這意味著G7的車端智能輔助駕駛能力,將實現(xiàn)根本性的進階——據(jù)官方介紹,G7的智駕輔助能力相比行業(yè)主流水平提高了10至100倍。
或許,也這可以解釋為何G7還是毅然選擇了純視覺路線,因為這在某些程度上,足以證明一款A(yù)I汽車對于其軟硬件能力的自信。
不過,這一切還只是剛剛開始。小鵬汽車自動駕駛團隊還在開發(fā)世界模型,未來會將其用作一種實時建模和反饋系統(tǒng),基于動作信號模擬出真實環(huán)境狀態(tài),渲染場景,并生成場景內(nèi)其他智能體和交通參與者的響應(yīng),從而構(gòu)建一個閉環(huán)的反饋網(wǎng)絡(luò),幫助基座模型進行強化學習等訓練。
CoT的底氣:數(shù)據(jù)資本
“強化學習非常講究數(shù)據(jù)采樣,也非常依賴來自真實世界的數(shù)據(jù)。”
盡管目前整個具身智能行業(yè)都在強調(diào)數(shù)據(jù)的來之不易,以及仿真/合成數(shù)據(jù)的關(guān)鍵作用。但真值數(shù)據(jù)的意義顯然不容忽視,高效的世界模型+真實數(shù)據(jù),就像是「如虎添翼」。
劉先明表示,小鵬現(xiàn)有幾十萬輛輔助駕駛車輛跑在全國各地,包括也將規(guī)模化上路的G7,都會源源不斷地創(chuàng)造著新的訓練數(shù)據(jù),包括大量的長尾場景數(shù)據(jù)。
“比如說,不久前我們收到福州的一位用戶發(fā)來的視頻:他開車來到一個紅綠燈路口,發(fā)現(xiàn)馬路對面的主干道上有兩棵大樹,一時看不明白車道在哪,仔細觀察才知道需要從兩棵樹之間的縫隙穿越而過。”
劉先明稱,這就屬于典型的CoT場景,需要模型做個實時推理:“我在哪?發(fā)生了什么?我要怎么走?第一原則是安全,也就是判斷車道線寬度,隨即待綠燈亮了之后,緩行通過。
硬核基建:云端模型工廠
為了研發(fā)下一代基模,小鵬的AI基礎(chǔ)設(shè)施堪稱「豪橫」——它建成了國內(nèi)汽車行業(yè)首個萬卡智算集群,用以支持基座模型的預(yù)訓練、后訓練、模型蒸餾、車端模型訓練等任務(wù),小鵬將這套從云到端的生產(chǎn)流程稱為「云端模型工廠」。
目前,該「工廠」擁有10 EFLOPS的算力,集群運行效率常年保持在90%以上,全鏈路迭代周期可達平均5天一次。
CVPR大會現(xiàn)場,劉先明首次展示了兩個核心數(shù)據(jù):
1.小鵬云上基模訓練過程中,處理了超過40萬小時的視頻數(shù)據(jù);
2、流式多處理器的利用率(streaming multiprocessor utilization)達到85%。
前者代表數(shù)據(jù)處理能力,后者所說的流式多處理器是GPU的核心計算單元,其高并行計算能力對提升系統(tǒng)性能至關(guān)重要,也會對延時率產(chǎn)生直接影響。而85%的利用率堪稱行業(yè)天花板。
另外,他從云端模型訓練和車端模型部署兩個層面,拆解了小鵬自動駕駛團隊提升模型訓練效率的方法:
在模型訓練層面,研發(fā)團隊在CPU、GPU、容錯性方面做了聯(lián)合優(yōu)化:“VLM、VLA等多模態(tài)模型不同于LLM,訓練過程不只受限于計算瓶頸,還受到數(shù)據(jù)加載瓶頸、通信瓶頸的限制,大規(guī)模并行訓練首先要解決這些問題。”
針對數(shù)據(jù)加載問題,研發(fā)團隊對CPU的利用作了如下優(yōu)化:
- 1.啟用額外的CPU節(jié)點:分擔數(shù)據(jù)加載任務(wù),緩解GPU節(jié)點數(shù)據(jù)加載壓力,保障GPU計算資源能更專注于核心計算任務(wù);
- 2.對PyTorch進行定制化改造:減少框架內(nèi)部進程間通信的冗余環(huán)節(jié),降低通信開銷,使數(shù)據(jù)傳輸更高效,減少性能損耗;
- 3.激進的數(shù)據(jù)物化策略:更徹底地預(yù)處理數(shù)據(jù),減少CPU在數(shù)據(jù)加載階段的實時處理負擔,提升數(shù)據(jù)加載速度;
- 4、優(yōu)化打亂(shuffling)模式:可增加模型訓練的隨機性,防止過擬合,在速度與隨機性之間取得平衡。
另外,針對GPU計算資源的利用,研發(fā)團隊首先通過FSDP 2實現(xiàn)模型分片使用FP8混合精度訓練,并利用Flash Attention 3加快計算速度;同時也基于自定義Triton內(nèi)核,充分發(fā)揮GPU性能,提高計算效率。
模型的車端部署層面,自研圖靈芯片成為了小鵬「贏在起跑線」的優(yōu)勢:它專為大模型定制,模型、編譯器、芯片團隊針對下一代模型開展了充分的聯(lián)合研發(fā)工作,「榨干」車端算力。
正如何小鵬所說的,自研圖靈芯片的核心不是為了降本,而是要解決通用芯片不難以發(fā)揮100%算力的短板。而圖靈芯片從一開始就是為AI大模型所定制的,因此能做到「一顆頂主流的三顆芯片」。
而搭載了3顆圖靈芯片的G7,比目前行業(yè)80-700TOPS的主流算力區(qū)間高出數(shù)倍,而且還是專門為AI大模型而生的原生芯片。所以,「算力充足」只是它的基礎(chǔ)部分,它的性能、先進架構(gòu)設(shè)計,以及走向高階自動駕駛的「野心」,即將透過G7逐步展現(xiàn)出來。
除此之外,劉先明還介紹稱,小鵬還創(chuàng)新設(shè)計了針對車端VLA模型的token壓縮方法,可在不影響上下文長度的情況下,將token處理量壓縮70%(從5000壓縮至1500),降低計算延時。
綜合來看,在如此豐富、高效的云端基座大模型的加持下,其落地到終端的能力絕對值得行業(yè)關(guān)注。在此背景下誕生的小鵬G7,不僅算力爆表,還堪稱搭載前沿AI技術(shù)的「集大成者」——端側(cè)大腦的自我思考能力、持續(xù)強化學習的能力,以及定制AI芯片的高效發(fā)揮,注定G7可以實現(xiàn)高度類人的駕駛思維,以及極低延時的復雜判斷執(zhí)行。
如此看了,G7配得上Ultra的名字,它不僅代表了質(zhì)的飛躍,更預(yù)示著未來的迭代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.