本文約6,500字,建議收藏閱讀
作者| 魯大師
出品| 汽車電子與軟件
本文圍繞AI與數(shù)據(jù)合成在自動駕駛領域的應用展開,全面探討了數(shù)據(jù)合成產(chǎn)業(yè)的各個方面,包括數(shù)據(jù)合成產(chǎn)業(yè)概覽、基于世界模型的數(shù)據(jù)合成技術、合成數(shù)據(jù)的產(chǎn)生原因、商業(yè)模式以及優(yōu)勢與挑戰(zhàn),還對市場進行了分析,并介紹了相關產(chǎn)品方案和技術架構,為深入了解該領域提供了豐富信息。
#01
數(shù)據(jù)合成產(chǎn)業(yè)概覽
1、自動駕駛數(shù)據(jù)合成產(chǎn)生的原因
1. 真實數(shù)據(jù)采集的挑戰(zhàn):包括成本高昂、長尾場景稀缺、隱私與法律風險、地域局限性等問題。
2. 算法訓練與迭代的需求:真實數(shù)據(jù)在適配硬件、標注成本和誤差、強化學習等方面存在局限性,合成數(shù)據(jù)可彌補這些不足。同時,合成數(shù)據(jù)有助于降低成本、打破數(shù)據(jù)壟斷、促進跨領域協(xié)作,緩解自動駕駛公司商業(yè)化和行業(yè)競爭壓力。
3. L4/L5級自動駕駛研發(fā)、生成式AI技術進步、政策強制要求以及合成數(shù)據(jù)在成本效率方面的優(yōu)勢,共同推動市場發(fā)展。
2、宏觀市場分析
合成數(shù)據(jù)是人工合成的數(shù)據(jù),涵蓋多種類型,當前企業(yè)使用以文本、圖像和表數(shù)據(jù)為主。Gartner預測其在大模型訓練數(shù)據(jù)中的占比將大幅提升。馬斯克也指出合成數(shù)據(jù)對補充AI訓練數(shù)據(jù)的重要性。
從市場來看,合成數(shù)據(jù)市場正呈現(xiàn)出快速增長的態(tài)勢。技術需求爆發(fā)、政策強制要求以及成本效率優(yōu)勢成為關鍵驅動因素。L4/L5級自動駕駛研發(fā)加速,需覆蓋超100億公里虛擬測試里程;生成式AI提升合成數(shù)據(jù)質量,縮小了虛擬與現(xiàn)實之間的差距;中國和歐盟的相關政策也推動了合成數(shù)據(jù)在自動駕駛領域的應用。
細分市場中,仿真平臺工具鏈初期主導市場,但增速放緩,未來增長點在于物理引擎精度提升;生成式AI服務增速最快,主要應用于長尾場景生成;標注與驗證服務需求穩(wěn)定,因為合成數(shù)據(jù)仍需與真實數(shù)據(jù)混合訓練,并進行標注驗證一致性。
眾多企業(yè)在自動駕駛數(shù)據(jù)合成領域積極布局。光輪智能結合生成式AI與仿真技術,提供高仿真3D合成數(shù)據(jù);卓印智能的Simulaix合成數(shù)據(jù)支持文生圖片、視頻等多種數(shù)據(jù)類型生成,并帶有標注;ParallelDomain的合成數(shù)據(jù)生成平臺支持多傳感器數(shù)據(jù)合成和多樣化場景模擬;曼孚科技的MindFlowSEED數(shù)據(jù)服務平臺實現(xiàn)了AI+RPA驅動的數(shù)據(jù)標注與合成;ScaleAI通過AI自動化標注與合成數(shù)據(jù)生成,提升數(shù)據(jù)生產(chǎn)效率。這些企業(yè)的產(chǎn)品和服務各具特色,推動了數(shù)據(jù)合成技術在自動駕駛領域的廣泛應用。
數(shù)據(jù)合成企業(yè)產(chǎn)品對比
#02
基于世界模型的數(shù)據(jù)合成技術
1、技術架構的核心邏輯
自動駕駛數(shù)據(jù)合成的終極目標,是用虛擬數(shù)據(jù)構建一個可模擬真實駕駛場景的“數(shù)字孿生世界”。基于世界模型的技術架構正是這一目標的實現(xiàn)載體,其核心邏輯可概括為:通過多模態(tài)數(shù)據(jù)建模→構建動態(tài)世界模型→驅動生成式算法→輸出高保真合成數(shù)據(jù)。
我們可以用一張簡化的架構圖來直觀呈現(xiàn)其核心模塊:
2、數(shù)據(jù)輸入層
自動駕駛場景的復雜性,決定了數(shù)據(jù)輸入必須覆蓋視覺、雷達、文本、地圖等多維度信息:
視覺與雷達數(shù)據(jù)
攝像頭圖像:采集道路紋理、車輛外觀、行人姿態(tài)等視覺特征(如 1920×1080 像素的 RGB 圖像)。
激光雷達點云:提供三維空間坐標與反射強度數(shù)據(jù)(如 16 線 / 64 線激光雷達的點云序列)。
案例:Waymo 的無人車每秒可收集約 2000 幀圖像和 150 萬點云數(shù)據(jù),這些數(shù)據(jù)為世界模型提供了最底層的物理表征。
語義與規(guī)則數(shù)據(jù)
高精地圖:包含車道線、交通標志、紅綠燈位置等靜態(tài)語義(如百度 Apollo 的高精地圖精度達厘米級)。
交通規(guī)則文本:如“紅燈停、綠燈行”“禁止超車區(qū)域” 等邏輯約束,通過 NLP 技術解析為模型可理解的規(guī)則向量。
時序動態(tài)數(shù)據(jù)
IMU 慣性數(shù)據(jù):記錄車輛加速度、角速度等運動狀態(tài),用于構建時間序列的動態(tài)關聯(lián)。
歷史軌跡數(shù)據(jù):包含車輛、行人的歷史移動路徑,用于訓練模型對“未來行為” 的預測能力。
3、世界模型構建層
世界模型是整個架構的“大腦”,其核心任務是將多模態(tài)數(shù)據(jù)轉化為對世界運行規(guī)律的數(shù)學描述。這一過程包含三大關鍵能力:
1)跨模態(tài)語義對齊
技術實現(xiàn):通過 CLIP、ALBEF 等跨模態(tài)模型,將圖像中的視覺特征(如 “紅色轎車”)與文本中的語義標簽(如 “Car, Red, Sedan”)映射到同一向量空間。
案例:特斯拉的 HydraNets 模型可同時處理圖像、雷達和導航數(shù)據(jù),實現(xiàn) “看到紅燈” 與 “停車規(guī)則” 的語義關聯(lián)。
2)時空動態(tài)建模
時間維度:利用 TransformerEncoder 捕捉長時序依賴(如車輛變道前 3 秒的轉向燈信號與后續(xù)軌跡的關聯(lián))。
空間維度:基于物理引擎(如 CARLA 模擬器)模擬車輛動力學(如制動距離與車速的關系)、行人運動學(如突然橫穿馬路的加速度模型)。
公式示例:車輛跟馳模型中的加速度公式:\(a_n(t+T) = \lambda \left( v_n^*(t) - v_n(t) \right)\) (\(v_n^*(t)\)為期望速度,\(\lambda\)為反應系數(shù),體現(xiàn)駕駛員行為的時間延遲)
3)場景語義抽象
分層建模:將場景分解為“靜態(tài)元素”(道路、建筑)、“動態(tài)主體”(車輛、行人)、“事件邏輯”(交通規(guī)則、交互行為)三層結構。
知識圖譜應用:構建包含“車輛 - 行人 - 信號燈” 關系的知識圖譜,如 “行人闖紅燈→車輛緊急制動” 的因果鏈,確保合成場景的邏輯自洽。
4、生成式模型驅動層
在世界模型提供的“虛擬世界” 基礎上,生成式模型負責高效產(chǎn)出符合需求的合成數(shù)據(jù)。根據(jù)任務類型,可分為三類核心算法:
1)圖像/視頻生成
擴散模型(Diffusion Models)
代表技術:NVIDIA 的 GauGAN2,可根據(jù)語義掩碼生成逼真街景(如 “左側有公交車站的雙向車道”)。
優(yōu)勢:生成圖像分辨率高(可達 2048×1024),支持局部細節(jié)控制(如調(diào)整某輛車的顏色)。
對抗生成網(wǎng)絡(GANs)
典型應用:Unity 的 Barracuda 框架,實時生成虛擬測試場景,用于自動駕駛算法的閉環(huán)驗證。
局限性:生成數(shù)據(jù)可能存在“模式崩潰”(如重復生成相似車輛姿態(tài)),需結合世界模型的約束避免。
2)時序序列生成
自回歸模型(Autoregressive Models)
技術實現(xiàn):基于 Transformer 的 Decoder 結構,逐幀生成視頻序列(如車輛從直行到左轉的連續(xù)動作)。
關鍵參數(shù):時間步長(通常為 0.1 秒 / 幀)、動作空間離散化(如方向盤轉角 ±30° 范圍內(nèi)的 100 個離散值)。
3)緣場景增強
條件生成模型:通過輸入“極端天氣”“施工路段” 等條件標簽,強制模型生成罕見場景。
案例:Waymo 的 “雨天 + 夜間 + 擁堵” 三重條件合成數(shù)據(jù),可使算法在該場景下的避障成功率提升 47%。
主流生成式模型性能差異
5、數(shù)據(jù)輸出與評估層
合成數(shù)據(jù)需通過三重校驗才能投入使用:
1)統(tǒng)計特征對齊
指標:計算合成數(shù)據(jù)與真實數(shù)據(jù)的像素分布 KL 散度、點云密度 Wasserstein 距離,要求差異小于 15%。
工具:TensorFlow Probability 庫,自動生成分布對比直方圖。
2)語義一致性校驗
規(guī)則引擎:基于交通法規(guī)知識圖譜,檢查“紅燈時車輛是否停止”“行人是否在斑馬線上” 等邏輯。
案例:某合成場景中出現(xiàn)“車輛在禁止左轉路口轉彎”,被規(guī)則引擎自動標記為無效數(shù)據(jù)。
3)跨模態(tài)一致性校驗
時間戳對齊:確保圖像幀與雷達點云的時間差小于 50ms。
傳感器融合校驗:通過多傳感器聯(lián)合標定算法,驗證合成數(shù)據(jù)中“圖像中的車輛位置” 與 “雷達點云坐標” 的誤差小于 0.5 米。
數(shù)據(jù)評估與反饋機制
6、目前開源的世界模型
自動駕駛開源世界模型
開源廠家
代碼地址
模型簡介
主要功能
清華&北航:OccSora
https://gitcode.com/gh_mirrors/oc/OccSora
https://github.com/wzzheng/OccSora
基于擴散模型,通過引入四維場景標記器來獲取緊湊的時空表示,并利用擴散轉換器在給定軌跡提示下生成高質量的4D占用視頻
能夠生成具有真實3D布局和時間一致性的16秒視頻
清華大學:OccWorld
https://github.com/wzzheng/OccWorld
借鑒了類似 GPT 的架構,通過時空生成 Transformer 預測未來的場景和車輛軌跡,從而實現(xiàn)對動態(tài)場景的建模和規(guī)劃
加州大學:CarDreamer
https://github.com/ucd-dare/CarDreamer
這是第一個專門為開發(fā)基于 WM 的自動駕駛算法而設計的開源學習平臺。它包括三個關鍵組件:1)世界模型骨干:CarDreamer 集成了某些最先進的 WM,簡化了 RL 算法的再現(xiàn)。骨干與其它部分解耦,并使用標準 Gym 接口進行通信,以便用戶可以輕松集成和測試他們自己的算法。2)內(nèi)置任務:CarDreamer 提供了一套高度可配置的駕駛任務,這些任務與 Gym 接口兼容,并配備了經(jīng)驗優(yōu)化的獎勵函數(shù)。 3) 任務開發(fā)套件:本套件簡化了駕駛任務的創(chuàng)建,使定義交通流和車輛路線變得容易,并自動收集多模式觀測數(shù)據(jù)。
專注于提供一個開放的學習平臺,支持研究人員開發(fā)和測試復雜的自動駕駛算法
CarFormer
https://github.com/Shamdan17/CarFormer
一種自回歸Transformer,既可以駕駛也可以作為世界模型,預測未來狀態(tài)。
Doe-1
項目地址:https://wzzheng.net/Doe
源碼鏈接:https:/github.com/wzzheng/LDM
以端到端統(tǒng)一的方式自動生成感知、預測和規(guī)劃標記。
百度:BEVWorld
https://github.com/zympsyche/BevWorld
通過整合鳥瞰圖(BEV)潛在空間和多模態(tài)傳感器輸入(如LiDAR和圖像數(shù)據(jù)),構建一個能夠進行未來預測和環(huán)境理解的模型。
適用于長尾數(shù)據(jù)生成、閉環(huán)仿真測試以及對抗樣本處理,具有物理規(guī)律理解和零樣本探索的能力
WorldDreamer
https://github.com/JeffWang987/WorldDreamer
通用世界模型
DrivingWorld
https://github.com/YvanYin/DrivingWorld
GPT風格的自動駕駛世界模型
Drive-WM
https://github.com/BraveGroup/Drive-WM.git
結合了條件圖像生成、條件視頻生成等技術,并使用了開源項目diffusers來支持模型訓練和推理
通過世界模型技術實現(xiàn)對自動駕駛車輛未來行為的精準預測和高效規(guī)劃
https://blog.csdn.net/gitblog_00595/article/details/142199134
DriveDreamer-2
https://github.com/f1yfisher/DriveDreamer2
該模型基于 DriveDreamer 框架,并集成了大型語言模型(LLM)來生成用戶定義的駕駛視頻
僅使用文本提示作為輸入的交通仿真管道,可用于生成用于駕駛視頻生成的各種交通條件。
DriveDreamer4D
https://github.com/GigaAI-research/DriveDreamer4D
將世界模型作為數(shù)據(jù)生成器,通過結合真實駕駛數(shù)據(jù)生成新的軌跡視頻,從而顯著提升自動駕駛場景的時空一致性和渲染質量
#03
應用場景
涵蓋長尾場景覆蓋與數(shù)據(jù)增強、智駕功能出海適配、預期功能安全驗證、特殊場景仿真與行業(yè)擴展、數(shù)據(jù)隱私與合規(guī)性保障等多個方面。
1、邊緣場景訓練
合成數(shù)據(jù)可以用于構建低概率、高風險的邊緣場景,如復雜交通、惡劣天氣等。這些場景的數(shù)據(jù)采集難度較大,但通過合成數(shù)據(jù)技術,可以增加訓練樣本的多樣性和泛化能力,幫助主機廠加速模型訓練,解決預期功能安全問題。
2、海外交通場景
面對海外市場數(shù)據(jù)安全和隱私保護的需求,合成數(shù)據(jù)可以生成高逼真度的交通標志牌、停車場等場景,同時保護用戶隱私。這有助于海外消費者無縫體驗自動駕駛。
3、自動駕駛國家課題
合成數(shù)據(jù)被應用于北京大學牽頭的“面向自動駕駛場景的高真實感數(shù)據(jù)合成”研究課題,通過多模態(tài)數(shù)據(jù)標注的高逼真度合成場景數(shù)據(jù)集,推動視覺大模型和高速脈沖視覺模型算法的研究和應用。
4、違章與事故場景
合成數(shù)據(jù)可以用于路側感知算法的訓練,生成真實城市道路的高分辨率網(wǎng)路還原數(shù)據(jù)集,作為真實路側數(shù)據(jù)的補充,提高算法的準確性和魯棒性。
5、智能交通管理
通過合成數(shù)據(jù)模擬各種交通場景,幫助交通管理部門優(yōu)化交通流量控制、事件響應等。
6、自動駕駛算法訓練和測試
合成數(shù)據(jù)可以覆蓋各種極端場景和邊緣案例,提升算法的魯棒性。例如,特斯拉、英偉達、Waymo、百度和蔚來等公司已經(jīng)布局了世界領先的自動駕駛模型前瞻研發(fā)。
7、多模態(tài)傳感器數(shù)據(jù)合成
在自動駕駛出租車(Robotaxi)等場景中,合成數(shù)據(jù)技術可以用于多模態(tài)傳感器數(shù)據(jù)的合成,優(yōu)化自動駕駛系統(tǒng)的訓練與優(yōu)化。
8、生成式AI和世界模型
利用生成式AI和世界模型等先進人工智能技術生成高質量的合成數(shù)據(jù),有效緩解數(shù)據(jù)短缺難題,提升算法模型的可靠性。這些技術可以生成文本、圖片、視頻等不同類型的數(shù)據(jù),并快速提取大量未標記數(shù)據(jù)中的有價值信息。
9、自動駕駛數(shù)據(jù)平臺
自主駕駛數(shù)據(jù)平臺負責收集和管理來自不同傳感器的數(shù)據(jù),如激光雷達、攝像頭和傳感器融合數(shù)據(jù)。通過合成數(shù)據(jù)生成技術,研發(fā)團隊可以快速生成多樣化的場景,應對各種天氣、時間和交通狀況,顯著降低測試成本。
#04
商業(yè)模式&客戶群體
在數(shù)據(jù)閉環(huán)領域,傳統(tǒng)玩家和新型玩家的商業(yè)模式存在顯著差異。傳統(tǒng)玩家在數(shù)據(jù)閉環(huán)領域專注自身發(fā)展,服務獨立不連續(xù);新型玩家構建數(shù)據(jù)閉環(huán)新生態(tài),推動向合作伙伴關系轉變,實現(xiàn)利益共享、風險共擔。以下是詳細的對比分析。
1、傳統(tǒng)玩家的商業(yè)模式
1)基于買賣關系:
傳統(tǒng)玩家在數(shù)據(jù)閉環(huán)領域的策略主要基于買賣雙方的交易關系,專注于自身技術和產(chǎn)品的發(fā)展。
他們通常依賴于供應商提供的數(shù)據(jù)服務和主機廠所需要的數(shù)據(jù)服務,這些服務往往是線性的、獨立不連續(xù)的。
2)技術與產(chǎn)品發(fā)展:
傳統(tǒng)玩家更注重自身技術和產(chǎn)品的研發(fā),而不是全面參與數(shù)據(jù)閉環(huán)的各個環(huán)節(jié)。
他們可能選擇完全外采或部分核心外采、部分自研的方式,以降低研發(fā)風險和成本。
3)資源和資金限制:
由于資源和資金的限制,傳統(tǒng)玩家在面對快速變化的市場時,可能需要迅速做出決策。
2、新型玩家的商業(yè)模式
1)合作伙伴關系
新型玩家通過構建數(shù)據(jù)閉環(huán)新生態(tài),推動了從單一的買賣關系向合作伙伴關系的轉變。
這種模式下,供應商、主機廠以及其他合作伙伴共同承擔風險,共享利益,有助于資源、技術和市場信息的共享。
2)全棧自研與核心模塊自研
新型玩家更傾向于全棧自研或核心模塊自研,以實現(xiàn)技術上的突破和話語權。
例如,特斯拉就是全棧自研的典型代表,其數(shù)據(jù)閉環(huán)工具鏈已經(jīng)實現(xiàn)了數(shù)據(jù)采集、預處理、回傳、處理、仿真、部署、OTA等多個環(huán)節(jié),并自研芯片并DOJO超算中心用來處理這些數(shù)據(jù)。
3)快速響應市場變化
新型玩家能夠快速響應市場變化,迅速做出決策,以適應智駕技術的迭代和市場的變化。
4)創(chuàng)新能力和個性化需求
新型玩家通常具有較高的創(chuàng)新能力,能夠滿足個性化需求,并且具備一體化管理的能力。
傳統(tǒng)玩家和新型玩家在數(shù)據(jù)閉環(huán)領域的商業(yè)模式有以下主要區(qū)別:
合作模式:傳統(tǒng)玩家依賴于買賣關系,而新型玩家則轉向合作伙伴關系。
技術投入:傳統(tǒng)玩家更注重自身技術和產(chǎn)品的研發(fā),而新型玩家則傾向于全棧自研或核心模塊自研。
市場響應:新型玩家能夠更快地響應市場變化,適應技術迭代。
這些差異反映了不同玩家在面對智駕技術和市場變化時的不同策略和優(yōu)勢。
#05
優(yōu)勢與挑戰(zhàn)
在自動駕駛領域,合成數(shù)據(jù)作為一種新興的數(shù)據(jù)資源,具有顯著的優(yōu)勢和挑戰(zhàn)。以下是基于我搜索到的資料對合成數(shù)據(jù)在自動駕駛領域中的優(yōu)勢和挑戰(zhàn)的詳細分析:
1、優(yōu)勢
1.采集成本低:
合成數(shù)據(jù)通過算法生成,無需實際收集大量真實數(shù)據(jù),從而大大降低了數(shù)據(jù)采集的成本。這對于自動駕駛這種需要大量高質量圖像數(shù)據(jù)的領域尤為重要。
2.自帶標注:
合成數(shù)據(jù)通常在生成過程中自帶標注信息,這減少了后續(xù)標注工作的復雜性和成本,提高了數(shù)據(jù)處理的效率。
3.跨平臺通用性強:
合成數(shù)據(jù)可以在不同的平臺和系統(tǒng)中使用,具有良好的通用性,這使得其在不同場景下的應用更加靈活。
4.針對性補充潛在危險場景和邊緣場景:
合成數(shù)據(jù)可以有針對性地生成潛在危險場景和邊緣場景,如惡劣天氣、復雜路況和突發(fā)事故等,從而完善長尾場景庫,提升模型的魯棒性和可靠性。
5.加速研發(fā)周期:
通過生成大量高質量的合成數(shù)據(jù),AI模型可以在更短的時間內(nèi)完成訓練,并在某些特定場景下的表現(xiàn)甚至優(yōu)于僅依賴真實數(shù)據(jù)的模型。
6.保護隱私:
合成數(shù)據(jù)避免了真實數(shù)據(jù)中的隱私問題,特別是在涉及個人隱私和敏感信息的情況下,合成數(shù)據(jù)提供了一種安全的數(shù)據(jù)來源。
2、挑戰(zhàn)
1.缺乏現(xiàn)實世界的混沌與復雜性:
合成環(huán)境可能無法完全復制現(xiàn)實世界中的復雜性和混沌性,這可能導致模型在實際應用中的適應性和準確性受到質疑。
2.生成質量的控制:
雖然合成數(shù)據(jù)可以生成大量樣本,但如何確保生成數(shù)據(jù)的質量和真實性仍然是一個挑戰(zhàn)。生成的數(shù)據(jù)需要足夠接近真實世界,以確保模型的訓練效果。
3.技術門檻高:
生成高質量合成數(shù)據(jù)需要先進的技術和算法支持,如生成式AI、GANs(生成對抗網(wǎng)絡)等。這些技術的開發(fā)和維護需要較高的成本和技術門檻。
4.法律和倫理問題:
在某些情況下,合成數(shù)據(jù)的使用可能涉及法律和倫理問題,特別是在涉及隱私保護和數(shù)據(jù)安全方面。需要確保合成數(shù)據(jù)的生成和使用符合相關法律法規(guī)。
合成數(shù)據(jù)在自動駕駛領域具有顯著的優(yōu)勢,包括低成本、自帶標注、跨平臺通用性強、針對性補充潛在危險場景和邊緣場景、加速研發(fā)周期以及保護隱私等。然而,合成數(shù)據(jù)也面臨一些挑戰(zhàn),如缺乏現(xiàn)實世界的混沌與復雜性、生成質量的控制、技術門檻高以及法律和倫理問題。
展望未來,自動駕駛數(shù)據(jù)合成技術將持續(xù)創(chuàng)新發(fā)展。隨著技術的不斷進步,合成數(shù)據(jù)的質量和真實感將進一步提升,更加接近真實世界數(shù)據(jù)。同時,數(shù)據(jù)合成技術與其他新興技術的融合也將更加緊密,如與區(qū)塊鏈技術結合,進一步保障數(shù)據(jù)的安全性和可信度;與邊緣計算技術結合,實現(xiàn)更高效的數(shù)據(jù)處理和應用。此外,隨著自動駕駛技術的普及,數(shù)據(jù)合成技術的應用場景也將不斷拓展,不僅局限于車輛自動駕駛,還將延伸到智能交通系統(tǒng)的各個環(huán)節(jié),為構建更加智能、高效、安全的未來交通體系提供強大支持。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.