在全球自動駕駛領域,一項公認的技術挑戰是:如何從每日產生的海量、高度冗余的數據中,快速定位并提取出那些對提升系統安全與體驗至關重要的特殊駕駛場景。這些關鍵場景的有效利用,是改進路徑規劃和決策算法的核心。
但這個難點正在被中國公司攻破。
剛剛結束的CVPR 2025自動駕駛研討會,Argoverse2 2025場景挖掘挑戰賽結果揭曉,這是由全球頂級機構argoverse舉辦的是一個面向自動駕駛領域的時空事件檢測國際競賽。比賽主辦方通過 EvalAI 平臺發布任務,吸引全球團隊用 AI 技術解決“如何在復雜場景中自動識別并精準定位特定事件”的難題。全球一共有8家頂級機構參與,中國極氪智駕團隊拔得頭籌。
我們按照邏輯線來拆解一下這個事情到底難在哪,為什么值得重點說一下。
首先來看看挑戰賽的核心任務:如何從海量數據里精準挖掘出那些最關鍵的 corner case 場景,定位相關物體,預測其軌跡。
做這個事情的目的有兩點:
1、提升數據的利用效率,把數據中有價值的提煉出來喂給大模型。
2、根據這些數據特征反向用來優化世界模型的仿真算法,做更好的 corner case 強化學習。
因為系統無時無刻不在處理和過濾海量信息,如果“大腦”反應不過來很容易漏掉很多關鍵信息;而且現在智駕系統在大部分都采用強化學習(持續輸入同類型高價值數據讓系統訓練)的方式提升系統的穩定性和能力上限,數據來源是一個巨大的挑戰,這個事情就解決了數據來源問題。
顯然,在自動駕駛里,這項能力非常有必要。但要擁有這項技能,挑戰非常大。來看看極氪智駕團隊的解題思路。
1、全局情景洞察,以及全局自反思(In-context Learning, reflective capabilities)。將成千上萬個不同的場景描述,打包成一個巨大的“信息包”,一次性展示給大語言模型。大語言模型在龐大的信息上下文中,能自主發現規律、建立聯系,從而實現“舉一反三”。大模型遇到一個新問題時,能立刻從“記憶”中調取相似的案例進行類比,大大提升了理解的深度和準確性。從長時記憶里面提取有效信息從而增強模型的準確性得益于極氪智駕團隊目前對數字先覺網絡的應用。
這個“記憶觸發機制”有點像人體內的疫苗抗體,第一次記憶病毒,后面再碰到的時候第一時間采取措施。有一點需要特別強調,它的泛化能力非常,并不只是記憶完全一模一樣的場景,類似的場景也能舉一反三。比如在同一個十字路口,發生的極端場景,如果把雨天改成霧天,雪天,或者把車輛白色變成紅色,甚至交通參與者變化等等,它都可以自動調出記憶對比。這就是強大的泛化能力。
2、多智能體協作與自校正。“大語言模型程序員”與“大語言模型審查員”相互協作,一個“生成器”智能體負責快速將人類語言轉換成代碼,而另一個“精煉器”智能體則扮演著嚴苛的“代碼評審專家”,負責檢查和優化。這種自我校正機制,讓整套 系統擁有了交叉校驗協作的能力,兩個智能體具有不同能力,一起實現更好的效果。
這個其實比較好理解了,系統里面有很多分支,自己識別場景,然后“編寫代碼”,然后在自糾代碼質量,有問題改正,沒問題就執行。
回到實際的自動駕駛場景,在工程部署上,它的意義重大:
一、首先是為公司相關領域的時空事件分析提供了可落地的技術參考。
1、賦能下一代智駕架構的底層驗證。
突破性驗證:極氪首創的雙大模型代理+元代碼生成框架,成功解決了"復雜時空事件精準定位"這一端到端智駕的核心難點,為L3級的場景理解能力提供了可復用的技術范式。
大家都知道,在復雜時空里定位其實是一件非常難的事情。比如在一個超大型的雙向8車道十字路口,行人,自行車,電動車,4輪汽車,大小貨車各種交通參與者混行時,每一個交通參與者都在兩兩交互,而且隨時都可能與自車產生交互,如何精準識別并且定位這些交通參與者背后決定了自車智駕的安全性和舒適性。極氪通過這樣雙管齊下的方式解決了這個問題。
架構遷移價值:方案已成功應用于9X的數據挖掘體系,證明其可高效提取海量行車數據中的高價值corner case(如"車輛禮讓行人""路口急剎"等復雜事件),構建世界模型的極端場景數據庫,大幅加速端到端智駕模型的迭代進化。
這件事極氪已經計劃部署在即將上市的9X車型上,并非停留在實驗室的理論階段。并且搭建了關鍵事件場景庫。
安全性提升:安全性的關鍵在雙重過濾機制。傳統單模型錯誤往往呈現連續性特征,而多智能體因訓練差異形成交叉驗證,就像冗余芯片設計。實際測試中,這種架構在極端工況下錯誤率下降,因為兩個模型同時錯誤的概率指數級降低,全自動挖掘高危場景,讓L3系統具備持續拓域能力,能力覆蓋范圍大幅度提升。
其實就是安全冗余的自檢工序更復雜了。這個有點像電路的串并聯,傳統的單模型機制串聯,一個地方出錯,電流就斷了,而極氪的思路更像是并聯,“客廳”的線路有問題不影響“臥室”的線路繼續工作。甚至在這個基礎上更進一步,二者之間相互“糾錯”。
2、十倍級效率躍升:重構數據價值鏈條。
數據反哺閉環:構建"風險場景挖掘→仿真強化學習→模型優化"的自動化鏈路,讓每公里路測數據產生十倍價值,解決L3長尾場景數據匱乏痛點,直接推動智駕功能實現從"跟隨"到"領跑" 的質變。
自動駕駛拼到最后其實就是數據能力,包括數據的收集,回傳,清洗,存儲,再利用等一系列工序。這個場景識別定位技術的突破幫助極氪率先在L3搭建了這樣一套數據自循環機制。
泛化能力突破:通過全局記憶機制讓大語言模型批量處理場景描述,實現跨場景的推理泛化,即使在"黑夜行人突然橫穿+車輛避讓"等長尾組合事件中仍保持穩定表現。
其實就是并發能力,在復雜場景下可以同時處理多個任務,不至于“手忙腳亂”。
不管對企業自己還是整個智駕行業,極氪的這套場景識別定位能力都是行業一次不小的突破,并且獲得了國際頂尖機構CVPR的認可。隨著在相關車型的工程化部署能力得到驗證,更高級別的L3自動駕駛技術障礙正在被不斷清除。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.