生成式輔助駕駛,是商湯絕影在業內首次提出的概念,通過世界模型和強化學習,推動端到端模型的演進,突破人類的駕駛能力上限。
文|錢麗娜
ID | BMR2004
當自動駕駛技術在全球范圍內如火如荼地發展時,一個關鍵問題始終困擾著行業:如何在復雜多變的交通環境中實現安全、高效的自動駕駛?傳統技術方案雖有進展,但始終難以突破數據瓶頸與復雜場景應對的難題。
針對行業尚未得到有效解決的難題,商湯絕影率先在業界提出了端到端輔助駕駛解決方案。
01
端到端輔助駕駛的求索之路
為了讓輔助駕駛有更多處理極端情況的能力,構建仿真物理世界就是一座需要先行攀爬的高山。
商湯絕影是業內率先提出端到端輔助駕駛方案的企業,這一路線的提出主要源于2017年與本田汽車的合作。
當年,本田對中國合作伙伴的要求是,放棄激光雷達、高精度地圖,在沒有車道線的路口,根據圖像的輸入直接輸出車輛行駛的軌跡。2017年3月,日本輔助駕駛測試場地大雨傾盆,那些基于激光雷達、慣導等昂貴且復雜的硬件輔助駕駛系統,連基本的正常啟動都遇到了困難,而商湯絕影憑借攝像頭感知的純視覺方案,順利完成了輔助駕駛的測試。正是這一純視覺方案,成為了商湯絕影日后探索端到端輔助駕駛的起點。
商湯絕影CEO王曉剛告訴《商學院》雜志:“本田基于成本的考慮而放棄激光雷達。純視覺方案因為信息豐富,理論上能達到的最高性能或能力的上限比較高,但要用好純視覺方案,前提是需要大量的數據積累,而且模型要從成千上萬的像素中識別語義信息,對模型訓練的要求比較高。”
不過,2017年,多模態人工智能技術還不成熟,因而輔助駕駛方案中還是會融合激光雷達。行業在不同階段采取的技術路線,多是出于安全性的考慮。
商湯絕影一直有做端到端輔助駕駛的想法。所謂端到端,就是輸入圖像后,直接輸出行為軌跡,只是在當時,神經網絡還不成熟。2022年年底,商湯絕影發表了端到端輔助駕駛的開山之作“UniAD”(Unified Autonomous Driving)。
UniAD是業界首個感知決策一體化的端到端輔助駕駛解決方案,開創了以全局任務為目標的輔助駕駛架構的先河,不僅能夠感知周圍環境,還能做出預測和規劃,從而實現更高效的輔助駕駛。其提出的基于Transformer的完整端到端架構,為許多公司提供了重要的參考和基準,并獲得了CVPR 2023最佳論文的殊榮。
隨著多模態大模型的出現,2023年商湯絕影又提出“端到端+多模態”大模型結合的技術方案。多模態大模型能夠較好地分析復雜的交通場景,從而做出判斷。王曉剛舉例說,這一組合方案結合了快思考和慢思考的優點。端到端如同人類的小腦,看到路況后立刻做出行為反應,而多模態大模型類似于人類的大腦,可以負責更為復雜的分析。
然而,端到端方案進一步推進時,行業又遇到了數據瓶頸,需要大量高質量、高難度的人類駕駛行為數據做模型訓練。端到端的訓練本質上是在模仿人類的駕駛行為,所以人類的駕駛水平就是它的上限。“高質量數據占比較少,大部分時間車輛行進時走的是直線,缺少變化的駕駛行為在模型訓練時是沒有價值的,只有類似剎停、避讓、轉彎的場景才有意義。另外,復雜場景下每個人的駕駛行為不同,如果有類似于遇到復雜場景停在原地的行為數據,混到模型訓練數據中,反而會讓模型能力變差。”王曉剛解釋說,企業所能找到的人類在處理復雜場景的行為數據上限決定了模型能力的上限。
而DeepSeek的出現,再一次打開了商湯絕影的研發思路。DeepSeek-R1通過強化學習突破了數據的瓶頸,讓大模型自行涌現出長思維鏈能力,顯著提升推理效果,甚至可能超越人類的思維能力。強化學習突破了人類思考的上限,這個過程類似于AlphaGo下圍棋:之前它學習的是人類的棋譜,而之后機器通過強化學習,下出了人類棋手從未有過的招數,并最終贏得了棋局。王曉剛說:“一道題如果有10種解法,人類可能只給出了一兩種解法,而強化學習給出的其他八九種解法,極大地擴充了人類的知識庫。”
AlphaGo是在棋盤的規則體系里下棋,借用同一思路,商湯絕影需要仿真出一個類似于棋盤的物理駕駛世界,在這個仿真世界中生成高質量的數據,結合強化學習框架,讓端到端模型在世界模型中自我進化和成長。
但用于訓練的生成視頻面臨巨大挑戰。比如Sora的視頻生成有大量不符合物理規律的圖像,缺乏視頻圖像在時空上的一致性和連續性。包括“絕影開悟”在內的世界模型,在實驗階段生成的視頻也都面臨同樣的問題,需要通過人工篩選與人工智能相結合,不斷迭代,從而解決上述問題。
輔助駕駛的車輛配備有11個攝像頭,每個攝像頭觀察到的視頻必須保持時空一致。比如同一條車道線,不能在一個攝像頭里觀察到實線,而另一個攝像頭里觀察到虛線,攝像頭本身也會有各種問題,魚眼攝像頭還會產生畸變。為了讓輔助駕駛有更多處理極端情況的能力,構建仿真物理世界就是一座需要先行攀爬的高山。
回看商湯絕影面臨的幾次技術抉擇,初時,在視覺和激光雷達的技術選擇上,2018年,商湯絕影恰好從事大模型研究,當時的技術判斷是增加模型的體量能讓輔助駕駛的視覺能力變得更強。2020年,商湯絕影發布了當時全球最大的、擁有320億參數的視覺模型,參數超過谷歌200多億的視覺模型。商湯絕影做大模型時,正好需要千卡訓練集群,但市場上沒有這樣的基礎設施,于是商湯絕影在上海臨港自建了一個超算集群(2022年1月正式啟用),這與特斯拉自建超算集群(2021年8月)如出一轍。
王曉剛坦言:“每項技術發展到一定的階段都會遇到瓶頸,但是如果沒有端到端的技術,很難看清瓶頸在哪里。在發布世界模型前,我們發現增加更多的數據時,模型能力的提升依然非常有限,原因在于數據質量不夠好,所以這才推動我們不斷去思考和尋找解決方案。直到今天,形成‘端到端+世界模型’的生成式智駕方案。”
02
輔助駕駛“開悟”
目前“絕影開悟”世界模型基于1024類場景,能夠泛化出更多的平行世界,打造千萬級的生成場景庫。
2024年11月,商湯絕影發布開悟1.0世界模型,2025年4月上海國際車展,又推出與強化學習結合的開悟2.0。今天行業逐漸形成了共識,世界模型加上強化學習,將是未來的趨勢。
由此,業內輔助駕駛技術路線的發展經歷了三個階段。
第一階段是規則式輔助駕駛,基于物理模型和預定義的邏輯去書寫各項規則。第二階段是端到端的輔助駕駛,核心基于大模型和大數據的驅動,類似于ChatGPT,本質是模仿人類的學習,但是有自身的數據瓶頸和性能上限。第三階段是生成式輔助駕駛,也是商湯絕影在業內首次提出的概念,通過世界模型和強化學習,推動端到端模型的演進,突破人類的駕駛能力上限。
盡管商湯絕影率先提出端到端輔助駕駛方案,但在研究過程中面臨著兩個重要問題,首先是對海量數據的依賴,特別是對高質量數據的依賴。特斯拉擁有超過700萬輛量產車,有工程化布局,還能夠形成數據回流,具有閉環的天然優勢,但是其中可用的數據不過1%。商湯絕影可用來數據回流的量產車數量遠小于這一規模。面對極端復雜的場景,很多駕駛員的行為反饋并不好,而且采集各種極端危險場景數據的代價和風險也是非常高的。其次,端到端具有不確定性,因為問題場景是沒有辦法復現的,需大量采集類似場景來更新模型,但也不能保證模型更新后,特定場景的問題就能夠得到解決,所以安全邊界很難確定。
“R-UniAD”是商湯絕影提出的全新生成式輔助駕駛技術方案,基于一個強大的世界模型去重構世界,在其中進行強化學習訓練,并且能夠泛化生成各種復雜的場景。
從成本和效率上來看,通過融合3D高斯重建技術(一種利用人工智能技術進行三維場景重建和渲染的方法)與世界模型,構建高保真動態交互仿真閉環,商湯絕影可將復雜交通場景復現成本降低60%以上,算法迭代周期縮短50%。根據商湯絕影內部實測數據,基于一張A100的GPU,“絕影開悟”每天生成的數據相當于10輛真實車輛或100輛路測車的數據采集能力,其性能比得上500輛量產車。
目前,商湯絕影20%的數據是通過世界模型生產出來的,其生成數據數量預計將在今年快速提升至與真實數據數量1:1的均衡狀態,構建起千萬級可用數據池,加速邁向“生成式數據主導”(80%占比)。
輔助駕駛系統很容易出現比如因遇到施工占道而緊急剎停,甚至發生碰撞的緊急情況。對此,王曉剛介紹了商湯絕影R-UniAD是如何幫助輔助駕駛系統提升應對這一場景的能力。
第一個階段,以路測的視頻為輸入,基于“絕影開悟”世界模型進行現場場景的仿真,用3D重建靜態場景,同時對動態元素進行可控的編輯。世界模型對場景還原的一致性超過95%,重建場景的時間從以天為單位降到以小時為單位。
第二個階段是強化學習。有了重建場景后,端到端模型生成在該場景下可以有各種不同的駕駛策略。有的駕駛行為很糟糕,會偏離到路邊,需要通過反復的強化學習,與世界模型形成的環境進行交互,尋找最優路徑,找到合適的變道,從而繞過施工場景。
第三個階段,世界模型將生成大量的施工占道泛化場景,模擬不同天氣條件、不同光線下的施工路段。在一段視頻的基礎上擴展出十段、百段或者千段場景,場景覆蓋度呈幾何級數的增加,顯著提升端到端模型對于施工場景泛化交互的能力,大大加強了特定場景的確定性,從而降低數據獲取成本。
王曉剛總結道,生成式輔助駕駛主要突破了三個瓶頸:一是突破數據瓶頸,創造無限的長尾場景;二是在仿真環境中驗證技術的安全邊界到底在哪里;三是通過自主進化超越人類的駕駛水平。
目前“絕影開悟”世界模型基于1024類場景,能夠泛化出更多的平行世界,打造千萬級的生成場景庫。在真實的基礎上,“絕影開悟”生成的場景視頻,時間最長為150秒,分辨率可達1080P,視角可以實現11V,已經成為行業首個同時完成上述指標的輔助駕駛世界模型。
自2017年與本田汽車的合作起步,商湯絕影不僅在“端到端”輔助駕駛方案上取得了突破,其“絕影開悟”世界模型更為行業提供了一種全新的解決方案,通過生成式輔助駕駛技術,商湯絕影不僅突破了數據瓶頸,還實現了對復雜場景的高效處理和安全性能的顯著提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.