之前的文章我們提到,端到端讓行業看到了通往自動駕駛的捷徑,但光有端到端還不夠。蔚小理華VS地絕元魔,誰是端到端大模型執牛耳者。端到端的“黑盒”特性使得它無法直接約束系統的安全邊界;并且無法復現復雜的、偶發的corner case,考驗可解釋性和泛用性能力,把上限提高的同時拉低了下限,存在“蹺蹺板效應”。
如何解決這些問題?
于是,世界模型被引入自動駕駛。圓周智行粗略統計,目前已經有超過10個車企和自動駕駛公司提出了世界模型。包括特斯拉,英偉達,蔚來,理想,地平線,商湯,元戎啟行,Momenta。還有很多企業雖然并未對外傳播世界模型,但其實內部也一直在推進此事。
那么,到底什么是世界模型?它是如何生成的?又是如何工作的?
在回答這些問題之前,我們先看一個案例,蔚來汽車是如何思考世界模型的?
2023年NIO day上,蔚來就公布了其正在自研世界模型的計劃。2024年7月的科技日上,蔚來智駕負責人任少卿釋放了更多技術細節。
在蔚來的理解里,人類大腦具備兩個能力。首先是空間理解能力,也叫想象重建能力。大白話說就是憑空想象能力,你可能沒有見過一棵長了100年的大樹,但是你可以通過大腦想象它的樣子。其次是時間理解能力,或者叫想象推演能力。大白話說就是在大腦里進行時空推演,想象一棵樹春夏秋冬的樣子。二者共同組成的能力就叫時空認知能力。這是人在三維世界生存的基本技能。這就是人腦構建的世界模型。
這個理解和權威機構對世界模型的定義完全吻合?!癢orld Models”(世界模型)最早出現在機器學習領域。2018年,機器學習頂會NeurIPS收錄了一篇《Recurrent World Models Facilitate Policy Evolution》論文,以認知科學中人腦mental model來類比世界模型,認為mental model參與了人類的認知、推理、決策過程,其中最核心的能力在于反事實推理(Counterfactual reasoning),這是一種人類天然具備的能力。
回到自動駕駛,蔚來提出了一個很核心的觀點,自動駕駛如果實現也必須具備這樣的能力。自動駕駛有很多不常見長尾場景,也就是大家常說的corner case,這樣的長尾場景數據獲取非常艱難。業內比較常規的做法有兩個:一個是3D重建,但是這樣的做法成本高,效率低,并不實用;另一個就是仿真,但是仿真的數據根本無法“還原”真實數據,對自動駕駛的幫助有限。于是,自動駕駛的“大殺招”世界模型出現了,它可以根據視頻,圖片,甚至文本描述自動生成視頻數據,給自動駕駛提供源源不斷的“燃料”。
在自動駕駛里,世界模型如何發揮作用,地平線對此給出了更細致的解釋,世界模型的作用:一是通過生成式大模型生成帶有預測性質的視頻數據,實現corner case多樣化訓練;二是采用強化學習的方法認識復雜駕駛環境,從視頻輸出駕駛決策。
那么,如何來構建世界模型,辦法有兩個:一個是憑空想象,“無中生有”;另一個是根據現有信息完善信息,比如輸入文本,圖片,視頻,生成更多更豐富的視頻。
對于第一個環節,我們需要插入一個容易混淆的概念。很多人認為世界模型就是仿真,二者確實有相似之處,世界模型包含了仿真的部分內容,但是又完全高于仿真。
任少卿提出了一個很有意思的觀點,自動駕駛發展了這么多年,本質上都是在做空間理解的升級,就是讓系統更理解周圍的世界。最早是通過提升傳感器硬件能力,后來是算法升級,BEV視角轉換,OCC 2D變3D,到現在軟硬件能力都已經出現瓶頸,但是極端場景數據的獲取卻成了大難題。于是,技術人員就想到了自己“造數據”的方式。
當然,必須承認的是,這項技術的發展并不始于自動駕駛領域,世界模型的概念最早在2018年被引入人工智能領域。2022年,Yann LeCun在機器智能里提出了雙系統的概念,其中的系統二就提到了要用世界模型構建未來場景的辦法。但是真正讓這項技術被更多人熟知的時間要推到2024年,其中的最大功臣自然是Open AI。
2024年2月16日清晨,Open AI公司發布了一款震驚全世界的視頻生成大模型Sora,它可以根據文本自動生成一段60秒的視頻。這是世界模型的一個具象體現。
在人工智能領域,世界模型的影響力遠遠超過自動駕駛,包括李飛飛的world Labs,谷歌DeepMind等企業都發布了世界模型。Yann LeCun的Mate FAIR團隊還發布了導航世界模型,根據前一秒的導航信息實時生成下一秒的軌跡。想象一下這個技術一旦成熟,將會給自動駕駛帶來多大的幫助。
這里插一句題外話,如果我們梳理自動駕駛技術的發展路線會發現一個非常有意思的事情。這幾年所有對自動駕駛發展產生推動的技術都不源于自動駕駛,而是人工智能,包括transformer,BEV,OCC,到今天的端到端,世界模型。正應了那句話,自動駕駛本質上是人工智能的一個具身智能體現。所以技術人員很喜歡說一句話,搞自動駕駛不能只盯著自動駕駛,這樣永遠搞不好自動駕駛。
在自動駕駛,特斯拉毫無疑問是那個探路者。就像喬布斯帶領蘋果科技惠民一樣,雖然蘋果并不是技術發明者,但它確實是將技術融入產品的最佳實踐者。
世界模型幫助所有智駕玩家打開了一個全新的世界。2023 年,特斯拉自動駕駛負責人在 CVPR 上介紹了其正在打造的 “通用世界模型”。該模型可以通過過往的視頻片段和行動提示,生成 “可能的未來” 的全新視頻,其基礎架構由多臺攝像機的視頻流輸入,匯集到一個大型 Transformer 塊中,通過空間注意力和幾何模型等形成特征并進行預測,可用于預測占用率、體素未來的流動情況以及車道等駕駛所需的任務。
與此同時,Wayve也在2023 年發布了 GAIA-1 模型,它可以依靠視頻、文本和動作的輸入生成逼真的視頻,能夠生成分鐘級的視頻以及多種合理的未來場景,幫助自動駕駛模型的訓練和仿真。
2024 年 GTC 大會上,英偉達也展示了其在世界模型領域的新進展,通過將多模態數據輸入模型訓練并讓模型預測未來駕駛場景,自動駕駛基礎模型可以穩定生成多個攝像頭拍攝到的逼真的駕駛場景演變,并且通過語言提示詞也可以使得模型呈現的場景靈活變化。
在國內傳播層面,蔚來汽車是國內最早提世界模型的車企。其在2023就表示正在研發世界模型,2024 年 7 月 27 日,蔚來發布了中國首個智能駕駛世界模型 NWM 。
華為則是把自動駕駛的視頻生成板塊放在了盤古大模型中,叫做場景生產大模型。華為在2020年開始啟動盤古大模型研發,并于2021年4月正式發布,到2022年聚焦行業應用落地。
華為對世界模型的使用更加多元。它從實車數據學習如何生成新視頻,同時處理重建和渲染,生成數據可用于感知算法訓練;重建各類障礙物構建素材庫,根據需要構造corner case,增強數據完備性;針對天氣、晝夜、季節等環節因素對已有場景進行變換,構造corner case。它基于神經網絡做實車場景,并進行重建跟渲染。
有意思的是,在自動駕駛上一直以先鋒自居的小鵬汽車在世界模型上并沒有任何資料流出,不知是在憋大招還是覺得不重要。推測來看,前者的可能性居多。
世界模型的價值如何評估
就在世界模型被瘋狂追捧的同時,一個更深的問題擺在行業面前:世界模型到底應該凌駕于真實數據之上,還是僅僅作為真實數據的補充。
特斯拉和元戎啟行的思路是用一套系統覆蓋兩種商業模型,輔助駕駛和Robotaxi。然后用數據訓練的方式不斷提升系統的能力上限,這種邏輯下世界模型更像是現實世界數據的補充。但這似乎低估了世界模型的價值。
“世界模型是最重要的事情,沒有之一。”
小馬智行CTO樓天城給了世界模型極高的評價,他認為世界模型是自動駕駛當前最重要的事情。依靠現有的真實數據只能讓智駕系統無限接近人,只有世界模型數據才能構建出更復雜的世界,最終讓訓練出來的系統超越人。理由很簡單,自動駕駛是對人類駕駛行為的學習,因為人的駕駛能力有上限,所有自動駕駛的安全邊界也有上限,但樓天城認為,自動駕駛的安全必須高于人類才有意義,尤其是L4級自動駕駛。所以必須要有高于人類駕駛行為的世界模型數據訓練出來的系統才能優于人類。按照這個表述,世界模型應該凌駕于真實數據之上。
這里我們來看看地平線的實踐案例,傳統基于規則的CNN(卷積神經網絡)學習方式,沒有泛化和理解能力。地平線提出了“交互式博弈”,核心在于通過生成數據驅動實現模擬學習和強化學習。為了避免機器對數據的重復模仿,它必須要學會主動理解數據。這時候世界模型就承擔了「駕駛世界觀」的作用。這里我的理解是,地平線已經實現了樓天城說的,讓世界模型擔當系統教練的角色,指導系統到底該怎么開。
此外,世界模型還可以作為額外的信息源,為預測環節服務。當地圖信息和傳感器信息輸入World Model,機器經過處理輸出仿真、想象、演繹甚至腦補過程,支撐系統的交互博弈,為系統兜底。
那么,世界模型的好壞又該如何評估。如果單純從理論層面,很難。世界模型的能力就好像語文作文,很難通過一個量化的指標去評估好壞。目前雖然很多車企發布了世界模型,但是對具體細節數據展示的不多。這里我們來看看蔚來和商湯的案例。
蔚來對其世界模型的介紹如下:
“能夠在 100 毫秒內推演出 216 種可能發生的場景,并可基于 3 秒的駕駛視頻生成 120 秒的想象視頻,還具備閉環仿真測試能力?!?/em>
商湯絕影對 “開悟”世界模型的介紹如下:
“(視頻生成)時間最長為150秒、分辨率可達1080P、視角可以實現11V”。
絕影認為這個難度很大,行業普遍都是生成1V或6V視角的視頻,開悟直接干到11V,而且同時生成的視角畫面越多,要保持時空一致性就更難,還要克服魚眼視角的畸變。
雖然沒有準確的評估辦法,但是他們都強調了世界模型的幾項能力:準確性,多樣性,可控性和泛化能力。
目前看來,世界模型的能力還遠遠沒有開發出來。
樓天城提出了一個設想,世界模型還可以充當一個評分體系,對自動駕駛系統的表現做出評價,不斷提升系統的能力。
地平線提出了世界模型的兩個長遠價值:首先是更準確的世界理解,幫助減少智駕系統的代碼量,延遲,網絡負載,錯誤率等;然后是泛化能力,世界模型可以讓高階智駕形成對復雜駕駛環境的通用理解,而非對輸入的重復依賴。大白話說就是舉一反三。
最近地平線創始人余凱在接受采訪時表示,大規模L4、L5將會在5年左右實現。而目前行業形成的一個共識是,自動駕駛實現的一個大前提不僅僅是像人,而是要超越人。真實世界的數據只能是無限接近人,要超越人,世界模型是目前技術人員探索出來的通往自動駕駛的唯一解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.