在高階輔助駕駛的探索中,有一個“感知滯后”的矛盾始終難以解決。
長期以來,自動駕駛系統的基本策略都是:傳感器先看到→ 感知系統識別 → 再決定怎么行動。這個邏輯聽上去合理,但在復雜真實的交通環境中,問題開始暴露。
現實路況從不按劇本來:限時公交道、潮汐車道、臨時封路、行人突然變道……這些變量,不是“看見之后再反應”就能應對的。真正的人類駕駛靠的并不是對眼前物體的識別,而是對背后因果的推理——前方急剎,第一反應不是“它減速了”,而是“是不是前面堵了?”
這是一種基于“世界模型”的判斷方式。人腦通過經驗積累形成對環境的理解模型,從而提前預判、靈活應變。而今天的智能駕駛系統,大多數依然是事后處理——等事件發生,再想怎么辦。
這也就是為什么,從2023年以來,以特斯拉、Wayve為代表的技術企業開始大規模投入“世界模型”的研發。而在2025年5月25日,蔚來發布ET5與ET5T時,低調上線的“全域NOP+”功能,標志著其自研的世界模型NWM即將正式落地。雖然不是第一個提出世界模型的廠商,但蔚來成為國內率先實現“量產上車”的代表。
這并非個例。幾乎所有頭部智能駕駛玩家都在押注“世界模型”,并非追逐風口,而是因為:沒有“腦子”的車,注定只能做出有限的反應;而擁有“認知能力”的車,才能真正適應千變萬化的世界。
為什么說“世界模型”是智能駕駛的下一個躍遷?
過去十年,自動駕駛經歷了一次重要技術躍遷:從“模塊化架構”過渡到“端到端模型”。
端到端模型的最大特征,是把感知、預測、決策、控制這幾個原本各自獨立的環節,整合進一個統一的神經網絡中。一體處理,效率更高、鏈路更短,也被認為更具泛化能力。
一時間,它被認為是通向“通用智能駕駛”的終極路徑。
但美好愿景很快撞上了現實。端到端架構雖然緊湊高效,卻暴露出三個致命缺陷:
第一,它是“黑盒系統”。系統做出什么決策、為什么這么決策,很難解釋。這讓調試變得極其困難,也降低了對系統的信任。
第二,它高度依賴海量標注數據,遷移成本極高。換一個城市、換一個國家,模型就可能要重訓。
第三,它是典型的概率決策機制。面對復雜情況時,它往往給出“最有可能”的方案,卻錯過了“最關鍵”的細節。哪怕只錯一次,結果也可能是災難性的。
隨著技術演進和現實碰撞的反復出現,業內開始出現反思:
“如果90%的消費級數據對訓練沒幫助,那我們到底在喂模型什么?”
這時,世界模型走上前臺。
它源于AI領域對智能體長期策略規劃的探索,本質是為系統構建一個可解釋、可預測的“世界認知結構”。
簡單來說,過去的模型只是在識別“這是什么”,而世界模型則在追問“這意味著什么”,以及“接下來會發生什么”。它具備一種“腦內模擬”的能力——預測未來、虛擬試錯。
以一個典型例子說明:
“北京公交專用道工作日7:00-9:00禁行”。過去的系統需要靠“硬編碼”將這條規則寫入模型,但并不理解它為何如此。而世界模型可以直接接受這句話為輸入,理解其時間邏輯與空間邊界,并在駕駛過程中自主執行。
甚至,如果某天市政網站發布一條臨時封路通告,世界模型可以自動讀取網頁信息,將臨時交通政策納入自身認知中,做出即時調整。
蔚來此前展示的一段Demo也印證了這一點。在一個Y字路口,蔚來與寶馬轎車同時左轉。大多數系統會選擇“等”,但蔚來的策略卻體現出明確的意圖博弈——在規則允許下先行一步,表現出一種接近“人類駕駛風格”的主動性。
這不是“看到了再反應”,而是“提前知道要做什么”。
世界模型的最大價值,就在于它是AI邁向“理解世界”的必要門檻。
幾乎所有頭部車企都在押注世界模型
如果說過去十年的智能駕駛技術在解決“怎么讓車看得清”,那么現在的問題變成了:“怎么讓它想得對”。
這背后的根本挑戰在于:如何真正實現大規模泛化能力?
端到端模型做得很像人類:它快速、直覺、整體決策,但一旦遇到沒見過的情況,系統就極容易“宕機”。
這不是偶然,而是“機制設計”決定的。端到端依賴的是數據分布,而不是邏輯建模。
而世界模型的設計目標正好相反:它試圖為系統建立一種可遷移、可解釋、可預測的“世界理解力”。
蔚來的NWM是典型代表。每0.1秒,系統可以生成216種未來軌跡,在下一幀輸入后重新篩選最佳路徑。這個過程近似于人類司機的“反復評估—微調—決策”行為。
理想的MindVLA則更注重三維語義與軌跡生成的語言建模能力,小鵬的XVLA則主攻車端部署效率,華為乾崑WEWA用“云+端”分體方式構建認知鏈路。
這些架構的多樣性背后,隱含的邏輯是一致的:
構建一種“可擴展的認知系統”,不僅能識別路況、理解規則,還能推演后果,并據此自主決策。
也正因為此,我們看到行業呈現出極高的共識:
幾乎所有頭部玩家,都不約而同選擇將世界模型作為“未來架構”的核心。這不再是路線之爭,而是一種時代選擇。
智駕遠未到定格局時刻,技術進步是無限的
很多人認為,華為是當前智能駕駛的“天花板”,但事實上,這個行業遠未定局。各種技術路線并行演進,智能駕駛仍然是一個“群雄逐鹿”的賽場。
端到端模型的確在落地效率上有天然優勢,但在泛化能力、認知建模等維度上,仍存在結構性瓶頸。
而世界模型雖然看起來更聰明,但也遠未解決所有問題,比如數據重構精度、計算資源約束、訓練時長過長、模型調優復雜……它看起來也并不是一下就跨時代突破的“萬能答案”。
但至少,它為智能駕駛開辟出了一條新的通路。而且從邏輯以及實際的應用上,要優于當前大家能看到的一些技術路線的表現。它讓我們有機會在當前“識別-決策-控制”鏈條之外,另起一套基于“理解-推演-博弈”的智能架構。
不同企業的布局選擇,實際上也代表了對下一代智駕范式的判斷。蔚來的NWM以重建為核心,結合視頻自監督方式做軌跡生成;理想的MindVLA融合語言模型與擴散建模,強化了對目標行為的“語義感知”;小鵬的XVLA更側重車端部署的輕量化和高頻閉環訓練;而英偉達Cosmos則提供了物理世界下的多模態合成數據平臺……每一個方向,既有優勢,也有現實制約。
這場變革,不會一蹴而就,也不是一家企業能獨自完成的。
但它確實已成為越來越多頭部玩家愿意投入資源、賭上一代架構去押注的方向。蔚來已經打響了第一槍,誰會跟上,值得關注。
未來,或許會有更多路徑共同并行發展,也許哪一條最終跑出來仍未可知,但智能駕駛的本質不會變——那就是:理解世界。
而在這個方向上,世界模型,的確是一次有意義的開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.