伴隨著各路頭部智駕企業奮力攻堅L3,視覺語言動作模型VLA替代了去年大火的端到端方案。
那么,作為新的算法架構,VLA相較于之前方案的進步到底在哪里呢?
當小甜甜變成了牛夫人,昔日的座上賓就有可能被冷落在一邊。
2024年,整個本土車圈還是開口端到端,閉口端到端,似乎要跟端到端愛到滄海桑田、海枯石爛。
進入2025年,這些渣男們就變了臉,開始將VLA呼作小甜甜。
其實,從算法的形式上來看,VLA也是視頻入、軌跡出的端到端方案。
相較于更早之前的分模塊方案,端到端方案的本質是以深度神經網絡DNN取代分模塊方案中的規則代碼,以一個完整的神經網絡的形式從自動駕駛算法的輸入端(以視覺為主的各類傳感器信息)直接貫通到輸出端(行駛軌跡)。
不過,傳統端到端神經網絡的架構為基于判別式AI的BEV+OCC+AI Planning小模型,而VLA雖然在形式上仍然是神經網絡架構,但其架構已經升級為基于生成式AI的多模態大模型。
小模型到大模型的轉變是當前這波轟轟烈烈的AI熱潮的主旋律,智能輔助駕駛行業的主流模型架構由端到端小模型升級為端到端大模型,也不過是追求大時代的腳步罷了,沒什么好稀奇的。
參考元戎啟行的說法,傳統端到端方案是只具備專業領域能力的端到端1.0,視覺語言動作模型是具備跨越多個領域通識能力的端到端2.0。
端到端小模型到端到端大模型、端到端1.0到端到端2.0的核心轉變與整個AI領域小模型到大模型的轉變一脈相承。
AI模型在GPT出現前后的轉變在于出現了基于海量數據學習、灌注世界知識的大語言模型,智駕模型在VLA模型出現前后的轉變同樣在于引入了大語言模型。
或者可以這樣認為,VLA是在原本的V-A模型中引入了L,由V-A演變成了V-L-A,如果在這里列一個數學公式,就是V-L-A = V-A + L。
愛因斯坦說過,一切都應該盡可能地簡單,但也不能過于簡單。
簡單地理解VLA模型和傳統端到端方案的區別就是,傳統端到端方案相當于在視覺動作VA模型,引入大語言模型L(LLM),VA+L=VLA,表示VLA是引入了大語言模型能力的進階版端到端。
如果簡單照搬,以理想汽車為代表的雙系統方案指的是端到端系統1+視覺語言模型系統2。
系統1是視覺動作模型VA,系統2是視覺語言模型VL,VA+VL=VLA,是不是意味著理想汽車的雙系統方案也能帶來類似VLA模型的能力表現?
答案當然是包不同經常掛在嘴邊的“非也,非也。”
從神經網絡的形式來看,端到端系統1的輸入端是以視覺為主的傳感器信息,輸出端是行駛軌跡。
視覺語言模型系統2的輸入端是2D視覺信息、導航信息,輸出端是文本而非軌跡。
VLA的輸入端是視覺為主的傳感器信息、2D視覺信息、3D視覺信息、導航信息、語音指令信息,輸出端是文本和行駛軌跡。
從面向智能輔助駕駛應用的神經網絡形式來看,系統1和VLA模型均為(傳感輸入)端到(控制輸出)端神經網絡,而視覺語言模型2因其輸出端并非軌跡,導致其并非端到端神經網絡!
其結果就是,無論是端到端系統1還是作為被稱為端到端2.0的視覺語言動作模型,其在神經網絡架構上均能實現全程可導。
來自駕駛車隊的海量數據和來自世界模型的高質量生成數據,都可以通過反向傳播推動神經網絡的參數更新和能力進步。
而視覺語言模型因為其并不直接輸出軌跡,導致無法受益于真實數據和生成數據的驅動。
全程可求導和非全程可求導的區別在于,無論是數據驅動的端到端還是知識驅動的VLA,都能高效率、低成本地通過自動化的數據閉環實現駕駛場景數據驅動,而視覺語言模型無法借助數據閉環,實現高效率、低成本的數據驅動。
廢話放在一邊,直接開門見山。
在算法架構層面,VLA引入了大語言模型,在算法形式層面,VLA保持了從傳感輸入到軌跡輸出的端到端神經網絡形式。
那么,在能力層面,相較于第一代的端到端、第二代的端到端+VLM,VLA帶來了哪些升級呢?
這當然要從大語言模型談起。
和端到端1.0相比,VLA最為重要的轉變在于引入了大語言模型。
大語言模型帶來了理解能力和生成能力的雙重升級。
具體到對駕駛場景的理解能力上,傳統端到端方案缺乏對場景語義的深層解析,VLA能夠構建多層次的語義特征,捕捉數據中的復雜模式,這種來自大語言模型的邏輯推理能力可以實現對復雜交通場景的語義化理解。
在傳統端到端方案的基礎上,VLA模型具備融合復雜交通標志、交警和行人手勢、交警口令等多模態信息的整合能力,打開了自動駕駛系統根據臨時交通標志、交警手勢靈活性駕駛的潛力。
具體到駕駛軌跡的輸出能力上,VLA模型引入了CoT思維鏈,可以像特斯拉和蔚來的車端世界模型中的“視覺思維鏈”那樣,對未來場景進行各種預演和長時間推理。
根據對未來一段時間內場景狀態的預測和實際場景狀態的偏差,對思維鏈進行動態調整,修正預測偏差。
世界模型或視覺思維鏈這種先預判、再根據執行動作和場景感知進行策略修正的做法,非常吻合人類司機駕駛行為中的認知模式。
此外,VLA模型在預訓練階段吸收了互聯網規模數據中包含的交通規則、車輛運動學、物理規律,可以生成更精確、更符合交規的駕駛軌跡。
VLA模型在強化學習階段可以根據司機接管行為和人類偏好進行模型強化,可生成更具安心感和舒適感的駕駛軌跡。
總之,由于LLM的嵌入,VLA實現了更精細的場景感知、更準確的語義理解、更符合人類認知模式和偏好的軌跡。
相較于之前的端到端方案,VLA模型在一定程度上實現了性能躍遷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.