以VLA模型,推動智駕從執行走向思考。
PART 1
破局:從路牌困惑到“讀懂”世界
元戎啟行研發VLA模型,在智能駕駛無人區開啟“瘋狂冒險”。從概念到落地,他們用堅持詮釋技術信仰,讓智能駕駛從“執行”邁向“思考”。
2024年6月的一個炎熱下午,周光乘坐測試車經過公司附近的一處紅綠燈,一個不起眼的交通牌提示"車輛左轉不受燈控",測試車依舊停下等待紅燈變綠。
那一刻,他盯著后視鏡里不斷鳴笛的車輛,意識到:人類司機能瞬間理解這類特殊場景,但即便是當時最接近人類駕駛能力的端到端模型,也因無法理解文字路牌未能通過。
這個問題在他心里種下了一顆種子,后續的內部會議上,他與研發團隊幾次提起這個問題。
與此同時,元戎啟行正在探索通用人工智能的多元路徑。RoadAGI實驗室里誕生了VLA原型,它具備環境語義理解能力,能完成取放物品、避障行走等簡單任務。
在一次Demo演示中,周光發現這個能根據環境信息和語言指令自主決策動作的模型,與需要解讀復雜路況的智能駕駛模型有著驚人的相似性,不同的是它能夠理解語義信息。
這給了他很大啟發,仿佛密碼鎖最后齒軌的咬合,思路迷宮轟然中開。隨著ChatGPT等大語言模型爆發,周光與團隊更加確定:當現階段端到端模型陷入corner case泥潭時,融合語言理解的VLA或許能開辟新航道——這不是簡單的技術疊加,而是讓機器真正開始“讀懂”物理世界。
2024年9月,元戎啟行將VLA模型提升為公司級研發項目。
在技術發展的浪潮中,時間往往至關重要,這是一場早于行業的“技術豪賭”。引領者從不等“風口”,而是提前看見風的方向。
元戎啟行作為一家人工智能企業,始終相信AI技術將重塑生產力關系,引領第四次工業革命的到來。在眾多AI衍生應用中,元戎啟行選擇智能駕駛作為突破口,因為它能打破數字與物理世界的壁壘。
隨著輔助駕駛技術大規模上車應用,元戎啟行打造的基座模型將借助駕駛行為與物理世界深度交互,進而洞悉其運作規律。無論是“無圖”方案、端到端模型,還是VLA模型,元戎啟行始終圍繞AI技術解決問題。
但最難的從來不是技術本身,而是在無人區找到那條對的路。VLA模型的出現,讓智能駕駛從“執行者”邁向了“思考者”——它開始理解“為什么這樣開”,而不僅僅是“怎么開”。
這是VLA模型的優勢,也是研發之路的開始。
PART 2
攻堅:在荊棘中定義“安全”邊界
當決定了新的技術方向,大家都興奮不已,希望作為行業技術引領者,率先研發出更好用的智能駕駛方案。但當著手開始做,才發現了重重困難。
一方面,VLA在智能駕駛領域研究應用少,可參考的專業知識匱乏,研發人員需大量閱讀資料后逐步摸索;另一方面,公司面臨客戶量產壓力,主線資源傾向量產項目,且新技術效果有不確定性,VLA研發只能保守推進,進度緩慢。
"最開始,我們都被VLA的'語言天賦'迷住了。"產品經理石杰回憶道。
VLA模型具備強大的文字理解及OCR識別能力,團隊投入大量精力攻克潮汐車道、可變車道、待轉區等文字理解場景。
當測試車順利通過當初困擾大家的“車輛左轉不受燈控”指示牌,并給出文字解釋其駕駛決策過程時,車上的人非常激動,這解決了現階段端到端系統的“黑盒”問題,通過思維鏈(CoT)實現透明化推理,極大增強用戶的信任度。
同時,VLA模型在互聯網學習海量知識,能夠處理很多corner cases,例如識別超載小貨車、路面上的輪胎等等;還可以通過語音交互控車,實時對話駕馭車輛。
然而,一次測試中的驚險一幕,讓所有人對VLA的期待有所轉變。
測試車在橋洞正要左轉,目之所及沒有任何車輛,測試車勻速前進,突然竄出一個外賣騎手迫使車輛緊急重剎,車上的人都嚇了一跳。大家反思如果是老司機開車,一定會在橋洞盲區提前減速避免風險。
這點醒了所有人,安全才是輔助駕駛的生命線,用戶需要的是一個真正安全的輔助駕駛系統,能夠主動預判和規避風險,這比“語音交互”更為重要。
對整個場景的高級語義推理是目前端到端系統缺乏的,卻是VLA更擅長的,這一刻,“防御性駕駛”成為VLA模型的核心進化方向。
技術可以不斷突破極限,但安全永遠是我們的底線。在安全、效率和舒適中,我們努力找到一種平衡,讓輔助駕駛成為用戶日常愛用的出行方式。
研發之路也充滿技術攻堅,VLA模型研發人員肖毅正在摸索。VLA模型的研發要經歷架構設計、數據探索和規模化、模型驗證、部署上車、持續迭代等流程。在架構設計時,起初肖毅計劃云端推理,將大語言模型部署云端,數據回傳至車端控車,但實車上路云端到車端的時延太大,例如車速60km/h,假設時延需要2s,在拿到云端結果時,車已經向前跑了33米,在這期間實際路況已經發生變化,對于需要及時響應的場景,行駛安全將受到極大威脅。一個月后,研發團隊放棄了云端推理,改為本地部署模型。
對車端有限的算力來說,模型車端部署給模型設計、模型加速以及部署優化都帶來了全新挑戰。研發團隊壓縮了詞表,對模型做了剪枝(pruning)和加速,同時元戎啟行強大的推理引擎團隊對VLA模型做了大量的算子優化、顯存優化、硬件新特性適配等,最終使得VLA在車端順暢地跑起來。
當然,還有另一個更大的挑戰。數據是一切AI模型的基礎,大規模的高質量數據對VLA模型來說是重中之重,靠人工標注,效率極低。后來肖毅通過迭代大模型自動給數據打標簽,解決了數據規模標注難題,目前元戎啟行也達到了千萬級Clips的數據規模。
"現在行業都在追逐大模型,但真正稀缺的是對駕駛本質的理解。"周光常對團隊強調。當行業忙著給系統加載更多語料庫時,元戎啟行的VLA正在深度學習"如何在不完美的人類駕駛環境中做出最安全決策"——這才是AI司機的靈魂。
PART 3
領航:駛向更安心的AI時代
今年,將有超5款搭載元戎啟行VLA模型的車量產,首款車8月即將上路。
“對于VLA,我期待可以應用到Robotaxi上,成為真正的AI司機,讓用戶在安靜環境中與它直接溝通。它不僅能響應指令,還能主動守護安全。”周光說到。
隨著VLA模型的迭代與應用,我們期待它不僅能成為用戶的“AI司機”,更能推動整個行業向更安全、更透明的智能駕駛時代邁進。讓每一次出行,都更安心、更自在。
VLA的研發,是元戎啟行技術信仰的縮影。不做追隨者,只做定義者,這條路很難,但值得。
穿行于行業發展的驚濤駭浪,元戎啟行深知VLA不過是航程中的臨時錨點,唯以技術研發為壓艙石,才能于風浪中穩馭船身,航向人類智慧深處。
未來,元戎啟行將不局限于汽車載體,致力于訓練更先進的AI模型賦能多種智能體,實現任意點到點的移動能力,先達成RoadAGI(道路通用人工智能),最終邁向通用人工智能,點燃人類生產力的質變奇點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.