網易首頁 > 網易號 > 正文申請入駐

先讓 AI 學會害怕，再讓它握緊方向盤

2025-07-17 19:15:39　來源: 新智駕

廣東舉報

分享至

以VLA模型，推動智駕從執行走向思考。

PART 1

破局：從路牌困惑到“讀懂”世界

元戎啟行研發VLA模型，在智能駕駛無人區開啟“瘋狂冒險”。從概念到落地，他們用堅持詮釋技術信仰，讓智能駕駛從“執行”邁向“思考”。

2024年6月的一個炎熱下午，周光乘坐測試車經過公司附近的一處紅綠燈，一個不起眼的交通牌提示"車輛左轉不受燈控"，測試車依舊停下等待紅燈變綠。

那一刻，他盯著后視鏡里不斷鳴笛的車輛，意識到：人類司機能瞬間理解這類特殊場景，但即便是當時最接近人類駕駛能力的端到端模型，也因無法理解文字路牌未能通過。

這個問題在他心里種下了一顆種子，后續的內部會議上，他與研發團隊幾次提起這個問題。

與此同時，元戎啟行正在探索通用人工智能的多元路徑。RoadAGI實驗室里誕生了VLA原型，它具備環境語義理解能力，能完成取放物品、避障行走等簡單任務。

在一次Demo演示中，周光發現這個能根據環境信息和語言指令自主決策動作的模型，與需要解讀復雜路況的智能駕駛模型有著驚人的相似性，不同的是它能夠理解語義信息。

這給了他很大啟發，仿佛密碼鎖最后齒軌的咬合，思路迷宮轟然中開。隨著ChatGPT等大語言模型爆發，周光與團隊更加確定：當現階段端到端模型陷入corner case泥潭時，融合語言理解的VLA或許能開辟新航道——這不是簡單的技術疊加，而是讓機器真正開始“讀懂”物理世界。

2024年9月，元戎啟行將VLA模型提升為公司級研發項目。

在技術發展的浪潮中，時間往往至關重要，這是一場早于行業的“技術豪賭”。引領者從不等“風口”，而是提前看見風的方向。

元戎啟行作為一家人工智能企業，始終相信AI技術將重塑生產力關系，引領第四次工業革命的到來。在眾多AI衍生應用中，元戎啟行選擇智能駕駛作為突破口，因為它能打破數字與物理世界的壁壘。

隨著輔助駕駛技術大規模上車應用，元戎啟行打造的基座模型將借助駕駛行為與物理世界深度交互，進而洞悉其運作規律。無論是“無圖”方案、端到端模型，還是VLA模型，元戎啟行始終圍繞AI技術解決問題。

但最難的從來不是技術本身，而是在無人區找到那條對的路。VLA模型的出現，讓智能駕駛從“執行者”邁向了“思考者”——它開始理解“為什么這樣開”，而不僅僅是“怎么開”。

這是VLA模型的優勢，也是研發之路的開始。

PART 2

攻堅：在荊棘中定義“安全”邊界

當決定了新的技術方向，大家都興奮不已，希望作為行業技術引領者，率先研發出更好用的智能駕駛方案。但當著手開始做，才發現了重重困難。

一方面，VLA在智能駕駛領域研究應用少，可參考的專業知識匱乏，研發人員需大量閱讀資料后逐步摸索；另一方面，公司面臨客戶量產壓力，主線資源傾向量產項目，且新技術效果有不確定性，VLA研發只能保守推進，進度緩慢。

"最開始，我們都被VLA的'語言天賦'迷住了。"產品經理石杰回憶道。

VLA模型具備強大的文字理解及OCR識別能力，團隊投入大量精力攻克潮汐車道、可變車道、待轉區等文字理解場景。

當測試車順利通過當初困擾大家的“車輛左轉不受燈控”指示牌，并給出文字解釋其駕駛決策過程時，車上的人非常激動，這解決了現階段端到端系統的“黑盒”問題，通過思維鏈（CoT）實現透明化推理，極大增強用戶的信任度。

同時，VLA模型在互聯網學習海量知識，能夠處理很多corner cases，例如識別超載小貨車、路面上的輪胎等等；還可以通過語音交互控車，實時對話駕馭車輛。

然而，一次測試中的驚險一幕，讓所有人對VLA的期待有所轉變。

測試車在橋洞正要左轉，目之所及沒有任何車輛，測試車勻速前進，突然竄出一個外賣騎手迫使車輛緊急重剎，車上的人都嚇了一跳。大家反思如果是老司機開車，一定會在橋洞盲區提前減速避免風險。

這點醒了所有人，安全才是輔助駕駛的生命線，用戶需要的是一個真正安全的輔助駕駛系統，能夠主動預判和規避風險，這比“語音交互”更為重要。

對整個場景的高級語義推理是目前端到端系統缺乏的，卻是VLA更擅長的，這一刻，“防御性駕駛”成為VLA模型的核心進化方向。

技術可以不斷突破極限，但安全永遠是我們的底線。在安全、效率和舒適中，我們努力找到一種平衡，讓輔助駕駛成為用戶日常愛用的出行方式。

研發之路也充滿技術攻堅，VLA模型研發人員肖毅正在摸索。VLA模型的研發要經歷架構設計、數據探索和規模化、模型驗證、部署上車、持續迭代等流程。在架構設計時，起初肖毅計劃云端推理，將大語言模型部署云端，數據回傳至車端控車，但實車上路云端到車端的時延太大，例如車速60km/h，假設時延需要2s，在拿到云端結果時，車已經向前跑了33米，在這期間實際路況已經發生變化，對于需要及時響應的場景，行駛安全將受到極大威脅。一個月后，研發團隊放棄了云端推理，改為本地部署模型。

對車端有限的算力來說，模型車端部署給模型設計、模型加速以及部署優化都帶來了全新挑戰。研發團隊壓縮了詞表，對模型做了剪枝（pruning）和加速，同時元戎啟行強大的推理引擎團隊對VLA模型做了大量的算子優化、顯存優化、硬件新特性適配等，最終使得VLA在車端順暢地跑起來。

當然，還有另一個更大的挑戰。數據是一切AI模型的基礎，大規模的高質量數據對VLA模型來說是重中之重，靠人工標注，效率極低。后來肖毅通過迭代大模型自動給數據打標簽，解決了數據規模標注難題，目前元戎啟行也達到了千萬級Clips的數據規模。

"現在行業都在追逐大模型，但真正稀缺的是對駕駛本質的理解。"周光常對團隊強調。當行業忙著給系統加載更多語料庫時，元戎啟行的VLA正在深度學習"如何在不完美的人類駕駛環境中做出最安全決策"——這才是AI司機的靈魂。

PART 3

領航：駛向更安心的AI時代

今年，將有超5款搭載元戎啟行VLA模型的車量產，首款車8月即將上路。

“對于VLA，我期待可以應用到Robotaxi上，成為真正的AI司機，讓用戶在安靜環境中與它直接溝通。它不僅能響應指令，還能主動守護安全。”周光說到。

隨著VLA模型的迭代與應用，我們期待它不僅能成為用戶的“AI司機”，更能推動整個行業向更安全、更透明的智能駕駛時代邁進。讓每一次出行，都更安心、更自在。

VLA的研發，是元戎啟行技術信仰的縮影。不做追隨者，只做定義者，這條路很難，但值得。

穿行于行業發展的驚濤駭浪，元戎啟行深知VLA不過是航程中的臨時錨點，唯以技術研發為壓艙石，才能于風浪中穩馭船身，航向人類智慧深處。

未來，元戎啟行將不局限于汽車載體，致力于訓練更先進的AI模型賦能多種智能體，實現任意點到點的移動能力，先達成RoadAGI（道路通用人工智能），最終邁向通用人工智能，點燃人類生產力的質變奇點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.