網易首頁 > 網易號 > 正文申請入駐

周光最新海外演講：VLA的關鍵挑戰，以及仿真數據的短板

2025-01-24 15:35:33　來源: RoboX

北京舉報

分享至

1月22日，在第17屆日本國際汽車工業技術展上，元戎啟行CEO周光發表了一場演講，對VLA模型（Vision Language Action Model，視覺語言動作模型）的特點進行了簡要介紹，并宣布該公司已與某頭部車企達成量產合作，共同推出搭載VLA模型的智能駕駛汽車，該車配備英偉達Thor芯片，將于今年投入消費者市場。

RoboX將本次周光的演講內容進行了翻譯和整理，供大家參考。

高精地圖就像「作弊」

“高精度地圖雖然在十年前非常有用，能幫助車輛定位，但這種方式更像是一種‘作弊’，因為它只能在限定范圍內規避一定問題。”周光表示，最典型的案例就是傳統基于規則的Robotaxi，至今仍只能在特定區域運營。

另外，自然還有高精度地圖一直被詬病的「高成本」、「難以保持鮮度」等問題。

相比來看，無圖化的「端到端」方案的優勢在于：

實時感知和重建：車輛能夠實時感知周圍環境，并根據感知結果做出決策，而不是依賴于預先繪制的高精度地圖。這使得車輛能夠適應各種突發情況和道路變化。
處理長尾情況：傳統基于規則的自動駕駛系統往往難以處理長尾情況，因為這些情況通常沒有在規則中明確列出。而端到端解決方案則能夠通過學習大量數據來適應這些情況。
可擴展性和泛化性：由于基于神經網絡，端到端解決方案可以很容易地擴展到數百萬輛車上，并且具有很強的泛化能力，可以在全球范圍內使用。

VLA，將讓智駕更強大

周光稱，在過去的兩年里，自動駕駛技術的進步遠遠超過了過去的20年，尤其是在結合了大語言模型之后。

2022年，元戎啟行（以下簡稱「元戎」）不需要高精地圖和高精定位，并將多個模塊全部融合到一個通用感知網絡中。該網絡可以檢測到3D動態障礙物和靜態物體，例如地標、邊界等等。

同年，元戎又開始使用深度學習方法來處理決策和規劃，但那時性能還不夠理想。

2023年，元戎進行了端到端的初步測試，并于2024年開始開發下一代端到端技術——視覺-語言-動作模型（VLA）。

“VLA與最新的生成式大模型相結合，讓自動駕駛功能更強大。今年，這一新技術將被集成到量產車中，并實現交付。“周光說道。

他介紹稱，傳統的感知網絡利用的是結構數據。而神經網絡會使用原始向量，而且是高維向量，這些向量在神經模塊之間傳遞信息，并通過超高帶寬進行信息交換，避免信息丟失。

元戎的DeepRoute IO正是這樣一個系統——IO代表輸入和輸出，即輸入數據，輸出控制命令，這意味著它是一個單一的神經網絡。

傳統方案與VLA、端到端的本質區別

“我認為VLA是端到端2.0。在第一代端到端的架構中，已經沒有太多代碼了。它就像神經網絡或者大語言模型一樣，從底端直接輸入，并輸出結果。”

要想搞清楚VLA方案，首先要搞清楚「輸入、輸出、視覺編碼器、文本編碼器，軌跡解碼器」，以及它們如何工作。

周光解釋稱，所謂的「輸入」，就是從攝像頭、導航系統、地圖等接收的「輸入」信號。輸入要通過兩個編碼器，文本編碼器(text encoder)和視覺編碼器(vision encoder)。

視覺編碼器對圖像進行編碼，并從中提取高級特征；而文本編碼器，更多代表著用戶與汽車的交互。

“在傳統方案中，會生成各類特征。雖然看起來簡單，實際上它背后的網絡復雜得多。它結合了文本特征等，然后通過模型進行輸出。”

至于「輸出」，是由軌跡解碼器(trajectory decoder)把模型的輸出轉換成系統能理解的軌跡信號，它負責告訴用戶接下來10秒，乃至30秒中，車輛會做什么，也就是給出帶有速度和路徑的軌跡。

同時，「文本解碼器」也會解釋下一步動作的原因。例如，“有兩個行人正在試圖過馬路，車輛需要減速并等他們通過。”

相比之下，基于端到端技術的自動駕駛解決方案則更加高效，這種方案通過實時感知和重建世界，能夠處理各種復雜和長尾的情況。

“由于它是基于神經網絡的，因此具有很強的泛化能力，可以適應全球范圍內的不同道路和環境。”

周光表示，在端到端技術加持下，軌跡解碼器就像人類大腦一樣工作，而不是像規則。

他介紹稱，VLA的關鍵特性是「思維鏈」：“因為現實世界要復雜得多，規則庫無法應對這種復雜度。你需要通過多重信息來決定如何通過復雜場景，也需要不斷地與其他車輛博弈、交互。”

他為VLA的思維鏈舉了個例子，例如潮汐車道，基于VLA的智能駕駛車輛，能通過文本等看懂可逆車道的道路標志，并從多重信息中確認此時的潮汐車道是否可行駛，并通過轉向燈等與其他車輛交互，隨即變換車道，進行轉向，最終行駛至潮汐車道中。

這一系列動作都是使用VLA進行的，它可以利用類人的思維，通過對全局上下文的了解，去了解車道的情況，與其他車輛交互，并做出最優的、安全的決策。

在周光看來，VLA相比目前的端到端具備兩點關鍵提升：

首先，它更具適應性，也就是VLA可以適應并處理復雜的現實世界場景；

其次，是透明度，也就是它會解釋動作及軌跡原因，“傳統的數據系統需要解釋代碼，但是作為人類，我可以自然解釋操控原因，這就是高級推理。VLA正是具備了這樣的高級推理，因為它采用了全局信息和長上下文（context）信息，它可以做出更好的決策并提高安全性。

VLA的關鍵挑戰

然而，VLA技術仍然存在許多重大挑戰。首當其沖的，自然還是數據，而且周光還強調了真實數據的重要性。

“真實世界的數據是不同的，它涵蓋了大量的環境變化，例如閃電、天氣等。這就是我們為什么使用真實世界數據的原因，因為合成數據無法完整覆蓋這些變化。還有更重要的一點，就是合成數據缺乏關鍵狀態。例如行人違規橫穿馬路等場景，是在模擬中是無法得到的。”

對于這點，周光認為，量產車的規模，決定了迭代的速度：“我們每個月出貨量都在萬臺規模，擁有大量數據來開發VLA模型。在中國，我們在全國范圍內進行測試，收集數據。由于中國各地的天氣條件、不同城市都有差異，我們可以覆蓋各種場景，并收集足夠的數據用于訓練。”

另外，「實時響應」也是一個很大的挑戰。大模型需要數十億量級的參數，以及數千種類型的計算。所以元戎選擇與英偉達共同開發VLA模型，再加上元戎自己的推理引擎，可通過AI推理最大限度地提高模型性能。

“我們可以在100毫秒內對情況做出響應，這比人類還快。”

當周光提及近期在美國測試特斯拉FSD最新版本的感受時，他表示FSD的整體表現非常流暢、自然且可預測。

“但我也注意到了特斯拉數據的不足——美國灣區的車輛相比國內少得多，人流量、電動車的密度等都比中國低。如果想在中國部署這個系統，這些數據都是缺乏的。”

他認為，擁有足夠的臨界態數據，才意味著可以更好地和參與交通的其他車輛、行人進行交互。“我確信特斯拉也在使用相同的技術。”

周光表示，目前元戎正與多家主機廠進行量產合作，其中包括了SUV、乘用車和越野車等車型。

“去年，我們有三款車型實現量產，而今年會有超過10款，預計今年這些車型的產量將超過20萬輛，甚至更多。”

周光提及，最近元戎與Smart建立了戰略合作伙伴關系，同樣涉及自動駕駛。而且，第一款使用元戎解決方案的MPV也將于今年第一季度上市。

預計在今年，元戎不僅會在量產汽車中部署VLA模型，還會使用這些技術探索Robotaxi。

“Robotaxi是商業邏輯，而不是一項技術。我認為Robotaxi應該使用端到端模型、使用VLA來運營。”他說道。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.