99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

周光最新海外演講:VLA的關鍵挑戰,以及仿真數據的短板

0
分享至

1月22日,在第17屆日本國際汽車工業技術展上,元戎啟行CEO周光發表了一場演講,對VLA模型(Vision Language Action Model,視覺語言動作模型)的特點進行了簡要介紹,并宣布該公司已與某頭部車企達成量產合作,共同推出搭載VLA模型的智能駕駛汽車,該車配備英偉達Thor芯片,將于今年投入消費者市場。

RoboX將本次周光的演講內容進行了翻譯和整理,供大家參考。

高精地圖就像「作弊」

“高精度地圖雖然在十年前非常有用,能幫助車輛定位,但這種方式更像是一種‘作弊’,因為它只能在限定范圍內規避一定問題。”周光表示,最典型的案例就是傳統基于規則的Robotaxi,至今仍只能在特定區域運營。



另外,自然還有高精度地圖一直被詬病的「高成本」、「難以保持鮮度」等問題。

相比來看,無圖化的「端到端」方案的優勢在于:

  • 實時感知和重建:車輛能夠實時感知周圍環境,并根據感知結果做出決策,而不是依賴于預先繪制的高精度地圖。這使得車輛能夠適應各種突發情況和道路變化。
  • 處理長尾情況:傳統基于規則的自動駕駛系統往往難以處理長尾情況,因為這些情況通常沒有在規則中明確列出。而端到端解決方案則能夠通過學習大量數據來適應這些情況。
  • 可擴展性和泛化性:由于基于神經網絡,端到端解決方案可以很容易地擴展到數百萬輛車上,并且具有很強的泛化能力,可以在全球范圍內使用。

VLA,將讓智駕更強大

周光稱,在過去的兩年里,自動駕駛技術的進步遠遠超過了過去的20年,尤其是在結合了大語言模型之后。

2022年,元戎啟行(以下簡稱「元戎」)不需要高精地圖和高精定位,并將多個模塊全部融合到一個通用感知網絡中。該網絡可以檢測到3D動態障礙物和靜態物體,例如地標、邊界等等。

同年,元戎又開始使用深度學習方法來處理決策和規劃,但那時性能還不夠理想。



2023年,元戎進行了端到端的初步測試,并于2024年開始開發下一代端到端技術——視覺-語言-動作模型(VLA)。

“VLA與最新的生成式大模型相結合,讓自動駕駛功能更強大。今年,這一新技術將被集成到量產車中,并實現交付。“周光說道。

他介紹稱,傳統的感知網絡利用的是結構數據。而神經網絡會使用原始向量,而且是高維向量,這些向量在神經模塊之間傳遞信息,并通過超高帶寬進行信息交換,避免信息丟失。

元戎的DeepRoute IO正是這樣一個系統——IO代表輸入和輸出,即輸入數據,輸出控制命令,這意味著它是一個單一的神經網絡。

傳統方案與VLA、端到端的本質區別

“我認為VLA是端到端2.0。在第一代端到端的架構中,已經沒有太多代碼了。它就像神經網絡或者大語言模型一樣,從底端直接輸入,并輸出結果。”

要想搞清楚VLA方案,首先要搞清楚「輸入、輸出、視覺編碼器、文本編碼器,軌跡解碼器」,以及它們如何工作。



周光解釋稱,所謂的「輸入」,就是從攝像頭、導航系統、地圖等接收的「輸入」信號。輸入要通過兩個編碼器,文本編碼器(text encoder)和視覺編碼器(vision encoder)。

視覺編碼器對圖像進行編碼,并從中提取高級特征;而文本編碼器,更多代表著用戶與汽車的交互。

“在傳統方案中,會生成各類特征。雖然看起來簡單,實際上它背后的網絡復雜得多。它結合了文本特征等,然后通過模型進行輸出。”

至于「輸出」,是由軌跡解碼器(trajectory decoder)把模型的輸出轉換成系統能理解的軌跡信號,它負責告訴用戶接下來10秒,乃至30秒中,車輛會做什么,也就是給出帶有速度和路徑的軌跡。

同時,「文本解碼器」也會解釋下一步動作的原因。例如,“有兩個行人正在試圖過馬路,車輛需要減速并等他們通過。”



相比之下,基于端到端技術的自動駕駛解決方案則更加高效,這種方案通過實時感知和重建世界,能夠處理各種復雜和長尾的情況。

“由于它是基于神經網絡的,因此具有很強的泛化能力,可以適應全球范圍內的不同道路和環境。”

周光表示,在端到端技術加持下,軌跡解碼器就像人類大腦一樣工作,而不是像規則。

他介紹稱,VLA的關鍵特性是「思維鏈」:“因為現實世界要復雜得多,規則庫無法應對這種復雜度。你需要通過多重信息來決定如何通過復雜場景,也需要不斷地與其他車輛博弈、交互。”

他為VLA的思維鏈舉了個例子,例如潮汐車道,基于VLA的智能駕駛車輛,能通過文本等看懂可逆車道的道路標志,并從多重信息中確認此時的潮汐車道是否可行駛,并通過轉向燈等與其他車輛交互,隨即變換車道,進行轉向,最終行駛至潮汐車道中。

這一系列動作都是使用VLA進行的,它可以利用類人的思維,通過對全局上下文的了解,去了解車道的情況,與其他車輛交互,并做出最優的、安全的決策。

在周光看來,VLA相比目前的端到端具備兩點關鍵提升:

首先,它更具適應性,也就是VLA可以適應并處理復雜的現實世界場景;

其次,是透明度,也就是它會解釋動作及軌跡原因,“傳統的數據系統需要解釋代碼,但是作為人類,我可以自然解釋操控原因,這就是高級推理。VLA正是具備了這樣的高級推理,因為它采用了全局信息和長上下文(context)信息,它可以做出更好的決策并提高安全性。

VLA的關鍵挑戰

然而,VLA技術仍然存在許多重大挑戰。首當其沖的,自然還是數據,而且周光還強調了真實數據的重要性。

“真實世界的數據是不同的,它涵蓋了大量的環境變化,例如閃電、天氣等。這就是我們為什么使用真實世界數據的原因,因為合成數據無法完整覆蓋這些變化。還有更重要的一點,就是合成數據缺乏關鍵狀態。例如行人違規橫穿馬路等場景,是在模擬中是無法得到的。”

對于這點,周光認為,量產車的規模,決定了迭代的速度:“我們每個月出貨量都在萬臺規模,擁有大量數據來開發VLA模型。在中國,我們在全國范圍內進行測試,收集數據。由于中國各地的天氣條件、不同城市都有差異,我們可以覆蓋各種場景,并收集足夠的數據用于訓練。”

另外,「實時響應」也是一個很大的挑戰。大模型需要數十億量級的參數,以及數千種類型的計算。所以元戎選擇與英偉達共同開發VLA模型,再加上元戎自己的推理引擎,可通過AI推理最大限度地提高模型性能。

“我們可以在100毫秒內對情況做出響應,這比人類還快。”

當周光提及近期在美國測試特斯拉FSD最新版本的感受時,他表示FSD的整體表現非常流暢、自然且可預測。

“但我也注意到了特斯拉數據的不足——美國灣區的車輛相比國內少得多,人流量、電動車的密度等都比中國低。如果想在中國部署這個系統,這些數據都是缺乏的。”

他認為,擁有足夠的臨界態數據,才意味著可以更好地和參與交通的其他車輛、行人進行交互。“我確信特斯拉也在使用相同的技術。”

周光表示,目前元戎正與多家主機廠進行量產合作,其中包括了SUV、乘用車和越野車等車型。

“去年,我們有三款車型實現量產,而今年會有超過10款,預計今年這些車型的產量將超過20萬輛,甚至更多。”



周光提及,最近元戎與Smart建立了戰略合作伙伴關系,同樣涉及自動駕駛。而且,第一款使用元戎解決方案的MPV也將于今年第一季度上市。

預計在今年,元戎不僅會在量產汽車中部署VLA模型,還會使用這些技術探索Robotaxi。

“Robotaxi是商業邏輯,而不是一項技術。我認為Robotaxi應該使用端到端模型、使用VLA來運營。”他說道。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
紐約市長候選人被爆“身份造假”!16年前申請藤校時自稱“非裔”,選民怒了!

紐約市長候選人被爆“身份造假”!16年前申請藤校時自稱“非裔”,選民怒了!

紐約時間
2025-07-06 01:32:36
今晚19:35,CCTV5直播!U16國足vs亞洲冠軍,贏球或升榜首

今晚19:35,CCTV5直播!U16國足vs亞洲冠軍,贏球或升榜首

大秦壁虎白話體育
2025-07-06 02:06:53
被人遺忘的電影大亨向華勝:獨寵張敏9年,64歲病逝無子女送終

被人遺忘的電影大亨向華勝:獨寵張敏9年,64歲病逝無子女送終

草莓解說體育
2025-07-03 03:30:13
2球被吹10分鐘2紅!世俱杯瘋狂1戰:拜仁0-2出局 4強誕生3席

2球被吹10分鐘2紅!世俱杯瘋狂1戰:拜仁0-2出局 4強誕生3席

葉青足球世界
2025-07-06 02:06:05
1942年,預備10師爆冷擊敗日軍王牌師團,所有團師長全部晉升

1942年,預備10師爆冷擊敗日軍王牌師團,所有團師長全部晉升

豆包史館
2025-07-02 14:05:09
中國第一午睡大省:隨地入睡,長命百歲

中國第一午睡大省:隨地入睡,長命百歲

視覺志
2025-07-02 18:37:48
留給內鬼們的時間不多了!我國持續全面清理,間諜一個都別想逃

留給內鬼們的時間不多了!我國持續全面清理,間諜一個都別想逃

詩意世界
2025-07-05 10:00:03
重磅!預期落空,廣州買房入戶政策大反轉

重磅!預期落空,廣州買房入戶政策大反轉

房地產導刊
2025-07-05 16:48:55
油價大降近660元/噸,創3年最低后大反轉,下次7月15日油價或大降

油價大降近660元/噸,創3年最低后大反轉,下次7月15日油價或大降

豬友巴巴
2025-07-05 15:00:03
一只固態電池龍頭,挑戰寧德時代!

一只固態電池龍頭,挑戰寧德時代!

叮當當科技
2025-07-05 14:49:25
親美的下場,再現南北分裂危機,或將悲劇重演,中方還會出手嗎

親美的下場,再現南北分裂危機,或將悲劇重演,中方還會出手嗎

小樾說歷史
2025-07-05 16:07:41
剛剛,特朗普簽署“大而美”法案!美政界猛批:將致近1200萬人失去醫保,給富人更多權力和財富

剛剛,特朗普簽署“大而美”法案!美政界猛批:將致近1200萬人失去醫保,給富人更多權力和財富

每日經濟新聞
2025-07-05 07:55:10
賈巴里:小時候在中國待過 那里的食物都太獨特了 我只敢吃麥當勞

賈巴里:小時候在中國待過 那里的食物都太獨特了 我只敢吃麥當勞

直播吧
2025-07-05 09:30:08
為了圈錢臉都不要了!剛復出就開演唱會,票價賣1280,哪來的自信

為了圈錢臉都不要了!剛復出就開演唱會,票價賣1280,哪來的自信

洲洲影視娛評
2025-07-02 18:21:10
看了今年680分以上的學霸后頓悟:孩子是否自律,取決于這幾點

看了今年680分以上的學霸后頓悟:孩子是否自律,取決于這幾點

男孩派
2025-07-05 09:51:10
壞事,印從中國進口120噸稀土,違反轉手賣給歐美,中國果斷出手

壞事,印從中國進口120噸稀土,違反轉手賣給歐美,中國果斷出手

現代小青青慕慕
2025-07-06 00:02:06
表哥得知我家國慶游玩地點,拖家帶口提前到達,等了幾天后慌了

表哥得知我家國慶游玩地點,拖家帶口提前到達,等了幾天后慌了

濤哥講堂
2025-07-03 10:17:40
面館剩飯二次銷售后續:老顧客替其說好話,上海文旅評論區淪陷

面館剩飯二次銷售后續:老顧客替其說好話,上海文旅評論區淪陷

阿纂看事
2025-07-05 18:21:04
上海浦東機場能躺平睡了!13臺睡眠艙24小時開放!價格如何?

上海浦東機場能躺平睡了!13臺睡眠艙24小時開放!價格如何?

新民晚報
2025-07-04 23:20:31
爭議!C羅未出席若塔葬禮 葡萄牙隊友+主帥都去了 缺席原因太暖心

爭議!C羅未出席若塔葬禮 葡萄牙隊友+主帥都去了 缺席原因太暖心

我愛英超
2025-07-05 20:22:18
2025-07-06 03:11:00
RoboX
RoboX
關注智能汽車、機器人在內的具身智能前沿科技
151文章數 1關注度
往期回顧 全部

汽車要聞

31.6萬元起售 蔚來新ET5/ET5T/EC6冠軍紀念版上市

頭條要聞

外媒:對以襲擊感到憤怒和警惕 沙特將與伊朗保持和解

頭條要聞

外媒:對以襲擊感到憤怒和警惕 沙特將與伊朗保持和解

體育要聞

史上最真實的F1電影,是怎么拍出來的?

娛樂要聞

汪小菲帶娃出游 馬筱梅小玥兒感情超好

財經要聞

特朗普簽署 美國萬億減稅支出法來了

科技要聞

盤古團隊回應抄襲事件:嚴格遵循開源要求

態度原創

數碼
家居
游戲
公開課
軍事航空

數碼要聞

同德推出更薄 RTX 5070 (Ti) GamingPro-S 顯卡,RGB 燈僅限正面

家居要聞

合理布局 三口之家的溫馨空間

外媒分析《地平線3》或在2027年上線!復刻為新作鋪路

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以方收到哈馬斯對停火提案回應 或在多哈間接談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鱼台县| 永泰县| 宜都市| 喜德县| 海伦市| 酒泉市| 兰州市| 隆化县| 田东县| 上饶市| 佛坪县| 平顺县| 长子县| 阳春市| 五华县| 长宁县| 黔南| 乌拉特后旗| 易门县| 万山特区| 临邑县| 沂源县| 清流县| 花莲市| 班戈县| 灵川县| 修水县| 泰来县| 涞源县| 砚山县| 北流市| 濉溪县| 大港区| 万山特区| 龙泉市| 乌审旗| 泾源县| 稻城县| 建瓯市| 晋中市| 瓮安县|