網易首頁 > 網易號 > 正文申請入駐

大語言模型上車，軟硬結合是關鍵

2025-07-24 13:17:07　來源: NVIDIA英偉達中國

北京舉報

分享至

隨著汽車行業的飛速發展，當乘用車從交通工具向智能移動終端不斷進化，艙駕智能化水平已成為衡量整車廠競爭力的核心標尺，而其中車載平臺算力更是端側艙駕 AI 進化的核心燃料。

其中，以智駕視角來看，從 L2 級輔助駕駛，到 L2+ 高級輔助駕駛，再到 L3/ L4 級自動駕駛，車載計算平臺的算力需求正以指數級增長，這種增長不僅源于傳感器數量與分辨率的提升，更來自 AI 算法復雜度帶來的能力上限的爆炸式演進。

NVIDIA DRIVE AGX 系列芯片以領先行業的算力規模，架構創新以及豐富數字生態，已成為定義智能駕駛時代的“數字算力引擎”，其構建的從云端訓練到車端推理的完整算力體系，正在逐步重塑汽車產業的技術發展格局。

而以智艙角度來看，隨著生成式 AI 技術的迅猛發展，艙內 AI 端側部署正從簡單的語音助手交互向多模態甚至全模態智能座艙體驗躍遷。端側大模型憑借本地實時推理能力，可實現極低延遲的自然語言交互，個性化的主動式 AI 服務以及艙內外環境感知應用。開發者可通過 CUDA 生態復用云端大模型開發優化經驗，大幅縮短端側開發周期同時極大提高推理速度和用戶體驗。

目前已有頭部車企基于 NVIDIA DRIVE AGX 系列芯片部署端到端艙內 AI Agent，從而實現被動響應到主動服務的體驗升級。

自動駕駛技術的每一次技術跨越與性能體驗升級，都伴隨著算力需求的幾何級增長。L2 級輔助駕駛僅需 10TOPS 以下算力，即可完成車道保持、自適應巡航等基礎功能；而 L2+ 級高級輔助駕駛對算力的需求驟升至 100TOPS 以上，以應對復雜城市道路的多目標檢測與決策規劃；當邁向 L3/L4 級自動駕駛，系統需要同時處理數十路傳感器的多并發數據流量，所需算力已突破 1000TOPS 大關。

那么，從技術發展和落地的角度來看，究竟該如何進一步應對汽車智能化發展帶來的 AI 算力部署的挑戰？

DRIVE AGX SoC 系列

從硬件的角度來看，為了應對汽車在快速演變為智能終端的過程中對于 AI 算力的飛速增加的需求，NVIDIA 先后推出了 DRIVE AGX SoC 系列的 DRIVE AGX Orin SoC 和 DRIVE AGX Thor SoC。

NVIDIA DRIVE AGX Orin SoC 可提供高達 254 TOPS（每秒萬億次運算）的性能，是智能車輛的中央計算平臺。它為輔助駕駛功能、置信視圖以及 AI 座艙提供高算力支持。

NVIDIA DRIVE AGX Thor SoC 是 NVIDIA 最新一代，專為汽車行業日益重要的生成式 AI 應用而打造的集中式車載計算機。作為 NVIDIA DRIVE AGX Orin SoC 的后續產品，DRIVE AGX Thor SoC 采用了 NVIDIA 最新的 CPU 和 GPU 技術，包括 NVIDIA Blackwell GPU 架構，用于 Transformer 和生成式 AI 功能。DRIVE AGX Thor SoC 支持 4 位浮點數（FP4）和 8 位浮點數（FP8），可提供前所未有的 2,000 FP4 TOPS/1,000 INT8 TOPS/1,000 FP8 TFLOPS/500 FP16 TFLOPS 性能。這一平臺不僅提供豐富的座艙功能、安全可靠的輔助駕駛功能，還能夠將所有功能整合至同一個集中式平臺上，極大地提高了系統的運行效率和可靠性，并降低了整體系統成本。

高算力平臺為 AI 上車奠定基礎，為算法迭代預留了充足空間。新一代集中式車載計算平臺將賦能整車廠的高階智能駕駛方案，發揮其在硬件、軟件算法和算力優化方面的優勢，推動輔助駕駛技術的全面升級，并覆蓋高速、城市、泊車等全場景的高階輔助駕駛功能，助力其向高端算力輔助駕駛轉型，共同探索大模型、世界模型的路徑，持續優化和提升高速領航、城市記憶領航及更高的旗艦級城市領航功能。

DriveOS 軟件架構和軟件開發包

當然，在基于硬件層面推出上述高算力平臺的基礎上，NVIDIA 也在軟件層面推出了一系列適用于這些高算力平臺的軟件架構和軟件開發包，從而形成了一整套軟硬結合的車端系統級 AI 開發方案，更好地滿足客戶在大語言模型時代的需求。

1. DriveOS 軟件架構

DriveOS 是 NVIDIA 提供的軟件板級支持包，包括 NVIDIA 自研的 Type-1 虛擬機，虛擬機之上不同的操作系統（Linux 或者 QNX），操作系統上的豐富的 SDK。這些 SDK 包括大家熟悉的 CUDA，TensorRT，Vulkan，還有特意為支持大語言模型的軟件開發包 DriveOS LLM SDK。這些 SDK 可以使開發者更容易的訪問 SOC 中的各種硬件加速引擎，快速的部署應用在 NVIDIA 的平臺。

2. DriveOS LLM SDK 介紹

DriveOS LLM SDK 是 NVIDIA 為嵌入式端特別推出的大語言模型軟件開發包，包含多個專為高效 LLM 推理而設計的關鍵組件。這些組件可確保在汽車平臺上高效部署 LLM，包括：

插件庫：LLMs 需要專用插件來實現高級功能和優化性能。DriveOS LLM SDK 包含這些自定義插件，以及一組用于處理上下文相關組件的內核，例如旋轉位置嵌入、multihead attention 和 KV-cache 管理。AttentionPlugin 還支持動態批量大小和動態輸入序列長度。
標記器/detokenizer：該 SDK 為 LLM 推理提供高效的標記器 /detokenizer，遵循 Llama 式字節對編碼（BPE）標記器，并帶有正則表達式匹配。此模塊將多模態用戶輸入（例如文本或圖像）轉換為令牌流，從而實現不同數據類型之間的無縫集成。
采樣器：采樣器對于文本生成、翻譯和對話等任務至關重要，因為它控制著模型在推理過程中如何生成文本和選擇標記。DriveOS LLM SDK 實現了基于 CUDA 的采樣器來優化此過程。為了平衡推理效率和輸出多樣性，采樣器使用單束采樣方法和 Top-K 選項。這種方法可提供快速且合理多樣化的輸出，而不會產生探索多個束所需的計算成本。這對于汽車應用非常重要，因為需要考慮延遲和效率。
解碼器 ：在 LLM 推理期間，解碼器模塊根據模型的預測迭代生成 token，從而生成文本或序列。DriveOS LLM SDK 提供靈活的解碼循環，支持靜態批量大小、填充輸入序列，以及生成批量中最長的序列。

這些組件共同支持在多個 NVIDIA DRIVE 平臺上實現靈活、輕量級的高性能 LLM 部署和定制（圖 1）。

圖 1. DriveOS LLM SDK 主要組件和架構計劃

a）支持的模型、精度格式和平臺

DriveOS LLM SDK 在 DRIVE 平臺上支持一系列先進的 LLM，包括 NVIDIA DRIVE AGX Orin 和 NVIDIA DRIVE AGX Thor。作為預覽功能，該 SDK 還可以在 x86 系統上運行，這對于開發非常有用。目前支持的模型包括以下內容，未來預計還會有其他模型：

Llama 3 8B Instruct
Llama 3.1 8B
Llama 3.2 3B
Qwen2.5 7B Instruct
Qwen2 7B Instruct
Qwen2 VL
Intern3 VL
Phi4 VL

該 SDK 支持多種精度格式，可在不同平臺（包括 FP16、FP8、NVFP4 和 INT4）上解鎖大型 LLM。對于 INT4（W4A16）精度，使用 AWQ recipe 將模型權重量化為 INT4，并在 FP16 中執行計算。這種方法可顯著減少內存占用。該 SDK 還在 NVIDIA DRIVE AGX Thor 平臺上支持 TensorRT 版本大于 10.4 的 FP8（W8A8）精度，以及 TensorRT 版本大于 10.8 的 NVFP4 精度。

這些精度可以進一步減少 LLM 推理期間的內存占用，同時增強內核性能。在此配置中，權重和 GEMM 運算采用 FP8 或 NVFP4 格式，而 LayerNorm、KV 緩存、LM 頭和注意力層保留在 FP16 中。總體而言，DriveOS LLM SDK 旨在高效支持各種 LLM，包括多模態輸入和跨多個平臺的各種精度格式。

b）DriveOS LLM SDK 的關鍵 feature

c）LLM 部署工作流

LLM 部署通常是一個復雜的過程，需要大量的工程工作，尤其是在邊緣設備上。DriveOS LLM SDK 為在 DRIVE 平臺上部署 LLM 提供了簡化的解決方案。所提議的 SDK 將部署工作流程簡化為兩個簡單的步驟：導出 ONNX 模型和構建引擎（圖 2）。此過程與使用 TensorRT 部署深度學習模型的標準程序十分相似。

圖 2. 使用 DriveOS LLM SDK 部署 LLM 的步驟

量化在優化 LLM 部署方面發揮著至關重要的作用，尤其是對于資源受限的平臺而言。它可以顯著提高 LLM 的效率和可擴展性。DriveOS LLM SDK 通過在 ONNX 模型導出階段提供多個量化選項來滿足這一需求，您可以通過一條命令輕松調用這些量化選項：

python3 llm_export.py --torch_dir $TORCH_DIR --dtype [fp16|fp8|int4] --output_dir $ONNX_DIR

此命令可將 Hugging Face 格式的 LLM 轉換為具有指定量化精度的 ONNX 模型。建議在 x86 數據中心 GPU 上執行此步驟，以避免內存不足（OOM）問題。

將模型導出到 ONNX 后，可以使用 llm_build 二進制文件來創建相應的 TensorRT 引擎。構建過程與特定模型或精度無關，因為 IO 接口在所有 ONNX 模型中保持標準化。應使用以下命令在 DRIVE 平臺上構建引擎：

./build/examples/llm/llm_build --onnxPath=model.onnx --enginePath=model.engine --batchSize=B --maxInputLen=N --maxSeqLen=M

該 SDK 還包括交叉編譯構建系統，支持在 x86 機器上編譯 AArch64 目標。此功能可加速部署并簡化邊緣計算平臺上的特征驗證。

除了其用戶友好型部署流程外，DriveOS LLM SDK 還提供各種 C++ 代碼示例，用于端到端 LLM 推理、性能基準測試和實時聊天實現。這些示例使開發者能夠使用靜態批量大小和輸入/輸出序列長度來評估 DRIVE 平臺上不同模型的準確性和性能，或自定義自己的應用程序。

要使用 SDK 提供的 C++ 代碼來啟用 LLM 聊天機器人，請使用以下示例命令：

./build/examples/llm/llm_chat --tokenizerPath=llama-v3-8b-instruct-hf/ --enginePath=llama3_fp16.engine --maxLength=64

此命令的整個推理工作流如圖 3 所示，其中與 DriveOS LLM SDK 相關的組件以藍色塊表示。

圖 3. 使用 DriveOS LLM SDK 進行推理的管道

d）多模態 LLM 部署的性能

總結

當前，整個汽車行業在持續追求輔助駕駛快速發展的同時，也在不斷推進大語言模型在車端的落地，這就對車端 AI 算力的多樣化部署，尤其是對大語言模型的部署和適配能力，提出了更加復雜和多樣化的要求。

NVIDIA DriveOS LLM SDK 簡化了 LLM 和 VLM 在 DRIVE 平臺上的部署。通過利用強大的 NVIDIA TensorRT 推理引擎以及 LLM 特定優化技術，如量化，先進的 LLM 和 VLM 可以在 DRIVE 平臺上輕松的部署，并取得此 SDK 為在生產環境中部署強大的 LLM 奠定了基礎，最終提高了 AI 驅動的應用的性能。

對于 NVIDIA 來說，通過軟硬件結合的方式來持續推進并引領最新的技術進展，一直是 NVIDIA 面向汽車行業進行技術賦能的核心邏輯——由此，面對大語言模型快速上車的大趨勢，DRIVE 平臺更好地支持 LLM 的部署，成為這一邏輯落地的關鍵一環。

從長遠的視角來看，伴隨著智能駕駛和智能座艙在大模型時代的不斷演進，二者之間也正在呈現出相互融合和相互賦能的發展態勢，這將會使得汽車終端在持續擁抱大算力的同時，也將會越來越意識到相應的軟件適配能力的重要性。

由此，更加緊密和深層次的軟硬結合，已經成為 AI 在車端進一步落地的必由之路。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.