網易首頁 > 網易號 > 正文申請入駐

滿血版3萬Tokens每秒，英偉達捅破DeepSeek推理性能天花板！

2025-03-21 17:47:00　來源: AI全球總部

北京舉報

分享至

30000個tokens每秒，太炸裂了！

剛剛，英偉達在2025GTC大會上宣布了創世界紀錄的滿血 DeepSeek-R1 推理性能。

DGX系統搭載八顆NVIDIA Blackwell GPU，在DeepSeek-R1模型（6710億參數）推理任務中創下了世界紀錄↓

單用戶推理速度超過每秒250個token，峰值吞吐量超過每秒30000個token。

這一突破性的性能提升，得益于針對NVIDIA Blackwell架構深度優化的NVIDIA開放生態推理開發工具鏈。

但這還是只是牛刀小試↓

隨著NVIDIA平臺持續探索Blackwell Ultra GPU和Blackwell GPU架構的極限潛力，這些推理性能的天花板會不斷被捅破。

圖1. 在NVL8配置下運行TensorRT-LLM軟件的NVIDIA B200 GPU，在滿血DeepSeek-R1 671B模型上實現了每秒每位用戶最高的已發布token生成速度。

單臺DGX B200（8顆GPU）系統與單臺DGX H200（8顆GPU）系統的性能對比：

B200和H200的測試數據分別來自3月和2月，使用內部版本的TensorRT-LLM工具。

測試條件：3月，輸入長度為1,024個token，輸出長度為2,048個token；1月和2月份，輸入和輸出均為1,024個token。

并發度設為1，B200系統使用FP4精度，H100和H200系統使用FP8精度。

圖2. 通過硬件和軟件的結合，NVIDIA自2025年1月以來將DeepSeek-R1 671B模型的吞吐量提高了約36倍，相當于每個token的成本降低了約32倍。

最大吞吐量（標準化為8顆GPU系統）對比：

包括單臺DGX B200（8顆GPU）系統、單臺DGX H200（8顆GPU）系統，以及兩臺DGX H100（各8顆GPU，共16顆GPU）系統。測試數據來自內部版本的TensorRT-LLM工具。

3月測試：輸入1,024個token，輸出2,048個token。

1月和2月測試：輸入和輸出均為1,024個token。

并發度設為最大值（MAX），B200使用FP4精度，H200和H100使用FP8精度。

NVIDIA 擁有全球規模最大的推理生態系統，幫助開發者靈活地打造針對自身部署需求的AI解決方案，無論目標是追求最佳用戶體驗還是最大效率，都可以輕松實現。

該生態系統不僅包括NVIDIA官方提供的開源工具，也涵蓋了來自社區的豐富貢獻，共同發揮最新一代Blackwell架構和軟件技術的全部潛力。

Blackwell架構在性能上實現了大幅度提升，包括：

? 第五代Tensor Core搭載FP4精度加速，AI算力最高提升至前代的5倍；

? 第五代NVLink和NVLink Switch技術，相較前代NVLink帶寬提高2倍；

? 支持規模更大的NVLink網絡域擴展能力。

無論從單芯片性能還是數據中心整體規模來看，這些創新都是推動前沿大模型（如DeepSeek-R1）實現高吞吐量和低延遲推理的關鍵。

然而，僅憑強大的硬件基礎設施不足以滿足加速計算的需求，更重要的是配套一整套持續優化且快速更新的軟件堆棧，以確保當前的高強度任務高效運行，同時為未來更具挑戰性的任務做好準備。

為此，NVIDIA始終致力于優化技術棧的每一層，包括芯片、系統、庫和算法，以實現卓越的工作負載性能。

以下將全面介紹NVIDIA推理生態系統的多項更新，涉及的重要軟件組件包括：

? NVIDIA TensorRT-LLM

? NVIDIA TensorRT

? TensorRT Model Optimizer

? CUTLASS

? NVIDIA cuDNN

? 主流AI框架（PyTorch、JAX、TensorFlow等）

此外，英偉達還分享了最新的性能與精度數據，這些數據是在搭載8顆Blackwell GPU并使用兩個NVLink Switch芯片互聯的NVIDIA DGX B200系統上實測獲得的。

太長不看的分界線

TensorRT生態系統：專為NVIDIA Blackwell優化的全家桶

NVIDIA TensorRT生態系統旨在幫助開發者充分優化在NVIDIA GPU上的生產環境推理部署。

該生態包含一系列庫工具，支持AI模型從預處理、加速優化，到最終的生產環境部署，全流程均已針對最新的NVIDIA Blackwell架構實現深度優化。

與上一代Hopper架構相比，Blackwell架構在推理性能上持續展現出巨大的提升。

模型優化的第一步：TensorRT Model Optimizer

TensorRT Model Optimizer是實現推理速度優化的重要第一步。它提供了一系列先進的模型優化技術，包括：

? 量化（Quantization）

? 蒸餾（Distillation）

? 剪枝（Pruning）

? 稀疏化（Sparsity）

? 推測解碼（Speculation Decoding）

這些技術能夠大幅提升模型在推理階段的運行效率。

最新發布的TensorRT Model Optimizer 0.25版本現已支持Blackwell架構上的FP4精度，適用于訓練后量化（PTQ）與量化感知訓練（QAT），進一步提升了推理計算吞吐量，并降低了下游推理框架的內存消耗。

專為大模型推理優化的TensorRT-LLM

模型優化完成后，高性能推理框架對于高效運行至關重要。TensorRT-LLM為開發者提供了豐富的工具箱，支持實現實時、高性價比、高能效的大模型（LLM）推理。

最新發布的TensorRT-LLM 0.17版本新增了對Blackwell架構的支持，并針對Blackwell的指令集、內存層次結構及FP4精度做了定制化優化。

基于PyTorch架構的TensorRT-LLM，通過為常見大模型推理操作提供高性能且靈活的內核（Kernels），以及先進的運行時特性。

包括動態批處理（in-flight batching）、KV緩存管理和推測式解碼（speculative decoding），實現了卓越的性能表現。

主流深度學習框架及其他LLM推理框架的全面支持

目前，廣泛使用的深度學習框架如PyTorch、JAX和TensorFlow均已升級，全面支持Blackwell架構下的訓練與推理。

此外，社區熱門的LLM服務框架如vLLM與Ollama也已適配Blackwell GPU，其他框架的支持也將在近期陸續跟進。

Blackwell配合TensorRT的軟件堆棧帶來顯著推理性能提升

得益于Blackwell架構與TensorRT軟件的協同優化，相較上一代Hopper架構，推理性能獲得大幅提升。

這種性能增長的核心來自顯著提高的計算能力、更大的內存帶寬，以及高度優化的軟件棧，共同確保了卓越的實際運行性能。

以社區廣泛使用的大模型為例，包括DeepSeek-R1、Llama 3.1（405B參數）和Llama 3.3（70B參數），DGX B200平臺在使用TensorRT推理軟件與FP4精度的情況下，推理吞吐量已超過DGX H200平臺的3倍以上，性能優勢極為突出。

圖3. 使用搭載NVIDIA Blackwell GPU的NVIDIA HGX B200以及FP4，與上一代運行FP8的GPU相比，Llama 3.1 70B、Llama 3.1 405B和DeepSeek-R1的推理吞吐量（tokens/sec）提升情況。

以下為初步規格，可能會有所更改。

TensorRT 模型優化器 v0.23.0。TensorRT-LLM v0.17.0。最大批量大小為 2048，實際批量大小通過 TensorRT-LLM Inflight Batching 動態調整。H200 FP16/BF16 GEMM + FP8 KV 緩存。B200 FP4 GEMM + FP8 KV 緩存。吞吐量提升。

Llama 3.3 70B: ISL 2048, OSL 128

Llama 3.1 405B: ISL 2048, OSL 128

DeepSeek-R1: ISL 1024, OSL 1024

在對模型進行量化以利用低精度計算的優勢時，確保最小的精度損失對于生產部署至關重要。

對于 DeepSeek-R1，TensorRT 模型優化器的 FP4 訓練后量化（PTQ）在各種數據集上相較于 FP8 基線表現出極小的精度損失，如表 1 所示。

表1. DeepSeek-R1模型在FP8/FP4精度下的MMLU/GSM8K/AIME24/GPQA/MATH-500準確率（PTQ量化后）

表2提供了基于BF16基準精度以及在流行的Llama 3.1 405B和Llama 3.3 70B模型上使用FP4量化后的準確性結果。

表2. Llama模型在BF16/FP4精度下的MMLU和GSM8K準確率（PTQ量化后）

在以低精度（例如FP4）部署時，如果可以獲取微調數據集，則可以應用量化感知訓練（QAT）來恢復精度。

為了展示QAT的價值，使用TensorRT模型優化器通過QAT將NVIDIA Nemotron 4 15B和Nemotron 4 340B模型量化為FP4，與BF16基準相比實現了無損的FP4量化（表3）。

表3. FP4 PTQ和QAT相對于BF16基準的vMMLU 5-shot準確率。模型優化器QAT實現了Nemotron 4 15B和Nemotron 4 340B的無損量化。

使用TensorRT與TensorRT Model Optimizer的FP4精度提升Blackwell平臺圖像生成效率

此前，NVIDIA的TensorRT和TensorRT Model Optimizer已通過INT8和FP8等8比特量化技術，大幅提升了擴散模型（Diffusion Models）在圖像生成任務中的性能。

現在，隨著NVIDIA Blackwell架構與FP4精度的出現，AI圖像生成的效率再度實現了飛躍。

這一性能優勢不僅適用于數據中心和專業平臺，也同樣惠及搭載NVIDIA GeForce RTX 50系列GPU的個人AI電腦（AI PC），使用戶能在本地快速生成高質量圖像。

由Black Forest Labs推出的Flux.1模型系列屬于業內領先的文本到圖像（Text-to-Image）生成模型，具有卓越的文本提示遵循能力，能夠生成豐富復雜的場景。

開發者現已可從Black Forest Labs在Hugging Face上提供的模型庫中下載FP4量化的Flux模型，并直接使用TensorRT進行部署。

這些FP4量化模型由Black Forest Labs團隊利用TensorRT Model Optimizer提供的FP4工作流和配方（recipes）生成。

為突出展示FP4精度對Blackwell平臺圖像生成性能的提升，Flux.1-dev模型在FP4精度下與FP16相比：

? 圖像生成吞吐量（每秒生成圖像數）提升最高達3倍；

? 顯存（VRAM）占用量壓縮最高達5.2倍；

? 在性能顯著提升的同時，生成圖像的質量仍然保持不變（詳見表4）。

圖4. GeForce RTX 5090在FP4精度下，Flux.1-dev的圖像吞吐量與其他精度在30步長下的對比。

在Flux.1-dev模型中，僅Transformer主干部分采用了FP4精度進行量化，而模型中的其他部分則依然保持BF16精度。

此外，TensorRT的DemoDiffusion工具提供了一種低顯存（low-VRAM）模式。

在該模式下，T5、CLIP、VAE以及Flux.1-dev所用的FLUX Transformer模型會按需加載，任務完成后隨即卸載。

這種策略使得FLUX模型的峰值顯存占用不會超過上述四個子模型中單個模型的最大顯存需求。

但相應地，這種加載和卸載模型的方式也會增加一定的推理延遲。

表4. Blackwell FP4顯存使用量及與不同精度格式的節省情況對比

圖5展示了使用FP4精度量化的Flux模型生成的示例圖像，從中可明顯看出，與使用BF16精度的基準模型相比，在給定提示詞下生成圖像的質量和內容保持了一致。

表5通過對1000張生成圖像的定量評估，進一步驗證了FP4模型在圖像質量、相關性以及視覺吸引力方面的表現。

圖5示例圖像對應的提示詞如下↓

上圖提示詞：

“兩顆巨大的恒星在浩瀚宇宙中彼此環繞共舞，強大的引力使它們逐漸靠近。當其中一顆恒星坍縮為黑洞時，爆發出耀眼的能量，形成一道璀璨奪目的光輝，在宇宙的黑暗背景中熠熠生輝。四周旋轉著的氣體與塵埃云團環繞著這一壯觀景象，展現著宇宙深處難以想象的巨大能量。Two colossal stars dance in the vastness of space, their intense gravitational forces pulling them closer together. As one star collapses into a black hole, it releases a brilliant burst of energy, creating a dazzling display of shimmering light against the cosmic backdrop. Swirling clouds of gas and dust encircle the spectacle, hinting at the unimaginable power contained within.”

下圖提示詞：

“畫面的中央放置著一個真實感十足的球體，其表面覆蓋著柔軟蓬松的動物毛發。毛發細致逼真，呈現出自然、柔和的起伏動態。毛發所投射的陰影增強了畫面的視覺效果，整體渲染效果細膩逼真，具有高質量的Octane渲染質感。A realistic sphere textured with the soft, fluffy fur of an animal sits in the center of the image on a plain colored background. The fur ripples with gentle, lifelike motion, and the shadows cast by the fur create an engaging visual effect. The render has a high-quality, octane appearance.”

圖5. 在RTX 5090上，Blackwell FP4以一半的顯存實現了Flux.1-dev模型3倍的推理性能，同時保持了相當的質量。

表5. 使用Image Reward、CLIP-IQA和CLIPScore對FP4圖像質量的定量評估（數值越高越好）。

Flux.1-dev模型性能測試說明

?測試設置：Flux.1-dev模型，推理步數30步，共生成1,000張圖像，采用TensorRT Model Optimizer v0.23.0 FP4配方進行量化。

?模擬環境：2025年1月24日，基于NVIDIA H100 GPU進行模擬測試。在TensorRT內核層面，此模擬與RTX 5090上的表現數學上完全一致，但實際運行于RTX 5090 GPU時可能會存在細微的分數差異。

TensorRT 10.8更新帶來的性能提升

TensorRT 10.8版本現已支持Flux.1-Dev與Flux.1-Schnell模型在高端GeForce RTX 50系列GPU上的峰值FP4性能表現。

此外，借助新增的--low-vram（低顯存）模式，即使是在顯存容量受限的GeForce RTX 5070等GPU上，也能順暢運行上述模型。

同時，TensorRT現在還支持運行由Black Forest Labs提供的Depth和Canny Flux ControlNet模型。開發者可立即使用TensorRT提供的demo/Diffusion工具體驗相關功能。

cuDNN的深度學習原語已針對Blackwell架構優化

自2014年推出以來，NVIDIA cuDNN庫一直是GPU上深度學習加速的核心組件。

它通過高度優化的深度學習基礎原語實現，幫助PyTorch、TensorFlow和JAX等主流框架達到業內領先的性能表現。

憑借與框架的無縫集成及在多代GPU架構上的優化支持，cuDNN已經成為貫穿訓練到推理全流程深度學習工作負載的性能引擎。

隨著cuDNN 9.7版本的發布，NVIDIA正式將cuDNN對Blackwell架構的支持擴展到了數據中心和GeForce系列產品線。

當開發者將現有的cuDNN算子遷移到Blackwell架構的新一代Tensor Core上時，將顯著提升性能表現。

新版庫提供了高度優化的通用矩陣乘法（GEMM）API，充分發揮Blackwell架構在FP8和FP4區塊縮放（Block-scaling）操作上的優勢，屏蔽底層復雜性，使開發者更專注于上層的創新工作。

針對FP8精度的Flash Attention操作，cuDNN在Blackwell架構下取得了明顯的性能提升：

? 前向傳播（Forward Propagation）性能提升高達50%；

? 反向傳播（Backward Propagation）性能提升更高達84%。

不僅如此，cuDNN還為Blackwell架構提供了高度優化且具有高級算子融合能力的GEMM操作。未來，cuDNN將進一步拓展算子融合支持，以持續推動深度學習工作負載性能的提升。

圖6. NVIDIA Blackwell B200與NVIDIA Hopper H100之間的FP8 Flash Attention加速對比

借助CUTLASS打造高性能的Blackwell架構CUDA內核

自2017年首次推出以來，CUTLASS一直是研究人員和開發者在NVIDIA GPU上實現高性能CUDA內核的重要工具。

CUTLASS通過提供豐富的工具集，幫助開發者高效設計針對NVIDIA Tensor Core的自定義計算操作，例如通用矩陣乘法（GEMM）和卷積（Convolution）等，使硬件感知算法（Hardware-aware Algorithms）的開發變得更加高效。

這推動了FlashAttention等創新算法的出現，也確立了CUTLASS在GPU加速計算領域的重要地位。

此次CUTLASS 3.8版本的發布，全面增加了對NVIDIA最新Blackwell架構的支持，幫助開發者充分利用新一代Tensor Core所支持的所有新數據類型，包括最新的窄精度MX數據格式以及NVIDIA自研的FP4精度。

這一更新將使開發者能更有效地為自定義算法和生產工作負載進行性能優化，充分釋放加速計算的最新潛力。

如圖7所示，借助CUTLASS，我們在Tensor Core計算操作上的性能表現已經達到相對峰值性能的98%。

圖7. 在不同NVIDIA Blackwell Tensor Core上可實現的相對峰值性能

測試在B200系統上進行，其中M=K=16384，N=17290。

CUTLASS為Blackwell架構引入Grouped GEMM和混合輸入GEMM等熱門功能

最新版本的CUTLASS還在Blackwell架構上引入了廣受歡迎的功能，例如Grouped GEMM（分組GEMM）和Mixed Input GEMM（混合輸入GEMM）計算：

? Grouped GEMM 能更高效地同時執行多個“專家”（Expert）計算，從而顯著加速混合專家（MoE）模型的推理過程。

? Mixed Input GEMM 則可支持量化內核（Quantized Kernels），降低大型語言模型（LLM）權重在GPU上的顯存占用，進一步提高GPU資源的使用效率。

Blackwell架構已獲得OpenAI Triton編譯器加持

此外，OpenAI Triton編譯器現已新增了對NVIDIA Blackwell架構的支持。這一更新使開發者和研究人員能夠借助基于Python的Triton編譯器輕松調用Blackwell的最新架構特性。

OpenAI Triton現已充分利用Blackwell架構的創新優勢，在多個關鍵應用場景下實現了接近最優的性能表現。

總結一下，NVIDIA Blackwell架構集成了眾多突破性技術，大幅加速了生成式AI的推理性能，其中包括：

? 第二代Transformer Engine與FP4 Tensor Core；

? 第五代NVLink與NVLink Switch技術。

牛刀小試的成績，NVIDIA宣布創下了滿血版DeepSeek-R1模型推理性能的世界紀錄：一套配備8顆Blackwell GPU的NVIDIA DGX系統，能實現單用戶每秒超過250個token的推理速度，最大吞吐量更超過每秒30,000個token。

本文編譯自英偉達官方博客

原文鏈接：https://developer.nvidia.com/blog/nvidia-bla

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.