網易首頁 > 網易號 > 正文申請入駐

英偉達再破世界紀錄，每秒1000 token！剛剛，全球最快Llama 4誕生

2025-05-23 12:19:30　來源: 新智元

北京舉報

分享至

新智元報道

編輯：編輯部 XZH

【新智元導讀】英偉達，親手打破了自己的天花板！剛剛，Blackwell單用戶每秒突破了1000個token，在Llama 4 Maverick模型上，再次創下了AI推理的世界紀錄。在官博中，團隊放出了不少絕密武器。

你以為，AI推理的速度已經夠快了？

不，英偉達還能再次顛覆你的想象——就在剛剛，他們用Blackwell創下了AI推理的新紀錄。

僅僅采用單節點（8顆Blackwell GPU）的DGX B200服務器，英偉達就實現了Llama 4 Maverick模型每秒單用戶生成1000個token（TPS/user）的驚人成績！

單節點使用8塊B200 GPU

這項速度記錄，由AI基準測試服務Artificial Analysis獨立測量。

而且，更令人咋舌的是，單臺服務器（GB200 NVL72，配備72顆Blackwell GPU）的整體吞吐量，已經達到了72,000 TPS！

GB200 NVL72液冷機架原型機

這場速度革命的幕后，是一整套精心布局的技術組合拳——

使用TensorRT-LLM優化框架和EAGLE-3架構訓練推測解碼草稿模型；
在GEMM、MoE及Attention計算中全面應用FP8數據格式，有效縮小模型體積并提高計算效率；
應用CUDA內核優化技術（如空間分區、GEMM權重重排、Attention內核并行優化、程序化依賴啟動（PDL）等）；
運算融合（如FC13+SwiGLU、FC_QKV+attn_scaling、AllReduce+RMSnorm融合）。

由此，Blackwell的性能潛力徹底被點燃，一舉實現了4倍加速，直接把之前的最強Blackwell基線甩在身后！

迄今測試過最快Maverick實現

這次優化措施在保持響應準確度的同時，顯著提升了模型性能。

英偉達針對GEMM（通用矩陣乘法）、MoE（混合專家模型）及Attention（注意力）運算運用了FP8數據類型，旨在減小模型體積，并充分利用Blackwell Tensor Core技術所帶來的高FP8吞吐量優勢。

如下表所示，采用FP8數據格式后，模型在多項評估指標上的準確度可與Artificial Analysis采用BF16數據格式（進行測試）所達到的準確度相媲美：

為何減少延遲至關重要？

大部分用生成式AI的場景，都要在吞吐量（throughput）和延遲（latency）之間找一個平衡點，好讓很多用戶同時使用時，都能有個「還不錯」的體驗。

但是，有些關鍵場景，比如要迅速做出重要決策的時候，「響應速度」就變得特別重要，哪怕一點延遲都可能帶來嚴重后果。

無論你想要的是同時處理盡可能多的請求，還是希望既能處理很多請求、響應又比較快，還是只想最快地服務單個用戶（即最小化單個用戶的延遲），Blackwell的硬件都是最佳選擇。

下圖概述了英偉達在推理過程中應用的內核優化和融合（以紅色虛線框標示）。

英偉達實現了若干低延遲GEMM內核，并應用了各種內核融合（如FC13+SwiGLU、FC_QKV+attn_scaling以及AllReduce+RMSnorm），從而使Blackwell GPU在最小延遲場景下表現出色。

CUDA內核優化與融合

在內核優化與融合方面，英偉達采用了以下幾項關鍵技術：

空間分區與高效內存加載

利用空間劃分（也稱為warp專業化）并設計GEMM內核，可以高效的方式從內存中加載數據，從而最大限度地利用NVIDIA DGX所提供的巨大內存帶寬——總計64TB/s。

GEMM權重重排

將GEMM權重以一種優化的swizzled格式進行重排。

由此可以確保在使用Blackwell第五代Tensor Core完成矩陣乘法計算后，從Tensor內存加載計算結果時能夠獲得更理想的數據布局。

Attention內核并行優化

通過沿K和V張量的序列長度維度對計算進行劃分，優化了Attention內核的性能，使得計算任務能夠在多個CUDA線程塊上并行執行。

此外，還利用分布式共享內存機制，在同一線程塊集群內的不同線程塊之間高效地進行結果規約，從而避免了訪問全局內存的需要。

運算融合

通過啟用不同運算之間的融合，來減少內核執行間的開銷以及內存加載/存儲的次數。

例如，將AllReduce運算與緊隨其后的RMSNorm運算及量化（Quantize）運算融合成單一的CUDA內核，以及將SwiGLU運算與其前置的GEMM運算進行融合。

程序化依賴啟動（PDL）

程序化依賴啟動（PDL）是一項CUDA功能，它能夠減少同一CUDA流上兩個連續CUDA內核執行之間的GPU空閑時間，甚至允許這兩個內核部分重疊執行。

默認情況下，當多個內核在同一個CUDA流上啟動時，第二個內核必須等待第一個內核執行完畢后才能開始。

這種機制會導致兩個主要的性能問題：

其一，兩個連續的內核執行之間會產生微小的間隙（如下圖所示），在此期間GPU處于閑置狀態。
其二，當第一個內核的執行接近尾聲時，它可能仍會占用一部分流式多處理器（SM）來完成剩余的CUDA塊計算，這使得GPU上的其他SM處于空閑，從而導致GPU整體計算能力的利用率不足。

通過在CUDA中運用程序化依賴啟動API，英偉達允許次級內核（secondary kernel）在主內核（primary kernel）仍在運行時就開始執行。

在初始準備階段（preamble period），次級內核可以執行那些不依賴于主內核執行的計算任務，并加載相應的數據。

這不僅消除了兩個連續內核之間的執行間隙，也顯著提升了GPU的利用率；因為當主內核僅占用GPU上的部分SM時，其余空閑的SM便可以開始運行次級內核。

推測解碼

推測解碼（Speculative Decoding）是一種廣受歡迎的技術，用于在不犧牲生成文本質量的前提下，加速LLM的推理速度。

該技術通過一個規模更小、速度更快的「草稿」模型來預測一個推測token序列，然后由規模更大（通常也更慢）的LLM并行驗證這些token。

其加速效果源于：在目標模型的一次迭代中，有機會生成多個token，代價則是草稿模型帶來的一些額外開銷。

端到端的工作流

首先，在目標模型完成上下文階段（此階段亦會生成token t1）之后，草稿模型會迅速生成一連串潛在的token（例如d2-d4）。

隨后，目標模型進入生成階段，在這一階段，它會針對整個草稿序列，一次性地并行驗證（或生成）每個位置的下一個token。

如圖所示，如果草稿token與目標模型自身將要生成的token相匹配，目標模型便可能「接受」其中的若干token（如d2、d3），同時「拒絕」其他的token（如d4）。

這個循環不斷重復：被接受的token得以保留；若發生拒絕（例如，在d4被拒絕后），目標模型會提供正確的下一個token（如t4）；然后，草稿模型會生成一個新的推測序列（例如d5-d7）。

通過并行驗證多個token——而不是依賴（速度較慢的）目標模型逐個生成它們——并充分利用草稿模型的快速推測能力，系統能夠實現顯著的速度提升，尤其是當草稿模型的預測準確率較高時。

「接受長度（AL）」定義為在單次驗證步驟中，平均能夠成功生成的token數量。

AL值越高，加速效果越顯著。

對此，英偉達采用了一種基于EAGLE3的架構作為其推測解碼方法，主要通過調整推測層中前饋網絡（FFN）的大小來優化接受長度（AL）。

在推理過程中，需要在目標模型的前向傳播階段記錄低、中、高三個層級的特征（即初始、中間及末端解碼層輸出的隱藏狀態）。

之后，再將這些隱藏狀態與token嵌入相結合，并將結果輸入到推測層。該推測層隨后以自回歸方式生成一個草稿token序列，供目標模型進行并行驗證。

推測層的開銷雖然不大，但也不可忽視。因此，關鍵的挑戰在于如何在草稿長度與端到端加速效果之間取得理想的平衡。

草稿長度越長，AL通常也越高，但相應地，運行草稿模型所產生的額外成本也會增加。根據英偉達在下方實驗中展示的結果，當草稿長度設置為3時，可獲得最佳的加速效果。

通過CUDA Graph和重疊調度器減少主機端開銷

推測解碼的另一個挑戰在于減少主模型與草稿模型之間的通信和同步開銷。

如果英偉達將采樣/驗證邏輯置于主機端，便會在主機與設備之間引入額外的同步點，進而破壞CUDA Graph的完整性。

因此，英偉達選擇將驗證邏輯保留在設備端，從而能夠將目標模型的前向傳播、驗證邏輯以及草稿模型的前向傳播都整合到同一個CUDA Graph中。

此外，英偉達還啟用了TensorRT-LLM的重疊調度器，以進一步讓當前迭代的模型前向傳播與下一次迭代的輸入準備及CUDA Graph啟動過程實現重疊。

使用torch.compile()優化草稿模型層

由于驗證邏輯是采用Torch原生操作在設備端實現的，這導致英偉達最終生成了大量細小的Torch原生內核。

手動融合這些內核不僅復雜，且容易出錯。

為此，英偉達采用torch.compile()，借助OpenAI Triton的能力來自動完成這部分內核的融合，并生成最優化的版本。

這一舉措幫助英偉達將草稿模型的開銷從25%成功降低到了18%（當草稿長度為3時）。

總結

總的來說，這一創世界紀錄的速度，是強大Blackwell架構、自CUDA層面起直至上層應用的深度軟件優化，以及英偉達量身定制的推測解碼實現所帶來的顯著加速三者結合的成果，它直接響應了下一代AI交互應用對低延遲的迫切需求。

正如英偉達所展示的那樣，這些技術進步確保了即便是超大規模模型，也能夠提供足夠的處理速度和響應能力，以支持無縫的實時用戶體驗和復雜的AI智能體部署場景。

作者介紹

Yilin Fan

Yilin Fan是英偉達的高級深度學習工程師，專注于TensorRT/TensorRT-LLM的性能。

他擁有卡內基梅隆大學的軟件工程碩士學位和北京航空航天大學的學士學位。

在加入英偉達之前，他曾在小馬智行工作，負責優化與部署自動駕駛汽車上的深度學習模型。

Po-Han Huang

Po-Han Huang是英偉達的深度學習軟件工程師。

在過去六年多的時間里，他一直致力于通過TensorRT和CUDA優化來加速已訓練深度神經網絡模型的推理。

他擁有伊利諾伊大學厄巴納-香檳分校的電子與計算機工程碩士學位，專業知識涵蓋深度學習加速、計算機視覺和GPU架構。

Ben Hamm

Ben Hamm是英偉達的技術產品經理，專注于LLM推理性能與優化。

此前，他曾在亞馬遜擔任產品經理，負責Alexa的喚醒詞檢測機器學習棧。之后加入OctoAI并擔任LLM托管服務的產品經理。隨著公司被收購，他也跟著一起來到了英偉達。

有趣的是，作為一名計算機視覺的愛好者，他甚至還發明了一款AI驅動的貓門。

參考資料：

https://developer.nvidia.com/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI芯片“功耗懸崖”：大模型催生的冷卻技術革命

鈦媒體APP 2025-05-06 08:45:41
0 跟貼 0
太牛了！400塊洋垃圾，也能在本地部署DeepSeek？！

雷科技 2025-02-14 11:33:42
0 跟貼 0

Sakana AI推出LLM記憶管理技術NAMMs，可將內存成本降低75%

DeepTech深科技 2024-12-18 16:50:28
2 跟貼 2

19歲少年「破解」谷歌新AI？每秒1479 token，擴散再戰GPT!

新智元 2025-05-23 18:15:53
0 跟貼 0
從生產力到游戲，AI顛覆PC體驗，驍龍PC生態猛漲，預告新大招！

智東西 2025-05-23 20:29:09
0 跟貼 0

華為的三個黑科技，要顛覆AI計算？

虎嗅APP 2025-05-23 18:12:08
1 跟貼 1

后Transformer時代，AI將何去何從？（下）｜【十萬字】深度研報

鈦媒體APP 2025-01-01 20:46:37
0 跟貼 0
與西湖大學郭天南教授一起，探討 AI 及自動化技術賦能科研，顛覆傳統實驗

生物世界 2025-05-23 11:34:38
0 跟貼 0

百度智能云同比增速達42%，李彥宏：堅持應用驅動策略 | 看財報

鈦媒體APP 2025-05-22 11:02:09
0 跟貼 0
權威解讀：算力互聯網如何加速“算力紅利”釋放？

通信世界 2025-05-23 19:17:20
0 跟貼 0
Claude 4登陸Amazon Bedrock，交付最強編程模型，加速企業Agents開發

智東西 2025-05-23 21:09:26
0 跟貼 0
科技感拉滿！人形機器人和飛行汽車同臺“秀肌肉”，這屆文博會的“技術咖”們如何硬核破圈？

每日經濟新聞 2025-05-23 17:55:09
0 跟貼 0
四位圖靈獎掌舵：2025智源大會揭示AI進化新路徑

機器之心Pro 2025-05-23 16:01:05
0 跟貼 0
每周3000萬人在看的動畫竟由AI制作？解密背后團隊和制作過程

智東西 2025-05-23 22:41:49
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
如何定位國產智駕芯片的終局價值？

鈦媒體APP 2025-05-16 10:46:22
0 跟貼 0
104歲老人健康秘訣：多看美女黃仁勛當時就懵了！

網易科技態度見聞 2025-05-22 07:00:00
0 跟貼 0
美國ITC正式對集成電路、包含該集成電路的電子設備及其組件啟動337調查，英偉達、高通、一加等為列名被告

界面新聞 2025-05-21 09:27:14
0 跟貼 0
《機動戰士 GUNDAM SEED 激斗命運復刻版》解鎖：Steam國區198元

超能網 2025-05-23 18:08:12
1 跟貼 1
科技巨頭、海灣土豪之后，英偉達如何維持高增長？

華爾街見聞官方 2025-05-23 19:27:47
1 跟貼 1
DeepSeek用的GRPO占用大量內存？有人給出了些破解方法

機器之心Pro 2025-02-07 14:49:06
0 跟貼 0
全球懵了！美：全球不準用華為昇騰！中：誰配合美我就制裁！

人猿星球觀察 2025-05-22 15:03:37
106 跟貼 106
美國男子高空“裸跳”，7620米高空一躍而下，用生命創造世界紀錄

王瓊影像 2025-05-21 06:32:00
0 跟貼 0
高空生存100天！“高空王子”阿迪力女兒挑戰吉尼斯世界紀錄

星視頻 2025-05-21 09:34:26
0 跟貼 0
雷軍：小米造芯至少做十年、至少投500億，YU7不可能賣19.9萬元

鈦媒體APP 2025-05-23 07:32:14
6 跟貼 6
馬斯克：將繼續從英偉達和AMD購買大量芯片

財聯社 2025-05-21 18:25:01
0 跟貼 0
英偉達拿下7個基準SOTA，鼠標點哪就講哪，真能描述一切！

機器之心Pro 2025-04-28 19:09:27
0 跟貼 0
claude 4來了，很驚艷

旁邊者看世界 2025-05-23 20:47:03
0 跟貼 0
英偉達開源「描述一切」模型

機器之心Pro 2025-04-25 18:59:37
0 跟貼 0
美國政府暫停哈佛大學招收國際學生資格

央視新聞客戶端 2025-05-23 07:05:20
10817 跟貼 10817
小米3nm旗艦芯片進入自家中高端產品線，會動到高通、聯發科的“蛋糕”嗎？

每日經濟新聞 2025-05-23 00:05:13
0 跟貼 0
400噸巨獸一飛沖天，連飛三天，橫跨5大洲，打破世界紀錄

戰場科技館 2025-05-20 10:29:56
0 跟貼 0
百年前后的地位變化

楊軼 2025-05-22 13:54:32
10240 跟貼 10240
不用1000元！白菜價筆記本電腦火了，但我勸你別買

雷科技 2025-04-25 12:06:42
0 跟貼 0
黃楊鈿甜父親涉及的7億景區開發項目未招到投資商？官網多份文件顯露端倪

揚子晚報 2025-05-23 07:06:58
8712 跟貼 8712
要脫鉤了？美三大芯片巨頭集體宣布，拜登承擔不起后果！

谷盟 2025-05-23 19:28:37
1 跟貼 1
《漫威蜘蛛俠2》第10號更新：全面支持DLSS 4！

游民星空 2025-05-23 16:23:11
0 跟貼 0
德國默茨政府，來真的

山河路口 2025-05-22 23:46:48
3570 跟貼 3570
抉瑕掩瑜！雖然反超遼粵，但仍需迭代升級

體育籃球弟 2025-05-22 07:56:35
1 跟貼 1
從空警-500到空警-600：中國預警機技術的快速迭代與實戰表現

似水流年忘我 2025-05-23 07:10:56
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

12752文章數 66041關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

房產

親子

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
比鋼硬200倍，比紙輕1000倍，石墨烯到底是啥？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

英偉達再破世界紀錄，每秒1000 token！剛剛，全球最快Llama 4誕生

特朗普：iPhone不在美國制造就收25%關稅

反華機構承認了：好感度全球比拼 中國碾壓美國

反華機構承認了：好感度全球比拼 中國碾壓美國

臺下掌聲一片！65歲安帥揮手告別：感謝皇馬

趙麗穎否認戀情，與趙德胤沒在一起？

特朗普威脅自6月1日起對歐盟征收50%關稅

續航720km/充電10分鐘補能500公里 理想i8信息曝光

態度原創

犟種學生，要怎么溝通教育？

巴黎沒有倍兒甜，但天津巧克力腦袋倍兒多

65億好地集中上架！三亞，徹底殺瘋！

老婆產后經常漏尿怎么辦

反華機構承認了：好感度全球比拼中國碾壓美國

反華機構承認了：好感度全球比拼中國碾壓美國

續航720km/充電10分鐘補能500公里理想i8信息曝光