99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)再破世界紀(jì)錄,每秒1000 token!剛剛,全球最快Llama 4誕生

0
分享至


新智元報(bào)道

編輯:編輯部 XZH

【新智元導(dǎo)讀】英偉達(dá),親手打破了自己的天花板!剛剛,Blackwell單用戶每秒突破了1000個(gè)token,在Llama 4 Maverick模型上,再次創(chuàng)下了AI推理的世界紀(jì)錄。在官博中,團(tuán)隊(duì)放出了不少絕密武器。

你以為,AI推理的速度已經(jīng)夠快了?

不,英偉達(dá)還能再次顛覆你的想象——就在剛剛,他們用Blackwell創(chuàng)下了AI推理的新紀(jì)錄。


僅僅采用單節(jié)點(diǎn)(8顆Blackwell GPU)的DGX B200服務(wù)器,英偉達(dá)就實(shí)現(xiàn)了Llama 4 Maverick模型每秒單用戶生成1000個(gè)token(TPS/user)的驚人成績(jī)!


單節(jié)點(diǎn)使用8塊B200 GPU

這項(xiàng)速度記錄,由AI基準(zhǔn)測(cè)試服務(wù)Artificial Analysis獨(dú)立測(cè)量。


而且,更令人咋舌的是,單臺(tái)服務(wù)器(GB200 NVL72,配備72顆Blackwell GPU)的整體吞吐量,已經(jīng)達(dá)到了72,000 TPS!


GB200 NVL72液冷機(jī)架原型機(jī)

這場(chǎng)速度革命的幕后,是一整套精心布局的技術(shù)組合拳——

  • 使用TensorRT-LLM優(yōu)化框架和EAGLE-3架構(gòu)訓(xùn)練推測(cè)解碼草稿模型;

  • 在GEMM、MoE及Attention計(jì)算中全面應(yīng)用FP8數(shù)據(jù)格式,有效縮小模型體積并提高計(jì)算效率;

  • 應(yīng)用CUDA內(nèi)核優(yōu)化技術(shù)(如空間分區(qū)、GEMM權(quán)重重排、Attention內(nèi)核并行優(yōu)化、程序化依賴啟動(dòng)(PDL)等);

  • 運(yùn)算融合(如FC13+SwiGLU、FC_QKV+attn_scaling、AllReduce+RMSnorm融合)。

由此,Blackwell的性能潛力徹底被點(diǎn)燃,一舉實(shí)現(xiàn)了4倍加速,直接把之前的最強(qiáng)Blackwell基線甩在身后!

迄今測(cè)試過(guò)最快Maverick實(shí)現(xiàn)

這次優(yōu)化措施在保持響應(yīng)準(zhǔn)確度的同時(shí),顯著提升了模型性能。

英偉達(dá)針對(duì)GEMM(通用矩陣乘法)、MoE(混合專(zhuān)家模型)及Attention(注意力)運(yùn)算運(yùn)用了FP8數(shù)據(jù)類(lèi)型,旨在減小模型體積,并充分利用Blackwell Tensor Core技術(shù)所帶來(lái)的高FP8吞吐量?jī)?yōu)勢(shì)。

如下表所示,采用FP8數(shù)據(jù)格式后,模型在多項(xiàng)評(píng)估指標(biāo)上的準(zhǔn)確度可與Artificial Analysis采用BF16數(shù)據(jù)格式(進(jìn)行測(cè)試)所達(dá)到的準(zhǔn)確度相媲美:


為何減少延遲至關(guān)重要?

大部分用生成式AI的場(chǎng)景,都要在吞吐量(throughput)和延遲(latency)之間找一個(gè)平衡點(diǎn),好讓很多用戶同時(shí)使用時(shí),都能有個(gè)「還不錯(cuò)」的體驗(yàn)。

但是,有些關(guān)鍵場(chǎng)景,比如要迅速做出重要決策的時(shí)候,「響應(yīng)速度」就變得特別重要,哪怕一點(diǎn)延遲都可能帶來(lái)嚴(yán)重后果。

無(wú)論你想要的是同時(shí)處理盡可能多的請(qǐng)求,還是希望既能處理很多請(qǐng)求、響應(yīng)又比較快,還是只想最快地服務(wù)單個(gè)用戶(即最小化單個(gè)用戶的延遲),Blackwell的硬件都是最佳選擇。

下圖概述了英偉達(dá)在推理過(guò)程中應(yīng)用的內(nèi)核優(yōu)化和融合(以紅色虛線框標(biāo)示)。


英偉達(dá)實(shí)現(xiàn)了若干低延遲GEMM內(nèi)核,并應(yīng)用了各種內(nèi)核融合(如FC13+SwiGLU、FC_QKV+attn_scaling以及AllReduce+RMSnorm),從而使Blackwell GPU在最小延遲場(chǎng)景下表現(xiàn)出色。

CUDA內(nèi)核優(yōu)化與融合

在內(nèi)核優(yōu)化與融合方面,英偉達(dá)采用了以下幾項(xiàng)關(guān)鍵技術(shù):

  • 空間分區(qū)與高效內(nèi)存加載

利用空間劃分(也稱(chēng)為warp專(zhuān)業(yè)化)并設(shè)計(jì)GEMM內(nèi)核,可以高效的方式從內(nèi)存中加載數(shù)據(jù),從而最大限度地利用NVIDIA DGX所提供的巨大內(nèi)存帶寬——總計(jì)64TB/s。

  • GEMM權(quán)重重排

將GEMM權(quán)重以一種優(yōu)化的swizzled格式進(jìn)行重排。

由此可以確保在使用Blackwell第五代Tensor Core完成矩陣乘法計(jì)算后,從Tensor內(nèi)存加載計(jì)算結(jié)果時(shí)能夠獲得更理想的數(shù)據(jù)布局。

  • Attention內(nèi)核并行優(yōu)化

通過(guò)沿K和V張量的序列長(zhǎng)度維度對(duì)計(jì)算進(jìn)行劃分,優(yōu)化了Attention內(nèi)核的性能,使得計(jì)算任務(wù)能夠在多個(gè)CUDA線程塊上并行執(zhí)行。

此外,還利用分布式共享內(nèi)存機(jī)制,在同一線程塊集群內(nèi)的不同線程塊之間高效地進(jìn)行結(jié)果規(guī)約,從而避免了訪問(wèn)全局內(nèi)存的需要。

  • 運(yùn)算融合

通過(guò)啟用不同運(yùn)算之間的融合,來(lái)減少內(nèi)核執(zhí)行間的開(kāi)銷(xiāo)以及內(nèi)存加載/存儲(chǔ)的次數(shù)。

例如,將AllReduce運(yùn)算與緊隨其后的RMSNorm運(yùn)算及量化(Quantize)運(yùn)算融合成單一的CUDA內(nèi)核,以及將SwiGLU運(yùn)算與其前置的GEMM運(yùn)算進(jìn)行融合。

程序化依賴啟動(dòng)(PDL)

程序化依賴啟動(dòng)(PDL)是一項(xiàng)CUDA功能,它能夠減少同一CUDA流上兩個(gè)連續(xù)CUDA內(nèi)核執(zhí)行之間的GPU空閑時(shí)間,甚至允許這兩個(gè)內(nèi)核部分重疊執(zhí)行。

默認(rèn)情況下,當(dāng)多個(gè)內(nèi)核在同一個(gè)CUDA流上啟動(dòng)時(shí),第二個(gè)內(nèi)核必須等待第一個(gè)內(nèi)核執(zhí)行完畢后才能開(kāi)始。

這種機(jī)制會(huì)導(dǎo)致兩個(gè)主要的性能問(wèn)題:

  • 其一,兩個(gè)連續(xù)的內(nèi)核執(zhí)行之間會(huì)產(chǎn)生微小的間隙(如下圖所示),在此期間GPU處于閑置狀態(tài)。

  • 其二,當(dāng)?shù)谝粋€(gè)內(nèi)核的執(zhí)行接近尾聲時(shí),它可能仍會(huì)占用一部分流式多處理器(SM)來(lái)完成剩余的CUDA塊計(jì)算,這使得GPU上的其他SM處于空閑,從而導(dǎo)致GPU整體計(jì)算能力的利用率不足。


通過(guò)在CUDA中運(yùn)用程序化依賴啟動(dòng)API,英偉達(dá)允許次級(jí)內(nèi)核(secondary kernel)在主內(nèi)核(primary kernel)仍在運(yùn)行時(shí)就開(kāi)始執(zhí)行。

在初始準(zhǔn)備階段(preamble period),次級(jí)內(nèi)核可以執(zhí)行那些不依賴于主內(nèi)核執(zhí)行的計(jì)算任務(wù),并加載相應(yīng)的數(shù)據(jù)。

這不僅消除了兩個(gè)連續(xù)內(nèi)核之間的執(zhí)行間隙,也顯著提升了GPU的利用率;因?yàn)楫?dāng)主內(nèi)核僅占用GPU上的部分SM時(shí),其余空閑的SM便可以開(kāi)始運(yùn)行次級(jí)內(nèi)核。


推測(cè)解碼

推測(cè)解碼(Speculative Decoding)是一種廣受歡迎的技術(shù),用于在不犧牲生成文本質(zhì)量的前提下,加速LLM的推理速度。

該技術(shù)通過(guò)一個(gè)規(guī)模更小、速度更快的「草稿」模型來(lái)預(yù)測(cè)一個(gè)推測(cè)token序列,然后由規(guī)模更大(通常也更慢)的LLM并行驗(yàn)證這些token。

其加速效果源于:在目標(biāo)模型的一次迭代中,有機(jī)會(huì)生成多個(gè)token,代價(jià)則是草稿模型帶來(lái)的一些額外開(kāi)銷(xiāo)。


端到端的工作流

首先,在目標(biāo)模型完成上下文階段(此階段亦會(huì)生成token t1)之后,草稿模型會(huì)迅速生成一連串潛在的token(例如d2-d4)。

隨后,目標(biāo)模型進(jìn)入生成階段,在這一階段,它會(huì)針對(duì)整個(gè)草稿序列,一次性地并行驗(yàn)證(或生成)每個(gè)位置的下一個(gè)token。

如圖所示,如果草稿token與目標(biāo)模型自身將要生成的token相匹配,目標(biāo)模型便可能「接受」其中的若干token(如d2、d3),同時(shí)「拒絕」其他的token(如d4)。

這個(gè)循環(huán)不斷重復(fù):被接受的token得以保留;若發(fā)生拒絕(例如,在d4被拒絕后),目標(biāo)模型會(huì)提供正確的下一個(gè)token(如t4);然后,草稿模型會(huì)生成一個(gè)新的推測(cè)序列(例如d5-d7)。

通過(guò)并行驗(yàn)證多個(gè)token——而不是依賴(速度較慢的)目標(biāo)模型逐個(gè)生成它們——并充分利用草稿模型的快速推測(cè)能力,系統(tǒng)能夠?qū)崿F(xiàn)顯著的速度提升,尤其是當(dāng)草稿模型的預(yù)測(cè)準(zhǔn)確率較高時(shí)。

「接受長(zhǎng)度(AL)」定義為在單次驗(yàn)證步驟中,平均能夠成功生成的token數(shù)量。

AL值越高,加速效果越顯著。

對(duì)此,英偉達(dá)采用了一種基于EAGLE3的架構(gòu)作為其推測(cè)解碼方法,主要通過(guò)調(diào)整推測(cè)層中前饋網(wǎng)絡(luò)(FFN)的大小來(lái)優(yōu)化接受長(zhǎng)度(AL)。

在推理過(guò)程中,需要在目標(biāo)模型的前向傳播階段記錄低、中、高三個(gè)層級(jí)的特征(即初始、中間及末端解碼層輸出的隱藏狀態(tài))。

之后,再將這些隱藏狀態(tài)與token嵌入相結(jié)合,并將結(jié)果輸入到推測(cè)層。該推測(cè)層隨后以自回歸方式生成一個(gè)草稿token序列,供目標(biāo)模型進(jìn)行并行驗(yàn)證。

推測(cè)層的開(kāi)銷(xiāo)雖然不大,但也不可忽視。因此,關(guān)鍵的挑戰(zhàn)在于如何在草稿長(zhǎng)度與端到端加速效果之間取得理想的平衡。

草稿長(zhǎng)度越長(zhǎng),AL通常也越高,但相應(yīng)地,運(yùn)行草稿模型所產(chǎn)生的額外成本也會(huì)增加。根據(jù)英偉達(dá)在下方實(shí)驗(yàn)中展示的結(jié)果,當(dāng)草稿長(zhǎng)度設(shè)置為3時(shí),可獲得最佳的加速效果。


通過(guò)CUDA Graph和重疊調(diào)度器減少主機(jī)端開(kāi)銷(xiāo)

推測(cè)解碼的另一個(gè)挑戰(zhàn)在于減少主模型與草稿模型之間的通信和同步開(kāi)銷(xiāo)。

如果英偉達(dá)將采樣/驗(yàn)證邏輯置于主機(jī)端,便會(huì)在主機(jī)與設(shè)備之間引入額外的同步點(diǎn),進(jìn)而破壞CUDA Graph的完整性。

因此,英偉達(dá)選擇將驗(yàn)證邏輯保留在設(shè)備端,從而能夠?qū)⒛繕?biāo)模型的前向傳播、驗(yàn)證邏輯以及草稿模型的前向傳播都整合到同一個(gè)CUDA Graph中。

此外,英偉達(dá)還啟用了TensorRT-LLM的重疊調(diào)度器,以進(jìn)一步讓當(dāng)前迭代的模型前向傳播與下一次迭代的輸入準(zhǔn)備及CUDA Graph啟動(dòng)過(guò)程實(shí)現(xiàn)重疊。

使用torch.compile()優(yōu)化草稿模型層

由于驗(yàn)證邏輯是采用Torch原生操作在設(shè)備端實(shí)現(xiàn)的,這導(dǎo)致英偉達(dá)最終生成了大量細(xì)小的Torch原生內(nèi)核。

手動(dòng)融合這些內(nèi)核不僅復(fù)雜,且容易出錯(cuò)。

為此,英偉達(dá)采用torch.compile(),借助OpenAI Triton的能力來(lái)自動(dòng)完成這部分內(nèi)核的融合,并生成最優(yōu)化的版本。

這一舉措幫助英偉達(dá)將草稿模型的開(kāi)銷(xiāo)從25%成功降低到了18%(當(dāng)草稿長(zhǎng)度為3時(shí))。

總結(jié)

總的來(lái)說(shuō),這一創(chuàng)世界紀(jì)錄的速度,是強(qiáng)大Blackwell架構(gòu)、自CUDA層面起直至上層應(yīng)用的深度軟件優(yōu)化,以及英偉達(dá)量身定制的推測(cè)解碼實(shí)現(xiàn)所帶來(lái)的顯著加速三者結(jié)合的成果,它直接響應(yīng)了下一代AI交互應(yīng)用對(duì)低延遲的迫切需求。

正如英偉達(dá)所展示的那樣,這些技術(shù)進(jìn)步確保了即便是超大規(guī)模模型,也能夠提供足夠的處理速度和響應(yīng)能力,以支持無(wú)縫的實(shí)時(shí)用戶體驗(yàn)和復(fù)雜的AI智能體部署場(chǎng)景。

作者介紹

Yilin Fan


Yilin Fan是英偉達(dá)的高級(jí)深度學(xué)習(xí)工程師,專(zhuān)注于TensorRT/TensorRT-LLM的性能。

他擁有卡內(nèi)基梅隆大學(xué)的軟件工程碩士學(xué)位和北京航空航天大學(xué)的學(xué)士學(xué)位。

在加入英偉達(dá)之前,他曾在小馬智行工作,負(fù)責(zé)優(yōu)化與部署自動(dòng)駕駛汽車(chē)上的深度學(xué)習(xí)模型。

Po-Han Huang


Po-Han Huang是英偉達(dá)的深度學(xué)習(xí)軟件工程師。

在過(guò)去六年多的時(shí)間里,他一直致力于通過(guò)TensorRT和CUDA優(yōu)化來(lái)加速已訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型的推理。

他擁有伊利諾伊大學(xué)厄巴納-香檳分校的電子與計(jì)算機(jī)工程碩士學(xué)位,專(zhuān)業(yè)知識(shí)涵蓋深度學(xué)習(xí)加速、計(jì)算機(jī)視覺(jué)和GPU架構(gòu)。

Ben Hamm


Ben Hamm是英偉達(dá)的技術(shù)產(chǎn)品經(jīng)理,專(zhuān)注于LLM推理性能與優(yōu)化。

此前,他曾在亞馬遜擔(dān)任產(chǎn)品經(jīng)理,負(fù)責(zé)Alexa的喚醒詞檢測(cè)機(jī)器學(xué)習(xí)棧。之后加入OctoAI并擔(dān)任LLM托管服務(wù)的產(chǎn)品經(jīng)理。隨著公司被收購(gòu),他也跟著一起來(lái)到了英偉達(dá)。

有趣的是,作為一名計(jì)算機(jī)視覺(jué)的愛(ài)好者,他甚至還發(fā)明了一款A(yù)I驅(qū)動(dòng)的貓門(mén)。

參考資料:

https://developer.nvidia.com/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朱媛媛:被張國(guó)立趕出門(mén),辛柏青為她放棄成名機(jī)會(huì),夫妻相愛(ài)30年

朱媛媛:被張國(guó)立趕出門(mén),辛柏青為她放棄成名機(jī)會(huì),夫妻相愛(ài)30年

晨晨星
2025-05-21 21:06:18
國(guó)安部門(mén)行動(dòng),三名間諜被捕!身份揭曉,竟已滲透我國(guó)多個(gè)領(lǐng)域

國(guó)安部門(mén)行動(dòng),三名間諜被捕!身份揭曉,竟已滲透我國(guó)多個(gè)領(lǐng)域

安珈使者啊
2025-05-24 20:55:03
2025-05-25 07:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12758文章數(shù) 66042關(guān)注度
往期回顧 全部

科技要聞

不止蘋(píng)果?特朗普:三星不在美國(guó)造 也加稅

頭條要聞

美議員去加拿大求"復(fù)合":咱有共同"敵人" 就是中國(guó)

頭條要聞

美議員去加拿大求"復(fù)合":咱有共同"敵人" 就是中國(guó)

體育要聞

世乒賽混雙三連冠!莎頭舉國(guó)旗比“3”

娛樂(lè)要聞

歌手2025第二期排名:居然是他淘汰了

財(cái)經(jīng)要聞

不得不說(shuō),特朗普殺瘋了

汽車(chē)要聞

一見(jiàn)傾心!東風(fēng)全新SUV定妝圖曝光,顏值氣場(chǎng)并存

態(tài)度原創(chuàng)

家居
旅游
房產(chǎn)
健康
軍事航空

家居要聞

輕奢品質(zhì) 開(kāi)闊的三口之家

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

房產(chǎn)要聞

連續(xù)17次提前交付!海口這座頂流紅盤(pán),業(yè)主贏麻了!

唇皰疹和口腔潰瘍是"同伙"嗎?

軍事要聞

普京:俄羅斯仍位列五大武器出口國(guó)之列

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 东阳市| 吐鲁番市| 灌云县| 永康市| 龙泉市| 兰考县| 合作市| 香河县| 枣强县| 聂拉木县| 台前县| 上蔡县| 东方市| 云南省| 阜新| 陇西县| 阆中市| 镇坪县| 靖宇县| 扎赉特旗| 寿宁县| 华宁县| 丹巴县| 乃东县| 紫金县| 马鞍山市| 嘉荫县| 怀宁县| 嘉定区| 萨迦县| 吉林省| 新晃| 都昌县| 庆城县| 洞口县| 漠河县| 阿拉善盟| 乌什县| 平和县| 延寿县| 凤山县|