網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI超級碗！英偉達GTC大會宣布Blackwell升級架構(gòu)及下三代GPU，黃仁勛展現(xiàn)AI大布局！

2025-03-20 12:08:10　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨丁靈波

北京時間3月19日凌晨，英偉達年度GTC大會在美國圣何塞揭幕，CEO黃仁勛身穿標(biāo)志性黑色皮衣再次登臺，進行了兩個多小時激情解說。

從全新旗艦芯片架構(gòu)、數(shù)據(jù)中心超算到AI智能體軟件、物理AI、機器人、自動駕駛等，再次描繪和展望了英偉達的超級AI版圖。

老黃表示，今年GTC大會就如同“AI界的超級碗”，每個人都是勝利者，因為在英偉達的算力和開發(fā)工具加持下，AI能為更多行業(yè)和公司解決問題。

大家最關(guān)心的GPU產(chǎn)品，黃仁勛表示升級版的Blackwell Ultra在2025 年下半年就能上市。

而且英偉達未來三代全新GPU架構(gòu)都在開發(fā)中，命名為Rubin、Rubin Ultra、Feynman，Rubin架構(gòu)性能可達到Hopper的900倍以上，關(guān)鍵性能比最新發(fā)布的Blackwell Ultra還要再翻兩倍以上，繼續(xù)獨霸全球頂尖AI算力市場。

老黃的AI觀

老黃開場再次展示了自己對AI技術(shù)發(fā)展趨勢的預(yù)判，技術(shù)將經(jīng)歷感知AI-生成式AI-AI代理-物理人工智能，因此超強的AI算力那是少不了的。

盡管今年DeepSeek模型展現(xiàn)出對算力的需求沒那么頂尖也可以，但廣泛應(yīng)用后卻激發(fā)了AI推理需求，同時業(yè)內(nèi)頭部AI公司也在追求更大規(guī)模的模型訓(xùn)練，Scaling Law并未失效，無論怎么看對算力的需求都是越來越高、越來越強。

老黃透露，全球前四大云服務(wù)商去年采購了超130萬片Hopper架構(gòu)GPU，今年或?qū)⒃鲋?60萬片Blackwell架構(gòu)GPU，數(shù)據(jù)中心投資將上萬億美元規(guī)模。

升級版Blackwell Ultra GPU架構(gòu)更擅長滿足AI推理需求。

該架構(gòu)增強了訓(xùn)練和測試時間擴展推理（在推理過程中應(yīng)用更多計算以提高準(zhǔn)確性的藝術(shù)），使開發(fā)者能夠加速AI推理、代理AI和物理AI等應(yīng)用。

Blackwell Ultra以一年前推出的Blackwell架構(gòu)為基礎(chǔ)，包括NVIDIA GB300 NVL72機架級解決方案和NVIDIA HGX B300 NVL16系統(tǒng)。GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍，與使用NVIDIA Hopper構(gòu)建的相比，Blackwell性能增加了50倍。

與Hopper一代相比，NVIDIA HGX B300 NVL16在大型語言模型上的推理速度提高了11倍，計算能力提高了7倍，內(nèi)存增加了4倍。

基于Blackwell Ultra的產(chǎn)品將從2025年下半年開始提供。預(yù)計思科、戴爾科技、惠普、聯(lián)想和超微等將提供基于Blackwell Ultra產(chǎn)品的各種服務(wù)器。

NVIDIA Dynamo開源推理框架今天也宣布擴展了推理AI服務(wù)，通過提供最有效的測試時間計算擴展解決方案，實現(xiàn)了吞吐量的飛躍，同時縮短響應(yīng)時間和模型服務(wù)成本。

英偉達預(yù)計將于2026年下半年開始發(fā)售其下一代GPU產(chǎn)品，以天文學(xué)家Vera Rubin的名字命名，將比去年的Grace Blackwell芯片中使用的CPU快兩倍。

Rubin可以在進行推理時實現(xiàn)每秒50千萬億次浮點運算，比該公司目前的Blackwell芯片每秒20千萬億次浮點運算的速度高出一倍多，Rubin還可以支持高達288 GB的快速內(nèi)存，這是AI開發(fā)人員關(guān)注的核心規(guī)格之一。

以物理學(xué)家理查德·費曼命名的Feynman架構(gòu)，預(yù)計會在2028年問世，目前并未有太多細(xì)節(jié)。

全面滲透的“算力生意”

除了GPU架構(gòu)展望，今年GTC推出的核心組件產(chǎn)品瞄準(zhǔn)了數(shù)據(jù)中心AI超算和個人AI超算，以及基于英偉達硬件的一系列AI推理、AI智能體軟件支撐。

黃仁勛介紹了目前全球最先進的企業(yè)級AI基礎(chǔ)設(shè)施—搭載NVIDIA Blackwell Ultra GPU的NVIDIA DGX SuperPOD?，旨在為各行各業(yè)的企業(yè)提供AI超級計算，實現(xiàn)最先進的代理AI推理，該超級計算機可提供FP4精度和更快的AI推理能力，從而為AI應(yīng)用程序增強令牌生成能力。

其中的DGX GB300系統(tǒng)可提供比使用NVIDIA Hopper?系統(tǒng)和38TB快速內(nèi)存構(gòu)建的AI工廠高達70倍的AI性能，為代理AI和推理應(yīng)用程序上的多步推理提供無與倫比的大規(guī)模性能。

每個DGX GB300系統(tǒng)中的72個Grace Blackwell Ultra GPU通過第五代NVLink技術(shù)連接，可提供高達800Gb/s的加速網(wǎng)絡(luò)速度，與Hopper一代相比，DGX B300系統(tǒng)可提供11倍的AI推理性能和4倍的訓(xùn)練速度。

英偉達也展示了把AI部署到每個開發(fā)者身邊的野心，實現(xiàn)算力從數(shù)據(jù)中心到桌面端的延伸，推出AI超級算力臺式機：DGX Spark和DGX Station。

這是搭載NVIDIA Grace Blackwell平臺的桌面超級計算機，也號稱是世界上最小的AI超級計算機，可以讓AI開發(fā)人員、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生能夠在桌面上對大型模型進行原型設(shè)計、微調(diào)和推理，用戶可以在本地運行這些模型，也可以將其部署在NVIDIA DGX Cloud或任何其他加速云或數(shù)據(jù)中心基礎(chǔ)設(shè)施上。

DGX Spark的核心是NVIDIA GB10 Grace Blackwell芯片，配備第五代 Tensor Core和FP4支持，每秒可進行高達1000萬億次AI計算。

DGX Station則為桌面帶來接近數(shù)據(jù)中心級性能，核心使用了NVIDIA GB300 Grace Blackwell Ultra最新芯片，具有784GB連貫內(nèi)存空間，支持高達800Gb/s網(wǎng)絡(luò)傳輸，以處理比DGX Spark更大的工作負(fù)載。

硬件之外，值得關(guān)注的是，英偉達今天還推出了NVIDIA Dynamo，這是一款開源推理軟件，用于以最低的成本和最高的效率加速和擴展AI推理模型。

NVIDIA Dynamo是NVIDIA Triton Inference Server?的后繼產(chǎn)品，它能協(xié)調(diào)和加速數(shù)千個GPU之間的推理通信，并使用分解服務(wù)將大型語言模型 (LLM) 的處理和生成階段分離在不同GPU上，確保最大程度地利用GPU資源。

黃仁勛介紹，在GB200 NVL72機架的大型集群上運行DeepSeek-R1模型時，NVIDIA Dynamo的智能推理優(yōu)化將每個GPU生成的token數(shù)量提高了30倍以上。其中包含了四個創(chuàng)新點：

GPU規(guī)劃器：一種規(guī)劃引擎，可動態(tài)添加和刪除GPU，以適應(yīng)不斷變化的用戶需求，避免GPU過度或不足；

智能路由器：LLM感知路由器，可在大型 GPU 隊列之間引導(dǎo)請求，以最大限度地減少重復(fù)或重疊請求的昂貴GPU重新計算-釋放GPU以響應(yīng)新的傳入請求；

低延遲通信庫：一個推理優(yōu)化的庫，支持最先進的 GPU 到 GPU 通信，并抽象跨異構(gòu)設(shè)備的數(shù)據(jù)交換的復(fù)雜性，從而加速數(shù)據(jù)傳輸；

內(nèi)存管理器：一種引擎，可在不影響用戶體驗的情況下，智能地從低成本內(nèi)存和存儲設(shè)備卸載和重新加載推理數(shù)據(jù)。

除了AI還有一些關(guān)于設(shè)計市場的新品推出。NVIDIA RTX PRO? Blackwell系列工作站和服務(wù)器GPU，不僅能用于加速計算、AI 推理，在光線追蹤和神經(jīng)渲染技術(shù)方面也跟AI融匯貫通，支持技術(shù)開發(fā)、創(chuàng)意、工程和設(shè)計專業(yè)人士的工作流程。

以及使用硅光子的百億億次級數(shù)據(jù)中心的Spectrum-X Photonics和Quantum-X Photonics網(wǎng)絡(luò)交換機平臺，新的網(wǎng)絡(luò)交換機平臺將數(shù)據(jù)傳輸速度提高到每端口1.6 Tb/s，總計400 Tb/s，使數(shù)百萬個GPU能夠無縫協(xié)作。

最后，黃仁勛還宣布了NVIDIA加速量子研究中心（NVAQC），以及支持量子計算研究的NVIDIA GB200 NVL72系統(tǒng)和NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)平臺，英偉達將于當(dāng)?shù)貢r間3月20日舉辦首個“量子日”活動，探索量子計算應(yīng)用之路。

可以說，只要在地球上涉及AI計算和研究，英偉達算力已經(jīng)無孔不入進行了全棧布局滲透。

加碼機器人尋找增長極

在GTC現(xiàn)場，英偉達與谷歌DeepMind、迪士尼研究中心合作開發(fā)的機器人星戰(zhàn)機器人BDX成為全場最靚的仔，背后的技術(shù)支撐是三方合作開發(fā)的開源物理引擎Newton，用于模擬現(xiàn)實環(huán)境中的機器人運動。

在機器人領(lǐng)域，模擬往往與現(xiàn)實不符，這一問題被稱為“模擬與現(xiàn)實”差距，機器人開發(fā)人員需要一個統(tǒng)一、可擴展且可定制的解決方案來模擬現(xiàn)實世界的物理現(xiàn)象。

Newton基于NVIDIA Warp構(gòu)建，這是一個NVIDIA CUDA-X加速庫，可幫助機器人學(xué)習(xí)如何更精確地處理復(fù)雜任務(wù)，同時還兼容MuJoCo Playground或NVIDIA Isaac Lab等學(xué)習(xí)框架（另一種用于機器人學(xué)習(xí)的開源統(tǒng)一框架），聚焦為娛樂型機器人提供動力。

此外，英偉達還宣布了一系列用于增強人形機器人開發(fā)的技術(shù)，其中包括NVIDIA Isaac GR00T N1，這是世界上第一個開放、完全可定制的通用人形推理和技能基礎(chǔ)模型。

GR00T N1可以輕松實現(xiàn)常見任務(wù)（例如抓取、用一只或兩只手臂移動物體以及將物品從一只手臂轉(zhuǎn)移到另一只手臂），或者執(zhí)行需要長時間上下文和一般技能組合的多步驟任務(wù)，這些功能可應(yīng)用于物料搬運、包裝和檢查等用例。

最后是關(guān)于機器熱的全新Omniverse藍圖，該藍圖基于Omniverse和NVIDIA Cosmos Transfer世界基礎(chǔ)模型構(gòu)建，可讓開發(fā)人員通過少量人類演示生成指數(shù)級的大量合成動作數(shù)據(jù)，用于操作任務(wù)。

利用藍圖可用的第一批組件，NVIDIA在短短11小時內(nèi)生成了780000條合成軌跡，相當(dāng)于6500小時或連續(xù)9個月的人類演示數(shù)據(jù)。

老黃表示：“通用機器人時代已經(jīng)到來。借助NVIDIA Isaac GR00T N1以及新的數(shù)據(jù)生成和機器人學(xué)習(xí)框架，世界各地的機器人開發(fā)人員將開拓AI時代的下一個前沿。每個人都應(yīng)該關(guān)注機器人領(lǐng)域，它很可能會成為最大的產(chǎn)業(yè)。”

總之一句話，不管AI產(chǎn)業(yè)和機器人行業(yè)如何飛速變化，現(xiàn)在穩(wěn)坐算力王座的英偉達要贏麻了。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.