大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨丁靈波
北京時間3月19日凌晨,英偉達年度GTC大會在美國圣何塞揭幕,CEO黃仁勛身穿標(biāo)志性黑色皮衣再次登臺,進行了兩個多小時激情解說。
從全新旗艦芯片架構(gòu)、數(shù)據(jù)中心超算到AI智能體軟件、物理AI、機器人、自動駕駛等,再次描繪和展望了英偉達的超級AI版圖。
老黃表示,今年GTC大會就如同“AI界的超級碗”,每個人都是勝利者,因為在英偉達的算力和開發(fā)工具加持下,AI能為更多行業(yè)和公司解決問題。
大家最關(guān)心的GPU產(chǎn)品,黃仁勛表示升級版的Blackwell Ultra在2025 年下半年就能上市。
而且英偉達未來三代全新GPU架構(gòu)都在開發(fā)中,命名為Rubin、Rubin Ultra、Feynman,Rubin架構(gòu)性能可達到Hopper的900倍以上,關(guān)鍵性能比最新發(fā)布的Blackwell Ultra還要再翻兩倍以上,繼續(xù)獨霸全球頂尖AI算力市場。
老黃的AI觀
老黃開場再次展示了自己對AI技術(shù)發(fā)展趨勢的預(yù)判,技術(shù)將經(jīng)歷感知AI-生成式AI-AI代理-物理人工智能,因此超強的AI算力那是少不了的。
盡管今年DeepSeek模型展現(xiàn)出對算力的需求沒那么頂尖也可以,但廣泛應(yīng)用后卻激發(fā)了AI推理需求,同時業(yè)內(nèi)頭部AI公司也在追求更大規(guī)模的模型訓(xùn)練,Scaling Law并未失效,無論怎么看對算力的需求都是越來越高、越來越強。
老黃透露,全球前四大云服務(wù)商去年采購了超130萬片Hopper架構(gòu)GPU,今年或?qū)⒃鲋?60萬片Blackwell架構(gòu)GPU,數(shù)據(jù)中心投資將上萬億美元規(guī)模。
升級版Blackwell Ultra GPU架構(gòu)更擅長滿足AI推理需求。
該架構(gòu)增強了訓(xùn)練和測試時間擴展推理(在推理過程中應(yīng)用更多計算以提高準(zhǔn)確性的藝術(shù)),使開發(fā)者能夠加速AI推理、代理AI和物理AI等應(yīng)用。
Blackwell Ultra以一年前推出的Blackwell架構(gòu)為基礎(chǔ),包括NVIDIA GB300 NVL72機架級解決方案和NVIDIA HGX B300 NVL16系統(tǒng)。GB300 NVL72的AI性能比NVIDIA GB200 NVL72高出1.5倍,與使用NVIDIA Hopper構(gòu)建的相比,Blackwell性能增加了50倍。
與Hopper一代相比,NVIDIA HGX B300 NVL16在大型語言模型上的推理速度提高了11倍,計算能力提高了7倍,內(nèi)存增加了4倍。
基于Blackwell Ultra的產(chǎn)品將從2025年下半年開始提供。預(yù)計思科、戴爾科技、惠普、聯(lián)想和超微等將提供基于Blackwell Ultra產(chǎn)品的各種服務(wù)器。
NVIDIA Dynamo開源推理框架今天也宣布擴展了推理AI服務(wù),通過提供最有效的測試時間計算擴展解決方案,實現(xiàn)了吞吐量的飛躍,同時縮短響應(yīng)時間和模型服務(wù)成本。
英偉達預(yù)計將于2026年下半年開始發(fā)售其下一代GPU產(chǎn)品,以天文學(xué)家Vera Rubin的名字命名,將比去年的Grace Blackwell芯片中使用的CPU快兩倍。
Rubin可以在進行推理時實現(xiàn)每秒50千萬億次浮點運算,比該公司目前的Blackwell芯片每秒20千萬億次浮點運算的速度高出一倍多,Rubin還可以支持高達288 GB的快速內(nèi)存,這是AI開發(fā)人員關(guān)注的核心規(guī)格之一。
以物理學(xué)家理查德·費曼命名的Feynman架構(gòu),預(yù)計會在2028年問世,目前并未有太多細(xì)節(jié)。
全面滲透的“算力生意”
除了GPU架構(gòu)展望,今年GTC推出的核心組件產(chǎn)品瞄準(zhǔn)了數(shù)據(jù)中心AI超算和個人AI超算,以及基于英偉達硬件的一系列AI推理、AI智能體軟件支撐。
黃仁勛介紹了目前全球最先進的企業(yè)級AI基礎(chǔ)設(shè)施—搭載NVIDIA Blackwell Ultra GPU的NVIDIA DGX SuperPOD?,旨在為各行各業(yè)的企業(yè)提供AI超級計算,實現(xiàn)最先進的代理AI推理,該超級計算機可提供FP4精度和更快的AI推理能力,從而為AI應(yīng)用程序增強令牌生成能力。
其中的DGX GB300系統(tǒng)可提供比使用NVIDIA Hopper?系統(tǒng)和38TB快速內(nèi)存構(gòu)建的AI工廠高達70倍的AI性能,為代理AI和推理應(yīng)用程序上的多步推理提供無與倫比的大規(guī)模性能。
每個DGX GB300系統(tǒng)中的72個Grace Blackwell Ultra GPU通過第五代NVLink技術(shù)連接,可提供高達800Gb/s的加速網(wǎng)絡(luò)速度,與Hopper一代相比,DGX B300系統(tǒng)可提供11倍的AI推理性能和4倍的訓(xùn)練速度。
英偉達也展示了把AI部署到每個開發(fā)者身邊的野心,實現(xiàn)算力從數(shù)據(jù)中心到桌面端的延伸,推出AI超級算力臺式機:DGX Spark和DGX Station。
這是搭載NVIDIA Grace Blackwell平臺的桌面超級計算機,也號稱是世界上最小的AI超級計算機,可以讓AI開發(fā)人員、研究人員、數(shù)據(jù)科學(xué)家和學(xué)生能夠在桌面上對大型模型進行原型設(shè)計、微調(diào)和推理,用戶可以在本地運行這些模型,也可以將其部署在NVIDIA DGX Cloud或任何其他加速云或數(shù)據(jù)中心基礎(chǔ)設(shè)施上。
DGX Spark的核心是NVIDIA GB10 Grace Blackwell芯片,配備第五代 Tensor Core和FP4支持,每秒可進行高達1000萬億次AI計算。
DGX Station則為桌面帶來接近數(shù)據(jù)中心級性能,核心使用了NVIDIA GB300 Grace Blackwell Ultra最新芯片,具有784GB連貫內(nèi)存空間,支持高達800Gb/s網(wǎng)絡(luò)傳輸,以處理比DGX Spark更大的工作負(fù)載。
硬件之外,值得關(guān)注的是,英偉達今天還推出了NVIDIA Dynamo,這是一款開源推理軟件,用于以最低的成本和最高的效率加速和擴展AI推理模型。
NVIDIA Dynamo是NVIDIA Triton Inference Server?的后繼產(chǎn)品,它能協(xié)調(diào)和加速數(shù)千個GPU之間的推理通信,并使用分解服務(wù)將大型語言模型 (LLM) 的處理和生成階段分離在不同GPU上,確保最大程度地利用GPU資源。
黃仁勛介紹,在GB200 NVL72機架的大型集群上運行DeepSeek-R1模型時,NVIDIA Dynamo的智能推理優(yōu)化將每個GPU生成的token數(shù)量提高了30倍以上。其中包含了四個創(chuàng)新點:
GPU規(guī)劃器:一種規(guī)劃引擎,可動態(tài)添加和刪除GPU,以適應(yīng)不斷變化的用戶需求,避免GPU過度或不足;
智能路由器:LLM感知路由器,可在大型 GPU 隊列之間引導(dǎo)請求,以最大限度地減少重復(fù)或重疊請求的昂貴GPU重新計算-釋放GPU以響應(yīng)新的傳入請求;
低延遲通信庫:一個推理優(yōu)化的庫,支持最先進的 GPU 到 GPU 通信,并抽象跨異構(gòu)設(shè)備的數(shù)據(jù)交換的復(fù)雜性,從而加速數(shù)據(jù)傳輸;
內(nèi)存管理器:一種引擎,可在不影響用戶體驗的情況下,智能地從低成本內(nèi)存和存儲設(shè)備卸載和重新加載推理數(shù)據(jù)。
除了AI還有一些關(guān)于設(shè)計市場的新品推出。NVIDIA RTX PRO? Blackwell系列工作站和服務(wù)器GPU,不僅能用于加速計算、AI 推理,在光線追蹤和神經(jīng)渲染技術(shù)方面也跟AI融匯貫通,支持技術(shù)開發(fā)、創(chuàng)意、工程和設(shè)計專業(yè)人士的工作流程。
以及使用硅光子的百億億次級數(shù)據(jù)中心的Spectrum-X Photonics和Quantum-X Photonics網(wǎng)絡(luò)交換機平臺,新的網(wǎng)絡(luò)交換機平臺將數(shù)據(jù)傳輸速度提高到每端口1.6 Tb/s,總計400 Tb/s,使數(shù)百萬個GPU能夠無縫協(xié)作。
最后,黃仁勛還宣布了NVIDIA加速量子研究中心(NVAQC),以及支持量子計算研究的NVIDIA GB200 NVL72系統(tǒng)和NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)平臺,英偉達將于當(dāng)?shù)貢r間3月20日舉辦首個“量子日”活動,探索量子計算應(yīng)用之路。
可以說,只要在地球上涉及AI計算和研究,英偉達算力已經(jīng)無孔不入進行了全棧布局滲透。
加碼機器人尋找增長極
在GTC現(xiàn)場,英偉達與谷歌DeepMind、迪士尼研究中心合作開發(fā)的機器人星戰(zhàn)機器人BDX成為全場最靚的仔,背后的技術(shù)支撐是三方合作開發(fā)的開源物理引擎Newton,用于模擬現(xiàn)實環(huán)境中的機器人運動。
在機器人領(lǐng)域,模擬往往與現(xiàn)實不符,這一問題被稱為“模擬與現(xiàn)實”差距,機器人開發(fā)人員需要一個統(tǒng)一、可擴展且可定制的解決方案來模擬現(xiàn)實世界的物理現(xiàn)象。
Newton基于NVIDIA Warp構(gòu)建,這是一個NVIDIA CUDA-X加速庫,可幫助機器人學(xué)習(xí)如何更精確地處理復(fù)雜任務(wù),同時還兼容MuJoCo Playground或NVIDIA Isaac Lab等學(xué)習(xí)框架(另一種用于機器人學(xué)習(xí)的開源統(tǒng)一框架),聚焦為娛樂型機器人提供動力。
此外,英偉達還宣布了一系列用于增強人形機器人開發(fā)的技術(shù),其中包括NVIDIA Isaac GR00T N1,這是世界上第一個開放、完全可定制的通用人形推理和技能基礎(chǔ)模型。
GR00T N1可以輕松實現(xiàn)常見任務(wù)(例如抓取、用一只或兩只手臂移動物體以及將物品從一只手臂轉(zhuǎn)移到另一只手臂),或者執(zhí)行需要長時間上下文和一般技能組合的多步驟任務(wù),這些功能可應(yīng)用于物料搬運、包裝和檢查等用例。
最后是關(guān)于機器熱的全新Omniverse藍圖,該藍圖基于Omniverse和NVIDIA Cosmos Transfer世界基礎(chǔ)模型構(gòu)建,可讓開發(fā)人員通過少量人類演示生成指數(shù)級的大量合成動作數(shù)據(jù),用于操作任務(wù)。
利用藍圖可用的第一批組件,NVIDIA在短短11小時內(nèi)生成了780000條合成軌跡,相當(dāng)于6500小時或連續(xù)9個月的人類演示數(shù)據(jù)。
老黃表示:“通用機器人時代已經(jīng)到來。借助NVIDIA Isaac GR00T N1以及新的數(shù)據(jù)生成和機器人學(xué)習(xí)框架,世界各地的機器人開發(fā)人員將開拓AI時代的下一個前沿。每個人都應(yīng)該關(guān)注機器人領(lǐng)域,它很可能會成為最大的產(chǎn)業(yè)。”
總之一句話,不管AI產(chǎn)業(yè)和機器人行業(yè)如何飛速變化,現(xiàn)在穩(wěn)坐算力王座的英偉達要贏麻了。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.