人工智能四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI;生成式AI目前的階段,計算所需的tokens和資源比最初預期的多100倍;
數據中心基建:到2028年底,數據中心基礎設施的資本支出將超過1萬億美元;
Blackwell芯片:Blackwell已全面投入生產,將輕松過渡到升級版(Blackwell Ultra);
新款AI電腦:擁有高達1000 TOPS的AI算力的迷你電腦DGX Spark和20000 TOPS的工作站DGX Station;
Dynamo:發布了用于加速和擴展 AI 工廠中AI推理模型的開源軟件NVIDIA Dynamo;
機器人:與Google DeepMind和迪士尼合作開發名為Newton的機器人平臺,展示靈動的“Blue”的機器人 原型;
智能駕駛:通用汽車將使用英偉達的計算平臺(包括Omniverse和Cosmos)構建定制AI系統,以優化通用汽車的工廠規劃和機器人技術; 6G網絡:英偉達將與 T-Mobile、Mitre、思科、ODC和Booz Allen Hamilton合作開發AI原生6G無線網絡的硬件、軟件和架構。
歡迎來到GTC!這是一個了不起的一年,我們想在NVIDIA做到這一點,所以通過人工智能的魔力,我們將帶你到NVIDIA的總部。你覺得怎么樣?這里是我們工作的地方。
這是一個了不起的一年,我們有很多令人難以置信的事情要討論,我想讓你知道,我在這里沒有安全網,沒有腳本,沒有提詞器,我有很多內容要提及,所以讓我們開始吧。
首先,我想感謝所有贊助商,所有參與這個會議的了不起的人,幾乎每個行業都有代表,醫療在這里,交通,零售,計算機行業,整個計算機行業都在這里,所以看到你們所有人真的很棒,謝謝你們的贊助。
GTC始于GeForce,今天我帶來了一塊GeForce 5090。難以置信,我們研究GeForce25年后的今天,GeForce在全球都賣光了,這是90,Blackwell一代,和4090相比,你看它的體積小了30%,散熱效提高高了30%,性能令人難以置信。GeForce將Cuda帶到了世界,Cuda使AI成為可能,現在AI又回來對計算機圖形帶來了革命。
你看到的是實時計算機圖形,對每個像素100%路徑追蹤渲染,人工智能預測另外15%,想一想,每一個我們數學渲染的像素,人工智能推斷另外15%,它必須以如此高的精度做到這一點,圖像看起來是正確的,并且在時間上準確,這意味著從一幀到另一幀,無論是向前還是向后必須保持時間穩定,令人難以置信,人工智能取得了非凡的進步,現在才10年。
人工智能的四個階段
我們談論AI的時間比這稍長,但AI真正進入世界意識大約是十年前,開始于感知AI,計算機視覺,語音識別,然后是生成式AI。
感知式AI——生成式AI——代理式AI——物理式AI
過去5年我們主要關注生成式AI,教AI如何從一種模式翻譯到另一種模式,文本到圖像,圖像到文本,文本到視頻,氨基酸到蛋白質,元素到化學品,我們可以用AI生成內容的所有不同方式。
生成式AI從根本上改變了計算方式,從檢索計算模型,我們現在有生成計算模型,過去我們幾乎所做的一切都是提前創建內容,存儲多個版本,然后在使用的時刻獲取我們認為合適的版本。
過去三年發生了重大突破,人工智能取得了根本性的進步,我們稱之為代理式人工智能。這種AI意味著我們將會有一個具有代理權限的AI,它能夠感知并理解環境的上下文。更重要的是,它能夠推理如何回答或解決問題,并能夠計劃行動。它能夠計劃并采取行動。
它能夠使用工具,因為它現在理解多模態信息。它可以訪問一個網站,查看網站的格式、文字和視頻,甚至播放視頻。從該網站學習的內容,理解之后,再回來利用這些信息,用這些新獲得的知識來完成它的工作。
這就是有能動性的人工智能。當然,有能動性的人工智能的基礎是非常新的推理能力。
當然,下一波浪潮已經開始。我們今天將討論這一點——由物理人工智能賦能的機器人技術。能夠理解物理世界的人工智能。它理解摩擦和慣性、因果關系、物體恒常性等概念。因此,理解物理世界、三維世界的能力將開啟我們稱之為物理人工智能的新時代,并將促進機器人技術的發展。
這每一個階段,每一波浪潮,都為我們所有人開啟了新的市場機會。它為GTC帶來了更多新的伙伴。因此,GTC現在濟濟一堂。要在GTC容納更多人,我們必須在圣荷塞擴展。我們正在努力實現這一點。我們有很多土地可以利用。我們必須擴展圣荷塞,以便能夠舉辦GTC。在這里站著時,我希望你們都能看到我所看到的。我們正處于一個體育場的中間。
去年是我們首次恢復現場舉辦這一活動,它就像一場搖滾音樂會。GTC被形容為人工智能的伍德斯托克(注:世界上最著名的系列性搖滾音樂節之一),今年被形容為人工智能的超級碗。唯一的不同是,所有人在這個超級碗中都是贏家。所以每一年,參與的人數都在增加,因為人工智能能夠為更多行業和公司解決更有趣的問題。
預訓練擴展——后訓練擴展——測試-時間擴展
今年,我們將討論很多關于有能動性的人工智能和物理人工智能的內容。從根本上說,推動每一波每一階段人工智能的三個基本問題是:
第一,你如何解決數據問題?這個問題重要的原因是因為人工智能是一種數據驅動的計算機科學方法。它需要數據來學習,需要數字經驗來學習,從中獲取知識,并獲得數字經驗。你如何解決數據問題?
第二,你如何解決訓練問題?而且是在沒有人參與的情況下。有人參與的原因根本上是一個挑戰,因為我們只有有限的時間,而我們希望人工智能能夠以超越人類的速率、實時的速率學習,并能夠以人類無法跟上的規模進行學習。因此第二個問題是,如何訓練模型?
第三,如何實現規模化?你如何創造、如何找到一個算法,只要你提供更多的資源,無論資源是什么,人工智能就會變得更聰明?這就是擴展法則(Scaling Law)那么,在過去一年里,幾乎全世界都誤判了這一點。人工智能的計算需求、規模法則更加彈性,實際上是超加速的。由于有能動的人工智能,推理的結果,我們目前所需的計算量,比去年這個時候我們認為的多得多,容易達到100倍。
讓我們推理一下為什么這是真的。首先,從AI能做什么開始,我從后往前推導。代理AI的基礎是推理,我們現在有了可以推理的AI。推理從根本上說是將問題一步步分解,也許它會用幾種不同的方法處理一個問題,然后選擇最佳答案;也許它會以多種方式解決同一個問題,確保答案一致;或者在得出答案后,將答案代入方程——比如二次方程——以確認答案確實正確,而不是一次性直接吐出答案。還記得兩年前我們開始使用ChatGPT時,盡管它是個奇跡,許多復雜問題和簡單問題它都答不對,這是可以理解的。
它基于預訓練數據一次性回答,無論從其他經驗中學到了什么,它就一次性吐出來,像個預言家。現在我們有了可以一步步推理的AI,使用一種叫做“思維鏈”(Chain of Thought)的技術,通過最佳答案一致性檢查、多種不同的路徑規劃和一系列技術,我們現在有了可以分解問題、一步步推理的AI。
你可以想象,因此我們生成的Token數量大幅增加。AI的基本技術仍然是生成下一個Token、預測下一個Token,只是現在下一個Token構成了第一步,然后在生成第一步后,下一個Token又進入AI的輸入,生成第二步、第三步、第四步。所以不是簡單地生成一個Token或一個詞接著下一個,它生成一系列代表推理步驟的詞語。因此生成的Token數量大幅增加,我馬上會展示給你看,輕松達到100倍以上。100倍更多意味著什么?
它可以生成100倍更多的Token,正如我之前解釋的那樣,你可以看到這種情況;或者模型變得更復雜,它生成10倍更多的Token。為了讓模型保持響應性和互動性,讓我們不至于失去耐心等待它思考,我們現在必須計算快10倍。所以10倍Token、10倍速度,我們必須做的計算量輕松達到100倍。在接下來的演講中你會看到,我們為推理(Inference)所做的計算量比過去高得多。
那么問題來了,我們如何教AI做到我剛才描述的事情,如何執行這個思維鏈?一種方法是你必須教AI如何推理。正如我之前提到的,在訓練中有兩個基本問題需要解決:數據從哪里來?如何不讓它受限于人類參與?我們能提供的數據和人類演示是有限的。所以這是過去幾年的重大突破——強化學習(RL,Reinforcement Learning),可驗證的結果。基本上是AI的強化學習,當它嘗試一步步解決問題時,我們人類歷史上已經解決了很多問題,我們知道答案。
我們知道如何解二次方程,知道如何解畢達哥拉斯定理,知道直角三角形的規則,知道許多數學、幾何、邏輯和科學的規則。我們有拼圖游戲,可以給它約束條件,比如數獨這樣的問題,諸如此類。我們有數百個這樣的問題領域,可以生成數百萬個不同的例子,給AI數百次機會一步步解決,我們使用強化學習獎勵它,當它做得越來越好時。
因此,你拿數百個不同的主題、數百萬個不同的例子、每次嘗試數百次,每次嘗試生成數萬Token,把這些加起來,我們談論的是數萬億、數萬億Token來訓練那個模型。現在有了強化學習,我們有能力生成大量Token——合成數據生成,基本上用機器人方法教AI。這兩者的結合,給行業帶來了巨大的計算挑戰,你可以看到行業正在做出回應。
我接下來要展示的是Hopper,來自四大CSP(云服務提供商)的出貨量。這四大CSP是指擁有公共云的那些——亞馬遜、Azure、GCP和OCI,不包括AI公司,不包括所有初創公司,不包括企業,還有很多沒包括在內,只是這四個,給你一個對比感,Hopper的巔峰年與Blackwell的第一年。
你可以看出,AI確實在經歷一個拐點,它變得更有用,因為它更聰明,可以推理,被更多人使用。你能看出來它被更多人使用,因為現在你用ChatGPT時,似乎要等的時間越來越長,這是好事,說明很多人用得很有效。訓練這些模型和推理這些模型所需的計算量增長得太驚人了。所以僅在一年內,Blackwell剛開始出貨,僅在一年內,你可以看到AI基礎設施的驚人增長。
這在整個計算領域都有體現
我們現在看到,紫色是分析師的預測,關于未來全球數據中心的資本支出增加,包括CSP和企業等等,到2030年底。我之前說過,我預計數據中心的建設將達到一萬億美元,我相當確定我們很快就會達到這個數字。
有兩個動態同時發生。第一個動態是,這種增長的絕大部分可能是加速的,意思是我們早就知道通用計算已經走到盡頭,我們需要一種新的計算方法。世界正在經歷從手寫軟件運行在通用計算機上,到機器學習軟件運行在加速器和GPU上的平臺轉變。這種計算方式此時此刻已經過了臨界點,我們現在看到拐點發生在全球數據中心的建設中。所以第一件事是計算方式的轉變。
第二是人們越來越認識到,未來軟件需要資本投資。這是一個非常大的想法。過去我們編寫軟件并在計算機上運行,未來計算機將為軟件生成Token。所以計算機變成了Token生成器,從基于檢索的計算到基于生成的計算,從過去建設數據中心的老方法,到建設這些基礎設施的新方法。
我稱它們為AI工廠,它們是AI工廠,因為它們只有一個工作——生成這些不可思議的Token,然后我們將這些Token重組為音樂、文字、視頻、研究、化學物質或蛋白質,重組為各種不同類型的信息。所以世界正在經歷一場變革,不僅是數據中心建設數量的變革,還有建設方式的變革。
英偉達CUDA的應用庫
數據中心里的一切都將被加速,但并非所有都是AI。我想在這點上說幾句。這個幻燈片是我最喜歡的,原因在于,所有這些年來參加GTC的人,你們一直在聽我講這些庫(Libraries)。這實際上就是GTC的全部內容,這一頁幻燈片。
事實上,很久以前,20年前,這是我們唯一的一頁幻燈片,一個庫接一個庫接一個庫。你不能僅僅加速軟件,就像我們需要一個AI框架來創建AI一樣,我們加速了AI框架,你需要物理學、生物學、多物理學的框架,還有量子物理學,你需要各種庫和框架,我們稱之為CUDA X庫,每個科學領域的加速框架。
所以第一個很不可思議,這是CuPy Numeric,NumPy是全球下載量第一的Python庫,最常用的Python庫,去年下載了4億次。Cu Litho是計算和CuPy Numeric,是NumPy的零改動加速替代品。所以如果你們中有誰在使用NumPy,試試CuPy Numeric,你會愛上它的。
Cu Litho,一個計算光刻庫,在過去四年里,我們現在已經接管了整個計算光刻過程,這是晶圓廠里的第二工廠,有一個制造晶圓的工廠,還有一個制造信息的工廠來制造晶圓。未來每個行業、每個公司有工廠的,都將有兩個工廠:一個是他們制造東西的工廠,一個是數學的工廠,AI的工廠——汽車工廠,汽車的AI工廠;智能音箱工廠,智能音箱的AI工廠。所以Cu Litho是我們的計算光刻技術。
臺積電、三星、ASML是我們的合作伙伴,Synopsys(注:新思科技,一家美國電子設計自動化公司,專注于芯片設計和驗證、芯片知識產權和計算機安全)、Mentor(注:明導國際,一家從事電子設計自動化的跨國公司),全方位的驚人支持。我認為這現在到了臨界點,再過五年,每一個掩模、每一個光刻,都將在NVIDIA CUDA上處理。
ARIEL是我們的5G庫,將GPU變成5G無線電,為什么不呢?信號處理是我們非常擅長的,一旦做到這一點,我們可以在上面疊加AI,AI for RAN(無線接入網),或者我們稱之為AI RAN,下一代無線電網絡,將深度嵌入AI。為什么我們受限于信息理論的限制?因為頻譜信息只有那么多,如果我們加入AI,就不會了。
CUOPT,數值或數學優化,幾乎每個行業都在用這個,當你規劃座位和航班、庫存和客戶、工人和工廠、司機和乘客等等,我們有多個約束條件、一大堆變量,你在優化時間、利潤、服務質量、資源使用,無論是什么。NVIDIA用它來管理我們的供應鏈,CuOpt是一個不可思議的庫,它將需要數小時的事情變成幾秒鐘。這之所以是大突破,是因為我們現在可以探索更大的空間。
我們宣布將CuOpt開源,幾乎每個人都在用,Gurobi(注:一家開發用于計算最優解軟件的公司)、IBM CPLEX或FICO(注:公司使用預測分析技術幫助企業在整個組織和客戶生命周期中實現決策的自動化),我們與這三家都在合作,行業對此非常興奮,我們即將把這個行業加速得天翻地覆。
PARABRICKS用于基因測序和基因分析。
MONAI是世界領先的醫學影像庫。
Earth-2多物理學,用于超高分辨率預測局部天.
Cu Quantum和CUDA Q,我們將在GTC舉辦首個量子日,我們與生態系統中幾乎所有人合作,要么幫助他們研究量子架構、量子算法,要么構建經典加速量子異構架構,所以那里有非常激動人心的工作。
Cu Equivariance和Cu Tensor用于張量收縮,量子化學。當然是這個世界聞名的技術棧。
人們以為只有一個軟件叫CUDA,但實際上在CUDA之上,有一大堆庫,集成到生態系統的各個部分、軟件和基礎設施中,以實現AI。
我今天要宣布一個新的,Cu DSS,我們的稀疏求解器,對CAE(計算機輔助工程)非常重要,這是去年發生的最重要的事情之一,與Cadence(注:電子設計自動化軟件與工程服務廠商)、Synopsys、Ansys(注:研發CAE或多物理場工程仿真軟件)等合作,還有所有系統公司,我們現在幾乎讓每一個重要的EDA和CAE庫得以加速。
令人驚訝的是,NVIDIA以前一直在用通用計算機,運行軟件超級慢,為其他人設計加速計算機,原因是我們以前沒有針對AIDA優化的軟件。所以現在我們整個行業將得到超級加速,隨著我們轉向加速計算。
CuDF,一個用于結構化數據的數據框架,我們現在為Spark和Pandas提供了加速替代品,太不可思議了。
然后我們有WARP,一個在Python中運行的物理庫,用于CUDA的物理庫,我們有一個大公告,我先按下不表。
這只是使加速計算成為可能的部分庫樣本,不僅僅是CUDA,我們為CUDA感到非常驕傲,但如果沒有CUDA以及我們龐大的安裝基礎,這些庫對使用它們的開發者毫無用處。
對所有使用它們的開發者來說,你們用它因為一是它能給你驚人的加速,能給你驚人的擴展,二是因為CUDA的安裝基礎現在無處不在,它在每個云端,每個數據中心,全球每一家計算機公司都有,它真的無處不在。
因此,通過使用這些庫之一,你的軟件,你了不起的軟件,可以觸達所有人。所以我們現在達到了加速計算的臨界點,CUDA讓這一切成為可能,而你們所有人,這就是GTC的意義所在,生態系統,你們所有人讓這一切成為可能。
自2006年以來,600萬開發者,來自200多個國家,使用了CUDA并改變了計算,擁有超過900個CUDA X庫和AI模型。你們在加速科學,重塑行業,賦予機器看見、學習和推理的能力。現在,NVIDIA Blackwell比第一代CUDA GPU快5萬倍,這些數量級的速度和規模提升,正在縮小仿真與實時數字孿生之間的差距。對你們來說,這只是開始,我們迫不及待想看到你們接下來做什么。
我愛我們所做的事,我更愛你們用它做的事。在我33年做這件事的過程中,最觸動我的一件事是一位科學家對我說:“黃仁勛,因為你的工作,我能在有生之年完成我畢生的工作。”如果這都不能觸動你,那你一定是僵尸。
所以這一切都是關于你們,謝謝大家。
好了,我們要談談AI,但你知道,AI起源于云端,它起源于云端是有原因的,因為事實證明AI需要基礎設施。它是機器學習,如果科學說的是機器學習,那你就需要一臺機器來做科學。所以機器學習需要基礎設施,而云端數據中心有基礎設施,它們還有卓越的計算機科學、卓越的研究,AI在云端起飛的完美條件,在CSP(云服務提供商)中。
但AI不會僅限于此,AI將無處不在,我們將以多種不同的方式談論AI。云服務提供商當然喜歡我們的尖端技術,他們喜歡我們有全棧,因為正如我之前解釋的,加速計算不僅僅是芯片,不僅僅是芯片加庫,編程模型是芯片,編程模型,還有上面的一大堆軟件,整個堆棧極其復雜。每一層,每一個庫,本質上就像SQL,你知道SQL在存儲計算中,是IBM帶來的計算大革命,SQL只是一個庫。
想象一下,我剛給你展示了一大堆,而在AI的情況下還有更多。所以這個堆棧很復雜。他們還喜歡這樣一個事實,CSP喜歡NVIDIA CUDA開發者是他們的客戶,因為歸根結底,我們是為全世界建設基礎設施的。所以豐富的開發者生態系統非常有價值,非常非常受重視。
現在我們要將AI帶到世界其他地方,世界其他地方有不同的系統配置、不同的運行環境、特定領域的庫差異、使用差異。所以AI在轉向企業、轉向制造業、轉向機器人技術、自動駕駛汽車,甚至是開始做GPU云的公司時,有大約20家公司在NVIDIA時代開始的,他們只做一件事——托管GPU,他們稱自己為GPU云。
我們的一位偉大合作伙伴CoreWeave正在上市過程中,我們為他們感到非常驕傲。所以GPU云有他們自己的需求,但我超級興奮的一個領域是邊緣(Edge)。今天我們宣布,思科、NVIDIA、T-Mobile——全球最大的電信公司——Cerebras、ODC,將為美國的無線電網絡建設一個全棧。這將是第二個堆棧,所以這個當前堆棧,我們今天宣布的,將把AI帶入邊緣。
記住,每年全球在無線電網絡上的資本投資,以及為通信準備的所有數據中心,高達一千億美元。我毫不懷疑,未來這些都將被加速計算和AI融合。AI將做得更好,更好地適應無線電信號,大規模MIMO適應不斷變化的環境和流量條件。當然,我們會用強化學習來做到這一點,當然,MIMO本質上是一個巨大的無線電機器人,當然是的。所以我們當然會提供這些能力,當然,AI可以革命化通信。
你知道,當我打電話回家時,不需要多說幾句話,因為我妻子知道我在哪里工作,那里的情況如何,對話從昨天繼續,她有點記得我喜歡什么不喜歡什么,常常幾句話就傳達了很多。原因在于上下文和人類的先驗知識。將這些能力結合起來,可以革命化通信。看看它對視頻處理做了什么,看看我之前描述的3D圖形,所以我們當然也會為邊緣做同樣的事情。我對我們今天宣布的消息超級興奮,T-Mobile、思科、NVIDIA、Cerebras、ODC,將要建設一個全棧。
汽車行業與智能駕駛
AI將進入每個行業,這是AI最早進入的行業之一——自動駕駛汽車。當我看到AlexNet的那一刻,我們已經研究計算機視覺很久了,看到AlexNet的那一刻是如此激動人心,它促使我們決定全力投入開發自動駕駛汽車。所以我們現在已經研發自動駕駛汽車超過十年,我們構建的技術幾乎被每一家自動駕駛汽車公司使用。數據中心,比如特斯拉在數據中心用了很多NVIDIA GPU;可能是數據中心或車內,Waymo和Wave在數據中心和車內都用了NVIDIA計算機;可能只是車內,這種情況很少,但有時只是車內,或者他們還用了我們所有的軟件。
我們與汽車行業合作,無論汽車行業希望我們如何合作,我們構建了所有三種計算機——訓練計算機、仿真計算機和機器人計算機,自動駕駛汽車計算機,上面所有的軟件堆棧,模型和算法,就像我展示的所有其他行業一樣。
所以今天我超級興奮地宣布,通用汽車(GM)選擇NVIDIA與他們合作,打造他們未來的自動駕駛車隊。自動駕駛汽車的時代已經到來,我們期待與GM一起打造AI,在三個領域:制造的AI,讓他們革命化制造方式;企業的AI,讓他們革命化工作方式,設計汽車和仿真汽車;還有車內的AI。
所以為GM打造AI基礎設施,與GM合作,與GM一起構建他們的AI,我對此超級興奮。我非常驕傲的一個領域,但很少受到關注的是安全,汽車安全。在我們公司里這叫做Halos,Halos安全。安全需要從硅片到系統到系統軟件的技術,算法、方法論,一切從多樣性到確保多樣性、監控和透明性、可解釋性,所有這些不同的理念,必須深深植根于你開發系統和軟件的每一個部分。
我相信我們是全球第一家,每一行代碼都經過安全評估的公司,700萬行代碼經過安全評估。我們的芯片、我們的系統、我們的系統軟件和我們的算法,都由第三方安全評估,他們逐行檢查代碼,確保設計時考慮了多樣性、透明性和可解釋性。我們還擁有超過一千項專利,在這次GTC期間,我真的鼓勵你們去參加Halos研討會,這樣你們可以看到所有匯聚在一起的東西,確保未來的汽車既安全又自主。所以這是我非常驕傲的事情,它很少受到關注,所以這次我想多花點時間談談這個。
好了,NVIDIA Halos,你們都見過汽車自己開,Waymo的機器人出租車很不可思議,但我們制作了一個視頻,與你們分享我們用來解決數據和訓練問題的一些技術,以及多樣性,這樣我們就可以用AI的魔力去創造AI。讓我們來看看。
NVIDIA正在為自動駕駛(AV)加速AI開發,使用Omniverse和Cosmos。Cosmos的預測和推理能力支持端到端可訓練的AI優先AV系統,采用新的開發方法——模型蒸餾(Model Distillation)、閉環訓練(Closed-Loop Training)和合成數據生成。首先,模型蒸餾,作為策略模型,Cosmos的駕駛知識從一個較慢的智能老師,轉移到一個更小、更快的學生模型,在車內進行推理。老師的策略模型展示了最佳軌跡,學生模型通過迭代學習,直到它的表現幾乎與老師一樣。
蒸餾過程啟動了一個策略模型,但復雜場景需要進一步調整。閉環訓練使策略模型得以微調,日志數據被轉化為3D場景,在基于物理的仿真中使用Omniverse進行閉環駕駛。神經重建,這些場景的變體被創建,測試模型的軌跡生成能力。
Cosmos行為評估器隨后可以評分生成的駕駛行為,衡量模型性能。新生成的場景及其評估,為閉環訓練創建了大型數據集,幫助AV更穩健地導航復雜場景。最后,3D合成數據生成,增強AV對多樣環境的適應性。從日志數據中,Omniverse通過融合地圖和圖像,構建詳細的4D駕駛環境,生成真實世界的數字孿生,包括分割以指導Cosmos,通過分類每個像素。Cosmos然后通過生成準確多樣的場景,擴展訓練數據,縮小仿真與現實的差距。Omniverse和Cosmos使AV能夠學習、適應和智能駕駛,推進更安全的移動性。
NVIDIA是做這件事的完美公司,天哪,那是我們的使命,用AI重新創造AI。我們展示給你們的技術,與你們正在享受的、帶你們進入數字孿生的技術非常相似,我們稱之為NVIDIA。
數據中心與AI工廠
好了,讓我們談談數據中心。Blackwell已全面投產,這就是它的樣子,太不可思議了,你知道,對于我們這些人來說,這是一道美麗的風景,你們同意嗎?怎么能不美呢?
這是一件大事,因為我們在計算機架構上做出了根本性的轉變。我想讓你們知道,事實上,我在三年前向你們展示過這個的一個版本,當時叫Grace Hopper,系統叫Ranger。Ranger系統大約是屏幕寬度的一半,那是世界上第一個NVLink 32。
三年前我們展示了Ranger的運行,它太大了,但想法完全正確。我們試圖解決的是擴展(Scale Up)的問題。分布式計算是用很多不同的計算機一起解決一個非常大的問題,但擴展起來(Scale Up)比擴展出去(Scale Out)更重要,兩者都很重要,但你得先擴展起來再擴展出去。擴展起來非常難,沒有簡單的答案。你不會拿一堆普通計算機,連接成一個大網絡,用Hadoop(分布式存儲)做存儲計算。Hadoop是一個革命性的想法,我們知道它使超大規模數據中心能夠解決巨型問題,用現成的計算機。然而,我們試圖解決的問題太復雜了,那樣擴展會耗費太多電力、太多能源,深度學習永遠不會發生。所以我們必須先擴展起來。
這就是我們擴展的方式。我不會舉起這個,它有70磅,這是上一代系統架構,叫HGX。它徹底改變了我們所知的計算,徹底改變了人工智能。這是8個GPU,每個都像這樣。這是一個Blackwell封裝,里面有兩個Blackwell GPU,一個Blackwell封裝里兩個Blackwell GPU。
下面有八個這樣的。它連接到我們稱之為NVLink 8的東西,然后連接到一個CPU架,上面有雙CPU,通過PCI Express連接,然后很多這樣的東西通過Infiniband連接,變成了一個AI超級計算機。這是過去的方式,這是我們開始的方式。
這是我們在擴展出去之前擴展到的程度,但我們想進一步擴展。我告訴過你們,Ranger把這個系統擴展了四倍,所以我們有了NVLink 32,但系統太大了,所以我們必須做一些相當了不起的事情,重新設計NVLink的工作方式和擴展的方式。第一件事我們說,NVLink交換機嵌在主板上,我們需要解耦NVLink系統,把它拿出來。這就是NVLink系統,這是一個NVLink交換機,這是世界上性能最高的交換機,它讓每個GPU都能同時以全帶寬與每個GPU通信。
所以這是NVLink交換機,我們解耦了它,拿出來,放在機箱中央。這里有18個這樣的交換機,分成9個不同的架子,我們稱之為交換機托盤。
然后交換機被解耦,計算部分現在在這里,相當于這兩個東西的計算能力。令人驚訝的是,這完全是液冷的,通過液冷,我們可以將所有這些計算節點壓縮到一個機架中。
這是整個行業的大變革,你們在場的觀眾,我知道你們有多少人,我要感謝你們促成了這個從集成NVLink到解耦NVLink、從風冷到液冷、從每臺計算機大約6萬個零件到每個機架60萬個零件的根本性轉變。120千瓦完全液冷,結果我們有了一臺一億億次浮點運算(Exaflops)的計算機,在一個機架里,這不是很不可思議嗎
所以這是計算節點,這就是計算節點,現在它能裝進一個這樣的機架里。我們有3000磅,5000根電纜,大約2英里長,太不可思議的電子設備了,60萬個零件,我想這相當于20輛汽車的零件,集成成一臺超級計算機。我們的目標是做到這個,我們的目標是擴展,這就是它現在的樣子。
我們本質上想造這個芯片,只是理論極限做不到,工藝技術也做不到。它有130萬億個晶體管,其中20萬億用于計算,所以你無法在短期內合理地造出來。解決這個問題的辦法就是像我描述的那樣解耦,變成Grace Blackwell NVLink 72機架,結果我們完成了世界上最極端的擴展。
這里可能的計算量,內存帶寬570太字節每秒,這臺機器里的一切現在都是以萬億為單位,你有一億億次浮點運算,也就是每秒一百萬萬億次浮點運算。我們之所以想這樣做,是為了解決一個極端問題,這個問題很多人誤以為很簡單,實際上它是終極的極端計算問題,叫推理(Inference)。原因很簡單,推理是工廠的Token生成,工廠是產生收入和利潤的,或者不產生,所以這個工廠必須以極高的效率、極高的性能建造,因為這個工廠的一切直接影響你的服務質量、你的收入和你的盈利能力。
讓我教你們怎么看這個圖表。基本上有兩個軸,X軸是每秒Token數,當你用ChatGPT聊天,輸入提示后出來的是Token,這些Token被重新格式化為單詞,你知道,一個詞不止一個Token。比如“th”可以用于“the”、“them”、“theory”、“theatrics”等等,所以“th”是一個Token的例子,它們把這些Token重新格式化為單詞。
我們已經確定,如果你想讓AI更聰明,你得生成一大堆Token,這些Token是推理Token、一致性檢查Token、想出一堆點子然后選出最好的那些點子的Token,這些Token可能是自我懷疑,可能是它能做的最好工作,所以它自己跟自己對話,就像我們自己跟自己對話一樣。所以你生成的Token越多,你的AI就越聰明。
但如果你回答問題花太長時間,客戶就不會回來,這跟網頁搜索沒什么區別,在它給出聰明答案之前能等的時間是有限的。所以你有兩個互相抗衡的維度,你想生成一大堆Token,但你想盡可能快地做到。因此,你的Token速率很重要,你希望每個用戶的每秒Token數盡可能快。
然而,在計算機科學和工廠里,延遲(響應時間)和吞吐量之間有根本性的張力。原因很簡單,如果你是大批量業務,你會批量處理,叫批處理(Batching),你把很多客戶需求批量起來,制造某個版本供大家以后消費。然而,從他們批量制造到你消費的時間可能很長。所以計算機科學沒什么不同,AI工廠生成Token也沒什么不同,你有兩個根本性的張力。一方面,你希望客戶的服務質量盡可能好,智能AI要超級快;另一方面,你試圖讓數據中心為盡可能多的人生產Token,以最大化你的收入。
完美的答案是右上角,理想情況下,這個曲線的形狀是一個正方形,你可以為每個人快速生成Token,直到工廠的極限。但沒有工廠能做到,所以它可能是某種曲線,你的目標是最大化曲線下的面積,也就是X和Y的乘積,你推得越遠,越可能意味著你建的工廠越好。
結果是,整個工廠的每秒Token數和響應時間的每秒Token數,一個需要巨大的計算量(Flops),另一個維度需要巨大的帶寬和計算量,所以這是一個很難解決的問題。好的答案是你得有很多計算量、很多帶寬、很多內存,很多一切,這是最好的起點,這就是為什么這是一臺偉大的計算機。你能得到的最多計算量、最多內存、最多帶寬開始,當然還有最好的架構、最好的能效,你得有一個編程模型,讓你能在這一切上運行軟件,所以你能做到這個。
現在讓我們看一個演示,給你們一個我說的直觀感覺,請播放。
傳統大型語言模型(LLM)捕獲基礎知識,而推理模型用思維Token幫助解決復雜問題。這里一個提示要求在婚禮餐桌周圍安排座位,同時遵守傳統、上鏡角度和家族紛爭等約束。傳統LLM用不到500個Token快速回答,但安排客人時出錯,而推理模型用超過8000個Token思考,得出了正確答案,需要一個牧師來維持和平。
好的,正如你們所知,如果有300人的婚禮派對,你要為每個人找到完美——或者說最優——的座位安排,這是一個只有AI能解決的問題。所以這是CuOpt解決不了的問題之一。
你看到的是,我們給它一個需要推理的問題,你看到R1開始推理,嘗試各種不同場景,然后回來測試自己的答案,它問自己做得對不對。與此同時,上一代語言模型一次性回答,用了439個Token,很快,很有效,但錯了,所以是439個浪費的Token。另一方面,為了推理這個問題——這其實是一個很簡單的問題,你知道,我們再加幾個更難的變量,它就變得很難推理了——用了8000個,幾乎9000個Token,需要更多計算,因為模型更復雜。
所以這是一個維度,在我展示一些結果前,讓我再解釋一下。如果你們看Blackwell,看Blackwell系統,現在是擴展的NVLink 72,第一件事是我們得拿這個模型,這個模型不小,你知道,在R1的情況下,人們認為R1很小,但它有6800億個參數,下一代模型可能是萬億級參數。你解決這個問題的方法是,把這些萬億級參數分布到整個GPU系統上。你可以用張量并行(Tensor Parallel),把模型的一層分布到多個GPU上;你可以拿管道的一部分,叫管道并行(Pipeline Parallel),放到多個GPU上;你可以把不同的專家分布到不同GPU上,我們叫專家并行(Expert Parallel)。
管道并行、張量并行和專家并行的組合,數量太多了,取決于模型、取決于工作負載、取決于情況,你得調整計算機的配置,才能從中獲得最大吞吐量。有時你優化低延遲,有時你優化吞吐量,所以你得做一些飛行中的批處理(Inflight Batching),很多不同的批處理和聚合工作的技術。所以這些AI工廠的軟件、操作系統,太復雜了。
一個觀察是,像NVLink 72這樣同構架構的好處是,每個GPU都能做我剛描述的所有事。我們觀察到,這些推理模型有幾個計算階段。一個階段是思考,當你思考時,你不會產生很多Token,你產生的Token可能是自己消耗的,你在思考,可能在閱讀,消化信息,這些信息可能是PDF、網站,你甚至可能在看視頻,以超線性速率吸收所有這些,然后你用這些信息制定答案,制定計劃好的答案。所以這個消化信息、上下文處理的過程,需要大量計算量(Flops)。另一方面,下一階段叫解碼(Decode),第一部分我們叫預填充(Prefill)。
解碼階段需要浮點運算,但需要巨大的帶寬。這很容易計算,你知道,如果一個模型有幾萬億參數,那就需要幾太字節每秒,我提到過576太字節每秒,從HBM內存拉模型進來,生成一個Token就需要幾太字節每秒。原因它生成一個Token是因為,記住,這些大型語言模型是在預測下一個Token,所以說下一個Token,不是預測每個Token,是預測下一個Token。
現在我們有各種新技術,比如推測解碼(Speculative Decoding)等等,讓它更快,但在最后分析中,你是在預測下一個Token。所以你拉進整個模型和上下文,我們叫它KV緩存(KV Cache),然后生成一個Token,再把這個Token放回我們的大腦,生成下一個Token,每一次都這樣,我們輸入萬億參數,生成一個Token,再輸入萬億參數,生成另一個Token,再輸入萬億參數,生成另一個Token。注意那個演示,我們生成了8600個Token,所以萬億字節的信息被輸入我們的GPU,一次生成一個Token。
這從根本上就是你想要NVLink的原因,NVLink讓我們能把所有這些GPU變成一個巨大的GPU,終極擴展(Scale Up)。第二件事是,現在一切都在NVLink上,我可以把預填充和解碼分開,我可以決定用更多GPU做預填充,少做解碼,因為我在大量思考,我在做代理性工作(Agentic Work),我在讀很多信息,做深入研究。注意在深入研究時,你知道,之前我聽Michael講他做研究,我也一樣,我們為AI寫很長的研究項目,我愛做這個,因為我已經付出了成本,我就是愛讓我們的GPU工作,沒什么比這更讓我開心。所以我寫好,它就去做所有這些研究,去了94個不同網站,讀了所有這些,我在讀這些信息,它制定答案,寫報告,太不可思議了。
在這整個過程中,預填充超級忙,但它其實沒生成多少Token。另一方面,當你跟聊天機器人聊天,幾百萬人在做同樣的事,它是Token生成很重的,很解碼重。所以取決于工作負載,我們可能決定把更多GPU放進解碼,取決于工作負載放更多GPU進預填充。這個動態操作真的很復雜,所以我剛描述了管道并行(Pipeline Parallel)、張量并行(Tensor Parallel)、專家并行(Expert Parallel)、飛行中批處理(Inflight Batching)、解耦推理工作負載管理,然后我得拿這個叫KV緩存的東西,路由到正確的GPU,通過所有內存層次管理它,這塊軟件太復雜了。
所以今天我們宣布NVIDIA Dynamo。它本質上是AI工廠的操作系統。過去我們運行數據中心的方式,我們的操作系統是像VMware這樣的東西,我們會編排,我們仍然這樣做,你知道,我們是大用戶,編排一大堆運行在我們企業IT上的不同企業應用。但未來,應用不是企業IT,而是代理(Agents),操作系統不是像VMware這樣的東西,而是像Dynamo這樣的東西,這個操作系統運行在不是數據中心,而是一個AI工廠之上。
我們叫它Dynamo是有原因的,你知道,發電機(Dynamo)是上一次工業革命的第一個工具,能源的工業革命,水進來,電出來,太棒了,你知道,水進來,你點火變成蒸汽,出來的是這個無形但非常有價值的東西,花了80年才變成交流電,但Dynamo是這一切的起點。所以我們決定把這個操作系統,這個極其復雜的軟件,叫NVIDIA Dynamo,它是開源的,它是開源的,我們很高興有這么多合作伙伴跟我們一起做這個。我最喜歡的合作伙伴之一,我很愛他們,因為他們的革命性工作,也因為Aran是個很棒的人,但Perplexity是我們在這個過程中的偉大合作伙伴。所以總之,真的真的很棒。
現在我們得等到我們把這些基礎設施都擴展起來,但與此同時,我們做了很多非常深入的仿真,我們有超級計算機在仿真我們的超級計算機,這很有道理。我現在要展示我剛說的所有東西的好處,記住那個工廠圖表,X軸是每秒Token吞吐量,抱歉,Y軸是工廠的每秒Token吞吐量,X軸是用戶體驗的每秒Token數,你想要超級聰明的AI,你想生產一大堆這樣的AI。
這是Hopper,這是Hopper,它能為每個用戶每秒生產大約100個Token,100個,這是8個GPU,用Infiniband連接,我把它標準化為每兆瓦每秒Token數,所以這是一個一兆瓦的數據中心,不算很大的AI工廠,但總之一兆瓦。它能為每個用戶生產100個Token每秒,能在這個水平生產,不管是多少,10萬個Token每秒,對于那個一兆瓦數據中心,或者如果超級批處理,客戶愿意等很長時間,它能生產大約250萬個Token每秒,250萬個Token每秒,對于那個AI工廠。
明白了嗎?好的,因為你知道,每次GTC都有入場費,你們知道,就像被數學折磨一樣,只有在NVIDIA你才會被數學折磨。所以Hopper你得到250萬,那250萬是什么,怎么翻譯那250萬?記住,ChatGPT大概是每百萬Token10美元,我認為10美元每百萬Token大概在這兒。每秒25萬美元每工廠,然后一年有3100萬秒,轉化成一兆瓦數據中心的收入。
所以這是你的目標,一方面你希望你的Token速率盡可能快,這樣你能做出很聰明的AI,如果有聰明的AI,人們會付你更多錢;另一方面,AI越聰明,你能生產的量就越少,很合理的權衡,這是我們想彎曲的曲線。
我現在展示給你們的是世界上最快的計算機Hopper,它徹底改變了一切。所以我們怎么讓它更好?第一件事我們拿出Blackwell,帶NVLink 8,同一個Blackwell,同一個計算節點,帶NVLink 8,用FP8,所以Blackwell就是更快,更大,更多晶體管,更多一切。但我們想做的更多,所以我們引入了一種新精度,不完全是4位浮點那么簡單,但用4位浮點我們可以量化模型,用更少能量做同樣的事,結果當你用更少能量做同樣的事,你能做更多,因為記住一個大想法是,未來每個數據中心都將受限于電力,你的收入受限于電力,你能根據你有的電力算出你的收入會是多少,這跟很多其他行業沒什么不同。所以我們現在是受限于電力的行業,我們的收入跟這有關。
基于這個,你得確保你有盡可能最高效的計算架構。
接下來我們用NVLink 72擴展,明白了嗎?看看NVLink 72 FP4的區別,然后因為我們的架構整合得太緊密了,現在我們加上Dynamo,Dynamo能把它再推進一步,你們跟得上嗎?所以Dynamo也幫Hopper,但Dynamo對Blackwell的幫助簡直太不可思議了。
所以現在注意我放的那兩個閃亮的部分,那大概是你的最大質量點(Max Q),你知道,那可能是你運行工廠操作的地方,你在試圖找到最大吞吐量和AI最大質量之間的平衡,最聰明的AI,最多的AI,這兩個XY交點真的是在優化的東西,如果你看這兩個方塊下面,Blackwell比Hopper好太多了。記住這不是同芯片,這是同功率,這是終極摩爾定律(Moore's Law),過去摩爾定律一直是這樣的,現在我們在這兒,一代25倍,同功率,不是同芯片,不是同晶體管,不是同任何東西,同功率,終極限制,數據中心能獲得的能源只有那么多,所以在同功率下,Blackwell是25倍。
現在這兒有個彩虹,太不可思議了,那是好玩的部分,看看所有不同配置,每個在帕累托前沿(Pareto Frontier)下面,我們叫它帕累托前沿,下面有幾百萬個點,我們可以配置數據中心去做,我們可以并行、分片工作,用很多不同的方式,我們找到了最優答案,就是帕累托前沿,每個因為顏色告訴你它是不同配置,這就是為什么這個圖像很清楚地說,你想要一個盡可能同質可替換的可編程架構,因為工作負載在整個前沿變化太大了。
所以這是輸入序列長度,這是一種常見的測試案例,這個測試案例你可以相對容易地基準測試,輸入是1000個Token,輸出是2000個,注意之前我們剛展示的演示,輸出很簡單是9000,對,8000,所以顯然這不代表那一個聊天,這個更具代表性,這就是你知道,目標是為下一代工作負載建下一代計算機。所以這兒有個推理模型的例子,在推理模型中,Blackwell的性能是Hopper的40倍,太驚人了。
你知道,我之前說過,有人問我為什么這么說,我說過,當Blackwell開始大量出貨,你沒法把Hopper送出去,這就是我的意思,這很合理。如果有人還在想買Hopper(上一代芯片),別害怕,我是說,沒事,但我可是首席收入破壞者(Chief Revenue Destroyer),我的銷售團隊在說,哦不,別這么說。有些情況下Hopper是沒問題的,這是我能對Hopper說的最好話,有些情況下你是沒問題的,但情況不多。所以這就是我的觀點,當技術發展這么快,你在建這些東西,它們是工廠,你得投資在正確的版本上。
為了給你一個視角,這是一個100兆瓦工廠的樣子,這個100兆瓦工廠,基于Hopper,你有4.5萬個GPU,1400個機架,它生產3億個Token每秒。然后這是Blackwell的樣子,你有8.5萬個。所以總之,你買得越多,你省得越多,比這更好,現在是你買得越多,你賺得越多,你知道。
所以總之,記住一切都在AI工廠的背景下,雖然我們談芯片,你總是從擴展開始,我們談芯片,但你總是從擴展開始,全力擴展,你能擴展到最大。我現在想給你們展示AI工廠的樣子,但AI工廠太復雜了,我剛給你們一個機架的例子,它有60萬個零件,重3000磅,現在你得拿這個跟一大堆其他連接起來,所以我們開始建我們說的每個數據中心的數字孿生,在你建數據中心前,你得先建數字孿生。讓我們看看這個,太美了。
全世界在競相建造最先進的大型AI工廠,啟動一個AI千兆工廠是工程上的非凡壯舉,需要數萬名工人,從供應商、建筑師、承包商和工程師,建造、運輸、組裝近50億個組件和超過20萬英里的光纖,幾乎是從地球到月球的距離。NVIDIA Omniverse的AI工廠數字孿生藍圖讓我們能在物理建設開始前設計和優化這些AI工廠。
在這兒,NVIDIA工程師用藍圖規劃一個1吉瓦的AI工廠,整合最新的NVIDIA DGX超級POD的3D和布局數據,以及來自Vertiv和施耐德電氣的先進電源和冷卻系統,以及NVIDIA Air優化的拓撲結構,一個用于模擬網絡邏輯、布局和協議的框架。這工作傳統上是在孤島中完成,Omniverse藍圖讓我們的工程團隊能并行協作,讓我們探索各種配置,以最大化總擁有成本(TCO)和電源使用效率。
NVIDIA用Cadence Reality數字孿生,由CUDA和Omniverse庫加速,模擬空氣和液體冷卻系統,施耐德電氣用EAP,一個模擬電源塊效率和可靠性的應用。實時仿真讓我們能迭代和運行大規模假設場景,從幾小時變成幾秒。我們用數字孿生向大群團隊和供應商傳達指令,減少執行錯誤,加速啟動時間,規劃改造或升級時,我們能輕松測試和模擬成本和停機時間,確保面向未來的AI工廠。
好了,我得講快一點,因為我發現我有很多要告訴你們,如果我講得太快,不是因為我不關心你們,只是我有很多信息要講。好的,首先我們的路線圖,我們現在Blackwell已全面投產,全球的計算機公司在大規模提升這些不可思議的機器,我非常非常高興,也非常感激你們所有人努力過渡到這個新架構。
現在今年下半年我們將輕松過渡到升級,所以我們有Blackwell Ultra NVLink 72,你知道,它有1.5倍更多的浮點運算,它有新的注意力指令,1.5倍更多內存,所有這些內存對KV緩存之類的東西有用,你知道,2倍更多帶寬,網絡帶寬。所以現在我們有了同樣架構,我們會優雅地滑向那個,叫Blackwell Ultra。
所以這是今年下半年的事。現在我們這么做的原因。
我們在建AI工廠和AI基礎設施,這需要幾年的規劃,這不是買筆記本電腦那樣可自由支配的開支,這是我們得計劃的開支。所以我們得計劃好土地和電力,我們得準備好資本支出,我們得有工程團隊,我們得提前兩三年布局,這就是為什么我提前兩三年給你們看我們的路線圖,這樣我們不會在五月突然說,嘿,你知道,再過一個月我們會推出這個不可思議的新系統,我馬上會給你們一個例子,所以我們多年規劃這個。
一年后,以一位天文學家命名,她的名字是Vera Rubin,她發現了暗物質。Vera Rubin太不可思議了,因為CPU是新的,是Grace兩倍的性能,有更多內存、更多帶寬,然而只是一個50瓦的小CPU,真的很不可思議。Rubin全新的GPU CX9,全新的網絡SmartNIC,NVLink 6,全新的NVLink,全新的HBM4內存,基本上一切都是新的,除了機箱,這樣我們能在一個方向上冒很多險,不冒基礎設施相關的其他風險。所以Vera Rubin NVLink 144是明年下半年的事。
現在我犯了一個錯誤,所以我需要你們做這個調整,我們只做這一次,Blackwell其實是一個芯片里兩個GPU,我們叫那個芯片一個GPU,這是錯的,原因是它搞亂了所有NVLink命名之類的東西。所以往前走,當我說NVLink 144,只是說它連到144個GPU,每個GPU是一個GPU芯片,可能組裝在某個封裝里,組裝方式可能不時變化。所以每個GPU芯片是一個GPU,每個NVLink連到GPU,所以Vera Rubin NVLink 144,然后這為后年下半年鋪路,我們叫Rubin Ultra。
我知道這個是你們該說“哇”的地方。所以這是Vera Rubin,Rubin Ultra,27年下半年,它是NVLink 576,極端擴展,每個機架600千瓦,250萬個零件,顯然有很多GPU,一切都翻倍,所以14倍更多浮點運算,15億億次浮點運算(Exaflops),不是我之前提到的一億億次,是15億億次擴展浮點運算,它是300,哦,4.6PB,所以每秒4600太字節擴展帶寬,我不是說聚合,我是說擴展帶寬,當然有很多全新的NVLink交換機和CX9。
注意,16個站點,4個GPU一個封裝,超大的NVLink,我給你們一個視角,這就是它的樣子。現在這會很好玩,所以你們現在正在提升Grace Blackwell,我不是想讓它看起來像筆記本電腦,但我們走吧。所以這就是Grace Blackwell的樣子,這就是Rubin的樣子,ISO維度,所以這是另一種說法,在你擴展出去前,你得先擴展起來,明白了嗎?在你擴展出去前先擴展起來,然后用我馬上要展示的驚人技術擴展出去。
所以先擴展起來,現在這給你們一個我們前進速度的感覺,這是擴展浮點運算量,Hopper是1倍,Blackwell是68倍,Rubin是900倍擴展浮點運算,然后如果我把它變成你的總擁有成本(TCO),就是上面的電力除以下面的曲線下的面積,我跟你們說的那個方塊,基本上是浮點運算乘以帶寬。所以你判斷AI工廠進步的一個很簡單直覺檢查是瓦特除以這些數字,你可以看到Rubin會把成本大幅降低。所以這是NVIDIA的路線圖,很簡單,每年一次,每年一次,像鐘表一樣,每年一次。
InfiniBand網絡
我們怎么擴展?我們引入了,我們準備擴展出去,擴展起來是NVLink,我們的擴展網絡是Infiniband和Spectrum X,大多數人很驚訝我們進入了以太網世界,我們決定做以太網的原因是,如果我們能幫以太網變得像Infiniband,有Infiniband的品質,那么網絡本身對大家用和管理會容易很多。所以我們決定投資Spectrum,我們叫它Spectrum X,我們給它帶來了擁塞控制、低延遲和我們計算結構(Computing Fabric)的一部分軟件的屬性,結果我們讓Spectrum X性能超高,我們用Spectrum X擴展了有史以來最大的單一GPU集群,一個巨型集群,那就是Colossus。所以還有很多其他例子,Spectrum X無疑是我們的大成功。
我很興奮的一個領域是最大的企業網絡公司把Spectrum X整合進他們的產品線,這樣他們能幫世界上的企業變成AI公司。我們有10萬個,用CX8,CX7,現在CX8來了,CX9來了,在Rubin的時間框架里,我們想把GPU數量擴展到幾十萬。現在把GPU擴展到幾十萬的挑戰是,擴展起來和擴展出去的連接是銅線,我們得盡可能用銅線,你知道,大概一兩米,這是非常好的連接性,很低很高的可靠性,很好地節能,很低的成本,所以我們盡可能在擴展起來時用銅線,但在擴展出去時,數據中心現在有體育場那么大,我們需要一些長距離的東西,這就是硅光子(Silicon Photonics)進來的地方。
硅光子的挑戰是,收發器從電到光子要消耗很多能量,要通過一個CIS,經過一個收發器,一個CERIS幾個CIS,所以這些這些這些,我是一個人嗎?有人嗎?我的網絡團隊怎么了?我能把這個拿上來嗎?是的,是的,把它拿上來,這樣我能給人們展示我在說什么。
好的,首先我們宣布NVIDIA的第一個共封裝(Co-Packaged)選擇硅光子系統,這是世界上第一個每秒1.6太比特的CPO,我們要用的是一個叫微環諧振調制器(Micro Ring Resonator Modulator)的技術,它完全是用我們在臺積電(TSMC)合作很久的這個不可思議的工藝技術建造的,我們跟一個巨大的技術提供商生態系統合作,發明了我要展示給你們的東西,這真的是瘋狂的技術,太瘋狂太瘋狂的技術。
我們決定投資MRM的原因是,這樣我們能用MRM的驚人密度和功率準備自己,比用于電信的Mach-Zehnder(莫桑德)更好密度和功率,當你從一個數據中心到另一個數據中心,在電信里,甚至在我們用的收發器里,我們用Mach-Zehnder,因為密度要求不高,直到現在。所以如果你看看這些收發器,這是一個收發器的例子。
沒你想的那么簡單,這些是亂七八糟的小東西。好的,這個在這兒,這個是30瓦,記住這個,30瓦,如果你大批量購買,它是1000美元,這邊是插頭,這邊是電的,這邊是光的。光纖通過黃色的進來,你插進交換機,這邊是電的,有收發器、激光器,是個叫Mach-Zehnder的技術,太不可思議了。
所以我們用這個從GPU到交換機,到下一個交換機,然后下一個交換機,到GPU,比如這樣。所以這些,如果我們有10萬個GPU,我們會有10萬個這邊,然后另外10萬個,連接交換機到交換機,然后另一邊分配到另一個NIC,如果我們有25萬個,我們加另一層交換機,所以每個GPU,每個25萬個GPU,每個GPU會有6個收發器,每個GPU會有6個這樣的插頭,這6個插頭會加每GPU180瓦,也就是每GPU6000美元。
所以問題是,我們現在怎么擴展到幾百萬個GPU?因為如果我們有一百萬個GPU,乘以6,對吧,會是600萬個收發器,乘以30瓦,180兆瓦的收發器,它們沒做任何數學,只是移動信號。所以問題是,我們怎么負擔得起,正如我之前提到的,能源是我們最重要的商品,一切最終跟能源有關,所以這會限制我們的收入,我們的客戶收入,減去180兆瓦的電力。所以這是我們做的驚人事情,我們發明了世界上第一個MRM微鏡。
這就是它的樣子,有個小的波導,你看到那個,波導連到一個環,那個環諧振,控制波導的反射率,當它繞過去,限制和調制能量,通過的光量,通過吸收關掉或通過打開,把光,這個直接連續的激光束,變成1和0,這就是奇跡。
這個技術,然后光子IC跟電子IC堆疊,然后跟一堆微透鏡堆疊,然后跟這個叫光纖陣列的東西堆疊,這些東西都用臺積電的這個技術制造,用3D 技術封裝,跟所有這些技術提供商合作,我剛給你們看的那些名字一大堆,把它變成這個不可思議的機器。所以讓我們看看它的視頻。
這是個技術奇跡,它們變成這些交換機是Infiniband交換機,硅片工作得太棒了,今年下半年我們會出貨這個硅光子交換機,今年下半年,下一年下半年會出貨Spectrum X,因為MRM選擇,因為過去5年我們冒的不可思議的技術風險,申請了幾百個專利,我們授權給我們的合作伙伴,這樣我們都能造,現在我們能把硅光子跟共封裝選擇放進我們的交換機,沒有收發器,光纖直接進我們的交換機,基數(Radix)是512,這是512個端口,這用其他方式根本不可能。
所以這現在讓我們能擴展到幾十萬GPU,幾百萬GPU,好處是,你想象這個,在數據中心我們能省幾十兆瓦,幾十兆瓦,比如說10兆瓦,哦,說60兆瓦,60瓦,6兆瓦是10個Rubin Ultra機架,對吧,60那是很多,100個Rubin Ultra機架的電力,我們現在能部署到Rubin。
好的,這是我們的路線圖,每年一次,每年一次,每兩年一個新產品線,每年X倍增長,我們試著分塊冒硅片風險、網絡風險或系統機箱風險,這樣我們能推動行業前進,追求這些不可思議的技術,Vera Rubin,我很感激她的外孫在這兒,這是我們表彰她、紀念她不可思議工作的機會。我們下一代會以費曼(Feynman)命名。
企業計算
好了,NVIDIA的路線圖,讓我跟你們談談企業計算,這真的很重要,為了我們把AI帶到世界上的企業,首先我們得去NVIDIA的另一部分,GAN Splats的美妙之處。為了把AI帶到企業,退一步提醒你們自己,記住,AI和機器學習重塑了整個計算堆棧,處理器不同了,操作系統不同了,上面的應用不同了,應用的方式不同了,編排的方式不同了,運行它們的方式不同了。讓我給你們一個例子,你訪問數據的方式會跟過去根本不同,過去是精確檢索你想要的數據,你讀它試著理解,未來我們會像用Perplexity一樣,不那樣檢索,我只問Perplexity我想知道什么,問它一個問題,它會告訴你答案。
未來企業IT也是這樣工作的,我們會有AI代理,作為我們數字勞動力的一部分,世界上有10億知識工作者,未來可能有100億數字工作者跟我們并肩工作,未來100%的軟件工程師,全球有3000萬,100%會是AI輔助的,我很確定,到今年底,NVIDIA 100%的軟件工程師會是AI輔助的。所以AI代理會無處不在,它們怎么運行,企業運行什么,我們怎么運行,會根本不同,所以我們需要一個新的計算機系列——DGX 工作站。
這就是PC該有的樣子,20拍字節每秒浮點運算(Petaflops),太不可思議了,72個CPU核心,芯片到芯片接口,HBM內存,以防萬一還有幾個PCI Express插槽給你的GeForce。所以這是DJX Station,DGX Spark和DGX Station,將由所有OEM提供,HP、Dell、Lenovo、Asus,將為全球的數據科學家和研究人員制造,這是AI時代的計算機,計算機就該這樣,未來計算機會這樣運行。
我們為企業有一整套產品,從小到工作站的、服務器的,到超級計算機的,這些將由我們所有合作伙伴提供。
我們還將革命化計算堆棧的其余部分,記住計算有三大支柱,有計算,有網絡,我之前提到的Spectrum X,去世界上的企業,一個AI網絡。
第三個是存儲,存儲得完全重塑,不是基于檢索的存儲系統,將是基于語義的檢索系統,基于語義的存儲系統。所以存儲系統得在后臺持續嵌入信息,把原始數據嵌入知識,然后當你訪問時,你不是檢索它,你跟它說話,你問它問題,給它問題。
我希望我們有個視頻的例子,但Box的Aaron甚至跟我們合作把它放云端,基本上是個超級智能存儲系統,未來每個企業都會有這樣的東西,那是未來的企業存儲,跟整個存儲行業合作,太棒的合作伙伴,DD、Dell、HP Enterprise、Hitachi、IBM、NetApp、Neonics、Pure Storage、Vast、W,基本上全球存儲行業將首次提供這個堆棧,你的存儲系統將用GPU加速。
所以你們可以看到,我們在革命化世界企業的過程中,我們今天還宣布這個不可思議的模型,每個人都能運行,所以我之前給你們展示了DeepSeek-R1,一個推理模型,跟LLaMA 3對比,一個非推理模型,顯然R1聰明多了。
但我們能做得更好,能讓它為任何公司準備好企業使用,現在完全開源,是我們叫NIMs的系統的一部分,你可以下載它,你可以在任何地方運行,可以在DGX Spark上跑,可以在DGX Station上跑,可以在OEM造的任何服務器上跑,可以在云端跑,可以整合進你的任何代理AI框架,我們跟全球公司合作,
我會快速翻過這些,仔細看,我有些很棒的合作伙伴在觀眾席,我想表彰,Accenture,Julie Sweet和她的團隊在建他們的AI工廠和AI框架,AMDOS,全球最大的電信軟件公司,AT&T,John Stankey和他的團隊在建AT&T AI系統,代理系統,Larry Fink和BlackRock團隊在建他們的,Annie Roode,
未來我們不只雇ASIC設計師,我們會雇一大堆數字ASIC設計師,來自Anude,Cadence會幫我們設計芯片,所以Cadence在建他們的AI框架,你們可以看到,每一個里都有NVIDIA模型,NVIDIA NIMs和Vidia庫貫穿其中,所以你可以在本地運行,在云端運行,任何云端都可以。
Capital One,最先進的金融服務公司之一,他們使用的技術全是NVIDIA。Deere,Jason和他的團隊;Enany,Janet和他的團隊;NASDAQ,Adena和她的團隊,他們都將NVIDIA技術整合進他們的AI框架。然后是SAP,Christian和他的團隊;ServiceNow,Bill McDermott和他的團隊。挺不錯的吧?。
機器人
我們來談談機器人,機器人時代已經到來。
機器人有能與物理世界互動的好處,能做數字信息做不到的事情。我們很清楚,世界正嚴重缺乏人力勞動,到這個十年末,世界將至少短缺5000萬工人。我們很樂意每年付給他們每人5萬美元請他們來工作,而未來可能會得付給機器人每年5萬美元來工作,所以這會是一個非常非常大的行業。
有各種機器人系統,你的基礎設施會變成機器人的,數十億攝像頭分布在倉庫和工廠里,全球有1000萬到2000萬家工廠。我之前提到,每輛車已經是一個機器人,現在我們在打造通用機器人,讓我給你們展示我們是怎么做的。
一切移動的東西都將變得自主,物理AI將體現在各行各業的各種機器人中。NVIDIA打造的三臺計算機啟用了一個機器人AI的持續循環:仿真、訓練、測試和現實世界的經驗。訓練機器人需要海量數據,互聯網規模的數據提供了常識和推理能力,但機器人需要行動和控制數據,這些數據的捕捉成本很高。利用基于NVIDIA Omniverse和Cosmos構建的藍圖,開發者能夠生成大量多樣的合成數據來訓練機器人策略。
首先,在Omniverse中,開發者根據不同領域、機器人和任務,聚合現實世界的傳感器數據或演示數據,然后通過Omniverse調適Cosmos,將原始捕捉的數據放大為大量逼真且多樣化的數據。開發者隨后使用Isaac Lab訓練機器人策略,利用增強后的數據集,讓機器人通過模仿學習克隆行為,或者通過強化學習試錯掌握新技能,并獲得AI反饋。在實驗室里的練習與現實世界不同,新的策略需要在實地測試。
開發者使用Omniverse進行軟件和硬件在環測試,在數字孿生中仿真策略,結合現實世界的環境動態,運用領域隨機化、物理反饋和高保真傳感器仿真。現實世界的操作需要多個機器人協同工作,Mega——一個Omniverse藍圖——讓開發者能夠大規模測試并訓練策略艦隊。這里,Foxconn在虛擬的NVIDIA Blackwell生產設施中競賽異構機器人。當機器人“大腦”執行任務時,它們通過傳感器仿真感知行動結果,然后規劃下一步行動。
Mega讓開發者測試眾多機器人策略,使機器人作為一個系統協作運行,無論是空間推理、導航、移動性還是靈巧性,驚艷的東西就在仿真中誕生。 今天我們介紹NVIDIA Isaac Groot N1,Groot N1是人形機器人的通用基礎模型,建立在合成數據生成和仿真學習的基礎上。Groot N1擁有雙系統架構,快慢兼備,受人類認知處理原則啟發:慢思考系統讓機器人感知和推理環境及指令,規劃正確的行動;快思考系統將計劃轉化為精確且連續的機器人動作。
Groot N1的泛化能力讓機器人能夠輕松操作常見物體,協作執行多步序列。通過這個合成數據生成和機器人學習的完整管道,人形機器人開發者可以在全球多種環境、多種任務、多種形態下訓練Groot N1。各行各業的開發者利用NVIDIA的三臺計算機,打造下一代具身AI。
物理AI和機器人技術發展得太快了,大家要關注這個領域,這很可能是最大的行業。
在其核心,我們面臨著我之前提到的同樣挑戰,我們關注三個問題,相當系統化:
一是如何解決數據問題,如何創造訓練AI所需的數據;
二是采用什么模型架構;
三是什么擴展法則(Scaling Law),我們如何擴展數據、計算或兩者,讓AI變得越來越聰明,我們如何擴展。
這些根本性問題在機器人領域同樣存在。在機器人領域,我們創建了一個叫Omniverse的系統,這是我們的物理AI操作系統,你們聽我講Omniverse很久了。今天我們為它添加了兩項技術,我要給你們展示兩件事。第一件是讓我們利用生成能力擴展AI,生成模型能夠理解物理世界,我們稱之為Cosmos。
通過Omniverse調適Cosmos,Cosmos可以生成無限多的環境,讓我們創造有根有據、我們可控、但系統上無限的數據。所以你們看到Omniverse時,我們用糖果色給你們展示了一個例子,我們完美控制場景中的機器人,而Cosmos能創造所有這些虛擬環境。
第二件事,正如我們之前所說,今天語言模型驚人擴展能力之一是強化學習,可驗證的獎勵。問題在于,機器人中的可驗證獎勵是什么?我們很清楚,那就是物理定律,可驗證的物理獎勵。所以我們需要一個不可思議的物理引擎。
大多數物理引擎設計有各種用途,可能是為了大型機械,或者為虛擬世界、視頻游戲設計,但我們需要一個專為非常細粒度的剛體和軟體設計的物理引擎,為訓練觸覺反饋、精細運動技能和執行器控制而設計,需要GPU加速,讓這些虛擬世界能在超線性時間、超實時中運行,超快地訓練這些AI模型,并且需要無縫整合進全球機器人學家使用的框架MuJoCo。
所以今天我們宣布一件特別的事情,這是DeepMind、Disney Research和NVIDIA三家公司的合作,我們稱之為Newton,讓我們來看看Newton。
告訴我那是不是很不可思議?嘿,Blue,你好嗎?你喜歡你的新物理引擎嗎?喜歡吧?我打賭我知道,觸覺反饋,剛體和軟體仿真,超實時,你能想象嗎?你剛看到的是完全實時的仿真,這就是我們未來訓練機器人的方式。順便說一句,Blue里面有兩臺NVIDIA計算機,看你多聰明,是的,你很聰明。
好的,嘿,Blue,聽著,我們帶他們回家吧,結束這個主題演講,午飯時間到了,你準備好了嗎?準備好了,我們結束吧,我們還有一個宣布。就站在這兒,站在這兒,很好。(與機器人互動)
總結
好了,我們還有一個驚人消息,我告訴過你們我們的機器人進展巨大,今天我們宣布Groot N1開源了。我要感謝你們所有人來參加,讓我們總結一下。感謝你們參加GTC,我們談了幾件事:
一是Blackwell全面投產,增長不可思議,客戶需求不可思議,原因很充分,因為AI正處在一個拐點,我們在AI中需要做的計算量由于推理AI、訓練推理AI系統及代理系統而大幅增加。
第二,Blackwell NVLink 72搭配Dynamo是Hopper 40倍的AI工廠性能,推理將是下一個十年最重要的工作負載之一,當我們擴展AI時。
第三,我們有每年的路線圖節奏,為你們鋪好了路,這樣你們可以規劃AI基礎設施。
然后我們有三種AI基礎設施:我們在構建云端的AI基礎設施,企業的AI基礎設施,以及機器人的AI基礎設施。
謝謝大家,感謝所有讓這個視頻可能的合作伙伴,感謝所有讓這個視頻可能的人,祝你們GTC愉快,謝謝。嘿,Blue,我們回家吧,好樣的,小家伙。謝謝,我也愛你們,謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.