北京時間3月19日凌晨,站在圣何塞GTC大會的舞臺上,連黃仁勛自己都調(diào)侃:GTC是AI屆的超級碗。
幾周以來,外界已經(jīng)對黃仁勛在GTC的演講萬分期待。這個演講可不好做,在DeepSeek的沖擊之下,英偉達(dá)今年的股價已經(jīng)下跌了12%。
這不再是發(fā)布新產(chǎn)品,高喊AI就是未來就可以完成任務(wù)的演講,今年,黃仁勛需要回答很多問題。
而這場持續(xù)了兩個半小時的演講也的確和往年有很大的不同,黃仁勛在一開始就花了很長的時間去解釋為什么推理時代縮放定律沒有死、為什么英偉達(dá)依然非常重要。
而后,他不僅拿出了Blackwell的超大杯產(chǎn)品,還透露了下一代芯片,甚至下下代架構(gòu),時間一直蔓延到2028年。壓軸出場的,則和黃仁勛勾畫的AI發(fā)展路線圖中的最后一站“物理AI”相關(guān)。
黃仁勛拯救了英偉達(dá)股價嗎?至少從當(dāng)日來看,截至收盤英偉達(dá)股價跌了3.43%,總市值縮水至2.82萬億美元。
到底是市場還需要幾天時間消化,還是黃仁勛“游說”失敗,還得等等看。
演講要點:
1、發(fā)布超大杯Blackwell Ultra,性能提升1.5倍。
2、下一代AI“超級芯片”Vera Rubin,計劃2026年底推出,并透露下下代芯片架構(gòu)為Feynman,計劃2028年推出。
3、AI工廠的操作系統(tǒng)Dynamo,推理框架,資源利用最大化,搭配Blackwell強(qiáng)上加強(qiáng)。
4、推出“AI超級電腦”DGX Spark、DGX Station,提高本地運(yùn)行大型AI模型的能力。
5、宣布網(wǎng)絡(luò)組件的最新動作,推出Spectrum X和Quantum X交換機(jī)。
4、發(fā)布首個開放式人性機(jī)器人基礎(chǔ)模型Isaac GROOT N1;并宣布與谷歌DeepMind和迪士尼研究院合作開發(fā)Newton開源物理引擎。
01現(xiàn)場“開課”,
黃仁勛:你們真的都搞錯了
自從號稱訓(xùn)練只用了幾百萬美元的DeepSeek推理模型問世,世界就沒有停止對英偉達(dá)的質(zhì)疑。
起先,黃仁勛不語。然后,他開始發(fā)聲,在采訪中和財報會議上表示推理時代仍然需要大量計算,仍然需要英偉達(dá)的力量。
這次,他終于把這點攤開揉碎地說明了一番。
在發(fā)布會上,老黃拿出例子,讓Llama3.3(LLM的代表)和DeepSeek R1(推理模型的代表)回答同一個問題:
“在我的婚禮上,需要7個人圍坐同一桌。我的父母和岳父岳母不能挨著坐。此外,我妻子堅稱她在我左手邊的話,拍照更好看。同時,我需要坐在伴郎身邊。我們怎么安排座位?如果我們邀請牧師和我們坐一起呢?”
看完這個問題,大部分人可能已經(jīng)頭大了。要回答它,不僅要識別其中包含多少個不同的需求,還要同時滿足所有需求。有意思的是,最后又有一個進(jìn)一步的問題,需要先回答主問題再補(bǔ)充這個問題的答案。
Llama 3.3非常簡單粗暴,回答得很快,只用了439個tokens。但是,它的回答并不正確,未能滿足所有要求。快、省但對于提問的人來說無用。
DeepSeek R1則反復(fù)思考,嘗試了很多可能,反復(fù)檢驗答案,最終消耗了8559個tokens,才最終給出了答案。時間久,消耗大,但是給出的答案準(zhǔn)確。
而每一個token生成的背后,都是整個模型的加載。推理模型更復(fù)雜,也就需要更多地計算。DeepSeek R1的參數(shù)規(guī)模達(dá)到6800億,下一代有可能達(dá)到數(shù)萬億參數(shù)規(guī)模。
兩相對比,DeepSeek R1比Llama 3.3多生成了20倍的tokens,計算需求高出150倍。
“大模型推理是一種極限計算。”老黃表示。
通過這個對比,老黃很直觀地告訴大家:推理模型也許預(yù)訓(xùn)練的時候消耗少,但推理起來可是實打?qū)嵉奈皤F啊。英偉達(dá)GTC的官方博文中,把Tokens視為AI的語言和貨幣。
“去年,關(guān)于擴(kuò)展定律Scaling Law,全世界幾乎都預(yù)測錯了。”老黃在臺上再次強(qiáng)調(diào)。他進(jìn)一步指出,如今擴(kuò)展定律從一個變成了三個:預(yù)訓(xùn)練、后訓(xùn)練(微調(diào))和推理。
那英偉達(dá)在推理時代要做什么呢?兩方面:一方面,讓芯片能在單位時間內(nèi)處理更多tokens,另一方面,讓單位算力的成本和能耗降低。
黃仁勛此前就在財報會議上表示,Blackwell就是為推理而生的,這次演講中在說清楚推理模型為什么需要更多算力之后,黃仁勛也拿出圖表,展開講了講這一點。
以Blackwell和Hopper做對比,都是1兆瓦功耗,Hopper數(shù)據(jù)中心每秒生成250萬tokens。Blackwell數(shù)據(jù)中心提高了25倍,如果是推理模型,則比Hopper好40倍。
這讓圖表中出現(xiàn)了一個向上鼓的曲線,這個曲線正是黃仁勛想讓各位AI制造商關(guān)注的“賺錢要點”。
黃仁勛稱,成本是AI輸出的token,收益就是用戶獲得的token。如果縱軸是前者,橫軸是后者,橫軸擴(kuò)張更多時——也就是收益比成本擴(kuò)張更多時——一個漂亮的利潤弧線就出現(xiàn)了。
為了強(qiáng)調(diào)Blackwell是為推理而生這一點,老黃甚至不惜“拉踩”Hopper,稱:“當(dāng)Blackwell開始大量出貨的時候,就算你送Hopper,別人基本也不會要的。”
以前老黃總說,(英偉達(dá)AI芯片)買得越多越省錢,現(xiàn)在他更進(jìn)一步,告訴大家,買得越多越賺錢。
02 軟硬兼施,
Blackwell超大杯與“AI工廠操作系統(tǒng)”Dynamo
花了40分鐘講明白為什么英偉達(dá)依然能打,為什么說Blackwell是為推理而生之后,黃仁勛當(dāng)然還得說說新產(chǎn)品。
首先是Blackwell Ultra,專為AI推理時代而打造,Ultra的后綴大家也不陌生了,超大杯。
“我們專為這一刻設(shè)計了Blackwell Ultra,一個多功能平臺,(利用它)可以高效地進(jìn)行預(yù)訓(xùn)練、后訓(xùn)練和推理。”
其中GB300 NVL72在一個機(jī)架規(guī)模設(shè)計中連接了72個Blackwell Ultra芯片,并包含36個基于Arm Neoverse的Grace CPU。較上一代性能提升1.5倍,與Hopper相比收入潛力提高50倍。還是以DeepSeek R1為例,老款Hopper運(yùn)行這個模型時每秒只能處理100 tokens,而GB300 NVL72每秒能處理1000 tokens。
這意味著用戶獲得回答的速度大大提高。
而HGX B300 NVL16系統(tǒng)相比于Hopper一代,推理速度提升11倍,計算能力提升7倍,內(nèi)存大4倍。
英偉達(dá)一直都有軟硬兼施的策略,此前也針對自家的芯片做了不少優(yōu)化(不過,DeepSeek的開源周展示的一些優(yōu)化甚至比英偉達(dá)還強(qiáng)),這次黃仁勛也同步官宣了開源推理框架Dynamo。
黃仁勛將之稱為“AI工廠的操作系統(tǒng)”。這樣說可能有點抽象,具體來說,Dynamo像一個交通指揮官,幫助GPU之間實現(xiàn)更好的通信。對思考和生成可以進(jìn)行獨立優(yōu)化,高效利用資源。如此一來,(還是回到演講開頭強(qiáng)調(diào)的token問題上)每秒就能產(chǎn)生更多token了。
不過,黃仁勛也表示,Hopper雖然也可以用Dynamo優(yōu)化,但是效果不會那么明顯。
為推理而生的Blackwell再加上為推理優(yōu)化而生的Dynamo,就是強(qiáng)上加強(qiáng),DeepSeek R1的吞吐量一下提高30倍。
03 下一代更好
2028年還不夠遠(yuǎn),黃仁勛勾勒AI發(fā)展路徑圖
除了現(xiàn)在,黃仁勛當(dāng)然還得談到未來。
英偉達(dá)下一代AI芯片Vera Rubin首次走到臺前,黃仁勛介紹,該名稱來源于天文學(xué)家Vera Rubin(以暗物質(zhì)研究著稱)。
其中CPU Vera內(nèi)容容量是前代的4倍多,內(nèi)存帶寬是前代的2倍多,而GPU Rubin講配備299GB的HRM4。
用老黃的話說就是“幾乎所有細(xì)節(jié)都是新的”。
這一代Grace Blackwell(GB)將在今年下半年發(fā)貨,Vera Rubin將在2026年下半年發(fā)貨。
黃仁勛也預(yù)告了Vera Rubin的超大杯,Rubin Ultra,對比GB300性能提升13倍,預(yù)計2027年下半年發(fā)貨。
除此之外,連Vera Rubin之后的下一代AI芯片架構(gòu)也被揭露,它被命名為Feynman,這個名字同樣取自于一位科學(xué)家,對量子計算領(lǐng)域有突出和貢獻(xiàn)的Richard Phillips Feynman。黃仁勛預(yù)告,F(xiàn)eynman甲溝將于2028年登場。
此外,值得注意的是,在演講一開始,黃仁勛給出了AI的發(fā)展路線圖,從2012年深度學(xué)習(xí)突破的起點AlexNet開始,經(jīng)歷Perception AI(感知AI,這個階段AI主要用于理解數(shù)據(jù),如識別語音、圖片等)、Generative AI(生成式AI,也就是現(xiàn)階段的以ChatGPT為代表的技術(shù))。
接下來,已經(jīng)看到苗頭的是Agentic AI(代理AI),從簡單的數(shù)據(jù)生成到執(zhí)行任務(wù)。
而最終,AI的終極目標(biāo)是Physical AI(物理AI),實現(xiàn)從軟件到硬件、從虛擬到現(xiàn)實的跨越。讓AI具備物理行動能力,如機(jī)器人和自動駕駛技術(shù)的發(fā)展。
英偉達(dá)作為AI計算的核心玩家,顯然希望引領(lǐng)這一進(jìn)程。
對物理AI這部分的具體展開,在黃仁勛的此次演講中占比并不算高,但作為壓軸出現(xiàn),足見其重要程度。
舞臺上出現(xiàn)了《星球大戰(zhàn)》中的小機(jī)器人Blue,它在舞臺上走來走去、搖頭晃腦,看起來充滿好奇心,不得不說看起來就非常靈動。
這個機(jī)器人搭載了英偉達(dá)Isaac GR00T N1,號稱是全球首個開源且完全可定制的人性機(jī)器人基礎(chǔ)模型。模型包含雙系統(tǒng)架構(gòu),一個系統(tǒng)負(fù)責(zé)快思考,另一個負(fù)責(zé)慢思考。據(jù)英偉達(dá)介紹,該模型能輕松掌握抓取、移動等復(fù)雜人物。
與此同時,黃仁勛還宣布正在與谷歌DeepMind和迪士尼研究院合作下一代開源仿真物理模型Newton,專為機(jī)器人開發(fā)而生。
“通用性機(jī)器人的時代已經(jīng)到來。”
04 老黃委屈,
英偉達(dá)推出好產(chǎn)品還遠(yuǎn)遠(yuǎn)不夠
英偉達(dá)的高速增長也一直伴隨著“泡沫”擔(dān)憂,很長的一段時間,這家公司不斷推出新的產(chǎn)品,但市場波動時有發(fā)生。很多次財報發(fā)布時,明明業(yè)績?nèi)€飄紅,黃仁勛也大表信心,股價還是會抖三抖。
“我們發(fā)了新東西,但人們立刻就會說,好,然后呢?這放在任何公司身上都不是正常都。”
這次,黃仁勛很少見地在GTC的舞臺上倒了點苦水:“這不是買個筆記本電腦”。他表示,這既需要計劃,也需要資源和人,規(guī)劃是以幾年為計的。
也許這也解釋了為什么黃仁勛這次演講持續(xù)了兩個半小時(去年不到兩小時),為什么他一口氣掏出這么多成果,為什么AI芯片連2028年的下下代都透底了,為什么在最后拿出了AI發(fā)展路徑的最后一站“物理AI”的最新成果。
老黃這次該講的、能講的都講了,盡力了。
至于人們還會不會問“然后呢”,他也管不了了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.