網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

誰(shuí)能代替英偉達(dá)？

2023-10-26 21:58:33　來(lái)源: 遠(yuǎn)川科技評(píng)論

上海舉報(bào)

分享至

今年夏天，英偉達(dá)創(chuàng)始人黃仁勛專門騰出時(shí)間，拜訪了一家名叫戰(zhàn)略與國(guó)際研究中心(CSIS）的智庫(kù)。在美國(guó)，智庫(kù)的意見能在很大程度上左右華盛頓的政策走向，深處科技戰(zhàn)前線的黃仁勛自然深知這一點(diǎn)。

黃仁勛上來(lái)就是一頓彩虹屁，并明確表達(dá)了捐贈(zèng)的意向。隨后他話鋒一轉(zhuǎn)，表示有一位小同志嚴(yán)重拖累了智庫(kù)隊(duì)伍的整體水平，建議清除出去。

這位小同志不是別人，正是CSIS高級(jí)研究中心主任Gregory C. Allen，也是美國(guó)芯片出口管制政策的堅(jiān)定鼓吹者。

面對(duì)美國(guó)的打壓，英偉達(dá)似乎比中國(guó)公司還著急。過(guò)去數(shù)月，黃仁勛一直在竭盡全力阻止制裁落地。

Gregory C. Allen，為數(shù)不多能拿捏黃總的男人

除去給智庫(kù)施壓，黃仁勛還當(dāng)面警告了華盛頓決策層，認(rèn)為制裁會(huì)造成嚴(yán)重代價(jià)。與此同時(shí)，他還不忘敦促美國(guó)半導(dǎo)體行業(yè)協(xié)會(huì)發(fā)表譴責(zé)聲明，強(qiáng)調(diào)進(jìn)一步限制將損害行業(yè)的競(jìng)爭(zhēng)力[2]。

今年7月，黃仁勛還拉上高通和英特爾去了趟華盛頓，目的也是說(shuō)服美國(guó)政府放松對(duì)華限制。

然而，美國(guó)依然在10月17日更新了芯片出口管制，中國(guó)特供版芯片H800和A800也被列入禁售范圍。更令人驚訝的是，用于游戲的消費(fèi)級(jí)顯卡RTX 4090也進(jìn)了名單。

這對(duì)英偉達(dá)來(lái)說(shuō)無(wú)疑是致命一擊，長(zhǎng)期以來(lái)，中國(guó)大陸市場(chǎng)一直占據(jù)其20%以上的收入。10月17日出口管制發(fā)布當(dāng)天，英偉達(dá)股價(jià)下跌近5%，AMD和英特爾也跟風(fēng)跌了1%。

那么，英偉達(dá)是否真的無(wú)法替代？中國(guó)市場(chǎng)之于英偉達(dá)又意味著什么？

最好的選擇

簡(jiǎn)單來(lái)說(shuō)，美國(guó)政府在新的出口管制政策中添加了多個(gè)新指標(biāo)，不僅把特供產(chǎn)品H800和A800牢牢卡死，還順便誤傷了消費(fèi)級(jí)顯卡RTX4090，搞得國(guó)內(nèi)黃牛趁機(jī)漲了一波價(jià)。

為什么說(shuō)是“誤傷”？雖然RTX4090和H100都是GPU，但兩者的設(shè)計(jì)思路截然不同。

比如，RTX4090的頻率強(qiáng)于H100，因?yàn)楦叩念l率能夠提供更強(qiáng)的圖形渲染能力。而H100的強(qiáng)項(xiàng)則是理論算力、顯存大小和顯存帶寬，這是因?yàn)锳I推理和訓(xùn)練都非常考驗(yàn)數(shù)據(jù)的吞吐效率，這也是為什么H100需要昂貴的HBM3內(nèi)存。

至于玩游戲，H100甚至都不支持主流游戲的圖形接口。這也符合英偉達(dá)官方的“消費(fèi)類”和“計(jì)算類”歸類。

在一些討論中，RTX 4090由于更低的價(jià)格、不差的算力、更低的功耗，一度被認(rèn)為同樣可以用于高性能計(jì)算。

客觀地說(shuō)——鐵了心也能用。但一般而言，RTX 4090由于顯存和帶寬的限制，最多只能用作推理芯片。

AI芯片根據(jù)部署位置區(qū)分，大致上可分為云端芯片和終端芯片。云端芯片用于訓(xùn)練模型，俗稱訓(xùn)練芯片；終端芯片用于終端設(shè)備，根據(jù)訓(xùn)練好的模型對(duì)實(shí)時(shí)數(shù)據(jù)執(zhí)行推理任務(wù)，俗稱推理芯片。

職責(zé)不同，導(dǎo)致對(duì)訓(xùn)練芯片和推理芯片的性能要求也有很大差異：

訓(xùn)練芯片需要通過(guò)海量數(shù)據(jù)訓(xùn)練可靠的模型，因此對(duì)數(shù)據(jù)傳輸速率、算力等指標(biāo)有相當(dāng)極端的要求。這也是為什么H100不惜用上昂貴的HBM內(nèi)存和CoWoS封裝，目的都是為了數(shù)據(jù)吞吐效率。

“特供版”的H800和A100，閹割的也是內(nèi)存帶寬，算力其實(shí)沒(méi)有變化。

推理芯片一般處理實(shí)時(shí)任務(wù)，對(duì)于低延遲的要求更高，而且由于部署在終端，還要考慮功耗、大小、成本等問(wèn)題。因此，用RTX4090這類消費(fèi)級(jí)顯卡強(qiáng)行訓(xùn)練，過(guò)低的帶寬會(huì)帶來(lái)“內(nèi)存墻”的問(wèn)題。

無(wú)論是谷歌的TPU、還是特斯拉的FSD芯片，大部分應(yīng)用場(chǎng)景都是推理。大部分國(guó)產(chǎn)AI芯片，也都是走推理芯片的路子。

而在訓(xùn)練芯片這個(gè)場(chǎng)景下，英偉達(dá)的確是目前最好的選擇。

從絕對(duì)的算力來(lái)講，H100并不是巔峰。但在AI訓(xùn)練這件事上，一口氣買幾百塊顯卡的科技公司更在意的是另一個(gè)指標(biāo)：單位成本的算力。

這也是為什么大家寧愿加價(jià)搶H100，也不愿意買“青春版H100”A100：按照H100 SXM版本、A100 80GB SXM版本8月的銷售價(jià)格（24000美元、15000美元）計(jì)算，每單位算力的成本分別為12.13美元、24.04美元，H100 SXM優(yōu)勢(shì)明顯。

另外，數(shù)據(jù)中心搭建完成后，還需要考慮電力、運(yùn)維、故障、后期支持等多方面成本。種種因素疊加，大家還是老老實(shí)實(shí)地拿起了號(hào)碼牌，加入了漫長(zhǎng)的H100等待序列中。

比如特斯拉，前腳宣布給自研的Dojo超級(jí)計(jì)算機(jī)投10億美元，后腳就透露要購(gòu)買10000張H100用于驅(qū)動(dòng)AI負(fù)載。

簡(jiǎn)而言之，在推理場(chǎng)景下，英偉達(dá)尚有替代方案；但在訓(xùn)練芯片里，英偉達(dá)是事實(shí)上的唯一方案。

原因在于，英偉達(dá)真正的護(hù)城河，是軟件。

隱形的護(hù)城河

今年10月10日，AMD宣布打算收購(gòu)一家名為Nod.ai的AI開源軟件初創(chuàng)公司，以補(bǔ)足其軟件短板。

雖然貴為GPU行業(yè)的世界第二，但長(zhǎng)期以來(lái)AMD的市場(chǎng)份額只能和英偉達(dá)二八開，在以AI為代表的高性能計(jì)算市場(chǎng)，存在感就幾乎為0。

事實(shí)上，AMD的AI芯片理論參數(shù)并不差，與H100對(duì)標(biāo)的MI250X，雖然在FP32/FP64精度下的算力略遜于H100，但考慮到10000美元的售價(jià)，MI250X的“單位成本算力”其實(shí)更高，理論上可以成為比H100更好的選擇。

但實(shí)際上，不管是大公司還是創(chuàng)業(yè)公司，大家還是更喜歡H100。原因就在軟件，也就是大名鼎鼎的CUDA。

眾所周知，GPU最初的目的是為游戲和視頻進(jìn)行圖像渲染。黃仁勛是幾乎所有奧斯卡“最佳視覺(jué)效果”提名影片背后的男人。2007年，英偉達(dá)還曾獲得一個(gè)分量十足的獎(jiǎng)項(xiàng)：艾美獎(jiǎng)，以表彰其對(duì)娛樂(lè)行業(yè)作出的重大貢獻(xiàn)。

首先發(fā)現(xiàn)GPU被大材小用的是華爾街精英，在渲染圖像時(shí)所用到的并行計(jì)算能力，正符合金融場(chǎng)景里高頻交易的需求。

不過(guò)，在用GPU跑交易之前，得先編寫大量的底層語(yǔ)言代碼，這顯然勸退了一大批交易員。

為了降低GPU的編程門檻，David Kirk說(shuō)服黃仁勛在2006年推出CUDA，CUDA的全稱是Compute Unified Device Architecture，即計(jì)算統(tǒng)一設(shè)備架構(gòu)，其作用也直白地寫在名字里了：為GPU編程提供統(tǒng)一架構(gòu)，使之滿足不同應(yīng)用場(chǎng)景下的算力需求。

伴隨CUDA推出的是一本編程指南，里面詳述了實(shí)現(xiàn)性能的具體方法，并且隨著產(chǎn)品的升級(jí)迭代不斷更新，至今已更新到12.3版。

最新版CUDA編程指南

這樣的說(shuō)明書在今天看來(lái)是基礎(chǔ)必備，在當(dāng)時(shí)與競(jìng)爭(zhēng)對(duì)手的差距也不過(guò)兩年，但先發(fā)者的一步領(lǐng)先卻足以定義行業(yè)。

CUDA推出后，英偉達(dá)迅速打開了新業(yè)務(wù)的大門，在航空航天、天文學(xué)、氣象學(xué)領(lǐng)域里都有GPU的身影。

2009年，蘋果的開發(fā)團(tuán)隊(duì)推出OpenCL，支持者包括AMD和英特爾，希望能憑借著通用性在CUDA身上分一杯羹。但作為追趕者，OpenCL平臺(tái)上的開發(fā)者天然地更少，很容易陷入惡性循環(huán)。

而CUDA則在“使用人數(shù)越多，CUDA平臺(tái)就越好用，新開發(fā)者就越傾向于選擇CUDA”的良性循環(huán)中，加固了生態(tài)優(yōu)勢(shì)。

深度學(xué)習(xí)爆發(fā)后，許多學(xué)習(xí)框架要么是在CUDA發(fā)布之后才會(huì)支持OpenCL，要么壓根不支持OpenCL，使得OpenCL始終無(wú)法觸及更高附加值的業(yè)務(wù)[5]。

2016年，AMD自家軟件ROCm姍姍來(lái)遲，在投入不如英偉達(dá)的情況下，服務(wù)更新上滯后于CUDA，因此也難與CUDA抗衡。

芯片的架構(gòu)和制程可以靠一兩代產(chǎn)品迅速拉近差距，但一個(gè)成熟的生態(tài)系統(tǒng)卻很難被破壞。CUDA生態(tài)遍布各行各業(yè)，從企業(yè)蔓延到教育系統(tǒng)。吳恩達(dá)曾評(píng)價(jià)：

CUDA出現(xiàn)之前，全球能用GPU編程的可能不超過(guò)100人。而目前全球的CUDA開發(fā)者已經(jīng)達(dá)到幾百萬(wàn)。

從某種程度上來(lái)說(shuō)，CUDA已成為行業(yè)的事實(shí)標(biāo)準(zhǔn)。它的另一個(gè)特點(diǎn)是：只能和英偉達(dá)的硬件適配。

因此，任何開發(fā)者想要脫離CUDA生態(tài)，都不得不考慮標(biāo)新立異的成本和風(fēng)險(xiǎn)。

不過(guò)對(duì)英偉達(dá)來(lái)說(shuō)，繁榮的CUDA生態(tài)既是一座令競(jìng)爭(zhēng)對(duì)手望而生畏的高山，卻也是自己的軟肋所在。

英偉達(dá)在擔(dān)心什么？

黃仁勛之所以如此著急，道理也簡(jiǎn)單：如果鐵了心換掉英偉達(dá)，也不是不可以。

英偉達(dá)固然是人工智能得以走上時(shí)代舞臺(tái)中央最大的功臣之一，但在當(dāng)下，它卻存在兩個(gè)不容忽視的問(wèn)題：

一是成本過(guò)高。以“地表最強(qiáng)GPU”H100為例，首發(fā)價(jià)為3.3萬(wàn)美金，如今二手市場(chǎng)價(jià)格更一度上漲至5萬(wàn)美金左右。

科技公司如果要搭建擁有一萬(wàn)塊H100的數(shù)據(jù)中心，即便不考慮其他成本和后續(xù)開支，光GPU采購(gòu)費(fèi)就需要數(shù)億美金——即便對(duì)《財(cái)富》世界500強(qiáng)排行榜上的科技公司來(lái)說(shuō)，這也不是筆小錢，更遑論初創(chuàng)企業(yè)。

二是通用芯片難以實(shí)現(xiàn)差異化。堆疊算力不是簡(jiǎn)單往車?yán)锛悠停枰紤]軟件適配性、自身業(yè)務(wù)需求等一系列問(wèn)題。更何況，如果只用英偉達(dá)的GPU，意味著只有當(dāng)英偉達(dá)出新產(chǎn)品，自家產(chǎn)品才能跟著升級(jí)，徹底將戰(zhàn)略主動(dòng)權(quán)交給了黃總。

這就是英偉達(dá)面臨的一個(gè)尷尬情景：自己的客戶都是自己的對(duì)手。

早在2014年，谷歌已開始了自研芯片的計(jì)劃，其最新成果就是TPUv5系列。對(duì)參數(shù)量小于200B的大模型來(lái)說(shuō)，TPUv5在推理時(shí)更具性價(jià)比，相較于英偉達(dá)GPU有著肉眼可見的成本優(yōu)勢(shì)[4]。

谷歌的TPU

而在重要的中國(guó)市場(chǎng)，美國(guó)的出口管制實(shí)際上在給黃總幫倒忙。

如前文所述，英偉達(dá)的核心壁壘在CUDA組成的繁榮生態(tài)——它就像一個(gè)無(wú)數(shù)開發(fā)者組成的“圈子”，后來(lái)者想要進(jìn)入AI產(chǎn)業(yè)，就得融入這個(gè)圈子。如果把一部分開發(fā)者攔在圈子外面，那么他們最有可能做什么呢：

組建一個(gè)自己的圈子。

事實(shí)上，英偉達(dá)非常清楚這一點(diǎn)，其法律顧問(wèn)Tim Teter就曾這樣警告華盛頓：你冒的風(fēng)險(xiǎn)是刺激了一個(gè)由競(jìng)爭(zhēng)對(duì)手主導(dǎo)的生態(tài)系統(tǒng)的發(fā)展，這可能會(huì)對(duì)美國(guó)在半導(dǎo)體、先進(jìn)技術(shù)和人工智能領(lǐng)域的領(lǐng)導(dǎo)地位產(chǎn)生非常負(fù)面的影響。

如果“被踢出圈子”的概率只有1%，那大家只會(huì)把它當(dāng)作一個(gè)黑天鵝事件；但一旦這個(gè)概率上升到哪怕只有10%，就一定會(huì)有人行動(dòng)起來(lái)。這也是為什么英偉達(dá)對(duì)美國(guó)的出口管制如此警覺(jué)——中國(guó)科技公司會(huì)鐵下心來(lái)掀桌子，開始搭建自己的生態(tài)。

英偉達(dá)并非是唯一有著類似境遇的公司，英特爾與高通也一同參與到了施壓美國(guó)政府的行動(dòng)當(dāng)中。它們的一部分競(jìng)爭(zhēng)力同樣來(lái)源于生態(tài)的構(gòu)建，英偉達(dá)的境遇讓這兩家芯片巨頭深感唇亡齒寒。

要知道，上一輪針對(duì)英偉達(dá)的出口管制發(fā)布后，英特爾專門把Gaudi 2芯片的發(fā)布會(huì)放在北京開，一口一個(gè)“幫助構(gòu)建中國(guó)人工智能的未來(lái)”、“攜手中國(guó)產(chǎn)業(yè)生態(tài)”，趁機(jī)挖黃總墻角的心思昭然若揭。

結(jié)果新版出口管制出爐，AMD的MI250X、MI300，英特爾的Gaudi 2、Gaudi 3和黃總一起上了名單。這也難怪有小道消息說(shuō)，英特爾高層和美國(guó)高級(jí)官員交涉時(shí)[2]，一度急得指著對(duì)方鼻子問(wèn)“到底懂不懂半導(dǎo)體？”

盡管相比美國(guó)，國(guó)內(nèi)的芯片產(chǎn)業(yè)整體的差距并不小，但長(zhǎng)期的封鎖，一定會(huì)加速中國(guó)芯片產(chǎn)業(yè)的發(fā)展。一旦這個(gè)過(guò)程開始，也許就不可逆了。

這就是英偉達(dá)害怕的、美國(guó)眾多芯片公司所擔(dān)心的事情，正如黃仁勛所說(shuō)[1]：There is no other China，there is only one China。

參考資料

[1] Chip wars with China risk ‘enormous damage’ to US tech, says Nvidia chief，F(xiàn)inancial Times

[2] How the Big Chip Makers Are Pushing Back on Biden’s China Agenda，The NewYork Times

[3] Nvidia Makes Nearly 1,000% Profit on H100 GPUs: Report，Toms Hardware

[4] TPUv5e: The New Benchmark in Cost-Efficient Inference and Training for <200B Parameter Models，Semi Analysis

[5] 瘋狂的H100，遠(yuǎn)川研究所

編輯：陳彬

視覺(jué)設(shè)計(jì)：疏睿

責(zé)任編輯：李墨天

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.