公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。
來(lái)源:內(nèi)容編譯自servethehome。
英偉達(dá)此前從A100 升級(jí)到H100 系列的一大變化是轉(zhuǎn)向 PCIe Gen5。PCIe Gen5 擁有足夠的帶寬,可以從 200Gbps 網(wǎng)絡(luò)過(guò)渡到 400Gbps 網(wǎng)絡(luò)。NVIDIA DGX H100 采用了不同的網(wǎng)絡(luò)方案,具體來(lái)說(shuō),它放棄了傳統(tǒng)的 PCIe 卡,轉(zhuǎn)而采用名為“Cedar”的模塊。
每個(gè) Cedar 模塊板載四個(gè) ConnectX-7 控制器。每個(gè)控制器提供 400Gbps 的網(wǎng)絡(luò)帶寬。DGX H100 中也有兩個(gè) ConnectX-7 控制器,用于連接 2 個(gè) Cedar 模塊,每個(gè)模塊 4 個(gè) ConnectX-7 控制器,每個(gè)控制器 400Gbps,即 3.2Tbps 的結(jié)構(gòu)帶寬。我們?cè)谟嗁?gòu)單上沒(méi)有找到這些控制器,但 SKU 表可以大致了解運(yùn)行這些控制器所需的帶寬。
在 DGX H100 中,這些 Cedar 模塊配有專門設(shè)計(jì)的散熱器,用于冷卻組件,同時(shí)允許氣流流向 CPU 和內(nèi)存托盤的其余部分。這些散熱器隨后通過(guò)環(huán)繞 CPU 和內(nèi)存的跨接電纜連接到后部機(jī)箱。在后部,DGX H100 可以使用直連銅纜(DAC)、有源光纜或標(biāo)準(zhǔn)光纖模塊。
關(guān)于渲染圖的簡(jiǎn)要說(shuō)明。雖然很多人覺(jué)得這看起來(lái)像是 Sapphire Rapids,但我聽(tīng)說(shuō) NVIDIA 為 DGX H100 提供了不同的主板設(shè)計(jì),而且 CPU 也尚未確定。我還聽(tīng)說(shuō) CPU 將是 x86 架構(gòu),所以要么是 Intel Sapphire Rapids,要么是 AMD Genoa,而不是 Arm 通過(guò) Ampere 的下一代產(chǎn)品或 NVIDIA Grace。Grace 對(duì)于這個(gè)平臺(tái)來(lái)說(shuō)已經(jīng)太遲了。
如果您想知道為什么不在 DGX H100 上使用 BlueField-3,NVIDIA 也提供了解決方案。除了兩個(gè) Cedar 模塊和 8 個(gè) ConnectX-7 400Gbps 控制器組合外,還配備了兩個(gè) PCIe BlueField-3 控制器。這兩個(gè) BlueField-3 控制器用于訪問(wèn)存儲(chǔ)和用戶平面等任務(wù),而 Cedar 模塊則專注于計(jì)算平面。
我問(wèn)過(guò) NVIDIA,為什么不直接為 DGX H100 使用標(biāo)準(zhǔn) PCIe 或 OCP 尺寸的模塊。使用 Cedar 模塊主要是因?yàn)橄到y(tǒng)空間效率更高,因?yàn)樗仍谙到y(tǒng)中添加 8 個(gè) PCIe ConnectX-7 卡要緊湊得多。它還有助于 DGX H100 內(nèi)部的空氣流通。
雖然 Cedar 模塊聽(tīng)起來(lái)可能非常奇特,但 NVIDIA 告訴我,該公司的網(wǎng)絡(luò)團(tuán)隊(duì)已將其“廣泛提供”,可供任何供應(yīng)商在系統(tǒng)中使用。隨著新一代 AI 模型的出現(xiàn),所需的規(guī)模將大大擴(kuò)大,因此為 AI 系統(tǒng)的計(jì)算平面提供大量帶寬就顯得尤為重要。正因如此,系統(tǒng)中配備了兩個(gè) Cedar 模塊來(lái)提供巨大的帶寬。
擁有 1.6Tbps 網(wǎng)絡(luò)容量的 NVIDIA Cedar 模塊內(nèi)部
簡(jiǎn)單介紹一下,NVIDIA 為其 DGX 系統(tǒng)定制了網(wǎng)絡(luò)模塊。目前市面上大多數(shù) HGX 8-GPU 平臺(tái)都使用基于 PCIe 的 GPU,至少在即將推出的搭載 ConnectX-8 的 NVIDIA MGX PCIe 交換板(用于 8x PCIe GPU 服務(wù)器)和HGX B300 NVL16之前都是如此。雖然 NVIDIA 表示這些模塊可供合作伙伴使用,但多年來(lái)大多數(shù)合作伙伴都使用了 PCIe NVIDIA ConnectX-7 網(wǎng)卡。Cedar 模塊則有所不同,它采用定制的水平尺寸,并將線纜連接到系統(tǒng)后部的光纖機(jī)架。
起初,我們對(duì)這些模塊的最佳印象來(lái)自于一個(gè)宣傳視頻的截圖。這些截圖顯然缺少了很多細(xì)節(jié)。
在 SC24 上,我們展示了Eviden 如何展示四核 NVIDIA ConnectX-7 Cedar 模塊。然而,有一個(gè)挑戰(zhàn):這些模塊如何安裝在系統(tǒng)中。
現(xiàn)在我們拿到了真正的模塊。這是頂部,上面裝著一個(gè)用于風(fēng)冷服務(wù)器的散熱器。正如你所見(jiàn),這些模塊雖然在運(yùn)輸途中包裝得很好,但經(jīng)歷了一段艱難的歲月。
在頂部,我們有四個(gè) NVIDIA ConnectX-7 NIC。
每個(gè)都能夠?qū)崿F(xiàn) 400Gbps 的網(wǎng)絡(luò)吞吐量。
我們經(jīng)常看不到的是,NVIDIA 既有用于帶外管理的連接器,也有用于跨機(jī)箱電纜的兩個(gè)電纜接頭。
這是頂部的端口。OOB 端口連接器的設(shè)計(jì)目的是為了實(shí)現(xiàn)性能較低的連接,因此它們相對(duì)簡(jiǎn)單。
這是端口 0 和 OOB 端口 0 的另一個(gè)角度。
這是 OOB 端口 1 和端口 1。
在底部,我們有定制的連接器。
在某些方面讓人想起 SXM GPU、NVIDIA Grace SuperChip 和 NVIDIA Grace Hopper 部件底部的連接器。
這種做法的一大優(yōu)勢(shì)在于,它比八個(gè) PCIe 網(wǎng)卡更加緊湊。在 DGX 環(huán)境中,這些定制的水平尺寸更容易制作散熱器。或許更重要的是,水平網(wǎng)卡并排放置使得在模塊上方放置單個(gè)液冷塊變得更加容易。這最大限度地減少了系統(tǒng)中冷卻板和液冷連接的數(shù)量。
這件東西簡(jiǎn)直可以用“精巧”來(lái)形容。這些部件都是定制的,業(yè)內(nèi)只有少數(shù)人會(huì)用。因此,很多人還沒(méi)見(jiàn)過(guò)這些模塊。我們有機(jī)會(huì)弄到一對(duì),把冷卻器拆下來(lái),所以覺(jué)得雖然它們的狀態(tài)不太好,但我們覺(jué)得它們?nèi)匀缓苡幸馑肌?/p>
未來(lái),HGX B300 的出現(xiàn)將大大降低此類模塊的實(shí)用性。
https://www.servethehome.com/inside-the-nvidia-cedar-module-with-1-6tbps-of-networking-capacity-connectx-7/
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4103期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送,小號(hào)防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.