網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

拆解英偉達(dá)1.6T的網(wǎng)絡(luò)模塊

2025-07-23 08:59:11　來(lái)源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

來(lái)源：內(nèi)容編譯自servethehome。

英偉達(dá)此前從A100 升級(jí)到H100 系列的一大變化是轉(zhuǎn)向 PCIe Gen5。PCIe Gen5 擁有足夠的帶寬，可以從 200Gbps 網(wǎng)絡(luò)過(guò)渡到 400Gbps 網(wǎng)絡(luò)。NVIDIA DGX H100 采用了不同的網(wǎng)絡(luò)方案，具體來(lái)說(shuō)，它放棄了傳統(tǒng)的 PCIe 卡，轉(zhuǎn)而采用名為“Cedar”的模塊。

每個(gè) Cedar 模塊板載四個(gè) ConnectX-7 控制器。每個(gè)控制器提供 400Gbps 的網(wǎng)絡(luò)帶寬。DGX H100 中也有兩個(gè) ConnectX-7 控制器，用于連接 2 個(gè) Cedar 模塊，每個(gè)模塊 4 個(gè) ConnectX-7 控制器，每個(gè)控制器 400Gbps，即 3.2Tbps 的結(jié)構(gòu)帶寬。我們?cè)谟嗁?gòu)單上沒(méi)有找到這些控制器，但 SKU 表可以大致了解運(yùn)行這些控制器所需的帶寬。

在 DGX H100 中，這些 Cedar 模塊配有專門設(shè)計(jì)的散熱器，用于冷卻組件，同時(shí)允許氣流流向 CPU 和內(nèi)存托盤的其余部分。這些散熱器隨后通過(guò)環(huán)繞 CPU 和內(nèi)存的跨接電纜連接到后部機(jī)箱。在后部，DGX H100 可以使用直連銅纜(DAC)、有源光纜或標(biāo)準(zhǔn)光纖模塊。

關(guān)于渲染圖的簡(jiǎn)要說(shuō)明。雖然很多人覺(jué)得這看起來(lái)像是 Sapphire Rapids，但我聽(tīng)說(shuō) NVIDIA 為 DGX H100 提供了不同的主板設(shè)計(jì)，而且 CPU 也尚未確定。我還聽(tīng)說(shuō) CPU 將是 x86 架構(gòu)，所以要么是 Intel Sapphire Rapids，要么是 AMD Genoa，而不是 Arm 通過(guò) Ampere 的下一代產(chǎn)品或 NVIDIA Grace。Grace 對(duì)于這個(gè)平臺(tái)來(lái)說(shuō)已經(jīng)太遲了。

如果您想知道為什么不在 DGX H100 上使用 BlueField-3，NVIDIA 也提供了解決方案。除了兩個(gè) Cedar 模塊和 8 個(gè) ConnectX-7 400Gbps 控制器組合外，還配備了兩個(gè) PCIe BlueField-3 控制器。這兩個(gè) BlueField-3 控制器用于訪問(wèn)存儲(chǔ)和用戶平面等任務(wù)，而 Cedar 模塊則專注于計(jì)算平面。

我問(wèn)過(guò) NVIDIA，為什么不直接為 DGX H100 使用標(biāo)準(zhǔn) PCIe 或 OCP 尺寸的模塊。使用 Cedar 模塊主要是因?yàn)橄到y(tǒng)空間效率更高，因?yàn)樗仍谙到y(tǒng)中添加 8 個(gè) PCIe ConnectX-7 卡要緊湊得多。它還有助于 DGX H100 內(nèi)部的空氣流通。

雖然 Cedar 模塊聽(tīng)起來(lái)可能非常奇特，但 NVIDIA 告訴我，該公司的網(wǎng)絡(luò)團(tuán)隊(duì)已將其“廣泛提供”，可供任何供應(yīng)商在系統(tǒng)中使用。隨著新一代 AI 模型的出現(xiàn)，所需的規(guī)模將大大擴(kuò)大，因此為 AI 系統(tǒng)的計(jì)算平面提供大量帶寬就顯得尤為重要。正因如此，系統(tǒng)中配備了兩個(gè) Cedar 模塊來(lái)提供巨大的帶寬。

擁有 1.6Tbps 網(wǎng)絡(luò)容量的 NVIDIA Cedar 模塊內(nèi)部

簡(jiǎn)單介紹一下，NVIDIA 為其 DGX 系統(tǒng)定制了網(wǎng)絡(luò)模塊。目前市面上大多數(shù) HGX 8-GPU 平臺(tái)都使用基于 PCIe 的 GPU，至少在即將推出的搭載 ConnectX-8 的 NVIDIA MGX PCIe 交換板（用于 8x PCIe GPU 服務(wù)器）和HGX B300 NVL16之前都是如此。雖然 NVIDIA 表示這些模塊可供合作伙伴使用，但多年來(lái)大多數(shù)合作伙伴都使用了 PCIe NVIDIA ConnectX-7 網(wǎng)卡。Cedar 模塊則有所不同，它采用定制的水平尺寸，并將線纜連接到系統(tǒng)后部的光纖機(jī)架。

起初，我們對(duì)這些模塊的最佳印象來(lái)自于一個(gè)宣傳視頻的截圖。這些截圖顯然缺少了很多細(xì)節(jié)。

在 SC24 上，我們展示了Eviden 如何展示四核 NVIDIA ConnectX-7 Cedar 模塊。然而，有一個(gè)挑戰(zhàn)：這些模塊如何安裝在系統(tǒng)中。

現(xiàn)在我們拿到了真正的模塊。這是頂部，上面裝著一個(gè)用于風(fēng)冷服務(wù)器的散熱器。正如你所見(jiàn)，這些模塊雖然在運(yùn)輸途中包裝得很好，但經(jīng)歷了一段艱難的歲月。

在頂部，我們有四個(gè) NVIDIA ConnectX-7 NIC。

每個(gè)都能夠?qū)崿F(xiàn) 400Gbps 的網(wǎng)絡(luò)吞吐量。

我們經(jīng)常看不到的是，NVIDIA 既有用于帶外管理的連接器，也有用于跨機(jī)箱電纜的兩個(gè)電纜接頭。

這是頂部的端口。OOB 端口連接器的設(shè)計(jì)目的是為了實(shí)現(xiàn)性能較低的連接，因此它們相對(duì)簡(jiǎn)單。

這是端口 0 和 OOB 端口 0 的另一個(gè)角度。

這是 OOB 端口 1 和端口 1。

在底部，我們有定制的連接器。

在某些方面讓人想起 SXM GPU、NVIDIA Grace SuperChip 和 NVIDIA Grace Hopper 部件底部的連接器。

這種做法的一大優(yōu)勢(shì)在于，它比八個(gè) PCIe 網(wǎng)卡更加緊湊。在 DGX 環(huán)境中，這些定制的水平尺寸更容易制作散熱器。或許更重要的是，水平網(wǎng)卡并排放置使得在模塊上方放置單個(gè)液冷塊變得更加容易。這最大限度地減少了系統(tǒng)中冷卻板和液冷連接的數(shù)量。

這件東西簡(jiǎn)直可以用“精巧”來(lái)形容。這些部件都是定制的，業(yè)內(nèi)只有少數(shù)人會(huì)用。因此，很多人還沒(méi)見(jiàn)過(guò)這些模塊。我們有機(jī)會(huì)弄到一對(duì)，把冷卻器拆下來(lái)，所以覺(jué)得雖然它們的狀態(tài)不太好，但我們覺(jué)得它們?nèi)匀缓苡幸馑肌?/p>

未來(lái)，HGX B300 的出現(xiàn)將大大降低此類模塊的實(shí)用性。

https://www.servethehome.com/inside-the-nvidia-cedar-module-with-1-6tbps-of-networking-capacity-connectx-7/

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4103期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送，小號(hào)防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.