99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

博通用一顆芯片,單挑英偉達InfiniBand 和 NVSwitch

0
分享至

公眾號記得加星標??,第一時間看推送不會錯過。

來源:內容編譯自nextplatform。

InfiniBand 一直被認為是跨 PC、服務器、存儲和網絡使用的主流結構,但這一努力失敗了,InfiniBand 的剩余努力在千禧年之交獲得了第二次生命,成為運行模擬和模型的超級計算機的高性能、低延遲互連。

幾十年來,得益于遠程直接內存訪問 (RDMA) 帶來的低延遲,InfiniBand 找到了一個利基市場。RDMA 允許 CPU、GPU 以及其他類型的 XPU 直接訪問彼此的主內存,而無需經過整個網絡軟件堆棧。這也是Nvidia 五年多前斥資 69 億美元收購 Mellanox Technologies 的原因之一。Nvidia 無疑預見到了 GenAI 的蓬勃發展,并知道它需要 InfiniBand 作為連接 GPU 服務器節點的后端網絡,以便它們能夠協作訓練 AI 模型。

與此同時,在 GPU 服務器內部,Nvidia 需要一種方法來集群 GPU 的內存,以便它們可以共享工作并運行 AI 訓練和推理例程以及 HPC 代碼,就像 CPU 具有非統一內存訪問 (NUMA) 技術一樣,這使得多個計算引擎在系統軟件看來就像一個巨大的單一設備。為此,Nvidia 的研究人員重新發明了輪子,創建了 NVLink 端口,并最終創建了 NVLink 交換機(早年通常簡稱為 NVSwitch,因此我們習慣這樣做),它于 2018 年首次部署在其 DGX-2 系統內部,該系統有 16 個“Volta”V100 GPU 加速器共享它們的 HBM 內存堆棧,使它們看起來像一個巨大的單個 GPU,具有 2 petaflops 的 FP16 浮點性能。(這在當時是很大的魅力。)

在 InfiniBand 互連商業化的前二十年里,使其成為主流的殺手級應用從未出現。傳統的高性能計算 (HPC) 在 IT 市場中占據的份額不足以讓 InfiniBand 轉向以太網。然而,在短短幾年內,大型語言模型、生成式人工智能及其多模態基礎模型的興起,將 InfiniBand 作為集群后端網絡推向了新的高度;與此同時,NVLink 和 NVSwitch 為構建人工智能服務器節點提供了巨大的優勢——如今已擴展到 GB200 NVL72 等機架級系統。

但 Nvidia 對這些產品收取了相當高的費用,而全世界都喜歡它的以太網和較低的網絡價格。

這就是為什么芯片制造商博通花了三年多的時間將一種名為 Tomahawk Ultra 的新型低延遲、無損以太網交換機 ASIC 推向市場,它不僅可以取代 InfiniBand 作為 HPC 和 AI 集群的后端網絡,而且可以兼作內存結構,將各種計算引擎連接在一起形成共享內存集群,就像 NVlink 和 NVSwitch 對 Nvidia GPU 加速器所做的那樣。

博通的目標是將 InfiniBand 應用于傳統的 HPC 社區和不斷發展的 AI 應用,而這些應用對延遲越來越敏感。Tomahawk Ultra 交換機 ASIC 的開發實際上早于 GenAI 的興起和向機架式系統發展的趨勢,機架式系統支持大規模推理工作負載,并混合使用專家基礎模型,當所有 XPU 在共享內存集群中通信時,響應速度會更快,而不是使用速度較慢且耦合度較低的 InfiniBand 或以太網。

“在推出 Tomahawk 5 之前的三年多時間里,我們一直在研究交換機的路線圖,試圖弄清楚我們是否完全覆蓋了所有不同的應用領域,”博通 Trident 和 Tomahawk 交換機產品線經理 Peter Del Vecchio 告訴The Next Platform。“我們有 Jericho 芯片,主要應用于服務提供商和 AI 領域。我們有 Tomahawk 和 Trident,用于超大規模和企業網絡。但我們發現,在 HPC 領域,InfiniBand 憑借其交換機的設計優勢占據優勢。優勢不在于協議本身,而在于 InfiniBand 專注于不同的拓撲結構——它不需要處理全球數據中心網絡、隧道和 VXLAN,也不用通過海底電纜進行 17 跳傳輸。InfiniBand 確實有一些特性優于我們針對特定 HPC 和 AI 應用的某些交換機 ASIC——尤其是在延遲和每秒數據包數方面,InfiniBand 更具優勢?!?/p>

人們一直在談論InfiniBand在延遲方面的優勢,但并非所有人都意識到高數據包吞吐量對于高性能計算(HPC)工作負載(有時也包括人工智能工作負載)的重要性。高數據包吞吐量通常是以太網交換機ASIC的2到3倍,而ASIC經過調整,成為跨數據中心網絡結構的一部分,并且隨著時間的推移,處理的數據包越來越大。典型的數據中心交換機的數據包大小為1 KB,而支持巨型數據包的交換機則會將數據打包成9 KB的塊進行傳輸。

InfiniBand 的數據包大小通常在 256 B 到 2 KB 之間,最大值為 4 KB,這個值較小。CPU 緩存行的大小為 64 B,GPU 緩存行的大小為 256 B,因此,如果要實現 CPU 和 GPU 的內存互連,需要進一步降低數據包大小,降低延遲,并提高每秒通過 ASIC 的數據包數 (PPS)。InfiniBand 不僅支持胖樹網絡拓撲,還支持蜻蜓、環面和網狀拓撲。大型以太網通常采用 Clos 拓撲,這種拓撲結構允許以低成本連接整個數據中心的硬件,但這種方式不適合共享內存的機架式系統。

瞄準InfiniBand

早在我們首次啟動The Next Platform時,我們就寫了一篇名為《InfiniBand 速度太快,以太網無法消滅》的文章,這句話在十年內一直成立,在 2015 年也同樣成立。

RDMA 加上 InfiniBand 協議中更小的報頭等其他優勢,使得這種高速網絡相較于以太網具有巨大的優勢。讓我們來看看 Mellanox 的規格。2001 年 8 Gb/秒單速率 (SDR) InfiniBand 問世時,InfiniBand 交換機 ASIC 上的端口到端口跳躍延遲為 300 納秒,比當時的以太網交換機快了一個數量級。使用 16 Gb/秒 DDR InfiniBand 后,延遲降至 200 納秒;2007 年,隨著 QDR InfiniBand 的推出,帶寬再次翻倍至 32 Gb/秒,延遲降至 140 納秒。由于 FDR InfiniBand 的運行速度為 56 Gb/秒,Mellanox 將以太網和 InfiniBand 融合到一個名為 Switch-X 的交換機 ASIC 上,運行 InfiniBand 協議時延遲高達 170 納秒,這與許多 HPC 企業的預期背道而馳。因此,在 2015 年,隨著 EDR InfiniBand 向 100 Gb/秒的遷移,非融合 InfiniBand 和以太網上的延遲有所降低,并推出了 Switch-IB ASIC。據 Mellanox 當時稱,在某些情況下,該 ASIC 將延遲降低至 86 納秒。Switch-IB 端口到端口跳轉的官方延遲為 130 納秒。

在過去的十年中,隨著帶寬的增加,信號變得越來越嘈雜,這意味著清理信號所必需的前向糾錯給數據移動帶來了越來越多的開銷,因此延遲一直在增加。

使用 200 Gb/秒 HDR InfiniBand 時,同類最佳延遲為 130 納秒,這意味著平均延遲更高。對于 400 Gb/秒 NDR InfiniBand,Nvidia 不再具體討論延遲,800 Gb/秒 XDR InfiniBand 也是如此,盡管我們間接聽到過 GTC 2025 大會上一位 Nvidia 工程師的演示,他表示這些設備的端口到端口跳躍延遲為 240 納秒。

在同一時間內,交換機的數據包吞吐量對高性能計算 (HPC) 工作負載至關重要。我們目前沒有關于 PPS 的早期數據,但十年前 100 Gb/秒的 Switch-IB ASIC 可以在 7.2 Tb/秒的設備上實現 70 億 PPS。隨著 2018 年 200 Gb/秒的 Quantum ASIC 的推出,在 16 Tb/秒的設備上,這一吞吐量提升至 166 億 PPS;而對于 2021 年 400 Gb/秒的 Quantum-2 ASIC,該設備可以在 25.6 Tb/秒的總吞吐量下,實現 66.5 PPS。對于 51.2 Tb/秒、800 Gb/秒的 Quantum-X 設備,Nvidia 尚未提及 PPS。它可能會上升,也可能保持穩定。

博通的Tomahawk Ultra交換機ASIC擁有51.2 Tb/秒的總帶寬,運行以太網協議,端口到端口跳數延遲僅為250納秒,每秒可傳輸770億次數據包。在高性能計算(HPC)中,對于常見的小數據包大小,其每秒傳輸速度(PPS)是博通102.4 Tb/秒Tomahawk 6交換機ASIC的兩倍,而后者對于相同大小數據包的延遲在600納秒到700納秒之間。

那么,博通是如何憑借Tomahawk Ultra成為InfiniBand殺手的呢?部分原因是采用了一些早期加入Ultra以太網聯盟的技術,另一項技術則是將以太網數據包報頭壓縮到很早以前,以便它們能夠更快地穿透交換機——但這樣做不會破壞以太網兼容性。除此之外,博通還添加了類似于InfiniBand長期以來所擁有的網絡內集體操作,以便在網絡中執行某些類型的HPC和AI操作,而不是在端點執行。

優化的以太網報頭非常重要:


如您所見,優化后的以太網報頭減少到 10 個字節,而標準以太網數據包中使用的標準 IPv4 和 UDP 報頭為 46 個字節。

另一個提高吞吐量的巧妙方法是使以太網更加無損,這意味著當信號混亂或交換機中的緩沖區已滿并導致擁塞時,它不會丟棄數據包。

使以太網表現得更無損(更有收益?)的一種技術是像 InfiniBand 一樣在協議棧的鏈路層進行重試,檢測前向糾錯中的錯誤,并在必要時重新發送數據包幀,甚至在協議棧的上層發現有丟失之前。


LLR 是 UEC 規范的一部分,但如何實現它則由 ASIC 制造商決定。

另一項早期從 UEC 規范中引入的技術實際上是 InfiniBand 標準的一部分,并且從一開始就存在。它被稱為基于信用的流量控制 (Credit-Based Flow Control)。顧名思義,它通過對設備緩沖區空間進行嚴格的遙測來控制發送方和接收方之間的數據流。就像這樣:


使用 CBFC,接收方可以讓發送方知道何時有空閑的緩沖區空間以及空閑量,這樣發送方就只能發送在特定時間內能夠接收的數據量。這樣一來,緩沖區就不會溢出,比特也不會被丟棄,而這正是以太網傳統的擁塞處理方式。這種方法在用于網頁服務的 Clos 網絡上運行良好,但對于運行 AI 和 HPC 工作負載來說卻非常糟糕。

最后,如果要替換InfiniBand,則需要進行網絡內集體操作:


Nvidia 為其 InfiniBand 產品線將這些功能稱為 SHARP 功能,其中許多功能已轉移到 NVSwitch,并且有一天可能也會轉移到 Spectrum-X 以太網 ASIC,迄今為止,它們還不支持在交換機上進行這些集體操作。

以太網長期以來一直在追趕 InfiniBand,Cray(過去六年一直是 HPE 的一部分)的“Rosetta” Slingshot 互連或許是其逼近 InfiniBand 的最佳例證。Slingshot 網絡已在美國和歐洲的準百億億次級和百億億次級計算機中使用,但它遠未被 HPC 中心廣泛采用,更不用說人工智能初創公司、超大規模企業和云構建商了。

我們強烈懷疑 Tomahawk Ultra 的表現會好得多。

也擊中NVSwitch

雖然博通瞄準的是InfiniBand,并推出了Tomahawk Ultra,但它似乎也將對NVSwitch及其新興競爭對手UALink發起猛烈攻擊。我們尚不清楚NVSwitch端口到端口的延遲,但我們知道UALink聲稱可以將延遲降低到100納秒到150納秒。(更多信息請參閱“UALink向Nvidia NVSwitch發起首個GPU互連攻擊” 。)

現在可以肯定的是,Tomahawk Ultra 是 Broadcom 一直在推動的擴展以太網 (SUE) 計劃的一部分,作為 NVSwitch 和 UALink 的替代方案。


可以看出,傳輸層的傳輸和接收時間不到 150 納秒,加上跨交換機的端口到端口跳轉時間 250 納秒,對于使用 Tomahawk Ultra 作為后端主干的機架式系統中運行的兩個 XPU 設備之間的跳轉時間而言,不到 400 納秒。據 Del Vecchio 稱,SUE 方法將允許 XPU 制造商(包括 Nvidia 或 AMD,如果他們選擇這樣做的話)通過以太網隧道傳輸其協議,由于這種隧道傳輸,開銷僅為“數十納秒”。

因此,AMD 計劃在其未來的“Helios”機架式系統中,通過以太網隧道傳輸其 Infinity Fabric 的一個變體(該變體將被標記為 UALink,AMD 也捐贈了 Infinity Fabric),這或許并非巧合。AMD 目前正在等待 Astera Labs 以及其他可能加入 UALink 陣營的公司(例如 Marvell 和 Microchip)推出合適的 UALink 交換機。(鑒于 Tomahawk Ultra 的存在,博通可能不會生產 UALink 交換機。)

Tomahawk Ultra ASIC 現已開始提供樣品,基于該芯片的產品預計將于 2026 年上半年上市??蛻艨梢允褂勉~纜或光纖線纜與 Tomahawk Ultra 配合使用,并可直接從交換機驅動信號,或根據需要進行光器件共封裝。博通愿意根據任何用例和預算進行定制。

https://www.nextplatform.com/2025/07/17/broadcom-tries-to-kill-infiniband-and-nvswitch-with-one-ethernet-stone/

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4098期內容,歡迎關注。

加星標??第一時間看推送,小號防走丟



求推薦


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:不用等周四開盤,盤面非常明顯了,明天行情會這樣走!

A股:不用等周四開盤,盤面非常明顯了,明天行情會這樣走!

財經大拿
2025-07-23 14:52:28
普京威脅特朗普:如果烏克蘭轟炸俄羅斯大城市,他們就要轟炸美國

普京威脅特朗普:如果烏克蘭轟炸俄羅斯大城市,他們就要轟炸美國

顧史
2025-07-23 19:50:41
賽里木湖“屎滿為患”,這一次,撒貝寧被中國人狠狠上了一課

賽里木湖“屎滿為患”,這一次,撒貝寧被中國人狠狠上了一課

攬星河的筆記
2025-07-23 16:08:38
李月汝首戰舊主8+10:末節鼻子遭肘擊 率飛翼逆轉24分大勝風暴

李月汝首戰舊主8+10:末節鼻子遭肘擊 率飛翼逆轉24分大勝風暴

醉臥浮生
2025-07-23 12:01:30
堅持埼玉的訓練方法1000天之后,堂主lee成為了真正的一拳超人

堅持埼玉的訓練方法1000天之后,堂主lee成為了真正的一拳超人

手談姬
2025-07-22 20:56:03
7年賠光2個億,中年返貧的鄒市明,終究還是向生活低頭了

7年賠光2個億,中年返貧的鄒市明,終究還是向生活低頭了

娛小北
2025-07-10 08:54:33
最“干凈”的4位女星,不整容、不濫情,娛樂圈中的一股清流

最“干凈”的4位女星,不整容、不濫情,娛樂圈中的一股清流

啟娛說
2025-07-14 15:14:53
又現跨省聯動:汕尾市長調往揚州,揚州市長調往寧德

又現跨省聯動:汕尾市長調往揚州,揚州市長調往寧德

觀察者網
2025-07-23 14:39:26
癌癥并非突然出現,最新研究:患癌前半年,或反復出現7大信號

癌癥并非突然出現,最新研究:患癌前半年,或反復出現7大信號

墜入二次元的海洋
2025-07-23 13:53:17
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
大跌眼鏡,廣東一高校計劃招9千,投檔僅1千多,護理學選科是問題

大跌眼鏡,廣東一高校計劃招9千,投檔僅1千多,護理學選科是問題

教育琳
2025-07-22 17:47:36
我是正師級軍官,參加同學聚會被初戀嘲笑,第二年我轉業任副市長

我是正師級軍官,參加同學聚會被初戀嘲笑,第二年我轉業任副市長

喬生桂
2025-07-22 17:09:49
龔琳娜首談離婚原因:糾纏太牢沒有平行生長,老鑼提分手,是喜離

龔琳娜首談離婚原因:糾纏太牢沒有平行生長,老鑼提分手,是喜離

小嵩
2025-07-23 10:06:20
剛剛,全線下跌!

剛剛,全線下跌!

證券時報
2025-07-23 17:03:04
癱瘓18年湯淼現狀:母親妻子早已改嫁,女兒已8歲,郎平多次探望

癱瘓18年湯淼現狀:母親妻子早已改嫁,女兒已8歲,郎平多次探望

七公子娛樂
2025-07-22 16:01:18
130萬大軍壓境?普京的最后通牒,中國態度對于全球來說很重要

130萬大軍壓境?普京的最后通牒,中國態度對于全球來說很重要

明月聊史
2025-07-22 16:35:49
阿里納斯:和前女友分手后 用1萬的戒指調包了40萬的求婚戒指

阿里納斯:和前女友分手后 用1萬的戒指調包了40萬的求婚戒指

直播吧
2025-07-23 16:41:31
隊記:楊瀚森夏聯不打最后一場是明智的 避免像奎因一樣受傷

隊記:楊瀚森夏聯不打最后一場是明智的 避免像奎因一樣受傷

直播吧
2025-07-23 20:54:36
中國需準備應對俄羅斯解體,確保700萬土地安全

中國需準備應對俄羅斯解體,確保700萬土地安全

阿釗是個小小評論員
2025-07-09 17:34:00
無印良品naturalmill回應山寨質疑:與日本MUJI無印良品無關聯

無印良品naturalmill回應山寨質疑:與日本MUJI無印良品無關聯

界面新聞
2025-07-23 19:28:20
2025-07-23 21:56:49
半導體行業觀察 incentive-icons
半導體行業觀察
專注觀察全球半導體行業資訊
11332文章數 34610關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 最新調查結論公布

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 最新調查結論公布

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

健康
教育
家居
房產
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

她,碩士、博士學位被正式撤銷!

家居要聞

晨曦生活 明媚而放松

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

軍事要聞

美國核彈頭重回英國牽動全球神經

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 衡阳市| 德昌县| 蒙城县| 湘乡市| 溧阳市| 左云县| 崇信县| 南充市| 从化市| 中山市| 贵德县| 郓城县| 肇东市| 西乌| 平泉县| 方山县| 翼城县| 东乡县| 德兴市| 航空| 甘孜| 景洪市| 喜德县| 沅江市| 安岳县| 瑞安市| 油尖旺区| 丘北县| 绥阳县| 即墨市| 白朗县| 长阳| 驻马店市| 安顺市| 临江市| 库车县| 汉源县| 孝感市| 江源县| 鹤壁市| 禄劝|