業(yè)內(nèi)很多人都沒注意到,包括我的很多網(wǎng)工朋友都沒注意,市面上有一款吊炸天的“大模型專用”交換機(jī)發(fā)布了。
畢竟,交換機(jī)這種通用網(wǎng)絡(luò)產(chǎn)品發(fā)展了幾十年,時(shí)至今日,任何網(wǎng)絡(luò)技術(shù),很難撩起人們的興奮點(diǎn)。
但,這款交換機(jī),著實(shí)讓我興奮了一下。
我甚至覺得,這是國(guó)內(nèi)目前AIGC領(lǐng)域最牛交換機(jī)。
為什么這么高評(píng)價(jià)?我們看看實(shí)測(cè)吧 ↓
這款叫做X400的交換機(jī),端口規(guī)格是128×400G,看起來似乎“平平無(wú)奇”。
因?yàn)闃I(yè)內(nèi)同行們,也差不多是這個(gè)規(guī)格(單芯片51.2T方案,64×800G或128×400G)。
可是,類似的規(guī)格,這款交換機(jī)卻表現(xiàn)出“吊打”同行的能力。
跟同行們的51.2T方案相比,用這款交換機(jī)組網(wǎng)訓(xùn)練大模型,訓(xùn)練性能可以提升1.6倍。
下面這個(gè)實(shí)測(cè)就很能說明問題:
16000張GPU卡環(huán)境,訓(xùn)練1750億參數(shù)的GPT3,X400交換機(jī)集群吊打傳統(tǒng)RoCE網(wǎng)絡(luò)。
這是什么概念呢?
這意味著,基于X400交換機(jī)構(gòu)建的以太網(wǎng)集群,大模型訓(xùn)練性能可以完全對(duì)標(biāo)同速率的IB網(wǎng)絡(luò)。
你花著以太網(wǎng)RoCE的錢,買到的卻是與IB網(wǎng)絡(luò)相當(dāng)?shù)男阅埽?/strong>
接下來,我們就講講,這個(gè)看似平平無(wú)奇的X400,憑啥這么猛?
首先,這是國(guó)內(nèi)目前唯一量產(chǎn)的基于Spectrum-4交換芯片的交換機(jī)。
當(dāng)前市面上51.2T交換芯片方案四分天下:Spectrum-4、Tomahawk 5、Silicon One G200以及Teralynx 10,每一家都各有特色。
國(guó)內(nèi)數(shù)通大廠和互聯(lián)網(wǎng)巨頭們,紛紛發(fā)布了51.2T交換機(jī),大多搭載的是Tomahawk5方案,而這款X400交換機(jī),是首款采用Spectrum-4的。
懂的都懂,Spectrum-4在AI場(chǎng)景能力超強(qiáng)。
相比其他方案,Spectrum-4具備一些獨(dú)特的優(yōu)勢(shì),專門應(yīng)對(duì)AI業(yè)務(wù)場(chǎng)景:
?自適應(yīng)路由實(shí)現(xiàn)完美負(fù)載均衡 ?多租戶流量隔離,互不打擾 ?交換鏈路帶寬利用率高 ?訓(xùn)推任務(wù)實(shí)現(xiàn)低延時(shí),低抖動(dòng)和低尾延時(shí)。
更為重要的是,AI大模型大多基于GPU構(gòu)建,訓(xùn)練集群的網(wǎng)絡(luò)優(yōu)化離不開NCCL集合通信庫(kù)支持。
X400和IB一樣,與NCCL天然無(wú)縫銜接,而其他交換方案需要對(duì)NCCL進(jìn)行額外修改和優(yōu)化。
所以,在硬件底子上,X400交換機(jī)天生就「骨骼精奇」,贏在了起跑線上。
不過,硬件能力只決定了交換機(jī)的下限,軟件能力才能拉高交換機(jī)的上限。
X400在軟件上,針對(duì)AIGC場(chǎng)景進(jìn)行了特別優(yōu)化。
這么說吧,同樣是RoCE,X400能吊打傳統(tǒng)RoCE交換機(jī),軟件層的優(yōu)化,功不可沒。
01、AUTO ECN技術(shù)
搞過數(shù)據(jù)中心網(wǎng)絡(luò)的都知道,在對(duì)網(wǎng)絡(luò)延遲和丟包比較敏感的場(chǎng)景,通常都會(huì)啟用ECN技術(shù),現(xiàn)在市面上用的比較多的叫做“DCQCN”。
ECN是一種網(wǎng)絡(luò)擁塞通知和管理機(jī)制,它在監(jiān)測(cè)到網(wǎng)絡(luò)中即將發(fā)生擁塞的時(shí)候,不會(huì)將報(bào)文丟棄,而是添加擁塞標(biāo)記,讓發(fā)送方動(dòng)態(tài)調(diào)整擁塞控制窗口(CWND),從而避免擁塞。
說白了,快要擁塞的時(shí)候,就通知發(fā)送方步子邁小點(diǎn)兒,沒有擁塞的時(shí)候,步子就邁大點(diǎn)兒。
但是呢,這個(gè)“步子”的大小(擁塞窗口大小)是非常有學(xué)問的,步子太大容易扯著蛋,步子太小就會(huì)影響吞吐量。
能夠動(dòng)態(tài)地找出那個(gè)最優(yōu)的“窗口”,既保證不擁塞,又有最高的吞吐量,深深困擾了廣大數(shù)據(jù)中心網(wǎng)工們。
手動(dòng)ECN調(diào)優(yōu)太麻煩了,X400交換機(jī)是怎么干的呢?
這家伙鬼的很,它要用AI的辦法來解決AI問題,搞出了一個(gè)AutoECN的算法,相當(dāng)于每臺(tái)交換機(jī)都內(nèi)置了一個(gè)流量調(diào)參大模型。
在實(shí)際流量環(huán)境中,X400交換機(jī)會(huì)實(shí)時(shí)采集流量特征,并通過帶外管理口進(jìn)行上下游流量特征同步(這種同步不會(huì)占用帶內(nèi)帶寬資源)。
被采集到的流量狀態(tài)會(huì)作為輸入,給到交換機(jī)內(nèi)置的AutoECN模型,然后模型會(huì)根據(jù)輸入,完成實(shí)時(shí)推理,得到此時(shí)最優(yōu)的ECN參數(shù),實(shí)時(shí)設(shè)置。
跟傳統(tǒng)的ECN/DCQCN相比,AutoECN的擁塞控制閾值是一個(gè)完全動(dòng)態(tài)調(diào)整的最優(yōu)值,也不怕由于CNP報(bào)文發(fā)送不及時(shí)導(dǎo)致的控速失效。
來看一下實(shí)戰(zhàn)效果↓
同樣一組流量,在啟用了DCQCN和AutoECN的交換機(jī)上傳輸,后者對(duì)傳輸效率的改進(jìn)非常明顯。
如上圖,AutoECN提供了三種模型:時(shí)延優(yōu)先、吞吐優(yōu)先、均衡模型。然后分別用兩種特征的流量來打,每種模型的表現(xiàn),都大幅超過傳統(tǒng)ECN(傳輸每一組流量時(shí),所用時(shí)間越短越好)。
當(dāng)你的業(yè)務(wù)更挑時(shí)延,就用時(shí)延優(yōu)先模型,如果更偏向吞吐,就用吞吐優(yōu)先模型,如果兩種都想兼顧,那就用均衡模型。
總之不管流量多變態(tài),AutoECN總能基于AI技術(shù),動(dòng)態(tài)調(diào)參,給出一個(gè)最優(yōu)方案。
02、RTT-CC擁塞控制
如果你的業(yè)務(wù)對(duì)網(wǎng)絡(luò)延遲格外敏感,希望更低的延遲和抖動(dòng),基于X400交換機(jī)構(gòu)建的AI Fabirc方案還額外準(zhǔn)備了一項(xiàng)秘技:RTT-CC。
RTT-CC不需要像ECN那樣對(duì)擁塞數(shù)據(jù)包進(jìn)行顯式標(biāo)記,而是通過持續(xù)監(jiān)控和評(píng)估數(shù)據(jù)包的往返時(shí)間,預(yù)測(cè)網(wǎng)絡(luò)擁塞。
X400 AI Fabirc方案的RTT-CC功能,采用了基于硬件的反饋環(huán)路,動(dòng)態(tài)監(jiān)測(cè)擁塞并實(shí)時(shí)調(diào)整發(fā)送窗口大小和速率,性能更好,時(shí)延表現(xiàn)更優(yōu)。
如此,同時(shí)具備RTT-CC和AutoECN的擁塞控制技術(shù),可以更好地滿足低延遲、高吞吐、零丟包的嚴(yán)苛場(chǎng)景需求。
03、逐包負(fù)載均衡
在數(shù)據(jù)中心網(wǎng)絡(luò)中,涉及到多路徑傳輸?shù)臅r(shí)候,傳統(tǒng)RoCE方案通常會(huì)用ECMP等技術(shù),來實(shí)現(xiàn)多鏈路負(fù)載分擔(dān)。
但是吧,ECMP的負(fù)載分擔(dān),是基于流的(Flow Based,根據(jù)每條流哈希值的不同,調(diào)度到不同的鏈路上),粒度太粗獷。
極端的情況,會(huì)因?yàn)楣2痪鶆蚧蛘吡鞯拇笮沂猓瑢?dǎo)致流量都被調(diào)度到一條鏈路上,而其他鏈路沒活可干,整網(wǎng)傳輸效率打折。
怎么破?
X400交換機(jī)支持自適應(yīng)路由(AR)和包噴灑(Packet spraying)技術(shù)。
簡(jiǎn)單講就是逐包負(fù)載均衡:基于每個(gè)數(shù)據(jù)包來調(diào)度,粒度更細(xì),算法更優(yōu)。
這樣,讓每條路都均勻負(fù)載分擔(dān),提升整網(wǎng)吞吐量,打滿每條鏈路,喂飽每塊GPU。
當(dāng)然,這種逐包負(fù)載均衡,因?yàn)槊總€(gè)包走的路況不一樣,到達(dá)服務(wù)器端的時(shí)候,數(shù)據(jù)包先后順序可能會(huì)錯(cuò)亂,如果服務(wù)器沒點(diǎn)特殊本事,就會(huì)吃不消。
于是,跟X400交換機(jī)配套的服務(wù)器,也配備了支持保序功能的智能網(wǎng)卡,可以對(duì)亂序的數(shù)據(jù)包,進(jìn)行重組。
這樣就完美了,既不擔(dān)心亂序,又保證了鏈路的高效利用。
憑借這三項(xiàng)超能力(AutoECN、RTT-CC、自適應(yīng)路由),X400交換機(jī)成功扛下了智算中心萬(wàn)卡集群乃至十萬(wàn)卡集群的嚴(yán)苛訴求。
不止如此,X400交換機(jī)在軟件層面,還采用了大量技術(shù)來提升可靠性和可維護(hù)性。
比如故障自愈能力,IGE智能防護(hù)技術(shù)、可視化監(jiān)控、ZTP部署…
同時(shí),X400交換機(jī)遵循S3IP-UNP規(guī)范設(shè)計(jì),支持開源SONiC和第三方網(wǎng)絡(luò)OS,對(duì)希望構(gòu)建大規(guī)模算力集群的客戶,都具備極大的靈活性。
說了這么多,這個(gè)X400交換機(jī)到底誰(shuí)家的產(chǎn)品呢?
嘿嘿,浪潮信息。
浪潮信息在2024 IPF大會(huì)上,正式發(fā)布了這款X400超級(jí)AI以太網(wǎng)交換機(jī),專門面向生成式AI場(chǎng)景打造。
浪潮信息提供了端網(wǎng)協(xié)同的X400 AI Fabric解決方案,即插即用,最大支持512K張GPU的超大規(guī)模集群。
與業(yè)內(nèi)傳統(tǒng)RoCE組網(wǎng)方案相比,帶寬利用率超過95%,時(shí)延降低30%,大幅提升大模型訓(xùn)練速度。
浪潮信息憑什么能造出性能如此拉滿的AI交換機(jī)?實(shí)戰(zhàn)效果甚至還超越了一眾數(shù)通大廠的RoCE產(chǎn)品?
浪潮信息是國(guó)內(nèi)最大的AI服務(wù)器提供商,連續(xù)7年位居第一。
同時(shí),浪潮信息作為頭部互聯(lián)網(wǎng)客戶的核心網(wǎng)絡(luò)供應(yīng)商,具備豐富的數(shù)據(jù)中心與智算中心的組網(wǎng)經(jīng)驗(yàn)。
基于對(duì)AI基礎(chǔ)設(shè)施和應(yīng)用的理解以及持續(xù)深入的網(wǎng)絡(luò)研發(fā)實(shí)踐,浪潮信息發(fā)布了這款全新的超級(jí)AI以太網(wǎng)交換機(jī)X400,成為業(yè)界矚目的頂流產(chǎn)品。
大模型時(shí)代,一切都在重塑,浪潮信息X400,筑起通往大模型的超級(jí)高速路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.