由Informa Markets 主辦、益企研究院協(xié)辦的年度行業(yè)盛會(huì)——亞洲數(shù)據(jù)中心峰會(huì)暨產(chǎn)業(yè)展覽會(huì)(Data Center Asia 2025),于 2025年7月15~17日在香港亞洲國際博覽館隆重舉辦。峰會(huì)圍繞人工智能、綠色算力、液冷系統(tǒng)、國際拓展等熱點(diǎn)議題展開,匯聚多家知名企業(yè)與機(jī)構(gòu)的重磅嘉賓,共同探討行業(yè)前沿與實(shí)踐路徑。
來自超聚變數(shù)字技術(shù)有限公司的產(chǎn)品規(guī)劃專家熊家振以《綠色、開放、創(chuàng)新,多算力兼容——面向未來的液冷整機(jī)柜服務(wù)器架構(gòu)》為主題,分析了液冷整機(jī)柜的架構(gòu)形態(tài)和技術(shù)訴求,介紹了超聚變?cè)诙嗨懔嫒菡麢C(jī)柜領(lǐng)域的實(shí)踐和演進(jìn)。
AI集群對(duì)基礎(chǔ)設(shè)施的新要求
在AI重塑千行百業(yè)的潮流中,AI基礎(chǔ)設(shè)施在包括大模型訓(xùn)練、推理在內(nèi)的各種應(yīng)用中發(fā)揮著至關(guān)重要的作用。AI的基礎(chǔ)設(shè)施建設(shè)不應(yīng)該是一個(gè)簡單的數(shù)據(jù)中心的升級(jí),而是應(yīng)該基于AI的業(yè)務(wù)特點(diǎn)、負(fù)載來進(jìn)行設(shè)計(jì)的新型信息基礎(chǔ)設(shè)施。從大模型的訓(xùn)練看,模型的參數(shù)已經(jīng)從千億級(jí)(100B)增加到到萬億(1T,如GLaM 1T),乃至到十萬億(10T);訓(xùn)練數(shù)據(jù)從之前的TB級(jí),增長到PB級(jí),對(duì)AI算力的需求也是十倍、百倍的增加;訓(xùn)練集群的規(guī)模方面,海外的廠商已經(jīng)部署10萬卡的量級(jí),國內(nèi)的萬卡集群已經(jīng)跑通,也在同步地去構(gòu)建10萬卡級(jí)的集群。
在如此大規(guī)模的集群下,通常會(huì)多租戶部署。不同模型對(duì)Scale Up域的需求不同,對(duì)AI加速卡的調(diào)度提出不同的要求。不同的模型有的需要流水線并行(PP),有的需要數(shù)據(jù)并行(DP),還有的要專家并行(EP)等。同時(shí),AI訓(xùn)練、推理的算法也在不斷地進(jìn)化。以DeepSeek為例,最初的PD分離部署中,Prefill需要部署32張H800,Decode需要部署320張H800。在開源周更新后,Decode需求調(diào)整為144張卡,明顯降低了硬件成本。算法的進(jìn)化,對(duì)基礎(chǔ)設(shè)施的調(diào)度也提出了新的要求。
對(duì)于Scale Up域,有一個(gè)非常火的概念,叫做“超節(jié)點(diǎn)”。若干超節(jié)點(diǎn)通過Scale Out,組成集群。在超節(jié)點(diǎn)內(nèi),GPU之間帶寬會(huì)非常的這個(gè)大,應(yīng)該是集群Scale Out帶寬的5 ~8倍。對(duì)于萬卡、10萬卡的集群,其中的超節(jié)點(diǎn)可能有數(shù)十到數(shù)百卡(如NVIDIA GB200 NVL72,未來的Rubin NVL576),國內(nèi)頂尖的廠家目前做到了384卡的超節(jié)點(diǎn)。
高密度是超節(jié)點(diǎn)之根本
在超節(jié)點(diǎn)中,一定繞不開兩個(gè)話題:一個(gè)是液冷,一個(gè)是整機(jī)柜。因?yàn)槌?jié)點(diǎn)涉及非常多的高速線纜的連接,需要很高的部署密度,不可能用一些離散的設(shè)備來做超節(jié)點(diǎn)液冷主要解決解決三個(gè)問題:第一個(gè)是能耗指標(biāo)的問題,綠色低碳。隨著設(shè)備功耗不斷提高,尤其是AI服務(wù)器單節(jié)點(diǎn)的功率動(dòng)輒8kW、 10 kW,甚至幾十kW,冷卻占用的能耗越來越高。液冷的效率遠(yuǎn)高于傳統(tǒng)風(fēng)冷,通過液冷技術(shù)可以把數(shù)據(jù)中心的POE降下去。目前我國對(duì)數(shù)據(jù)中心建設(shè)有著非常明確的POE要求,能效指標(biāo)直接關(guān)系到數(shù)據(jù)中心能不能通過環(huán)評(píng),能不能投入建設(shè),乃至于建成后運(yùn)營的TCO是否有競爭力。
第二個(gè)是狹小空間高功率設(shè)備的散熱問題已經(jīng)部署的主流芯片功耗動(dòng)輒700、 800瓦,1200瓦甚至1500瓦的也正在陸續(xù)投入部署。在這種情況如果繼續(xù)用風(fēng)冷處理,需要把服務(wù)器做得特別大,風(fēng)扇轉(zhuǎn)速需要很高,除了增加數(shù)據(jù)中心的制冷能耗,更重要的是會(huì)降低部署密度。
第三個(gè)問題是算力密度。傳統(tǒng)數(shù)據(jù)中心的機(jī)柜只有6~8kW,可能一臺(tái)AI服務(wù)器都裝不了。較新的AI服務(wù)器已經(jīng)超過了傳統(tǒng)機(jī)柜的供電能力,一個(gè)機(jī)柜只能裝一臺(tái)服務(wù)器,甚至兩個(gè)機(jī)柜的電只能供一臺(tái)服務(wù)器。那就帶來上架率低的問題——一個(gè)43U、47 U的機(jī)柜中只安裝一臺(tái)8U服務(wù)器,大部分空間閑置。智算中心需要將供電能力提升,搭配液冷技術(shù),將機(jī)架內(nèi)的算力密度、功率密度盡可能提升。
提升算力密度對(duì)AI性能的提升至關(guān)重要。很多人不理解,為什么要把這么多GPU卡都裝到一個(gè)狹小的空間?因?yàn)镾cale Up域?qū)PU和GPU之間的通訊帶寬要求很高,進(jìn)而希望通信的鏈路要盡可能短。鏈路越短,延時(shí)越低,訓(xùn)練的效果就越好,集群性能就能得到更充分的發(fā)揮。要解決能效、散熱、密度這些問題,一定繞不過液冷整機(jī)柜。在此我們探討一下整機(jī)柜架構(gòu)目前的形態(tài)與挑戰(zhàn),以及未來的演進(jìn)。我們將目前可見的整機(jī)柜架構(gòu)分為三種:單面盲插架構(gòu)、前后正交架構(gòu)、中置背板對(duì)插架構(gòu)。芯片的架構(gòu)和Scale Up交換的架構(gòu)決定了整機(jī)柜的架構(gòu),三種架構(gòu)會(huì)長期共存。
單面盲插是最常見的架構(gòu),亞馬遜、微軟、谷歌部署的集群基本上是這種架構(gòu),生態(tài)廣泛。NVIDIA的NVL72、超聚變的FusioPoD也是這樣的超節(jié)點(diǎn)。單面盲插架構(gòu)還分兩種,一種是是交換芯片與節(jié)點(diǎn)是一體的,另一種是機(jī)柜內(nèi)通過專門的交換機(jī)實(shí)現(xiàn)Scale Up擴(kuò)展。單面盲插架構(gòu)可以很好的支持主流的56G、112G SerDes,更高的224G也有機(jī)會(huì)實(shí)現(xiàn)(如增加CDR,但會(huì)帶來成本和功耗的增加)。
前后正交架構(gòu)相比單面盲插的最主要優(yōu)勢是縮短了交換鏈路的長度。正交方案的線纜長度較水平方案短0.7米/節(jié)點(diǎn),減少了信號(hào)衰減,可以支持更高速的連接,同時(shí)每個(gè)計(jì)算節(jié)點(diǎn)節(jié)約一對(duì)高速背板連接器。當(dāng)SerDes提升到224G階段,正交架構(gòu)的損耗和鏈路成本會(huì)低于單面盲插架構(gòu)。
中置背板架構(gòu)是最新的方案,傳輸效果最好,可以將密度做的非常高,但也會(huì)帶來很多的工程挑戰(zhàn),如高密度接口板的復(fù)雜度和精度要求極高。
高密度機(jī)柜對(duì)機(jī)房基礎(chǔ)設(shè)施的挑戰(zhàn)
整機(jī)柜架構(gòu)的變化會(huì)提出很多工程方面的要求。首先就是供電架構(gòu)。傳統(tǒng)機(jī)房采用的是水平供電,但根據(jù)超聚變進(jìn)行的模擬分析,當(dāng)芯片功率超過1 500瓦,水平供電會(huì)面臨可靠性的問題。因?yàn)殂~線纜有電阻,一定有壓降,會(huì)導(dǎo)致不同位置的芯片接收到的電壓不一樣。因此,在單芯片1500瓦以上就可能要考慮垂直供電。垂直供電對(duì)整機(jī)柜的影響主要是增加了節(jié)點(diǎn)空間高度,架構(gòu)上帶來U位和節(jié)點(diǎn)間距的變革。其次是母線排(Busbar)。整機(jī)柜的功率如果在250kW,用54V直流供電就可以了。但是,250 kW時(shí)母線排上的電流會(huì)達(dá)到2 500A,表面溫度已經(jīng)高到燙手的程度。因此,更高功率的機(jī)柜需要考慮高壓直流,如400V、800V、±400V等方案。相應(yīng)的,供電柜的架構(gòu)也會(huì)發(fā)生變化。智算中心不是數(shù)據(jù)中心的簡單升級(jí),而是基于AI的業(yè)務(wù)復(fù)雜特性而做的重新設(shè)計(jì)。
單柜的功率越來越高,但傳統(tǒng)風(fēng)冷機(jī)房總的散熱能力和供電能力是有上限的。單機(jī)柜功耗持續(xù)增加,風(fēng)液混合冷板式液冷的風(fēng)冷部分可能會(huì)達(dá)到風(fēng)冷機(jī)房的極限,需要走向低溫冷板或全液冷路線。供電能力的閑置會(huì)導(dǎo)致機(jī)房在改造的時(shí)候產(chǎn)生大量白地板的浪費(fèi)。因?yàn)橐豪浜驼麢C(jī)柜的方案雖然可以提高上架率,但供電和散熱的上限會(huì)制約機(jī)柜的數(shù)量。在機(jī)房改造中,每一個(gè)客戶、每一個(gè)行業(yè)都應(yīng)該基于自己的業(yè)務(wù)特征和要求來選擇一個(gè)適合自己的方案。
超聚變液冷整機(jī)柜家族
超聚變?cè)诜?wù)器領(lǐng)域的工程積累超過了20年。目前超聚變的液冷整機(jī)柜有三種形態(tài):通用計(jì)算整機(jī)柜的功率是33~66 kW的量級(jí),主要算力來自于CPU。通算單柜的功率密度不是特別高,但是上架率可以做到100%,單柜32~36個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)可支持4顆CPU。這也是超聚變發(fā)貨量最大的整機(jī)柜形態(tài),主要用于通用計(jì)算、HPC高性能超算等領(lǐng)域。通算整機(jī)柜有將近 10 萬個(gè)節(jié)點(diǎn)在網(wǎng),廣泛應(yīng)用于運(yùn)營商、互連網(wǎng)、金融、政企等。智算64卡整機(jī)柜主要用于AI領(lǐng)域,它的功率更高,可以達(dá)到105kW。它在多算力兼容方面也做了一些大膽的嘗試,每個(gè)節(jié)點(diǎn)4U,其中3U可插拔單元可以支持多種GPU,支持AI算力的百花齊放。不論GPU基于UBB還是HGX,只要單卡功率不超過1200W,配套的液冷模組、基板都可以獲得超聚變的工程開發(fā)支持。
超節(jié)點(diǎn)的單柜功率可以做到240kW,支持64、72、128個(gè)加速卡,目前已提供112G線纜背板,也會(huì)快速跟進(jìn)224G連接。超節(jié)點(diǎn)Scale Up柜內(nèi)組網(wǎng)可支持單柜或雙柜擴(kuò)展。
風(fēng)液混合是目前液冷整機(jī)柜的主流形態(tài),超聚變致力于提升液冷整機(jī)柜的液冷覆蓋比例,目前已經(jīng)可以實(shí)現(xiàn)95%冷板覆蓋,并面向未來無風(fēng)扇全冷板進(jìn)行了技術(shù)儲(chǔ)備。除了GPU、CPU、內(nèi)存,讓液冷覆蓋更多組件涉及大量的工程細(xì)節(jié),包括硬盤、DPU、PCIe卡、硬盤、電源轉(zhuǎn)換板等。
供電方面,目前超聚變整機(jī)柜盲插供電已批量交付105kW,很快可以實(shí)現(xiàn)200 kW(120~240kW)量級(jí)。未來,500kW以上的方案已經(jīng)做了技術(shù)儲(chǔ)備。電源模塊部分,超聚變也是通過自研來盡可能地提高能效,現(xiàn)在可以做到超鈦金的能效標(biāo)準(zhǔn),達(dá)到96.5%以上的轉(zhuǎn)化率。目前超聚變整機(jī)柜配置3kW電源是主流,預(yù)計(jì)今年就會(huì)上市5kW、效率97%的電源,12 kW電源已經(jīng)進(jìn)入規(guī)劃。
直流母線方面,正在進(jìn)行48V向±400V、800V的演進(jìn)。低壓供電面臨電流過大帶來的溫度問題,使用更高的電壓可以來電流降下來,并提高能效。800V帶來了很多優(yōu)勢,包括和新能源生態(tài)的無縫對(duì)接。但800V也會(huì)帶來一些新的安全問題,需要全新的產(chǎn)業(yè)鏈,包括碳化硅、氮化鎵等,如何讓電源能夠做到更高的頻率、更高的能效,還需要超聚變與業(yè)界的伙伴攜手共進(jìn),共同繁榮生態(tài)。
結(jié)語:
隨著AI集群的規(guī)模提升,對(duì)供電、算力、散熱都提出了高密度的要求。為了平衡種種矛盾,液冷整機(jī)柜逐步成為AI集群交付的基本單元。整機(jī)柜也不再是離散的設(shè)備節(jié)點(diǎn),從構(gòu)建大規(guī)模AI集群的角度去看整機(jī)柜,用戶重點(diǎn)關(guān)注三點(diǎn):第一,可靠性,高可靠性才能保證訓(xùn)練、推理的效率。第二,線性度,隨著加速卡的增加,性能能否也可以線性地增長。第三,快速恢復(fù),保證訓(xùn)練、推理在發(fā)生故障時(shí)能夠盡快讓業(yè)務(wù)保持運(yùn)行,這個(gè)其實(shí)是一個(gè)更龐大的系統(tǒng)工程。整機(jī)柜,尤其是超節(jié)點(diǎn)的研發(fā)與交付,是對(duì)企業(yè)技術(shù)能力、運(yùn)維能力、工程能力的綜合性挑戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.