99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

綠色、開放、創(chuàng)新,多算力兼容—面向未來的液冷整機(jī)柜服務(wù)器架構(gòu)

0
分享至

Informa Markets 主辦、益企研究院協(xié)辦的年度行業(yè)盛會(huì)——亞洲數(shù)據(jù)中心峰會(huì)暨產(chǎn)業(yè)展覽會(huì)(Data Center Asia 2025),于 2025年7月15~17日在香港亞洲國際博覽館隆重舉辦。峰會(huì)圍繞人工智能、綠色算力、液冷系統(tǒng)、國際拓展等熱點(diǎn)議題展開,匯聚多家知名企業(yè)與機(jī)構(gòu)的重磅嘉賓,共同探討行業(yè)前沿與實(shí)踐路徑。


來自超聚變數(shù)字技術(shù)有限公司的產(chǎn)品規(guī)劃專家熊家振《綠色、開放、創(chuàng)新,多算力兼容——面向未來的液冷整機(jī)柜服務(wù)器架構(gòu)》為主題,分析了液冷整機(jī)柜的架構(gòu)形態(tài)和技術(shù)訴求,介紹了超聚變?cè)诙嗨懔嫒菡麢C(jī)柜領(lǐng)域的實(shí)踐和演進(jìn)。

AI集群對(duì)基礎(chǔ)設(shè)施的新要求
在AI重塑千行百業(yè)的潮流中,AI基礎(chǔ)設(shè)施在包括大模型訓(xùn)練、推理在內(nèi)的各種應(yīng)用中發(fā)揮著至關(guān)重要的作用。AI的基礎(chǔ)設(shè)施建設(shè)不應(yīng)該是一個(gè)簡單的數(shù)據(jù)中心的升級(jí),而是應(yīng)該基于AI的業(yè)務(wù)特點(diǎn)、負(fù)載來進(jìn)行設(shè)計(jì)的新型信息基礎(chǔ)設(shè)施。

從大模型的訓(xùn)練看,模型的參數(shù)已經(jīng)從千億級(jí)(100B)增加到到萬億(1T,如GLaM 1T),乃至到十萬億(10T);訓(xùn)練數(shù)據(jù)從之前的TB級(jí),增長到PB級(jí),對(duì)AI算力的需求也是十倍、百倍的增加;訓(xùn)練集群的規(guī)模方面,海外的廠商已經(jīng)部署10萬卡的量級(jí),國內(nèi)的萬卡集群已經(jīng)跑通,也在同步地去構(gòu)建10萬卡級(jí)的集群。

在如此大規(guī)模的集群下,通常會(huì)多租戶部署。不同模型對(duì)Scale Up域的需求不同,對(duì)AI加速卡的調(diào)度提出不同的要求。不同的模型有的需要流水線并行(PP),有的需要數(shù)據(jù)并行(DP),還有的要專家并行(EP)等。同時(shí),AI訓(xùn)練、推理的算法也在不斷地進(jìn)化。以DeepSeek為例,最初的PD分離部署中,Prefill需要部署32張H800,Decode需要部署320張H800。在開源周更新后,Decode需求調(diào)整為144張卡,明顯降低了硬件成本。算法的進(jìn)化,對(duì)基礎(chǔ)設(shè)施的調(diào)度也提出了新的要求。

對(duì)于Scale Up域,有一個(gè)非常火的概念,叫做“超節(jié)點(diǎn)”。若干超節(jié)點(diǎn)通過Scale Out,組成集群。在超節(jié)點(diǎn)內(nèi),GPU之間帶寬會(huì)非常的這個(gè)大,應(yīng)該是集群Scale Out帶寬的5 ~8倍。對(duì)于萬卡、10萬卡的集群,其中的超節(jié)點(diǎn)可能有數(shù)十到數(shù)百卡(如NVIDIA GB200 NVL72,未來的Rubin NVL576),國內(nèi)頂尖的廠家目前做到了384卡的超節(jié)點(diǎn)。

高密度是超節(jié)點(diǎn)之根本
在超節(jié)點(diǎn)中,一定繞不開兩個(gè)話題:一個(gè)是液冷,一個(gè)是整機(jī)柜。因?yàn)槌?jié)點(diǎn)涉及非常多的高速線纜的連接,需要很高的部署密度,不可能用一些離散的設(shè)備來做超節(jié)點(diǎn)液冷主要解決解決三個(gè)問題:

第一個(gè)是能耗指標(biāo)的問題,綠色低碳。隨著設(shè)備功耗不斷提高,尤其是AI服務(wù)器單節(jié)點(diǎn)的功率動(dòng)輒8kW、 10 kW,甚至幾十kW,冷卻占用的能耗越來越高。液冷的效率遠(yuǎn)高于傳統(tǒng)風(fēng)冷,通過液冷技術(shù)可以把數(shù)據(jù)中心的POE降下去。目前我國對(duì)數(shù)據(jù)中心建設(shè)有著非常明確的POE要求,能效指標(biāo)直接關(guān)系到數(shù)據(jù)中心能不能通過環(huán)評(píng),能不能投入建設(shè),乃至于建成后運(yùn)營的TCO是否有競爭力。

第二個(gè)是狹小空間高功率設(shè)備的散熱問題已經(jīng)部署的主流芯片功耗動(dòng)輒700、 800瓦,1200瓦甚至1500瓦的也正在陸續(xù)投入部署。在這種情況如果繼續(xù)用風(fēng)冷處理,需要把服務(wù)器做得特別大,風(fēng)扇轉(zhuǎn)速需要很高,除了增加數(shù)據(jù)中心的制冷能耗,更重要的是會(huì)降低部署密度。

第三個(gè)問題是算力密度。傳統(tǒng)數(shù)據(jù)中心的機(jī)柜只有6~8kW,可能一臺(tái)AI服務(wù)器都裝不了。較新的AI服務(wù)器已經(jīng)超過了傳統(tǒng)機(jī)柜的供電能力,一個(gè)機(jī)柜只能裝一臺(tái)服務(wù)器,甚至兩個(gè)機(jī)柜的電只能供一臺(tái)服務(wù)器。那就帶來上架率低的問題——一個(gè)43U、47 U的機(jī)柜中只安裝一臺(tái)8U服務(wù)器,大部分空間閑置。智算中心需要將供電能力提升,搭配液冷技術(shù),將機(jī)架內(nèi)的算力密度、功率密度盡可能提升。

提升算力密度對(duì)AI性能的提升至關(guān)重要。很多人不理解,為什么要把這么多GPU卡都裝到一個(gè)狹小的空間?因?yàn)镾cale Up域?qū)PU和GPU之間的通訊帶寬要求很高,進(jìn)而希望通信的鏈路要盡可能短。鏈路越短,延時(shí)越低,訓(xùn)練的效果就越好,集群性能就能得到更充分的發(fā)揮。要解決能效、散熱、密度這些問題,一定繞不過液冷整機(jī)柜。在此我們探討一下整機(jī)柜架構(gòu)目前的形態(tài)與挑戰(zhàn),以及未來的演進(jìn)。我們將目前可見的整機(jī)柜架構(gòu)分為三種:單面盲插架構(gòu)、前后正交架構(gòu)、中置背板對(duì)插架構(gòu)。芯片的架構(gòu)和Scale Up交換的架構(gòu)決定了整機(jī)柜的架構(gòu),三種架構(gòu)會(huì)長期共存。


單面盲插是最常見的架構(gòu),亞馬遜、微軟、谷歌部署的集群基本上是這種架構(gòu),生態(tài)廣泛。NVIDIA的NVL72、超聚變的FusioPoD也是這樣的超節(jié)點(diǎn)。單面盲插架構(gòu)還分兩種,一種是是交換芯片與節(jié)點(diǎn)是一體的,另一種是機(jī)柜內(nèi)通過專門的交換機(jī)實(shí)現(xiàn)Scale Up擴(kuò)展。單面盲插架構(gòu)可以很好的支持主流的56G、112G SerDes,更高的224G也有機(jī)會(huì)實(shí)現(xiàn)(如增加CDR,但會(huì)帶來成本和功耗的增加)。

前后正交架構(gòu)相比單面盲插的最主要優(yōu)勢是縮短了交換鏈路的長度。正交方案的線纜長度較水平方案短0.7米/節(jié)點(diǎn),減少了信號(hào)衰減,可以支持更高速的連接,同時(shí)每個(gè)計(jì)算節(jié)點(diǎn)節(jié)約一對(duì)高速背板連接器。當(dāng)SerDes提升到224G階段,正交架構(gòu)的損耗和鏈路成本會(huì)低于單面盲插架構(gòu)。

中置背板架構(gòu)是最新的方案,傳輸效果最好,可以將密度做的非常高,但也會(huì)帶來很多的工程挑戰(zhàn),如高密度接口板的復(fù)雜度和精度要求極高。

高密度機(jī)柜對(duì)機(jī)房基礎(chǔ)設(shè)施的挑戰(zhàn)
整機(jī)柜架構(gòu)的變化會(huì)提出很多工程方面的要求。首先就是供電架構(gòu)。傳統(tǒng)機(jī)房采用的是水平供電,但根據(jù)超聚變進(jìn)行的模擬分析,當(dāng)芯片功率超過1 500瓦,水平供電會(huì)面臨可靠性的問題。因?yàn)殂~線纜有電阻,一定有壓降,會(huì)導(dǎo)致不同位置的芯片接收到的電壓不一樣。因此,在單芯片1500瓦以上就可能要考慮垂直供電。垂直供電對(duì)整機(jī)柜的影響主要是增加了節(jié)點(diǎn)空間高度,架構(gòu)上帶來U位和節(jié)點(diǎn)間距的變革。

其次是母線排(Busbar)。整機(jī)柜的功率如果在250kW,用54V直流供電就可以了。但是,250 kW時(shí)母線排上的電流會(huì)達(dá)到2 500A,表面溫度已經(jīng)高到燙手的程度。因此,更高功率的機(jī)柜需要考慮高壓直流,如400V、800V、±400V等方案。相應(yīng)的,供電柜的架構(gòu)也會(huì)發(fā)生變化。智算中心不是數(shù)據(jù)中心的簡單升級(jí),而是基于AI的業(yè)務(wù)復(fù)雜特性而做的重新設(shè)計(jì)。

單柜的功率越來越高,但傳統(tǒng)風(fēng)冷機(jī)房總的散熱能力和供電能力是有上限的。單機(jī)柜功耗持續(xù)增加,風(fēng)液混合冷板式液冷的風(fēng)冷部分可能會(huì)達(dá)到風(fēng)冷機(jī)房的極限,需要走向低溫冷板或全液冷路線。供電能力的閑置會(huì)導(dǎo)致機(jī)房在改造的時(shí)候產(chǎn)生大量白地板的浪費(fèi)。因?yàn)橐豪浜驼麢C(jī)柜的方案雖然可以提高上架率,但供電和散熱的上限會(huì)制約機(jī)柜的數(shù)量。在機(jī)房改造中,每一個(gè)客戶、每一個(gè)行業(yè)都應(yīng)該基于自己的業(yè)務(wù)特征和要求來選擇一個(gè)適合自己的方案。

超聚變液冷整機(jī)柜家族
超聚變?cè)诜?wù)器領(lǐng)域的工程積累超過了20年。目前超聚變的液冷整機(jī)柜有三種形態(tài):通用計(jì)算整機(jī)柜的功率是33~66 kW的量級(jí),主要算力來自于CPU。通算單柜的功率密度不是特別高,但是上架率可以做到100%,單柜32~36個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)可支持4顆CPU。這也是超聚變發(fā)貨量最大的整機(jī)柜形態(tài),主要用于通用計(jì)算、HPC高性能超算等領(lǐng)域。通算整機(jī)柜有將近 10 萬個(gè)節(jié)點(diǎn)在網(wǎng),廣泛應(yīng)用于運(yùn)營商、互連網(wǎng)、金融、政企等。


智算64卡整機(jī)柜主要用于AI領(lǐng)域,它的功率更高,可以達(dá)到105kW。它在多算力兼容方面也做了一些大膽的嘗試,每個(gè)節(jié)點(diǎn)4U,其中3U可插拔單元可以支持多種GPU,支持AI算力的百花齊放。不論GPU基于UBB還是HGX,只要單卡功率不超過1200W,配套的液冷模組、基板都可以獲得超聚變的工程開發(fā)支持。



超節(jié)點(diǎn)的單柜功率可以做到240kW,支持64、72、128個(gè)加速卡,目前已提供112G線纜背板,也會(huì)快速跟進(jìn)224G連接。超節(jié)點(diǎn)Scale Up柜內(nèi)組網(wǎng)可支持單柜或雙柜擴(kuò)展。


風(fēng)液混合是目前液冷整機(jī)柜的主流形態(tài),超聚變致力于提升液冷整機(jī)柜的液冷覆蓋比例,目前已經(jīng)可以實(shí)現(xiàn)95%冷板覆蓋,并面向未來無風(fēng)扇全冷板進(jìn)行了技術(shù)儲(chǔ)備。除了GPU、CPU、內(nèi)存,讓液冷覆蓋更多組件涉及大量的工程細(xì)節(jié),包括硬盤、DPU、PCIe卡、硬盤、電源轉(zhuǎn)換板等。

供電方面,目前超聚變整機(jī)柜盲插供電已批量交付105kW,很快可以實(shí)現(xiàn)200 kW(120~240kW)量級(jí)。未來,500kW以上的方案已經(jīng)做了技術(shù)儲(chǔ)備。電源模塊部分,超聚變也是通過自研來盡可能地提高能效,現(xiàn)在可以做到超鈦金的能效標(biāo)準(zhǔn),達(dá)到96.5%以上的轉(zhuǎn)化率。目前超聚變整機(jī)柜配置3kW電源是主流,預(yù)計(jì)今年就會(huì)上市5kW、效率97%的電源,12 kW電源已經(jīng)進(jìn)入規(guī)劃。

直流母線方面,正在進(jìn)行48V向±400V、800V的演進(jìn)。低壓供電面臨電流過大帶來的溫度問題,使用更高的電壓可以來電流降下來,并提高能效。800V帶來了很多優(yōu)勢,包括和新能源生態(tài)的無縫對(duì)接。但800V也會(huì)帶來一些新的安全問題,需要全新的產(chǎn)業(yè)鏈,包括碳化硅、氮化鎵等,如何讓電源能夠做到更高的頻率、更高的能效,還需要超聚變與業(yè)界的伙伴攜手共進(jìn),共同繁榮生態(tài)。


結(jié)語:

隨著AI集群的規(guī)模提升,對(duì)供電、算力、散熱都提出了高密度的要求。為了平衡種種矛盾,液冷整機(jī)柜逐步成為AI集群交付的基本單元。整機(jī)柜也不再是離散的設(shè)備節(jié)點(diǎn),從構(gòu)建大規(guī)模AI集群的角度去看整機(jī)柜,用戶重點(diǎn)關(guān)注三點(diǎn):第一,可靠性,高可靠性才能保證訓(xùn)練、推理的效率。第二,線性度,隨著加速卡的增加,性能能否也可以線性地增長。第三,快速恢復(fù),保證訓(xùn)練、推理在發(fā)生故障時(shí)能夠盡快讓業(yè)務(wù)保持運(yùn)行,這個(gè)其實(shí)是一個(gè)更龐大的系統(tǒng)工程。整機(jī)柜,尤其是超節(jié)點(diǎn)的研發(fā)與交付,是對(duì)企業(yè)技術(shù)能力、運(yùn)維能力、工程能力的綜合性挑戰(zhàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
風(fēng)靡一時(shí)的蘭州拉面,為何很少人去吃了?4個(gè)扎心原因趕跑了顧客

風(fēng)靡一時(shí)的蘭州拉面,為何很少人去吃了?4個(gè)扎心原因趕跑了顧客

平祥生活日志
2025-07-24 02:00:43
給近兩年最好的10部犯罪劇排名:《掃毒風(fēng)暴》第5,第1沒有爭議

給近兩年最好的10部犯罪劇排名:《掃毒風(fēng)暴》第5,第1沒有爭議

坊聞本尊
2025-07-24 19:03:52
陳佩斯新片《戲臺(tái)》首波口碑出爐!觀眾催淚點(diǎn)評(píng):我們不想看他輸

陳佩斯新片《戲臺(tái)》首波口碑出爐!觀眾催淚點(diǎn)評(píng):我們不想看他輸

晴晴的娛樂日記
2025-07-24 11:45:17
美國總統(tǒng)時(shí)隔近20年首次正式造訪美聯(lián)儲(chǔ),特朗普和鮑威爾說了些什么?

美國總統(tǒng)時(shí)隔近20年首次正式造訪美聯(lián)儲(chǔ),特朗普和鮑威爾說了些什么?

澎湃新聞
2025-07-25 08:42:32
一問到底丨確診超4000例,基孔肯雅熱啥來頭?總臺(tái)專訪中疾控專家

一問到底丨確診超4000例,基孔肯雅熱啥來頭?總臺(tái)專訪中疾控專家

環(huán)球網(wǎng)資訊
2025-07-25 22:21:31
世衛(wèi)組織警示基孔肯雅熱疫情風(fēng)險(xiǎn),呼吁全球加強(qiáng)防控

世衛(wèi)組織警示基孔肯雅熱疫情風(fēng)險(xiǎn),呼吁全球加強(qiáng)防控

界面新聞
2025-07-25 19:14:25
《戲臺(tái)》上映即翻車,票房大爆卻差評(píng)如潮,這種“爛片”別再拍了

《戲臺(tái)》上映即翻車,票房大爆卻差評(píng)如潮,這種“爛片”別再拍了

銀河史記
2025-07-25 19:38:00
中國是如何識(shí)破雙面間諜斯諾登騙局的?

中國是如何識(shí)破雙面間諜斯諾登騙局的?

霹靂炮
2025-07-25 13:29:17
杜特爾特女兒獲得勝利!菲律賓友華派一片歡騰:小馬科斯要完了

杜特爾特女兒獲得勝利!菲律賓友華派一片歡騰:小馬科斯要完了

小企鵝侃世界
2025-07-25 22:57:39
“內(nèi)鬼”陳天生被查,曾任反貪局局長

“內(nèi)鬼”陳天生被查,曾任反貪局局長

政知新媒體
2025-07-25 18:26:27
河北涿州突降暴雨道路積水快沒過車窗,居民稱“開車像開船”,當(dāng)?shù)兀航煌ㄕ鸩交謴?fù)

河北涿州突降暴雨道路積水快沒過車窗,居民稱“開車像開船”,當(dāng)?shù)兀航煌ㄕ鸩交謴?fù)

極目新聞
2025-07-25 20:06:08
馮德萊恩登上離華專機(jī)前,中歐發(fā)布聯(lián)合聲明,特朗普進(jìn)退兩難

馮德萊恩登上離華專機(jī)前,中歐發(fā)布聯(lián)合聲明,特朗普進(jìn)退兩難

掌青說歷史
2025-07-25 18:13:45
奧巴馬是用進(jìn)步文化和平權(quán)主義摧毀美國立國之本的“特洛伊木馬”

奧巴馬是用進(jìn)步文化和平權(quán)主義摧毀美國立國之本的“特洛伊木馬”

壹家言
2025-07-25 08:59:54
宗慶后的警覺,狐貍分餅,梅艷芳信托化為了烏有

宗慶后的警覺,狐貍分餅,梅艷芳信托化為了烏有

月滿大江流
2025-07-24 17:44:11
連刷《南京照相館》和《戲臺(tái)》,一部超上頭,一部看得昏昏欲睡!

連刷《南京照相館》和《戲臺(tái)》,一部超上頭,一部看得昏昏欲睡!

小丸子的娛樂圈
2025-07-24 15:09:55
河南幫扶人員68張白條2.8萬元餐館欠款已結(jié)清,縣糧食局簽字人:深表歉意,自己先墊的錢

河南幫扶人員68張白條2.8萬元餐館欠款已結(jié)清,縣糧食局簽字人:深表歉意,自己先墊的錢

極目新聞
2025-07-25 11:40:21
53歲性感女神驚爆真空上陣露古怪胸型!豐滿上圍下垂到肚臍

53歲性感女神驚爆真空上陣露古怪胸型!豐滿上圍下垂到肚臍

粵睇先生
2025-07-23 00:55:58
洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰(zhàn)

洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰(zhàn)

南宮一二
2025-07-25 16:50:07
村民要求村委會(huì)公開多年收支,被通知要交“23萬元復(fù)印費(fèi)”?鎮(zhèn)政府:村委提供查閱機(jī)會(huì),對(duì)方執(zhí)意復(fù)印

村民要求村委會(huì)公開多年收支,被通知要交“23萬元復(fù)印費(fèi)”?鎮(zhèn)政府:村委提供查閱機(jī)會(huì),對(duì)方執(zhí)意復(fù)印

大風(fēng)新聞
2025-07-25 21:27:15
兒子高考712分,父親帶出國旅游在海關(guān)被攔,父親:我沒這個(gè)兒子

兒子高考712分,父親帶出國旅游在海關(guān)被攔,父親:我沒這個(gè)兒子

球場指揮家
2025-07-25 20:05:13
2025-07-26 02:00:49
DT Value
DT Value
關(guān)注數(shù)據(jù)價(jià)值,企業(yè)數(shù)字化變革
965文章數(shù) 1158關(guān)注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團(tuán)滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權(quán)

財(cái)經(jīng)要聞

劉煜輝:當(dāng)下重要不是找確定性而是轉(zhuǎn)折點(diǎn)

汽車要聞

李斌一口氣講了近3個(gè)小時(shí)樂道L90 原因是為啥?

態(tài)度原創(chuàng)

房產(chǎn)
家居
親子
數(shù)碼
本地

房產(chǎn)要聞

分?jǐn)?shù)線集體飆漲!海中867分!2025海南中招格局大變!

家居要聞

環(huán)繞設(shè)計(jì) 空間動(dòng)線合理

親子要聞

小宸哥歷險(xiǎn)記之門外有人:不要給陌生人開門

數(shù)碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

本地新聞

換個(gè)城市過夏天|風(fēng)拂鹽湖,躲進(jìn)格爾木的盛夏清涼

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 门头沟区| 华亭县| 贵溪市| 张家口市| 历史| 景洪市| 栾城县| 苏尼特左旗| 甘德县| 二连浩特市| 贵阳市| 苍溪县| 海丰县| 保靖县| 娄底市| 宜昌市| 龙山县| 齐齐哈尔市| 社会| 高陵县| 东莞市| 江永县| 肇源县| 焉耆| 曲水县| 石首市| 湖口县| 九龙城区| 红河县| 浏阳市| 奉贤区| 南郑县| 建瓯市| 怀安县| 龙门县| 五寨县| 绥阳县| 迁西县| 博兴县| 河北省| 汉川市|