編者按:
3月27日,以“液冷深融合”為主題、由CDCC和益企研究院聯合主辦的“”在杭州圓滿舉行。浙江吉利智算信息科技有限公司副總經理張國林在本次液冷大會上,針對新建、改建數據中心時,如何適應液冷技術的短期和長期需求,做了題為《風液共存的數據中心建/改探索》的主題演講。
本文是根據張國林的演講整理而成,略有刪減。
隨著AI時代的全面來臨,算力產業迎來了前所未有的高速發展期。伴隨而來的是AI算力功耗猛增,傳統數據中心已經很難適應部署AI基礎設施的要求。液冷技術在保障算力持續攀升的同時,有利于實現高效節能,更符合綠色發展理念,成為了行業內共同關注的焦點。但液冷技術的應用是一個長期發展的過程,風液共存是相當長時間內數據中心的主要形態。
首先,從服務器的發展趨勢來看,必須積極擁抱液冷;其次,風冷與液冷共存的狀態在未來比較長的時間內(5到10年)會持續;其三,數據中心在建設、改造、運維的過程中,需要充分考慮液冷技術部署的需求。
服務器發展趨勢:擁抱液冷
目前芯片的性能和功耗發展非???。CPU方面,英特爾的至強6已經達到500W,一個機柜放幾十顆CPU,總功耗還是比較可觀。GPU的功耗更高,新一代的GB200、GB300的參考設計基本上都是液冷。
根據相關的專業機構的研究,液冷服務器預測將在2028年會突破100億美元,年復合增長在50%左右。也有相對專業的機構對整個服務器市場做了預測,每年大概在7%到8%的增長水平。從這里可以看出,液冷的增長是非??焖俚?,遠高于整體服務器增長率。
液冷服務器的發展與汽車差不多。10年前說到新能源車的時候,大家擔心各種問題,電池對身體是否有傷害,會不會爆炸?今天沒必要討論這些問題了,新能源車是趨勢,相關的法律法規已經比較成熟。液冷服務器也是一樣,經過這幾年的發展,從試點走向大面積的部署。數據中心液冷技術的規程,相應的法律法規、政策、指導意見都會陸續出臺。
受市場的驅動,液冷的散熱效率與節能效果,相對傳統風冷在降低CPU核心溫度、降低運營成本方面的優勢是很明顯的。但是有一個問題:液冷到底是對PUE唯一的影響,還是說它只是其中的一部分?
我們也知道,數據中心和PUE的計算方式是總能耗除以IT設備的能耗。液冷和風冷的區別在哪里?從配電側來講,幾乎影響不大。最大影響可能在制冷側,傳統風冷是靠電制冷的,用水冷,里面的備件功耗相對做液冷的高很多。其他的弱電環境,包括IT設備的功率因數,這些基本上都是不變的。
從這里可以看出,影響PUE的因素非常多,液冷并不是影響PUE唯一的因素。對于關于液冷能夠讓PUE達到某個指標,甚至低到1.1的說法,需要慎重。對我們來說,具體測PUE時候,不會光測液冷部分的單獨的PUE,肯定是測整體的。在某些模式下面,我們華東地區一年也有3到4個月的全靠自然冷源進行制冷的,北方的時間更多。在某些情況下,用液冷反而會額外帶來一些驅動,功耗有一定的上升。但整體來說,液冷對風冷來說一定是節能的,我們經過長期的數據監測,這個是肯定的。
風冷服務器占主導:長期風液共存
根據幾個機構的預測,大概在2028年,液冷服務器占整體服務器出貨量的比例可以達到30%。這說明兩個問題:首先是液冷發展非常迅速,非常好,大家必須接受它;其次,液冷畢竟只有30%,還有70%是風冷的服務器。從這一點可以看出,在當前的情況下,甚至未來很長一段時間之內,在同一個數據中心內,風冷跟液冷共存是一個比較普遍的現象。這就給我們帶來很大的挑戰:到底這個數據中心怎么建?
上圖是我們改建的一個很典型的、風液共存的數據中心。圖中較長的列是傳統的風冷的機柜。紅色標注出來的是兩個液冷區域,一個是冷板式液冷,還有一個是浸沒式液冷。
在一個模塊當中三種制冷方式的布局,我們要考慮的問題比較多。特別是已經運行的數據中心,改或者是建的時候,是風液同源,還是異源的?如果是用相變方案的,不需要考慮同源了,要重新建。液冷方案在部署的時候,到底沿用管路還是新建一套,到底選用同源還是異源,要根據實際的情況選。上圖所示的數據中心選擇的是同源。
風液共存數據中心建/改方式思考
風液共存的數據中心應該選擇風冷同源設計還是風冷異源設計?不同的數據中心,應結合不同的情況進行選擇,在新建設數據中心或者改造數據中心亦是如此。
新建數據中心
新建的數據中心可以規劃的更好一些,包括管路預留。選液冷是為了運營節能,并帶來經濟效益,但是新建的時候不能有冗余造成浪費。
對于冷板方案,考慮到很多服務器可以接受30℃以上的高水溫,正常的冷卻水溫度足矣,并不需要建冷凍水。同時,因為我們要建立液冷的一次側系統和二次側系統,必須得留有一次側的空間,建議設置一些空房間,以備未來放置一些水泵。
如果考慮不同源的,要有足夠的地方放置散熱塔。很多數據中心將散熱塔設置在樓頂,一般散熱面荷載設計得不會太高,這樣會導致后期再去放置室外的散熱器面臨承重不夠的問題。我們建議在做新的樓層設計的時候,立柱盡量伸出屋面,方便后期在立柱上搭一些鋼平臺,可以放室外的散熱器。
冷凍側方面,未來液冷使用CDU散熱,原本屋內的空調冷凍水的是沒有任何作用的,甚至還占空間。建議精密空調側環網進行三通預留,后期如果上風冷可以快速部署冷凍管,安裝精密空調;如上液冷則末端間有足夠的空間部署CDU,還可以省下原本用于精密空調的閥門,不但減少建設成本,還能降低管路阻力、節省運營成本。
IT機房區,如果未來規劃還不明確的情況下,建議白地板預留,但樓板面需要進行防水處理,因為液冷水進入了IT設備區域。橋架系統根據后期不同業務部署再進行二次設計,對于液冷機房不需要布橋架系統。對于大功率機柜,一個機房可能一兩列就可以了。譬如我們改造了一個大概有160個機柜的機房,我們實際只需要部署20個機柜就足夠。配件放多了是沒用的,這個投資也會造成很大的浪費。
消防設置方面,如果考慮要部署液冷,特別是有下層空間的,地板下面不要去布有火災有隱患點的走線等。這樣就可以考慮取消地板下氣體噴淋管道,避免后續部署二次側供液時,出現管道打架的問題。
改造數據中心
改造數據中心需要考慮現有設施的實際情況。IT設備區改造的時候,需要做一些防水的處理,同時還要規劃好事故后的緊急排水與補水。我們在二次側冷凍水管末端留了一個快速的接口,在業務不能暫停的情況下,可以直接往里面充冷凍水。但是這種情況一般不會發生。
在風液同源的情況下,必須采用水冷系統。在預備循環泵放置空間的同時,確保有冷卻系統立管有足夠冗余。同時必須核實有足夠的空間去設置CDU與二次側環路空間,用于冷板式或單相浸沒。
風液異源的情況下,需核實是否有足夠空間放置室外機或冷卻塔空間,以及格外注意防水。對于樓頂放置冷卻設施的數據中心,需要核實是否承重(破壞樓頂),或因管道貫穿,破壞原有保溫/防水層結構。
液冷系統的維護
設置過濾網
對于二次側進服務器前端是否設置過濾網有不同的看法,部分認為如爆發微生物的情況比較常見,設置濾網可以有效濾除沉積雜質;而部分認為設置過濾網會影響流量,導致換熱效果變差。
有些人認為服務器冷板的翅片間距最小有3個毫米,不至于堵塞。但是實際上是不是這樣的。我們當年部署液冷時安裝了濾網,運行兩年后,拆開濾網,可以看到其實已經堵的密密麻麻了,甚至對水流都產生影響。水洗后,可見雜質是非常的明顯。這個為什么要拆洗?因此我們監測到設備溫度是正常的,但是出水的溫度是偏高的。為什么水溫偏高?我們判斷它的流量可能是變少了,很有可能是濾網堵了,所以我們拆開看,跟我們的判斷是完全一致的。
因此,在二次側進液冷機柜之前,布置一個濾網還是有必要的,雖然確實會對流量造成一定的影響。
微生物防治
我們采用設置CDU換熱的液冷系統,在建立一次側與二次側管路的時候,需要特別注意清洗與滅菌處理。液冷運行溫度很高,這樣的環境很容易導致細菌的滋生。微生物一旦爆發,尸體過多會堵塞濾網和冷板。
圖中的水就很典型,黃綠色,明顯是細菌污染。這個樣本來自新建二次側系統的保壓過程。在接入服務器之前,舍不得加藥(抑菌劑),因為藥不便宜,加一次幾萬塊錢。但不加藥會造成一個問題,在保壓這段時間內,微生物會大量繁殖。一旦微生物爆發之后,后期很難處理,需要沖得很干凈,否則會出現反復。有很多數據中心改液冷以后,始終處理不好這個問題。因此,我們建議在施工完成保壓階段,盡量加一點藥劑放到里面,不要讓微生物有滋生的機會。在服務器正式接入之前,應該對管道進行大量的清洗,建議在一個季度左右定期做一些檢測。
總結
在風液共存的大背景下,我們對數據中心建設、改造、運維的一些思考總結如下:
風液共存在今后相當長一段時間內是必然趨勢,數據中心建設需充分考慮實際情況進行一些預留以方便后續部署液冷服務器不影響原系統安全運行。
風冷改造液冷的大原則是盡可能少改動原有配電系統,新改造的液冷系統需要充分考慮對原空間布局的影響,充分考慮動環等接入原有系統以方便統一運維。
要重視液冷系統的維護,要及時對比CDU、液冷服務器進出水溫度/流量變化,定期對液冷介質進行檢測,及時補充緩蝕劑、滅菌劑。我們建議每一個季度做一次檢測,這個檢測費用不貴。特別是微生物有沒有污染,現場可以出結果。如果有問題,我們一定要及時補充一些緩蝕劑和滅菌劑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.