“AI的盡頭是電力”,真不是一句玩笑話。
來(lái)自Gartner的報(bào)告顯示,“到2027年,40%的AI數(shù)據(jù)中心將因電力供應(yīng)不足而導(dǎo)致運(yùn)營(yíng)受限。”國(guó)際能源署(IEA)發(fā)布的報(bào)告指出,“越來(lái)越普遍的超大規(guī)模數(shù)據(jù)中心的電力需求達(dá)到100MW(兆瓦)甚至更高,每年的用電量相當(dāng)于約35萬(wàn)至40萬(wàn)輛電動(dòng)汽車的電力需求?!?/p>
與一個(gè)傳統(tǒng)數(shù)據(jù)中心幾MW到幾十MW的用電量相比,大型智算中心的涌現(xiàn),導(dǎo)致用電量的飆升是顯著的,用電和能耗越來(lái)越成為AI時(shí)代數(shù)據(jù)中心運(yùn)營(yíng)面臨的巨大挑戰(zhàn)。
大模型熱潮推動(dòng)通用算力向AI算力過(guò)渡,在這種算力革命中,蘊(yùn)含了數(shù)據(jù)中心的跨越式巨變。
AI時(shí)代的數(shù)據(jù)中心跨越式巨變與挑戰(zhàn)
在華為數(shù)據(jù)中心能源領(lǐng)域總裁堯權(quán)看來(lái),相比傳統(tǒng)計(jì)算,AI時(shí)代主要有2個(gè)變化:第一是從摩爾定律到后摩爾時(shí)代,性能和功率大幅上漲;第二是從“異步”到“同步”計(jì)算方式的變化,AI設(shè)備集群化趨勢(shì)明顯。前者以功耗換性能,從CPU到GPU,服務(wù)器、機(jī)柜等功率提升至少10倍;后者推動(dòng)AI設(shè)備集群化部署以達(dá)到更高的算效比,并帶來(lái)十倍的負(fù)載波動(dòng)率擴(kuò)大,超頻或異常情況下甚至出現(xiàn)毫秒級(jí)320%過(guò)載的極端情況。
華為數(shù)據(jù)中心能源領(lǐng)域總裁堯權(quán)
這樣的變化進(jìn)而為DC基礎(chǔ)設(shè)施的建設(shè)帶來(lái)了新的挑戰(zhàn)。
以上提及的電力需求大的挑戰(zhàn)是最為直觀的,IDC預(yù)測(cè),AI數(shù)據(jù)中心的能耗將以44.7%的復(fù)合年增長(zhǎng)率增長(zhǎng),到2027年達(dá)到146.2TWh(太瓦時(shí))。隨著1GW數(shù)據(jù)中心正在成為現(xiàn)實(shí),亟需解決獲取電力難、絕對(duì)耗電量增加等難題。
與此同時(shí),AI的快速發(fā)展也帶來(lái)了數(shù)據(jù)中心安全性、高功率和不確定性挑戰(zhàn)。
例如,集群計(jì)算帶來(lái)了故障域的增加,一個(gè)環(huán)節(jié)的故障可能會(huì)影響整個(gè)集群系統(tǒng),導(dǎo)致大模型訓(xùn)練任務(wù)中斷等業(yè)務(wù)影響和巨大的經(jīng)濟(jì)損失;伴隨著功率密度提高,配電間占地激增,同時(shí)制冷系統(tǒng)一旦出現(xiàn)故障,故障響應(yīng)時(shí)間由5kW/柜的5~10分鐘縮短至100kW/柜的10s級(jí),否則將出現(xiàn)高溫宕機(jī);另外,隨著AI芯片的功耗密度跨越從三年一代,加速到一年一代,這時(shí)面臨不確定挑戰(zhàn),即今天新建的數(shù)據(jù)中心能不能滿足2年后的需求?
一系列挑戰(zhàn)需要新的數(shù)據(jù)中心架構(gòu)、技術(shù)、產(chǎn)品進(jìn)化去應(yīng)對(duì),日前舉辦的華為數(shù)據(jù)中心能源十大趨勢(shì)發(fā)布會(huì),為行業(yè)提供了洞見(jiàn)與思考。
安全、彈性與綠色的數(shù)據(jù)中心進(jìn)化之路
發(fā)布會(huì)上,華為堯權(quán)分享了數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)的十大趨勢(shì),面向智算時(shí)代的數(shù)據(jù)中心進(jìn)化之路指向了三個(gè)核心原則:安全可靠、彈性演進(jìn)、綠色低碳。
- 安全可靠是智算DC的第一核心訴求
根據(jù)Uptime Institute 2023年全球數(shù)據(jù)中心調(diào)查,55%的數(shù)據(jù)中心運(yùn)營(yíng)商因電力、冷卻、軟硬件及網(wǎng)絡(luò)問(wèn)題等,在過(guò)去三年內(nèi)遭受過(guò)停機(jī)故障,盡管故障頻率在下降。但重大故障造成的損失仍然很大,54%的受訪者表示最近一次重大故障造成的損失超過(guò)10萬(wàn)美元,16%的受訪者表示一次中斷損失超過(guò)100萬(wàn)美元。
以往建設(shè)數(shù)據(jù)中心很關(guān)注成本,因?yàn)檫^(guò)去數(shù)據(jù)中心L1建設(shè)費(fèi)用占比在15%左右,而智算數(shù)據(jù)中心服務(wù)器價(jià)值激增,同時(shí)L1基礎(chǔ)設(shè)施占比只有3%左右,因此安全可靠成了L1基礎(chǔ)設(shè)施的最重要要素。
所以,數(shù)據(jù)中心壞不起,尤其面向智算時(shí)代,IT設(shè)備的價(jià)值更高,安全故障的代價(jià)更大。
華為發(fā)布的數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)十大趨勢(shì)首要便指出,安全可靠已成為建設(shè)DC基礎(chǔ)設(shè)施的第一核心訴求。如何做到真正的安全可靠?顯然不能局限于單點(diǎn)或局部。華為認(rèn)為從規(guī)劃、建設(shè)到維護(hù),以高可靠的器件、產(chǎn)品、架構(gòu),以及智能化管理、專業(yè)化服務(wù)等全生命周期的安全可靠,才是真正意義上的安全可靠。并且,安全可靠的數(shù)據(jù)中心降低故障發(fā)生的風(fēng)險(xiǎn)和損失,這也意味著全生命周期的安全可靠才是真正的低成本。
其次,隨著智算DC的功率密度增加,機(jī)電設(shè)備有著高電壓、大電流的特征,這些設(shè)備的應(yīng)用安全性是不得不考慮的因素,隔離式架構(gòu)是保障算力設(shè)施安全的最優(yōu)選擇。一方面,強(qiáng)電優(yōu)選進(jìn)行拉遠(yuǎn)化部署,確保故障域風(fēng)險(xiǎn)最小化;另一方面,在條件不具備的情況下,強(qiáng)電與IT機(jī)房室內(nèi)獨(dú)立隔離部署,并做到對(duì)應(yīng)的鋰離子電池室規(guī)范化部署。
再者,在智算功率密度激增環(huán)境下,正如上文所言,故障響應(yīng)時(shí)間縮短到10s級(jí),連續(xù)式制冷是智算高密場(chǎng)景的必要能力。其一要確保正常運(yùn)行制冷不中斷,如何保證供電連續(xù)、無(wú)感切換、規(guī)避器件單點(diǎn)故障是實(shí)現(xiàn)連續(xù)制冷的關(guān)鍵;其二要實(shí)現(xiàn)極端異常場(chǎng)景下的快速恢復(fù),一鍵最大制冷輸出、設(shè)備中斷后快速重啟、液冷系統(tǒng)快速補(bǔ)液等逃生通道尤為重要。
繼而,預(yù)測(cè)性維護(hù)又是保障安全可靠的又一道重要防線,面對(duì)數(shù)據(jù)中心的三大主要故障:掉電、起火和高溫,AI將顯著提升DC運(yùn)維主動(dòng)安全。例如,AI通過(guò)擬合電池充放電曲線,精準(zhǔn)預(yù)測(cè)備電時(shí)間,避免因放電不足導(dǎo)致掉電;針對(duì)鋰電池,AI能通過(guò)電、熱、化學(xué)信號(hào)識(shí)別潛在風(fēng)險(xiǎn),防止熱失控;此外,AI還能預(yù)測(cè)空調(diào)冷量衰減,并分析液冷管路的滲漏風(fēng)險(xiǎn),防止機(jī)房高溫故障。所以,從故障的被動(dòng)響應(yīng)到主動(dòng)預(yù)防,AI能夠發(fā)揮重要作用。
最后,3分靠設(shè)備,7分靠維護(hù),專業(yè)化服務(wù)是DC可靠運(yùn)行的堅(jiān)實(shí)保障。在部署環(huán)節(jié),從交付前到交付后,包括環(huán)境/施工/驗(yàn)證等,依靠工具進(jìn)行E2E全流程管控;在維護(hù)環(huán)節(jié),通過(guò)定期巡檢和工具監(jiān)測(cè)服務(wù),提前發(fā)現(xiàn)潛在風(fēng)險(xiǎn)。總之,包括專業(yè)的工程師、軟硬件平臺(tái),以及專業(yè)的流程和標(biāo)準(zhǔn)在內(nèi)的專業(yè)化服務(wù)是確保數(shù)據(jù)中心全生命周期安全可靠的關(guān)鍵因素。
- 彈性演進(jìn)構(gòu)建應(yīng)對(duì)不確定性的基礎(chǔ)設(shè)施架構(gòu)
彈性演進(jìn)是華為發(fā)布的數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)十大趨勢(shì)呈現(xiàn)出的第二個(gè)核心原則。
在芯片迭代加速和AI正面臨圈地激烈競(jìng)爭(zhēng)環(huán)境下,企業(yè)要贏在起跑線,數(shù)據(jù)中心建設(shè)速度快、交付快,基礎(chǔ)設(shè)施構(gòu)建應(yīng)對(duì)不確定性的架構(gòu),尤為關(guān)鍵。
華為指出,模塊化架構(gòu)是應(yīng)對(duì)AI DC需求不確定性的關(guān)鍵。模塊化架構(gòu)通過(guò)機(jī)房標(biāo)準(zhǔn)化、功能模塊化和機(jī)電解耦化,實(shí)現(xiàn)核心子系統(tǒng)按需部署和彈性擴(kuò)容,靈活適應(yīng)未來(lái)業(yè)務(wù)演進(jìn)。
另外,子系統(tǒng)預(yù)制化是AI DC快速交付的有效手段。一方面,預(yù)制化帶來(lái)更高的生產(chǎn)效率,讓DC產(chǎn)品更快地完成現(xiàn)場(chǎng)交付;另一方面,子系統(tǒng)預(yù)制化不是全預(yù)制,也不是部件預(yù)制,而是將解決方案產(chǎn)品化,需要經(jīng)過(guò)專業(yè)的設(shè)計(jì)、仿真、測(cè)試和自動(dòng)化工裝等方式,實(shí)現(xiàn)匹配彈性需求的各子系統(tǒng)相互獨(dú)立且預(yù)制化,為AI數(shù)據(jù)中心快速且高質(zhì)量交付提供保障。
- 綠色低碳破解智算集群電力獲取難、高能耗難題
綠色低碳是華為發(fā)布的數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)十大趨勢(shì)呈現(xiàn)出的第三個(gè)核心原則。
正如我們上文指出,AI的盡頭或者說(shuō)算力的盡頭是電力,智算的電力需求大是嚴(yán)峻挑戰(zhàn),對(duì)此帶來(lái)的是成本的高企。推動(dòng)數(shù)據(jù)中心綠色節(jié)能有著巨大的經(jīng)濟(jì)收益,例如對(duì)于一個(gè)500MW的數(shù)據(jù)中心來(lái)說(shuō),PUE降低0.1,每年就能節(jié)省超過(guò)2億的電費(fèi)。如何實(shí)現(xiàn)綠色低碳?
首先,在以液冷為趨勢(shì)的場(chǎng)景下,和風(fēng)冷追求溫控效率不同,供電高效在AI DC的價(jià)值日益凸顯。在此過(guò)程中,供電效率從模塊高效走向系統(tǒng)高效變得越來(lái)越必要,即追求數(shù)據(jù)中心UPS的極致能效。S-ECO(智能在線模式)突破供電效率瓶頸,是提升整體系統(tǒng)效率的理想選擇,并解決了切換時(shí)延和均流問(wèn)題。
其次,AI將賦能DC綜合能效提升。在供電方面,尤其是S-ECO模式下,需要AI來(lái)對(duì)供電設(shè)備進(jìn)行輪巡控制,根據(jù)電力模塊負(fù)載情況靈活調(diào)控,賦能供電能效提升;在制冷方面,尤其是風(fēng)液共存的制冷方案下,調(diào)參的復(fù)雜度較大,AI能力能更精細(xì)地根據(jù)設(shè)備環(huán)境情況來(lái)調(diào)整制冷能效,賦能制冷能效提升。
第三,算電協(xié)同將成為DC建設(shè)的新模式。一系列權(quán)威報(bào)告已經(jīng)說(shuō)明,未來(lái)AI數(shù)據(jù)中心因電力供應(yīng)不足導(dǎo)致運(yùn)營(yíng)受限是現(xiàn)實(shí)問(wèn)題。破解之策在于,采用綠電直供,如在數(shù)據(jù)中心周圍建設(shè)光伏,滿足DC電力容量需求。與此同時(shí),電網(wǎng)協(xié)同也能更好地做到調(diào)頻調(diào)峰,實(shí)現(xiàn)更高的出電率。另外,數(shù)據(jù)中心還可以根據(jù)自身訓(xùn)練、推理的需求,按需調(diào)度負(fù)載,實(shí)現(xiàn)綜合效率最優(yōu)。
筑牢AI基石,讓數(shù)字世界堅(jiān)定運(yùn)行
總體來(lái)說(shuō),安全可靠、彈性演進(jìn)、綠色低碳指明了通用算力向AI算力過(guò)渡中,數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)的演進(jìn)之路與趨勢(shì)。
據(jù)Gartner預(yù)測(cè),到2026年,超過(guò)80%的企業(yè)將使用生成式人工智能API,或部署生成式人工智能的應(yīng)用程序。毋庸置疑,AI浪潮已呼嘯而來(lái),在此背后,智算基礎(chǔ)設(shè)施是促進(jìn)各領(lǐng)域產(chǎn)業(yè)智能化升級(jí)的底座和發(fā)動(dòng)機(jī)。
在AI推動(dòng)的算力革命中,筑牢算力新時(shí)代的基石至關(guān)重要,安全可靠、彈性演進(jìn)、綠色低碳的數(shù)據(jù)中心讓數(shù)字世界堅(jiān)定運(yùn)行。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.