隨著DeepSeek等大模型與生成式AI的快速演進,智能機器人、智能化科研、數字孿生、智慧城市、虛擬現實等應用場景日益豐富,智算需求呈“井噴式”增長,傳統數據中心建設模式已難以滿足新的發展要求,智算中心建設正成為數字經濟蓬勃發展的新引擎。本文聚焦智算中心發展新形勢,從彈性靈活、集約部署、綠色低碳、高效智能等維度深入分析基礎設施建設模式的新變化,探究未來技術演進方向,以期為智算中心的建設與發展提供參考。
01
新形勢催生智算中心新變革
在政策層面,國家對算力中心PUE(電能利用效率)的管控持續加碼,綠色低碳成為智算中心建設的剛性約束。2024年,國家發展改革委、工業和信息化部等部門發布《數據中心綠色低碳發展專項行動計劃》,明確提出到2025年底,新建及改擴建大型和超大型數據中心PUE降至1.25以內,國家樞紐節點數據中心項目PUE不高于1.2,可再生能源利用率年均增長10%,平均單位算力的能效和碳效顯著提高。智算中心因高密度算力設備運行與高散熱需求,能耗顯著高于傳統數據中心,需要通過液冷散熱、余熱回收、AI能效優化等技術革新,以及綠電交易、分布式儲能等能源管理模式創新,降低PUE、CUE(碳排放效率),構建符合國家政策要求的綠色低碳基礎設施。
在技術層面,上層業務需求倒逼智算中心“風、火、水、電”等底層基礎設施加速變革。一方面,AI計算任務的復雜性和數據量的爆炸性增長,要求AI芯片具備更強處理能力和更高運算效率,其設計不斷向更高集成度、更多核芯數、更高頻率的方向發展,計算能力提升的同時功耗顯著增加。另一方面,智算中心業務不確定性強、迭代變化快、流量峰谷波動顯著,對供電制冷、監控運維等配套系統帶來多重挑戰。因此,實現基礎設施、服務器、芯片、網絡、應用間的高效協同與耦合成為重要方向。
彈性靈活
高密度集群化部署使得供電制冷系統的復雜程度顯著增加。一方面,GPU芯片的熱設計功耗從過去的百瓦級向千瓦級躍遷,單個機柜功率密度攀升至30~200千瓦,單體樓宇負載或達兆瓦級,亟需新型高效的供電架構。另一方面,智算中心的運算任務會使設備負載動態變化,如大規模AI模型訓練時服務器集群的耗電量急劇上升,處理日常數據任務時負載相對較低。業務量波動和高功耗特性,驅動智算中心供電制冷系統須具備彈性靈活、快速響應業務變化的能力。
機房基礎設施應綜合考慮算力演進,適配多樣化算力需求,按需支持多功率密度、多種制冷方案的彈性匹配。在規劃設計方面,冷源、電源、機房應適當預留容量或空間,如增加地板出線孔數量、設計容量冗余、確保制冷方式兼容性、實施智能電力管理等。在末端部署上,機柜可采用智能小母線和智能PDU(電源分配單元)實現精細化電力分配、實時監測及智能化能源管理,提高配電系統的靈活性和運行效率。電力模塊可采用“旁路滿載供電+電池放電逆變補電”的混合模式,確保供電穩定。制冷方式可根據訓練和推理業務的占比情況,選擇適當比例的風液融合方案,構建機柜微模塊、供電模塊、制冷模塊共用冷源,風冷、水冷、液冷同源且按需分配的架構,以支持算力的彈性部署與迭代演進。中國聯通粵港澳大灣區樞紐(韶關)智算中心大規模集成AI調優、智能小母線、光伏、儲能等技術,實現機房靈活部署、多場景設計及高擴展性,可適配4~20kW功率并為液冷高功率需求預留空間。
集約部署
AI服務場景業務要求響應速度快,建設模式呈現集約部署趨勢。首先是建設部署預制化。傳統數據中心建設周期長,通常需要三年以上,難以適應當前算力技術快速迭代和業務智能化升級需求。預制化模式通過標準化設計、工廠預制和現場組裝,實現隨需部署與彈性擴展,在有效縮短建設周期的同時減少建設過程碳排放,更能適應技術發展和市場需要。中聯數據烏蘭察布亞信數據港園區1號智算中心在建設過程中采用模塊化設計,部署預制式氟泵空調機組、集裝箱式柴油發電機組。
其次是產品設備集成化。以基礎設施層供電系統為例,電力模塊將電源轉換單元、控制電路、保護裝置、監測傳感器等供電相關組件整合成功能完備的模塊化單元,打破傳統供電系統中各組件獨立設置、相互連接的模式,實現供電功能的高度集成與優化。華為融合極簡電力模塊解決方案采用高密UPS和開創式融合架構設計,通過銅排預制縮短供電鏈路。維諦技術的Liebert@APM2系列大功率模塊化UPS憑借超高雙變換系統效率、較小占地面積和豐富靈活的配置,顯著節約了運營成本。在IT層,應統籌規劃軟硬件集成,使基礎設施與IT設備適配,避免重復建設和資源浪費,確保高效算力輸出。目前,規劃建設和設備部署的協同設計,以及供電制冷等機房基礎設施如何更好匹配業務發展,進而支撐算存網發揮最大性能,也是重要的研究方向。
綠色低碳
中國信通院數據顯示,截至2024年底,我國算力中心用電量超過1660億kWh,未來幾年仍將高速增長,2030年或超過4000億kWh。智算中心的綠色低碳發展趨勢正驅動商業模式創新:綠色低碳不僅是用戶選購智算中心及算力服務的重要考量,也是企業服務方案的核心競爭力,應從基礎設施、IT設備到算力平臺、應用,進行全方位、全流程、全技術棧的能效優化與碳排放管理。在基礎設施層,可通過布局綠色能源、開展綠電交易、應用“源網荷儲”等技術,實現算力與綠色能源的協同發展。合盈數據在張家口地區開拓“綠電供綠產”模式,依托區域內的可再生能源、新型電力系統及儲能配套設施,結合創新節能減排技術,使合盈數據(懷來)科技產業園實現充足穩定的綠電供應,CUE值處于較低水平。
在IT設備層,多項政策強調提升算力能效和碳效水平,應關注AI芯片、CPU、顯存、帶寬等設備的利用率,持續優化單位能耗的算力輸出,充分發揮算力性能,減少算力設備的無效、低效運行時間。在平臺側,應通過靈活的算力資源選擇與遷移能力、算力編排管理系統、碳排放監測與統計平臺等,適應不斷變化的應用需求和能效要求。螞蟻集團GreenOps綠色減碳平臺有效解決了大規模集群資源合理分配、分鐘級有效調度、智能流量預測等行業難題,顯著提升了資源利用率。從2017年到2023年,螞蟻集團服務器CPU利用率增長了5倍。
高效智能
隨著技術的飛速發展,運維架構也歷經了顯著變革。早期傳統運維架構主要依靠人工運維,運維人員需要手動執行服務器配置、軟件部署、故障排查等各類任務,效率低下且易出錯。面對算力中心現場生產和遠程集中化管理的運維需求,可借助動環監控、高效智能的DCIM等平臺或工具,通過運維大模型等算法整合的方式實現自動化、智能化運維,并對執行過程進行監管。
在全面擁抱AI的今天,為確保智算中心滿足AI業務高并發、海量數據處理、實時性要求高、模型迭代頻繁的需求,行業應監控更多維度指標:不僅要關注服務器CPU、內存等常規指標,更要重點監控GPU利用率、顯存占用、網絡帶寬時延等關鍵指標,同時跟蹤模型訓練進度、推理準確率等業務指標。因此,亟須構建更完善的聯動運維機制,整合供電制冷、“算存運”等多源數據,實現智能分析與快速響應,以滿足AI業務對智算中心的復雜運維需求。例如,普洛斯懷來大數據科技產業園采用自研GLP DCBASE智慧化運營系統,通過AI智能算法高效耦合運維管理系統,切實滿足用戶快速部署大規模算力集群的應用場景需求。
總體來看,智算中心歷經早期探索、技術生態大爆發階段,隨著新變革的推進,今后將提供更成熟的社會級服務(如圖1所示)。
智算中心演進的三個階段
02
圍繞六大特征持續演進
隨著上層業務愈加復雜多元,智算中心算力性能和服務等軟能力輸出備受關注。智算中心將呈現高算力、高安全、高可用、高能效、智運營、優服務六大特征。在高算力方面,綜合考量現存容量與帶寬、互聯技術及系統架構設計等因素下的真實有效算力表現。在高安全方面,從網絡、數據、應用等層面構建完善的安全保障體系。在高可用方面,構建資源管控、故障分級、故障檢測修復等全套能力,延長無故障運行時間。在高能效方面,從硬件、軟件、平臺、應用等維度構建全方位能效管理體系,優化單位算力的能效與碳效。在智運營方面,通過智能化管理平臺、運維大模型等工具,實現從數據采集到預測性維護全流程的數智化。在優服務方面,適配業務場景提供靈活彈性的算存運服務,開展數據處理、模型遷移開發等,提高算力普適普惠服務水平。
未來,智算中心將圍繞上述六大特征持續演進,成熟度內涵從基礎設施、IT設備、軟件平臺向應用領域拓展,各系統高效協同與耦合的趨勢不斷深化,從而推動智算產業高質量發展。
*本文刊載于《通信世界》
總第970期 2025年6月25日 第12期
原文標題:《
智算中心建設模式的顛覆與重構
6GHz頻譜“爭奪戰”:全球通信業的角力與博弈
管理層“大換血”,中國星網行業格局將生變?
為何三大運營商要重啟eSIM業務?
作者:中國信息通信研究院 王月 張佳琪 李潔
責編/版式:王禹蓉
審校:王 濤 梅雅鑫
監制:劉啟誠
【通信世界新媒體矩陣】
央視頻 | 微軟MSN | 視頻號 | 微博 | 今日頭條 | 百家號 | 網易號 | 搜狐 | 騰訊新聞
新浪看點 | 雪球號 | 抖音 | 快手 | 愛奇藝 | 知乎 | 嗶哩嗶哩 | 咪咕視頻 | CSDN | 36氪
【新媒體團隊】
監制|劉啟誠
審校|王濤 梅雅鑫
編輯|王禹蓉
視頻制作|蓋貝貝 黃楊洋 盧瑞旭 蔣雅麗
運營|林嵩
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.