過去的一年,多模態(tài)大模型不斷給行業(yè)帶來驚喜,隨著生成式AI和大模型技術(shù)加速破圈,算力進(jìn)入“建設(shè)為王”的新時代。
從數(shù)據(jù)統(tǒng)計來看,2023年全國有超過30個城市在建或籌建智算中心的項目達(dá)到128個。2024年12月底,全國規(guī)劃、擬建、在建帶有“智算中心”的數(shù)量達(dá)到有732個。
在智算中心建設(shè)一路高歌猛進(jìn)之時,智算中心的“空置率”最近成為行業(yè)內(nèi)熱議的話題,網(wǎng)上也出現(xiàn)“智算中心太多,大模型不夠用了”的直言。
對于頭部互聯(lián)網(wǎng)及云計算公司而言,智算中心是其提升核心競爭力的體現(xiàn),建設(shè)效率可能比研究突破更能決定誰將在AI的下一階段脫穎而出。但針對ToB、ToC的AI應(yīng)用尚未如預(yù)期般大規(guī)模快速增長,智算中心健康運(yùn)行面臨的核心依然是消納算力問題。
在最近聯(lián)想組織的走進(jìn)海南崖州灣科技城、探索智算基礎(chǔ)設(shè)施與AI應(yīng)用的創(chuàng)新之旅中,海南人工智能計算中心堅定的產(chǎn)業(yè)運(yùn)營思維,提供增效向新的智能算力和綠色可持續(xù)的技術(shù)方案,再次驗證了這一邏輯:追求與客戶的實際應(yīng)用落地一直是智算中心敘事源頭。
運(yùn)營思維 智算中心的價值回歸
在三亞市西部,有一塊占地26.1平方公里的這片熱土,正在構(gòu)建一個陸海統(tǒng)籌、開放創(chuàng)新、產(chǎn)業(yè)繁榮、綠色節(jié)能的科技新城典范,這里便是有由南繁科技城、三亞深海科技城、三亞崖州灣大學(xué)城、南山港和全球動植物種質(zhì)資源引進(jìn)中轉(zhuǎn)基地五大部分構(gòu)成的崖州灣科技城。
2020年6月1日,中共中央、國務(wù)院印發(fā)《海南自由貿(mào)易港建設(shè)總體方案》后,崖州灣科技城不僅承擔(dān)了國家深海科技創(chuàng)新中心、培育深海深空產(chǎn)業(yè)的重任,同時還要發(fā)揮國家南繁科研育種基地優(yōu)勢,建設(shè)全球熱帶農(nóng)業(yè)中心和全球動植物種質(zhì)資源引進(jìn)中轉(zhuǎn)基地。
隨后,崖州灣科技城圍繞南繁種業(yè)、現(xiàn)代生物醫(yī)藥、深海科技,航天科技、腦科學(xué)五個產(chǎn)業(yè)布局。
好消息是:聚焦南繁、深海、科教三大科技創(chuàng)新高地,入駐崖州灣科技科技城的研究機(jī)構(gòu)和企業(yè)客戶不斷增加。但與之而來的崖州灣科技的園區(qū)管理者和進(jìn)駐單位三連問。
1、園區(qū)進(jìn)駐單位增加,算力問題如何解決?
對于園區(qū)而言,園區(qū)原有的云平臺是難以支撐科研的算力需求。比如在種子種業(yè)、精準(zhǔn)醫(yī)療、蛋白質(zhì)結(jié)構(gòu)研究方面,需要百P到E級算力;在深海科技領(lǐng)域,深海探測、海洋信息庫需要高分辨率數(shù)值模擬,都在驅(qū)動計算量指數(shù)級增長。
而在入駐的科研單位中,有的單位自身實驗室機(jī)房散熱差、機(jī)器運(yùn)行穩(wěn)定性差,科研算力資源嚴(yán)重不足;還有一大部分科研計算任務(wù)需要還通過郵寄硬盤到國家超算中心運(yùn)算。
2、科研方向廣,如何構(gòu)建專業(yè)化運(yùn)營滿足細(xì)分需求?
在入駐單位中,不同研究方向細(xì)分場景多,比如種子種業(yè)中的跨物種器官移植項目中的基因編輯生物技術(shù)場景、應(yīng)用在蛋白質(zhì)結(jié)構(gòu)研究中的生物分子模擬場景;還有在深海科技領(lǐng)域中有關(guān)洋科學(xué)研究中洋流數(shù)據(jù)的監(jiān)測、海洋信息庫、新能源開發(fā)這些場景,都需要大算力科學(xué)仿真計算、大并發(fā)的生信分析計算。顯然,以往架構(gòu)單一的云計算無法滿足科研單位的算力需求。
與之相對應(yīng)的是,科研工作者大多非計算機(jī)科班出身,對于超算應(yīng)用軟件的部署、計算環(huán)境的迭代優(yōu)化缺少相應(yīng)能力,急需專業(yè)化的算力平臺和運(yùn)維服務(wù)支撐,讓科研工作者精力回到自身科研業(yè)務(wù)中。
3、如何滿足數(shù)不出園的管理需求?
對于科研單位來說,由于經(jīng)費(fèi)原因難以應(yīng)用價格昂貴的商業(yè)軟件費(fèi);與此同時,基因測序、生信分析產(chǎn)生海量的數(shù)據(jù),對存儲需求極大,科研單位本地存儲資源少,且數(shù)據(jù)安全存在較大隱患。園區(qū)專有云平臺HPC、AI算力不足,存儲資源在海量基因數(shù)據(jù)面前更是顯得捉襟見肘。
對于問題的答案,崖州科技城從海南人工智算中心開始講起:基于當(dāng)?shù)氐募?xì)分業(yè)務(wù)場景,注重智算運(yùn)營思維。
海南人工智算中心由崖州灣科技城管理局負(fù)責(zé)統(tǒng)籌管理,崖州灣科技城管理局與海南電信采用共建共營共享方式,將先進(jìn)計算中心將與人工智能計算中心算力實現(xiàn)統(tǒng)一調(diào)度合并運(yùn)行,為提供園區(qū)科研單位及高校,提供全方位的高效算力綜合服務(wù)。
高質(zhì)算力 讓科學(xué)專注突破界限
算力作為 AI 的核心驅(qū)動力,正經(jīng)歷著前所未有的深刻變革。在芯片的演進(jìn)上,單個芯片通過應(yīng)用Chiplet和先進(jìn)封裝等技術(shù),集成的晶體管數(shù)量持續(xù)增長,相應(yīng)的尺寸和功耗也越來越大。
單芯片的計算能力提升的同時,服務(wù)器架構(gòu)設(shè)計迎來了越來越高的挑戰(zhàn),單機(jī)架功率不斷提升。芯片和服務(wù)器技術(shù)的迭代升級加速了智算中心高密化趨勢,需要發(fā)揮出最大算力性能。
考慮到速率、時延、算力密度疊加問題,海南人工智能計算中心圍繞高密度和短距來布局。目前建設(shè)兩個集群。一是聯(lián)想主要承建的x86集群,二是完全國產(chǎn)自研的ARM集群。
其中聯(lián)想承建的x86集群中,單液冷機(jī)柜包括64-66個節(jié)點(diǎn)服務(wù)器,單個機(jī)柜功率達(dá)到66kW。使用20260顆英特爾8458P,總計達(dá)到90640核算力。
在存儲方面,部署了30P的高速存儲,最多讀寫IO可以達(dá)到700G左右。同時基于園區(qū)內(nèi)客戶對數(shù)據(jù)傳輸?shù)男枨螅轮轂晨萍汲枪芾砭纸y(tǒng)籌建設(shè)了遍及整個園區(qū)的內(nèi)網(wǎng),海南人工智能計算中心實現(xiàn)了100G的骨干網(wǎng)接入,保證科研單位可以通過內(nèi)網(wǎng)直接接入,達(dá)到高速傳輸。
目前結(jié)合算力供給呈現(xiàn)出多元化的復(fù)雜局面,海南人工智能計算中心實現(xiàn)多樣化算力兼容,其中CPU算力11PFLOPS,GPU算力175PFLOPS。
海南人工智能算力中心進(jìn)行通用計算集群、科學(xué)計算集群和AI算力集群進(jìn)行統(tǒng)一管理,并對多種CPU、GPU、DPU等處理器進(jìn)行異構(gòu)管理調(diào)度。
作為科技城的心臟,海南人工智能計算中心為科技城脈搏提供了強(qiáng)勁的動力,不僅支撐著生命科學(xué)、海洋科學(xué)等領(lǐng)域的前沿研究,更為人工智能的發(fā)展注入了強(qiáng)大的算力支持,讓科學(xué)家們能夠?qū)W⒂谕黄平缦蓿剿魑粗?/p>
綠色加碼,講出中國智算故事
按照新一代平臺架構(gòu)設(shè)計,海南人工智能計算中心從設(shè)計到交付,這一切時間僅為1年。
以聯(lián)想交付的集群為例,前期在項目初期,雙方就應(yīng)用、設(shè)計、建設(shè)進(jìn)行充分溝通,梳理出現(xiàn)有及未來研究學(xué)科的主要應(yīng)用和數(shù)據(jù)特點(diǎn),在技術(shù)方案選型及架構(gòu)設(shè)計層面,設(shè)定一套足夠支撐其高性能算力要求、海量數(shù)據(jù)讀寫且能滿足主流學(xué)科應(yīng)用兼容性的技術(shù)框架。
海南人工智能計算中心工程師表示,打造高密算力必經(jīng)之路是:液冷技術(shù)的應(yīng)用。海南人工智能計算中心項目要求PUE值整體必須低于1.3,且因存儲、網(wǎng)絡(luò)、安全設(shè)備均為風(fēng)冷,對液冷服務(wù)器的PUE要求極高。
在建設(shè)方案上,從封閉冷通道、板水冷、循環(huán)水水冷、浸沒式水冷各種方案的性能、成本、效果與項目組展開分析及論證,最終選定匯聚了材料學(xué)、微生物學(xué)、流體力學(xué)、傳熱學(xué)等科研結(jié)晶,采用聯(lián)想溫水水冷技術(shù)。
聯(lián)想溫水水冷方案利用純凈水作為冷媒,采用間接式液冷方式對計算機(jī)服務(wù)器進(jìn)行冷卻,對CPU、GPU等采用微通道(通道當(dāng)量直徑在10~1000μ)散熱器,針對內(nèi)存、較低功耗的I/O板卡等部件采用導(dǎo)熱板散熱技術(shù)。溫水水冷技術(shù)通過減少對空調(diào)和散熱器的需求,可節(jié)約40%以上的能耗成本,熱量還可以循環(huán)利用,給機(jī)房、社區(qū)加熱,同時噪音也比風(fēng)冷低很多。
具體而言,海南人工智能計算中心采用聯(lián)想最新的聯(lián)想問天海神液冷解決方案,包含1038個水冷節(jié)點(diǎn)、16套IB交換機(jī)及5套DSS存儲集群,達(dá)到了7.86 PFlops算力與30PB存儲容量。
實際上,“聯(lián)想問天海神”面向通用計算領(lǐng)域提供2U和1U的機(jī)架式服務(wù)器,科學(xué)計算領(lǐng)域提供包括海神溫水冷超算產(chǎn)品SD/SC系列,智算領(lǐng)域也發(fā)布了8U大規(guī)模訓(xùn)練型服務(wù)器、8UOEM平臺產(chǎn)品以及訓(xùn)推一體化服務(wù)器,所有產(chǎn)品均支持液冷方案,其中通用計算和智能計算產(chǎn)品所有關(guān)鍵核心部件支持冷板液冷散熱,科學(xué)計算產(chǎn)品支持全覆蓋冷板散熱,廣泛應(yīng)用于全球各個國家和地區(qū)。
采用聯(lián)想提供的冷板式液冷散熱架構(gòu),海南人工智能計算中心將80%的發(fā)熱量由冷板式液冷帶熱至外部冷卻進(jìn)行集中散熱,使IT設(shè)備散熱效率提升50%。數(shù)據(jù)中心內(nèi)CDUN+1冗于設(shè)計,確保液冷水路供應(yīng)無虞。現(xiàn)在,通過冷板式液冷服務(wù)器,實現(xiàn)了200%的算力效率提升,智算中心總體PUE改善至 1.3以下,機(jī)柜部屬密度提升 28.6%,基礎(chǔ)設(shè)施能耗節(jié)省 30%,碳排放總量減少 10%。
讓企業(yè)和用戶實現(xiàn)算力無憂、應(yīng)用無憂、運(yùn)維無憂,企業(yè)和科研單位對海南人工智能計算中心的使用好評也充分驗證另外一個答案:算力瓶頸不只是單純的技術(shù)和建設(shè)問題,而是影響整個行業(yè)競爭格局的重要變量。
海南人工智能智能算力中心不僅為現(xiàn)代生物醫(yī)藥、熱帶特色高效農(nóng)業(yè)和種業(yè)、深海、航天、清潔能源、節(jié)能環(huán)保、高端食品加工等支柱產(chǎn)業(yè)和實體經(jīng)濟(jì)高質(zhì)量發(fā)展提供強(qiáng)大科技支撐。也向行業(yè)內(nèi)驗證了智算中心運(yùn)營的基本邏輯:“以應(yīng)用和場景”為第一性原理,從高質(zhì)量算力出發(fā),不斷挑戰(zhàn)綠色算力、可持續(xù)發(fā)展的上限,讓人工智能和產(chǎn)業(yè)相結(jié)合,最終是一件很酷的事兒。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.