文|宋辰
編輯|李薇
AI時(shí)代,數(shù)據(jù)中心正經(jīng)歷一場(chǎng)前所未有的“進(jìn)化”。
爆發(fā)的AI訓(xùn)練、推理,還有大數(shù)據(jù)分析、云計(jì)算等業(yè)務(wù),讓數(shù)據(jù)中心算力需求暴漲、能耗持續(xù)攀升,運(yùn)維團(tuán)隊(duì)每天都在“刀尖上跳舞”——高負(fù)載、高并行的各類應(yīng)用給服務(wù)器內(nèi)存、風(fēng)扇、硬盤帶來“暴擊”,稍有不慎就可能造成宕機(jī)、數(shù)據(jù)丟失甚至業(yè)務(wù)中斷。
而不同的應(yīng)用要運(yùn)行在幾百種不同型號(hào)的異構(gòu)設(shè)備上,隨著數(shù)據(jù)中心服務(wù)器規(guī)模快速攀升,大規(guī)模基礎(chǔ)設(shè)施的運(yùn)維也面臨重重挑戰(zhàn)。
元腦服務(wù)器作為浪潮信息最新一代智算品牌,依托數(shù)百萬級(jí)服務(wù)器運(yùn)維管理經(jīng)驗(yàn),全新升級(jí)服務(wù)器智能管理功能,直面數(shù)據(jù)中心運(yùn)維的多重暴擊,幫助運(yùn)維團(tuán)隊(duì)“見招拆招”,成為大規(guī)模數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)的必備“智囊”。
大咖科技
Tech Chic
數(shù)據(jù)中心運(yùn)維面臨
三大“暴擊”
暴擊一:內(nèi)存資源“告急”,宕機(jī)風(fēng)險(xiǎn)步步緊逼。
AI模型的訓(xùn)練和推理對(duì)內(nèi)存的需求堪稱“饕餮”。 AI計(jì)算任務(wù)往往涉及大規(guī)模并行計(jì)算,對(duì)內(nèi)存的使用更加密集,以GPT-3為例,其訓(xùn)練需要數(shù)百GB甚至TB級(jí)別的內(nèi)存資源。隨著模型規(guī)模的不斷擴(kuò)大,內(nèi)存的需求還在持續(xù)增長(zhǎng)。
內(nèi)存資源不僅昂貴,還非常“嬌氣”。一旦出現(xiàn)故障,輕則影響單臺(tái)服務(wù)器的性能,重則導(dǎo)致整個(gè)集群的崩潰。更糟糕的是,內(nèi)存故障往往難以預(yù)測(cè),傳統(tǒng)的監(jiān)控手段只能“事后補(bǔ)救”,無法做到“未卜先知”。
據(jù)統(tǒng)計(jì),由服務(wù)器硬件異常導(dǎo)致的宕機(jī)中,高達(dá)74%是由內(nèi)存故障引發(fā)的。內(nèi)存故障可分為不可糾正錯(cuò)誤UCE和可糾正錯(cuò)誤CE,UCE故障可能會(huì)導(dǎo)致服務(wù)器立馬宕機(jī)。
安全研究機(jī)構(gòu)波洛蒙研究所的統(tǒng)計(jì)結(jié)果顯示,具有一定規(guī)模的企業(yè)發(fā)生服務(wù)器宕機(jī)事件,會(huì)帶來平均每分鐘近9000美元的損失成本,小型企業(yè)的損失在每分鐘137至427美元之間。
元腦服務(wù)器全新升級(jí)的內(nèi)存故障智能預(yù)警修復(fù)技術(shù)MUPR,從單端預(yù)警升級(jí)為BIOS、BMC兩級(jí)防護(hù),通過對(duì)上萬臺(tái)服務(wù)器故障數(shù)據(jù)的建模分析和AI模型算法的訓(xùn)練,實(shí)現(xiàn)了對(duì)內(nèi)存UCE故障的精準(zhǔn)預(yù)測(cè)和實(shí)時(shí)修復(fù)。
搭載了MUPR技術(shù)的元腦服務(wù)器,全天候、多方位監(jiān)測(cè)服務(wù)器內(nèi)存健康狀態(tài),50萬臺(tái)服務(wù)器級(jí)別的數(shù)據(jù)中心,內(nèi)存UCE發(fā)生率按年化1%計(jì)算,MUPR技術(shù)可以有效規(guī)避80%以上的內(nèi)存UCE發(fā)生,每年節(jié)省約5400萬元的內(nèi)存故障維護(hù)費(fèi)用。
暴擊二:溫控壓力“爆表”,開機(jī)如起飛
算力越強(qiáng),發(fā)熱量就越大。一臺(tái)高性能的服務(wù)器功耗可能高達(dá)數(shù)千瓦,相當(dāng)于幾十臺(tái)普通服務(wù)器的總和。而數(shù)據(jù)中心的散熱系統(tǒng)往往“跟不上節(jié)奏”,導(dǎo)致服務(wù)器溫度過高,性能下降甚至硬件損壞。
光聽服務(wù)器開機(jī)的聲音以為是“飛機(jī)起飛”。“明明剛開機(jī),服務(wù)器內(nèi)部各個(gè)部件還未完全上電,風(fēng)扇轉(zhuǎn)速為什么要拉滿?”運(yùn)維人員大為不解卻無可奈何。而且,伴隨著風(fēng)扇的呼嘯聲,服務(wù)器啟動(dòng)“龜速”,開機(jī)時(shí)間要三五分鐘甚至更久。
癥結(jié)就在于,服務(wù)器傳統(tǒng)控溫策略中為了盡可能滿足散熱安全性要求,上電之后會(huì)以最大配置的方式來進(jìn)行風(fēng)扇速度調(diào)節(jié),而此時(shí)BMC Linux系統(tǒng)尚未啟動(dòng),熱量傳感器數(shù)據(jù)無法采集,導(dǎo)致風(fēng)扇滿載狀態(tài)會(huì)持續(xù)較長(zhǎng)時(shí)間,帶來能耗、噪音的攀升和穩(wěn)定性的降低。而且,為了避免開機(jī)過程中散熱風(fēng)險(xiǎn),一般會(huì)設(shè)置等待BMC Linux系統(tǒng)啟動(dòng)完成后再啟動(dòng)POST過程,導(dǎo)致服務(wù)器從AC上電到進(jìn)入OS的時(shí)間被拉長(zhǎng)。
元腦服務(wù)器首創(chuàng)服務(wù)器開機(jī)3秒智能控溫技術(shù),通過BMC Linux/RTOS異構(gòu)雙系統(tǒng)并行管理技術(shù),實(shí)現(xiàn)了上電即開機(jī),開機(jī)時(shí)間縮短一半以上。同時(shí),該技術(shù)通過實(shí)時(shí)感知環(huán)境溫度,動(dòng)態(tài)調(diào)控風(fēng)扇轉(zhuǎn)速,噪音比優(yōu)化前最大下降30.4%,開機(jī)功耗也可大幅降低。
暴擊三:硬盤故障“頻發(fā)”,數(shù)據(jù)安全岌岌可危
AI時(shí)代,數(shù)據(jù)就是“命根子”。然而,隨著數(shù)據(jù)量的爆炸式增長(zhǎng),硬盤的故障率也在不斷上升。一塊硬盤的故障可能導(dǎo)致數(shù)TB的數(shù)據(jù)丟失,而數(shù)據(jù)恢復(fù)的時(shí)間成本和經(jīng)濟(jì)成本都高得驚人。
某互聯(lián)網(wǎng)大廠的數(shù)據(jù)中心4年內(nèi)的29萬次硬件故障中,硬盤故障占比高達(dá)81.84%。一旦硬盤故障,就會(huì)導(dǎo)致陣列降級(jí),讀寫性能下降,期間還會(huì)存在二次掉盤導(dǎo)致的數(shù)據(jù)丟失風(fēng)險(xiǎn)。雖然傳統(tǒng)存儲(chǔ)有RAID、副本等機(jī)制,但是數(shù)據(jù)重建過程中要使用大量IO資源,而且重建時(shí)間很長(zhǎng),往往以天計(jì)算,這會(huì)對(duì)業(yè)務(wù)連續(xù)性造成嚴(yán)重影響。
傳統(tǒng)的硬盤監(jiān)控手段往往只能“亡羊補(bǔ)牢”,無法提前預(yù)警。更糟糕的是,硬盤故障的排查和修復(fù)需要大量人力,運(yùn)維團(tuán)隊(duì)常常疲于奔命,類似于中醫(yī)“治未病”理念的準(zhǔn)確預(yù)測(cè)成為硬盤真正“硬”起來的最優(yōu)解。
根據(jù)當(dāng)前技術(shù)規(guī)范,服務(wù)器系統(tǒng)可提取的硬盤參數(shù)大約60多種,這是磁盤故障判斷的基礎(chǔ)。元腦服務(wù)器的研發(fā)工程師們選擇采用AI算法技術(shù)來建立硬盤的失效預(yù)測(cè)模型。模型累計(jì)分析了超過300億條故障特征數(shù)據(jù),引入GAN、XGBoost、PCCs算法,基于567種預(yù)處理參數(shù)的近百種模型組合,以匹配不同型號(hào)、不同廠商的硬盤,最終實(shí)現(xiàn)最優(yōu)的失效模型建模。
目前,元腦服務(wù)器已經(jīng)實(shí)現(xiàn)HDD故障預(yù)測(cè)、SSD壽命預(yù)測(cè),提前14天預(yù)測(cè)風(fēng)險(xiǎn)盤,故障預(yù)測(cè)準(zhǔn)確率超95%,誤報(bào)率小于1%。
大咖科技
Tech Chic
設(shè)備規(guī)模爆發(fā),
大規(guī)模數(shù)據(jù)中心運(yùn)維新挑戰(zhàn)
一方面,數(shù)據(jù)中心運(yùn)維的三大“暴擊”依舊需要面對(duì),另一方面,AI時(shí)代的算力需求,讓數(shù)據(jù)中心的設(shè)備規(guī)模快速攀升,基礎(chǔ)設(shè)施運(yùn)維管理面臨全新挑戰(zhàn)。
在大規(guī)模數(shù)據(jù)中心,隨著業(yè)務(wù)量的快速增長(zhǎng),服務(wù)器數(shù)量爆發(fā)式增長(zhǎng),設(shè)備規(guī)模從最初的1000臺(tái)逐漸增加到10萬臺(tái),規(guī)模擴(kuò)大了100倍,涵蓋了不同年代和廠商的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等,設(shè)備種類多,內(nèi)存、電源、硬盤、風(fēng)扇等各類故障發(fā)生的不確定性大。
以擁有10萬+設(shè)備的大規(guī)模數(shù)據(jù)中心為例,每日產(chǎn)生近30TB的設(shè)備運(yùn)行狀態(tài)、億級(jí)監(jiān)控指標(biāo)、數(shù)千條告警推送等。如何秒級(jí)反饋海量并發(fā)需求,保證管理平臺(tái)穩(wěn)定運(yùn)行;如何避免將每秒近千條的大規(guī)模設(shè)備告警風(fēng)暴強(qiáng)塞給客戶,進(jìn)行根因定位并避免誤報(bào)、漏報(bào)。這些挑戰(zhàn)正伴隨服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備規(guī)模的持續(xù)增長(zhǎng),成為超大規(guī)模數(shù)據(jù)中心管理亟待解決的難題。
在最近的一項(xiàng)調(diào)查中,57%的數(shù)據(jù)中心所有者表示,他們會(huì)相信人工智能模型來做出運(yùn)營(yíng)決策,借助智能平臺(tái)來簡(jiǎn)化日常運(yùn)維——這比上一年增長(zhǎng)了近20%。
面對(duì)數(shù)據(jù)中心大規(guī)模的設(shè)備運(yùn)維管理需求,元腦服務(wù)器數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺(tái)結(jié)合在數(shù)據(jù)中心大規(guī)模IT設(shè)備運(yùn)維實(shí)踐經(jīng)驗(yàn),通過統(tǒng)一接口、協(xié)議,能夠納管多達(dá)400種不同廠商、不同型號(hào)的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等機(jī)型,設(shè)備規(guī)模最多可達(dá)10萬臺(tái),不僅創(chuàng)造了金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大紀(jì)錄,還實(shí)現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期管理,整體運(yùn)維效率提升兩倍,為超大規(guī)模數(shù)據(jù)中心運(yùn)維提供智能均衡調(diào)度、實(shí)時(shí)精準(zhǔn)告警等管理功能;同時(shí)在智能化方面,管理平臺(tái)通過智能均衡作業(yè)調(diào)度平臺(tái),能夠在秒級(jí)內(nèi)處理超大規(guī)模數(shù)據(jù)中心億級(jí)實(shí)時(shí)并發(fā)運(yùn)維管理數(shù)據(jù),并基于自研的告警管理框架,實(shí)現(xiàn)5秒內(nèi)響應(yīng)上千條告警風(fēng)暴,顯著降低告警誤報(bào)與漏報(bào)的風(fēng)險(xiǎn)。
目前,元腦服務(wù)器和基礎(chǔ)設(shè)施管理平臺(tái)的全新智能升級(jí),已在海內(nèi)外收獲了廣泛的認(rèn)可,為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心,提供了數(shù)字化、智能化的運(yùn)維服務(wù),保障數(shù)據(jù)中心業(yè)務(wù)安全、穩(wěn)定地運(yùn)行。
未來,隨著AI技術(shù)的進(jìn)一步成熟,數(shù)據(jù)中心的運(yùn)維工作將從“人力密集型”持續(xù)向“技術(shù)密集型”轉(zhuǎn)型。元腦服務(wù)器將以技術(shù)創(chuàng)新為驅(qū)動(dòng),助力數(shù)據(jù)中心在AI時(shí)代“乘風(fēng)破浪“,為基礎(chǔ)設(shè)施的數(shù)智化轉(zhuǎn)型提供更加智能、高效、穩(wěn)定、可靠的算力產(chǎn)品,加速智能時(shí)代的到來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.