99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

直面數(shù)據(jù)中心“運(yùn)維暴擊”,AI時(shí)代元腦服務(wù)器如何“見招拆招”

0
分享至


文|宋辰

編輯|李薇

AI時(shí)代,數(shù)據(jù)中心正經(jīng)歷一場(chǎng)前所未有的“進(jìn)化”。

爆發(fā)的AI訓(xùn)練、推理,還有大數(shù)據(jù)分析、云計(jì)算等業(yè)務(wù),讓數(shù)據(jù)中心算力需求暴漲、能耗持續(xù)攀升,運(yùn)維團(tuán)隊(duì)每天都在“刀尖上跳舞”——高負(fù)載、高并行的各類應(yīng)用給服務(wù)器內(nèi)存、風(fēng)扇、硬盤帶來“暴擊”,稍有不慎就可能造成宕機(jī)、數(shù)據(jù)丟失甚至業(yè)務(wù)中斷

而不同的應(yīng)用要運(yùn)行在幾百種不同型號(hào)的異構(gòu)設(shè)備上,隨著數(shù)據(jù)中心服務(wù)器規(guī)模快速攀升,大規(guī)模基礎(chǔ)設(shè)施的運(yùn)維也面臨重重挑戰(zhàn)

元腦服務(wù)器作為浪潮信息最新一代智算品牌,依托數(shù)百萬級(jí)服務(wù)器運(yùn)維管理經(jīng)驗(yàn),全新升級(jí)服務(wù)器智能管理功能,直面數(shù)據(jù)中心運(yùn)維的多重暴擊,幫助運(yùn)維團(tuán)隊(duì)“見招拆招”,成為大規(guī)模數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)的必備“智囊”。

大咖科技

Tech Chic

數(shù)據(jù)中心運(yùn)維面臨

三大“暴擊”

暴擊一:內(nèi)存資源“告急”,宕機(jī)風(fēng)險(xiǎn)步步緊逼。

AI模型的訓(xùn)練和推理對(duì)內(nèi)存的需求堪稱“饕餮”。 AI計(jì)算任務(wù)往往涉及大規(guī)模并行計(jì)算,對(duì)內(nèi)存的使用更加密集,以GPT-3為例,其訓(xùn)練需要數(shù)百GB甚至TB級(jí)別的內(nèi)存資源。隨著模型規(guī)模的不斷擴(kuò)大,內(nèi)存的需求還在持續(xù)增長(zhǎng)。

內(nèi)存資源不僅昂貴,還非常“嬌氣”。一旦出現(xiàn)故障,輕則影響單臺(tái)服務(wù)器的性能,重則導(dǎo)致整個(gè)集群的崩潰。更糟糕的是,內(nèi)存故障往往難以預(yù)測(cè),傳統(tǒng)的監(jiān)控手段只能“事后補(bǔ)救”,無法做到“未卜先知”。

據(jù)統(tǒng)計(jì),由服務(wù)器硬件異常導(dǎo)致的宕機(jī)中,高達(dá)74%是由內(nèi)存故障引發(fā)的。內(nèi)存故障可分為不可糾正錯(cuò)誤UCE和可糾正錯(cuò)誤CE,UCE故障可能會(huì)導(dǎo)致服務(wù)器立馬宕機(jī)。

安全研究機(jī)構(gòu)波洛蒙研究所的統(tǒng)計(jì)結(jié)果顯示,具有一定規(guī)模的企業(yè)發(fā)生服務(wù)器宕機(jī)事件,會(huì)帶來平均每分鐘近9000美元的損失成本,小型企業(yè)的損失在每分鐘137至427美元之間。

元腦服務(wù)器全新升級(jí)的內(nèi)存故障智能預(yù)警修復(fù)技術(shù)MUPR,從單端預(yù)警升級(jí)為BIOS、BMC兩級(jí)防護(hù),通過對(duì)上萬臺(tái)服務(wù)器故障數(shù)據(jù)的建模分析和AI模型算法的訓(xùn)練,實(shí)現(xiàn)了對(duì)內(nèi)存UCE故障的精準(zhǔn)預(yù)測(cè)和實(shí)時(shí)修復(fù)。

搭載了MUPR技術(shù)的元腦服務(wù)器,全天候、多方位監(jiān)測(cè)服務(wù)器內(nèi)存健康狀態(tài),50萬臺(tái)服務(wù)器級(jí)別的數(shù)據(jù)中心,內(nèi)存UCE發(fā)生率按年化1%計(jì)算,MUPR技術(shù)可以有效規(guī)避80%以上的內(nèi)存UCE發(fā)生,每年節(jié)省約5400萬元的內(nèi)存故障維護(hù)費(fèi)用


暴擊二:溫控壓力“爆表”,開機(jī)如起飛

算力越強(qiáng),發(fā)熱量就越大。一臺(tái)高性能的服務(wù)器功耗可能高達(dá)數(shù)千瓦,相當(dāng)于幾十臺(tái)普通服務(wù)器的總和。而數(shù)據(jù)中心的散熱系統(tǒng)往往“跟不上節(jié)奏”,導(dǎo)致服務(wù)器溫度過高,性能下降甚至硬件損壞。

光聽服務(wù)器開機(jī)的聲音以為是“飛機(jī)起飛”。“明明剛開機(jī),服務(wù)器內(nèi)部各個(gè)部件還未完全上電,風(fēng)扇轉(zhuǎn)速為什么要拉滿?”運(yùn)維人員大為不解卻無可奈何。而且,伴隨著風(fēng)扇的呼嘯聲,服務(wù)器啟動(dòng)“龜速”,開機(jī)時(shí)間要三五分鐘甚至更久。

癥結(jié)就在于,服務(wù)器傳統(tǒng)控溫策略中為了盡可能滿足散熱安全性要求,上電之后會(huì)以最大配置的方式來進(jìn)行風(fēng)扇速度調(diào)節(jié),而此時(shí)BMC Linux系統(tǒng)尚未啟動(dòng),熱量傳感器數(shù)據(jù)無法采集,導(dǎo)致風(fēng)扇滿載狀態(tài)會(huì)持續(xù)較長(zhǎng)時(shí)間,帶來能耗、噪音的攀升和穩(wěn)定性的降低。而且,為了避免開機(jī)過程中散熱風(fēng)險(xiǎn),一般會(huì)設(shè)置等待BMC Linux系統(tǒng)啟動(dòng)完成后再啟動(dòng)POST過程,導(dǎo)致服務(wù)器從AC上電到進(jìn)入OS的時(shí)間被拉長(zhǎng)。

元腦服務(wù)器首創(chuàng)服務(wù)器開機(jī)3秒智能控溫技術(shù),通過BMC Linux/RTOS異構(gòu)雙系統(tǒng)并行管理技術(shù),實(shí)現(xiàn)了上電即開機(jī),開機(jī)時(shí)間縮短一半以上。同時(shí),該技術(shù)通過實(shí)時(shí)感知環(huán)境溫度,動(dòng)態(tài)調(diào)控風(fēng)扇轉(zhuǎn)速,噪音比優(yōu)化前最大下降30.4%,開機(jī)功耗也可大幅降低。


暴擊三:硬盤故障“頻發(fā)”,數(shù)據(jù)安全岌岌可危

AI時(shí)代,數(shù)據(jù)就是“命根子”。然而,隨著數(shù)據(jù)量的爆炸式增長(zhǎng),硬盤的故障率也在不斷上升。一塊硬盤的故障可能導(dǎo)致數(shù)TB的數(shù)據(jù)丟失,而數(shù)據(jù)恢復(fù)的時(shí)間成本和經(jīng)濟(jì)成本都高得驚人。

某互聯(lián)網(wǎng)大廠的數(shù)據(jù)中心4年內(nèi)的29萬次硬件故障中,硬盤故障占比高達(dá)81.84%。一旦硬盤故障,就會(huì)導(dǎo)致陣列降級(jí),讀寫性能下降,期間還會(huì)存在二次掉盤導(dǎo)致的數(shù)據(jù)丟失風(fēng)險(xiǎn)。雖然傳統(tǒng)存儲(chǔ)有RAID、副本等機(jī)制,但是數(shù)據(jù)重建過程中要使用大量IO資源,而且重建時(shí)間很長(zhǎng),往往以天計(jì)算,這會(huì)對(duì)業(yè)務(wù)連續(xù)性造成嚴(yán)重影響。

傳統(tǒng)的硬盤監(jiān)控手段往往只能“亡羊補(bǔ)牢”,無法提前預(yù)警。更糟糕的是,硬盤故障的排查和修復(fù)需要大量人力,運(yùn)維團(tuán)隊(duì)常常疲于奔命,類似于中醫(yī)“治未病”理念的準(zhǔn)確預(yù)測(cè)成為硬盤真正“硬”起來的最優(yōu)解。

根據(jù)當(dāng)前技術(shù)規(guī)范,服務(wù)器系統(tǒng)可提取的硬盤參數(shù)大約60多種,這是磁盤故障判斷的基礎(chǔ)。元腦服務(wù)器的研發(fā)工程師們選擇采用AI算法技術(shù)來建立硬盤的失效預(yù)測(cè)模型。模型累計(jì)分析了超過300億條故障特征數(shù)據(jù),引入GAN、XGBoost、PCCs算法,基于567種預(yù)處理參數(shù)的近百種模型組合,以匹配不同型號(hào)、不同廠商的硬盤,最終實(shí)現(xiàn)最優(yōu)的失效模型建模。

目前,元腦服務(wù)器已經(jīng)實(shí)現(xiàn)HDD故障預(yù)測(cè)、SSD壽命預(yù)測(cè),提前14天預(yù)測(cè)風(fēng)險(xiǎn)盤,故障預(yù)測(cè)準(zhǔn)確率超95%,誤報(bào)率小于1%


大咖科技

Tech Chic

設(shè)備規(guī)模爆發(fā),

大規(guī)模數(shù)據(jù)中心運(yùn)維新挑戰(zhàn)

一方面,數(shù)據(jù)中心運(yùn)維的三大“暴擊”依舊需要面對(duì),另一方面,AI時(shí)代的算力需求,讓數(shù)據(jù)中心的設(shè)備規(guī)模快速攀升,基礎(chǔ)設(shè)施運(yùn)維管理面臨全新挑戰(zhàn)。

在大規(guī)模數(shù)據(jù)中心,隨著業(yè)務(wù)量的快速增長(zhǎng),服務(wù)器數(shù)量爆發(fā)式增長(zhǎng),設(shè)備規(guī)模從最初的1000臺(tái)逐漸增加到10萬臺(tái),規(guī)模擴(kuò)大了100倍,涵蓋了不同年代和廠商的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等,設(shè)備種類多,內(nèi)存、電源、硬盤、風(fēng)扇等各類故障發(fā)生的不確定性大。

以擁有10萬+設(shè)備的大規(guī)模數(shù)據(jù)中心為例,每日產(chǎn)生近30TB的設(shè)備運(yùn)行狀態(tài)、億級(jí)監(jiān)控指標(biāo)、數(shù)千條告警推送等。如何秒級(jí)反饋海量并發(fā)需求,保證管理平臺(tái)穩(wěn)定運(yùn)行;如何避免將每秒近千條的大規(guī)模設(shè)備告警風(fēng)暴強(qiáng)塞給客戶,進(jìn)行根因定位并避免誤報(bào)、漏報(bào)。這些挑戰(zhàn)正伴隨服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備規(guī)模的持續(xù)增長(zhǎng),成為超大規(guī)模數(shù)據(jù)中心管理亟待解決的難題。

在最近的一項(xiàng)調(diào)查中,57%的數(shù)據(jù)中心所有者表示,他們會(huì)相信人工智能模型來做出運(yùn)營(yíng)決策,借助智能平臺(tái)來簡(jiǎn)化日常運(yùn)維——這比上一年增長(zhǎng)了近20%。

面對(duì)數(shù)據(jù)中心大規(guī)模的設(shè)備運(yùn)維管理需求,元腦服務(wù)器數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺(tái)結(jié)合在數(shù)據(jù)中心大規(guī)模IT設(shè)備運(yùn)維實(shí)踐經(jīng)驗(yàn),通過統(tǒng)一接口、協(xié)議,能夠納管多達(dá)400種不同廠商、不同型號(hào)的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等機(jī)型,設(shè)備規(guī)模最多可達(dá)10萬臺(tái),不僅創(chuàng)造了金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大紀(jì)錄,還實(shí)現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期管理,整體運(yùn)維效率提升兩倍,為超大規(guī)模數(shù)據(jù)中心運(yùn)維提供智能均衡調(diào)度、實(shí)時(shí)精準(zhǔn)告警等管理功能;同時(shí)在智能化方面,管理平臺(tái)通過智能均衡作業(yè)調(diào)度平臺(tái),能夠在秒級(jí)內(nèi)處理超大規(guī)模數(shù)據(jù)中心億級(jí)實(shí)時(shí)并發(fā)運(yùn)維管理數(shù)據(jù),并基于自研的告警管理框架,實(shí)現(xiàn)5秒內(nèi)響應(yīng)上千條告警風(fēng)暴,顯著降低告警誤報(bào)與漏報(bào)的風(fēng)險(xiǎn)。


目前,元腦服務(wù)器和基礎(chǔ)設(shè)施管理平臺(tái)的全新智能升級(jí),已在海內(nèi)外收獲了廣泛的認(rèn)可,為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心,提供了數(shù)字化、智能化的運(yùn)維服務(wù),保障數(shù)據(jù)中心業(yè)務(wù)安全、穩(wěn)定地運(yùn)行。

未來,隨著AI技術(shù)的進(jìn)一步成熟,數(shù)據(jù)中心的運(yùn)維工作將從“人力密集型”持續(xù)向“技術(shù)密集型”轉(zhuǎn)型。元腦服務(wù)器將以技術(shù)創(chuàng)新為驅(qū)動(dòng),助力數(shù)據(jù)中心在AI時(shí)代“乘風(fēng)破浪“,為基礎(chǔ)設(shè)施的數(shù)智化轉(zhuǎn)型提供更加智能、高效、穩(wěn)定、可靠的算力產(chǎn)品,加速智能時(shí)代的到來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《人民日?qǐng)?bào)》點(diǎn)名新能源車惡性降價(jià)!堅(jiān)決支持!惡性降價(jià)后患無窮

《人民日?qǐng)?bào)》點(diǎn)名新能源車惡性降價(jià)!堅(jiān)決支持!惡性降價(jià)后患無窮

正經(jīng)說個(gè)事兒
2025-05-29 06:01:55
奇葩?美女因化妝太濃無法過安檢,機(jī)場(chǎng)被強(qiáng)制卸妝引發(fā)爭(zhēng)議!

奇葩?美女因化妝太濃無法過安檢,機(jī)場(chǎng)被強(qiáng)制卸妝引發(fā)爭(zhēng)議!

最英國(guó)
2025-05-31 07:38:45
廣東男子買彩票中800萬,6天后興沖沖去兌獎(jiǎng),卻被工作人員當(dāng)場(chǎng)轟走

廣東男子買彩票中800萬,6天后興沖沖去兌獎(jiǎng),卻被工作人員當(dāng)場(chǎng)轟走

故事秘棧
2025-05-30 19:41:04
隨著中國(guó)國(guó)少2-2戰(zhàn)平越南,澳大利亞2-1沙特,四國(guó)賽最新排行出爐

隨著中國(guó)國(guó)少2-2戰(zhàn)平越南,澳大利亞2-1沙特,四國(guó)賽最新排行出爐

球場(chǎng)沒跑道
2025-05-30 21:33:45
媒體人:楊瀚森第二站試訓(xùn)反饋非常不錯(cuò);試訓(xùn)球隊(duì)多次強(qiáng)調(diào)保密

媒體人:楊瀚森第二站試訓(xùn)反饋非常不錯(cuò);試訓(xùn)球隊(duì)多次強(qiáng)調(diào)保密

懂球帝
2025-05-31 12:03:12
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長(zhǎng)得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認(rèn)不出,17歲兒子1米8長(zhǎng)得像媽

果娛
2025-05-14 12:19:32
霉霉出街造型翻車!盡顯大媽感

霉霉出街造型翻車!盡顯大媽感

述家娛記
2025-05-31 08:21:59
寧波這個(gè)片區(qū),最新規(guī)劃出爐!涉及地鐵8號(hào)線、11號(hào)線

寧波這個(gè)片區(qū),最新規(guī)劃出爐!涉及地鐵8號(hào)線、11號(hào)線

魯中晨報(bào)
2025-05-31 20:53:11
究竟誰是“女安倍”?她見完特朗普又見普京!

究竟誰是“女安倍”?她見完特朗普又見普京!

新民周刊
2025-05-31 09:00:22
蔚來李斌:樂道一線人員減少 40% 情況下,5 月交付至少增長(zhǎng) 40%

蔚來李斌:樂道一線人員減少 40% 情況下,5 月交付至少增長(zhǎng) 40%

IT之家
2025-05-31 17:16:15
女子4×100米接力:陳妤頡、李玉婷、朱俊穎、梁小靜43.28秒,摘得金牌

女子4×100米接力:陳妤頡、李玉婷、朱俊穎、梁小靜43.28秒,摘得金牌

懂球帝
2025-05-31 21:55:15
突發(fā)!端午佳節(jié)之際,解放軍兵發(fā)黃巖島,美軍核航母就在南海

突發(fā)!端午佳節(jié)之際,解放軍兵發(fā)黃巖島,美軍核航母就在南海

嘆知
2025-05-31 15:18:42
一教育局局長(zhǎng)在校服采購中吃回扣,被“雙開”

一教育局局長(zhǎng)在校服采購中吃回扣,被“雙開”

齊魯壹點(diǎn)
2025-05-31 16:23:07
女生的梨形身材有多爽??

女生的梨形身材有多爽??

健身S叔
2025-05-30 16:20:36
打鼓擾民最新后續(xù):警方回應(yīng),綠衣大媽日常被扒,知情人透露更多

打鼓擾民最新后續(xù):警方回應(yīng),綠衣大媽日常被扒,知情人透露更多

鋭娛之樂
2025-05-30 17:14:29
55年授銜,陳奇涵申報(bào)自己為中將,毛主席大怒道:不把我放眼里

55年授銜,陳奇涵申報(bào)自己為中將,毛主席大怒道:不把我放眼里

近史談
2025-05-30 16:35:52
吳宗憲展開瘋狂報(bào)復(fù),下手比黃子佼還狠,小S三女兒慘遭“連坐”

吳宗憲展開瘋狂報(bào)復(fù),下手比黃子佼還狠,小S三女兒慘遭“連坐”

火之文
2025-05-31 17:40:09
不到48小時(shí),俄迎來4個(gè)噩耗?日本在俄邊境開火;俄大使館被襲擊

不到48小時(shí),俄迎來4個(gè)噩耗?日本在俄邊境開火;俄大使館被襲擊

掌青說歷史
2025-05-30 17:21:09
6月,貴人加持,好運(yùn)連連的三個(gè)星座,福氣擋不住

6月,貴人加持,好運(yùn)連連的三個(gè)星座,福氣擋不住

小晴星座說
2025-05-31 19:12:22
WNBA歷史首人!阿德巴約女友18中12爆砍35分13板6助4斷3帽!

WNBA歷史首人!阿德巴約女友18中12爆砍35分13板6助4斷3帽!

直播吧
2025-05-31 12:13:11
2025-05-31 22:28:49
略懂的小咖 incentive-icons
略懂的小咖
略懂生活,略懂IT,略懂財(cái)經(jīng)
246文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

1小時(shí)大定破千,余承東:尊界S800是個(gè)開端

頭條要聞

佛山"水上F1"龍船賽火了 有龍船飯店主稱當(dāng)月能賺10萬

頭條要聞

佛山"水上F1"龍船賽火了 有龍船飯店主稱當(dāng)月能賺10萬

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

54歲的于和偉再度提名白玉蘭獎(jiǎng)視帝

財(cái)經(jīng)要聞

中汽協(xié)倡議:反對(duì)“內(nèi)卷式”惡性競(jìng)爭(zhēng)

汽車要聞

續(xù)航超1000km/增程動(dòng)力 上汽大眾ID.ERA深圳車展亮相

態(tài)度原創(chuàng)

時(shí)尚
旅游
本地
家居
數(shù)碼

7款復(fù)購2次以上的香香好物!誰用誰好聞!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

云游中國(guó) |來仰天湖大草原,一起策馬奔騰

家居要聞

原木純白 邂逅自然本真

數(shù)碼要聞

小米 REDMI 顯示器 G27 開售:200Hz 刷新率,669 元

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 曲水县| 库车县| 乐安县| 开鲁县| 甘谷县| 桦川县| 陕西省| 夏津县| 合肥市| 天等县| 阿坝| 呼玛县| 冷水江市| 精河县| 屯留县| 诸暨市| 南平市| 百色市| 建水县| 天气| 调兵山市| 上杭县| 运城市| 白山市| 辽阳市| 彰武县| 黑河市| 外汇| 华宁县| 夏河县| 白河县| 迭部县| 普兰县| 仪陇县| 垦利县| 台州市| 安西县| 武胜县| 确山县| 文成县| 东城区|