做服務(wù)器運(yùn)維這么久,最讓人崩潰的,不是遇到棘手的故障,而是在客戶焦急的目光下,故障還連環(huán)出現(xiàn)!今天就和大家分享一次讓我印象深刻的戴爾 R740 服務(wù)器 “拯救行動(dòng)”。
首臺(tái)服務(wù)器:固件初始化的 “死循環(huán)”?
那天接到客戶緊急求助,戴爾 R740 服務(wù)器卡在 “initializing firmware interfaces” 界面,怎么都無(wú)法正常引導(dǎo)。我火速趕到現(xiàn)場(chǎng),嘗試各種常規(guī)操作,重啟、放電……,可服務(wù)器還死死卡在那里,毫無(wú)反應(yīng)。
客戶急得直跺腳,不停地看表,嘴里念叨著業(yè)務(wù)耽誤不起。沒(méi)辦法,時(shí)間不等人,客戶直接搬來(lái)一臺(tái)同型號(hào)的備用服務(wù)器。
備用服務(wù)器:故障接力賽?♂?
本以為備用服務(wù)器能解燃眉之急,誰(shuí)知道它也好不到哪去。一開(kāi)機(jī),firmware 進(jìn)入 recovery mode,好不容易熬過(guò)這關(guān),又卡在加載 lifecycle controller。我盯著屏幕,秒針滴答滴答,整整 15 分鐘,才終于進(jìn)入配置界面。剛把陣列信息導(dǎo)入,更離譜的事發(fā)生了 —— 鍵盤(pán)鼠標(biāo)突然全部失靈!無(wú)奈之下,只能重啟,又是漫長(zhǎng)的 15 分鐘等待。再次進(jìn)入 BIOS 設(shè)置,準(zhǔn)備把陣列卡設(shè)為第一引導(dǎo),結(jié)果鍵盤(pán)鼠標(biāo)又 “罷工” 了,我心里真是萬(wàn)馬奔騰!
IDRAC 配置:漫長(zhǎng)等待與意外狀況?
接連受挫,我決定配置 idrac,通過(guò)遠(yuǎn)程來(lái)設(shè)置引導(dǎo)。這次依然是 15 分鐘的等待 “魔咒”,好在順利進(jìn)入 idrac 配置界面。
我興奮地設(shè)置好引導(dǎo)順序,點(diǎn)擊保存并重啟,滿心期待系統(tǒng)能順利啟動(dòng)。可現(xiàn)實(shí)又潑來(lái)一盆冷水,系統(tǒng)提示存在多個(gè)任務(wù),需待任務(wù)完成后才能重啟。我查看任務(wù)列表,卻發(fā)現(xiàn)任務(wù)根本沒(méi)有在處理,就像靜止了一樣。強(qiáng)制重啟后,發(fā)現(xiàn)了更嚴(yán)重的問(wèn)題,陣列卡無(wú)法識(shí)別了,當(dāng)然連帶著硬盤(pán)肯定也是識(shí)別不到了。
直接關(guān)機(jī),拔掉電源線,按住開(kāi)機(jī)鍵30秒以上,放電。片刻后重新開(kāi)機(jī),好在陣列卡認(rèn)了,硬盤(pán)也正確地識(shí)別到了。但是,剛才設(shè)置的引導(dǎo)根本沒(méi)生效,服務(wù)器還是老樣子,無(wú)法引導(dǎo)。
終極方案與意外轉(zhuǎn)機(jī)
客戶已經(jīng)急得滿頭大汗,一咬牙又搬來(lái)一臺(tái)陣列卡壞的服務(wù)器,讓我把這三臺(tái) “病機(jī)” 拼成一臺(tái)能用的。
我擼起袖子,正準(zhǔn)備大干一場(chǎng)時(shí),奇跡出現(xiàn)了!服務(wù)器突然 “活” 過(guò)來(lái)了,idrac 設(shè)置的調(diào)整引導(dǎo)任務(wù)竟然成功完成了!我激動(dòng)地重啟服務(wù)器,終于看到了 centos 引導(dǎo)界面,以為這場(chǎng) “戰(zhàn)斗” 終于要結(jié)束了,然而……
最后的難關(guān):文件系統(tǒng)修復(fù)
然而,系統(tǒng)并沒(méi)有如我所愿順利啟動(dòng),而是提示 “failed to mount /sysroot”。
我迅速輸入命令 “xfs_repair -v /dev/mapper/centos-root” 修復(fù)文件系統(tǒng),結(jié)果卻提示修復(fù)失敗。關(guān)鍵時(shí)刻,我只能使出 “大招”,用 “xfs_repair -v -L /dev/dm-0” 強(qiáng)制日志清零來(lái)修復(fù)。修復(fù)完成后,輸入 exit 命令,系統(tǒng)提示 logout,緊接著,centos 終于正確引導(dǎo)了!
我長(zhǎng)舒一口氣,通知客戶測(cè)試應(yīng)用軟件。看著軟件正常運(yùn)行,客戶緊鎖的眉頭也終于舒展開(kāi)來(lái)。這場(chǎng)與服務(wù)器故障的 “持久戰(zhàn)”,最終以勝利告終,我也順利完成任務(wù),收錢(qián)走人。
走的時(shí)候,又發(fā)現(xiàn)服務(wù)器報(bào)錯(cuò)了,掃了一眼,usb設(shè)備報(bào)錯(cuò)而已,無(wú)所謂了,忽略吧,也許是USB鍵盤(pán)有問(wèn)題,也放是USB接口有問(wèn)題,無(wú)傷大雅,暫時(shí)不管了。
這次經(jīng)歷讓我深刻體會(huì)到,做服務(wù)器運(yùn)維,不僅要有扎實(shí)的技術(shù),更要有足夠的耐心和強(qiáng)大的心理素質(zhì)。你在工作中遇到過(guò)哪些難忘的服務(wù)器故障呢?歡迎在評(píng)論區(qū)分享!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.