一、問題背景:一場搬遷后引發的連鎖故障
為某客戶的主域服務器升級內存,因為我們知道有備域,所以也就沒多想,直接關閉了主域服務器,可是剛打開機箱蓋,就有用戶反饋,不能上網了,緊接著,各部門都來反饋斷網,難道隔壁機房的備域也掛了?
取了鑰匙,開隔壁機房的門,跑到服務器跟前一看,電源燈都不亮,按開機鍵沒反應,繞到后面一看,好嘛,冗余電源,愣是一根電源線都沒插。
插上電源線,開機,懷著忐忑的心情看著服務器啟動,好不容易進了系統,”服務器管理器“報了一堆DNS錯誤,馬上打開DNS服務,重啟DNS服務,切換到”監測“頁面,點了幾次”立即測試“,貌似沒啥問題。
通知用戶測試,回復說是能上網了。
但是“服務器管理器”還在持續報錯,不用多想,肯定是這臺備域脫離太久,沒有同步信息了,問了一下客戶,說是不知道誰拔了備域服務器的電源線。
好吧,我先不管了,反正當初搬過來的時候,確定以及肯定備域是正常開機的。這會兒先把主域服務器的內存升級完成后,備域再同步一下就好了。
二、核心解決步驟:三步重建時間與域控同步 步驟1:緊急配置NTP時間同步(關鍵基礎)
操作要點:
備域上重啟NTP服務
在備域上以管理員身份運行CMD,執行以下命令:w32tm /config /syncfromflags:domhier /update # 設置從域層級同步時間
net stop w32time && net start w32time # 重啟時間服務強制客戶端同步時間
接著執行強制同步命令:w32tm /resync /rediscover # 重新發現時間源
驗證時間同步狀態
通過以下命令確認同步狀態:w32tm /query /status | findstr "源"
# 正常輸出應顯示主域控名稱,偏差值應<1ms
步驟2:重建域控間數據同步(核心修復)
操作流程:
強制AD數據庫復制
在主域控執行跨域控復制命令:repadmin /syncall /force # 強制同步所有伙伴服務器
repadmin /showrepl # 查看復制狀態,入站鄰居下的每一項都顯示嘗試成功,就沒問題了修復SYSVOL共享
當出現SYSVOL狀態異常時,執行:dfsrmig /setglobalstate 0 # 重置文件復制狀態
net stop dfsr && net start dfsr # 重啟文件復制服務本案例并未提示SYSVOL共享故障,所以并未執行以上命令。
步驟3:驗證與監控(確保穩定性)
驗證清單:
時間同步:所有域成員執行
w32tm /query /source
應顯示主域控AD健康檢查:
dcdiag /test:replications /v # 目錄服務器診斷
netdom query fsmo # 確認FSMO五個角色持有者監控建議:部署Windows事件日志訂閱,重點關注事件ID 135(時間服務異常)、1202(AD復制失敗)
機房專人專管
定期巡檢
災備及監測方案
建議服務器虛擬化,制定快照及備份計劃;
建立Zabbix等監測服務,配置郵件或者微信告警,及時接收故障信息。
本次故障處理耗時約1小時,核心教訓在于:機房無人管理,服務器被拔了電源線都不知道,萬一被拔掉的是硬盤呢?去哪里找回來?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.