編譯 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
投稿或?qū)で髨蟮?| zhanghy@csdn.net
在技術(shù)圈里,很多人入行的第一場“翻車事故”,往往印象深刻,甚至?xí)Q定他們對團隊、公司、職業(yè)未來的理解方向——今天講的這位主角 Logan,就是這樣一個典型案例。
他不是計算機科班出身,而是一位拿著心理學(xué)學(xué)位“誤入”IT 行業(yè)的跨行者,從一名普通的 IT 支持人員,一路跌跌撞撞進了系統(tǒng)運維崗位。沒想到,Logan 上崗第一周就“踩雷”,第二周更是直接“炸掉”了公司的關(guān)鍵業(yè)務(wù)系統(tǒng)——但真正的故事高潮,發(fā)生在后面。
跨行入門,初次上崗就踩“雷區(qū)”
Logan 剛轉(zhuǎn)崗做運維時,是在一個結(jié)構(gòu)還算清晰的正規(guī)團隊中工作:4 名前端/后端開發(fā)、一位產(chǎn)品負責人,以及另一位資深系統(tǒng)管理員。
這對 Logan 來說是個新世界:“我之前從沒在正兒八經(jīng)的辦公室里工作過,連所謂的‘職場規(guī)則’都不太了解?!倍俏涣硪晃弧百Y深”運維呢——早已萌生轉(zhuǎn)崗做開發(fā)的心思,帶新人也是有一搭沒一搭。
入職第一周,如同大多數(shù)職場新人一樣,Logan 一開始拼命想給人留下好印象:他發(fā)現(xiàn) Nagios 網(wǎng)絡(luò)監(jiān)控工具的儀表板做得很粗糙,于是自告奮勇想“優(yōu)化一下 UI 體驗”。
“我把面板里的模塊按功能分組,重新排了順序,還寫了一個用戶故事(User Story)提交上去。”Logan 把他的改進成果展示給產(chǎn)品負責人和團隊其他成員,大家一致覺得這個設(shè)計不錯,他便推送了更新。
結(jié)果,上線不到 10 分鐘,幾個模塊變成橙色預(yù)警狀態(tài),一位開發(fā)當場臉色煞白。
雖然后來查明,這只是因為關(guān)鍵指標顯示位置變化而導(dǎo)致的誤判,并非系統(tǒng)異常,而那幾個“警報”其實是平常就有的定時任務(wù)輸出,Logan 還是立刻把更新回滾了。
事后產(chǎn)品負責人還跟 Logan 說:“我其實預(yù)感可能會出問題,但還是決定放手讓你試試看,畢竟很多事,做一遍才記得住?!薄狶ogan 聽完,一時都不知道是該哭還是該謝。
一行未注釋的代碼,引發(fā)了嚴重事故
比起首次的小插曲,更大的“災(zāi)難”在接下來的一周悄然醞釀。
入職第二周,產(chǎn)品負責人休假,團隊的管理權(quán)暫時交給了那位“已心系轉(zhuǎn)崗開發(fā)”的資深運維。而 Logan 也開始接手一些例行的系統(tǒng)維護任務(wù),并主動請纓負責一項每周五的例行任務(wù):執(zhí)行一個名為 update-servers.sh 的運維腳本,批量登錄服務(wù)器、更新軟件包。
流程上來講,這種腳本的運行應(yīng)當有清晰的指引與代碼審查機制,但現(xiàn)實卻是——Logan 拿到腳本后,那位資深運維立刻點頭同意,他便運行了腳本。
然后,就沒有然后了。
Logan 眼睜睜看著 Nagios 的監(jiān)控面板從橙色變成大片紅色,幾乎全線告警:“電話響個不停,訂單無法同步,銷售也無法更新商品。網(wǎng)站雖然還能訪問,但后臺服務(wù)也基本都癱了。”
當下,問題只有一個:到底是什么觸發(fā)了這場事故?
資深運維沖過來問是不是 Logan 執(zhí)行的腳本,檢查后發(fā)現(xiàn)了問題根源:腳本中有一行未注釋的代碼,直接啟動了生產(chǎn)環(huán)境下 MySQL 數(shù)據(jù)庫從 4.x 升級到 5.x 的過程——升級過程中磁盤空間被撐爆,舊版本 MySQL 二進制被刪光,但數(shù)據(jù)遷移又沒跑完,導(dǎo)致所有依賴 MySQL 4.x 的服務(wù)統(tǒng)統(tǒng)宕機。
但從 Logan 的角度來看,根本沒人告訴他這一行代碼不能執(zhí)行、需要注釋掉,而且這行代碼原本就存在于提交的版本里,并默認處于激活狀態(tài)。
事件基本平息,但收到了“紀律處分”
很快,CEO 趕來了解情況,聽說是數(shù)據(jù)庫升級引起的,便當機立斷:一小時內(nèi)交出恢復(fù)方案。Logan 和資深運維緊急著手恢復(fù) MySQL 4 環(huán)境,重新部署了服務(wù)。
當天傍晚 6 點左右,事件基本平息,算是好消息:數(shù)據(jù)未丟,系統(tǒng)及時回滾,實際只影響了 25000 筆訂單中的 15 筆,絕大多數(shù)業(yè)務(wù)也在當晚 6 點前恢復(fù)了。
可壞消息是,后來資深運維給了 Logan 一個信封,里面是正式的“紀律處分警告信”。Logan 很難受,因為他不是故意失誤,也沒人告訴他要注釋掉那一行代碼。腳本設(shè)計本身就沒有安全機制,更沒有灰度/模擬流程,資深運維也沒做審查流程,全是“放養(yǎng)模式”。
“我本來以為會被罵,但沒想到來的是這個。說實話,挺傷人的。”
意外反轉(zhuǎn):CEO把處分對象換成了資深運維
產(chǎn)品負責人休假回來那天,Logan 特意早到,準備親自交代事故過程。但他到公司的時候,產(chǎn)品負責人已經(jīng)在和 CEO 匯報了。
Logan 急忙加入會議,遞上了自己精心整理的 7 頁事故復(fù)盤報告,還有那封處分信。令他意外的是,CEO 看到處分信后當場黑臉,立刻劃掉 Logan的名字,改成了那位資深運維的名字并親手遞給他。
“你還在試用期,應(yīng)該有人監(jiān)督你。我們不會因為一個人犯了誠實的錯誤而處分他,我們處分的是那些試圖推卸責任、甩鍋的人。”
這句話,不只是對 Logan 處境的理解,更是對整個技術(shù)管理文化的一次撥亂反正。
事后,Logan 坦言再也沒碰過 update-servers.sh,并總結(jié)道:“但我永遠記住了那次經(jīng)歷——對于好的領(lǐng)導(dǎo)力、優(yōu)秀的團隊文化有了更深刻的理解。”
如今,許多企業(yè)一邊鼓勵員工試錯,一邊在出錯時“公開羞辱”;一邊倡導(dǎo)扁平文化,一邊又讓新人為流程漏洞背鍋。而這種“虛偽的責任文化”,在技術(shù)圈尤為常見。那么,你是否也曾經(jīng)歷類似“鍋從天上來”的時刻,最終結(jié)果又是如何呢?
原文鏈接:https://www.theregister.com/2025/06/30/who_me/
AI 產(chǎn)品爆發(fā),但你的痛點解決了嗎?
2025 全球產(chǎn)品經(jīng)理大會
8 月 15–16 日
北京·威斯汀酒店
互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人
12 大專題分享,洞察趨勢、拆解路徑、對話未來。
立即掃碼領(lǐng)取大會PPT
搶占 AI 產(chǎn)品下一波紅利
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.