周一下午3點,用戶打不開網易云音樂了。宕機長達兩小時,“網易云音樂崩了”登上熱搜第一。
在一個需要精神撫慰的工作日下午大面積癱瘓,不管從輿論角度,還是內部組織角度,這對網易都是一場級別極高的事故。
官方賬號很快回應是基礎設施出了故障;晚上9點,網易云音樂又補充稱,是因為“業務擴容”出現的技術事故。
無論是“基礎設施”還是“業務擴容”,這些解釋普通人幾乎都很難看懂。
流言開始以大家能理解的方式口口相傳,版本不一,但背后的敘事邏輯無外乎“裁員裁到大動脈”,程序員離職報復導致的問題——這是大家喜聞樂見的爽文模式。
網易很快辟謠,稱“沒有刪庫、沒有跑路”。
截至發稿,網易集團沒有對外釋放更詳細的解釋公告;但根據目前兩個公開解釋,結合網易云音樂近期的技術動作,背后的原因也幾乎浮現出來。
答案其實還是“省錢”。
但這個“省”并不一定直接指向裁員。而是指網易在技術基建、方案上的省錢;也指網易這家公司在創始人就是唯一決策人的文化基因下,一直貫徹的省錢稟賦。
01
一位大公司的技術人員告訴我們,所謂“業務擴容”,是公司為了應對更多用戶或者更大規模的使用需求,在技術上增加或升級服務能力。這是一個相對常規的動作,是一家公司在正常運維過程中需要保障的東西。
簡而言之,“業務擴容”對一家技術合格的公司幾乎不可能會造成如此嚴重的問題。
網易集團是目前中國互聯網市值前五的上市公司,云音樂也是一家年收入已經達到20億的上市公司,這意味著,正常“業務擴容”不太可能、也不應該出現這樣級別的事故。
網易此次的特殊性在于,它剛剛完成了從杭州到貴州數據中心的遷移。
7月11日,網易云音樂技術團隊在程序員社區“稀土掘金”以及自己的公眾號都發布了一篇名為《云音樂貴州機房遷移總體方案回顧》(后續簡稱《遷移方案》)的文章。
通過文章,我們可以看出云音樂整體遷移至貴州機房是一個巨大的系統工程,規模大、難點多、風險大。
上述大公司技術人員向我解釋,像貴州機房這種規模的遷移即便完成也可能有很大潛在問題,因為它會讓整體穩定性和保障性降低。在這樣的設施基礎上,一次簡單的“業務擴容”就可能讓問題大爆發。
換句話說,雖然網易云音樂宕機可能并不發生在遷移過程中,但因為換到了貴州機房,網易很多應用的穩定性至少在短時間內會變得更加脆弱。
既然一次大規模遷移可能帶來多次不可預知的問題——不到半年前的3月,網易云音樂也出現過短暫宕機——那為什么一定要遷到貴州?
地理要素是其一,比如貴州一年四季氣候涼爽宜人,其喀斯特地貌和洞穴可以為服務器更好降溫;而且貴州遠離地震帶,是很安全的數據儲存庫。
但對企業來說,更重要的決策原因可能還要回到我們一開始就已經提到的答案:省錢。
根據China Daily的報道,與在東南部沿海地區建立同樣的數據中心相比,在貴州可以節省大約58%的電費。1萬個標準服務器機架,每年光電費就可以節省1.3億元。更別提貴州作為大數據產業先行區,提供的政策支持和稅收優惠了。
這與想降本增效的大公司一拍即合。
2021年到2022年,騰訊是對“降本增效”最明確的公司,它也是第一個在貴州建立數據中心的大公司。到2022年9月,網易貴安數據中心項目也正式簽約,項目規劃的標準機架就是1萬架。
這意味著,這個項目落地后,網易未來在數據中心的花費上,僅電費就可以節省1.3億元。
02
省錢換更好的地方無可指摘。但對網易來說,宕機事故的爆發,再往深追溯,其實是另一個問題——技術基建的薄弱。
大規模的數據遷移以及后續的保障是考驗一家公司技術底子的時候。在《遷移方案》中,網易技術團隊就列出了一系列技術債務;遷移完成后,也反思還存在應用元信息(即“信息標簽”)建設不足、應用配置等多個問題。
保障性和穩定性也依然存在漏洞,網易技術團隊自己總結:
“盡管在貴州機房遷移中,做了大量的穩定性保障措施,但依賴每個研發對各自負責領域的理解、運維能力。是否能在團隊管理、設施管理、服務管理、穩定性管理、架構設計等多方面,探索出一套可持續的長效保障機制?并進行一定的穩定性系統化建設?從而避免點狀問題隨機發生。”
這個問題暫時無人可以回答,或許在這次事故出現后的復盤里,技術團隊可以重提。
不過一家企業技術基建、技術團隊管理的問題,歸根究底也是它的文化和組織優先級的問題。
一位網易前員工告訴我們,網易并不是個追求技術先進的公司;技術架構可能一開始還行,但后來會因為工期問題,只能繼續往上堆垃圾。
另一位從網易跳槽到阿里的員工,對比兩家公司的技術基建,也覺得網易在技術投入上過于看重投入產出比,一旦看不到效果就收縮,難有動力長期投入。
網易對技術人才的重視度從招聘上也能看出。不僅平均薪資低于其他大廠,崗位也更少。
一位今年畢業的技術崗位應屆生告訴我,在他們理想公司的排序里,字節是首選;阿里和騰訊是優選;快手對新技術很看重,面試體驗不錯;而京東和網易崗位不多,在校招生中存在感不強。
相比追求技術進步,網易是一家產品文化驅動的公司。這也跟創始人的志趣相關。
創業前兩年,網易創始人丁磊還在擔任網易的聯席首席技術執行官;到2005年底,他仍是網易的首席架構師。此后,你能看到,他的興趣就從技術轉移到了產品,他在逐漸成為網易的“頭號產品經理”。
對丁磊來說,產品經理的含義非常廣闊。互聯網應用、實體商品、游戲,他的好奇心強烈,新點子也源源不斷;而這些新點子可以在網易這個王國里完全地被滿足、被試驗。
游戲賺錢、環境很好的時候,杭州研究院幾乎就是丁磊個人興趣的實驗室。這里孵化了多個業務,云音樂、云課堂都是從這里出生,他們獨立、壯大,有的甚至上市。
丁磊得到的正反饋越多,就越發肯定自己,他有時對產品經理們說,“我覺得自己的產品能力越來越強了。”
在網易,普通員工與丁磊打交道最多的一類也是產品經理。有員工看到,在丁磊的眼里,技術員工只會跟他說能不能實現,設計的作用是具象化,跟他們討論都不過癮,只有產品經理能接住他的理念。
和其他已經實現了更現代化治理的公司相比,網易仍是一家創始人介入深、說了算的公司。這意味著,對技術投入程度基本取決于老板的心態。
年景好的時候,網易也有資金投在數據中臺、云服務的建設上,但這個錢不好掙,也沒有創造一個產品來得開心和有成就感。年景不好的時候,這都是需要被收縮和優化的項目。
網易員工私下談論起丁磊,形容他仍是個“寧波小老板”。
一位網易前員工看到,5000元的項目,管理層都得拿著單子親自找丁磊簽字,也得提前準備好答案以防丁老板問起細節。
這種生意人的特點,可以解釋丁磊為什么從不投資網易的離職創業者。他在跟吳曉波的一次對談中,說只相信自己的“商業模式”,只做自己懂、或者感興趣的事情。
創始人的稟賦讓網易在大環境開始變化時,提前就開始應對。2018年后,丁磊就已經陸續開始對“興趣項目”進行盤點,2022年,整個互聯網行業都在省錢,而網易趕在寒流到來之前就完成了大部分的“降本增效”。
回到技術基礎設施建設的問題,一位員工拋出自己的觀點:“你如果是一個‘鄉鎮企業家’,會重點投入在生產線升級換代上嗎?”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.