2024年,系統(tǒng)穩(wěn)定性問題成為全球關(guān)注的焦點。在這一年里,多起系統(tǒng)崩潰和服務中斷事件頻發(fā),不僅給企業(yè)帶來了巨大的經(jīng)濟損失,也嚴重影響了人們的日常生活。面對這些挑戰(zhàn),如何確保系統(tǒng)的穩(wěn)定運行,提升服務的高可用性,成為了各行各業(yè)亟待解決的問題。在這個充滿不確定性的時代,探討系統(tǒng)穩(wěn)定性的重要性及其應對策略,顯得尤為迫切和必要。
那么,面對這些挑戰(zhàn),云計算巨頭們是如何做的呢?
在Gartner的魔力象限圖中,亞馬遜云科技憑借其出色的技術(shù)視野和強大的落地能力,一直位于右上角的領(lǐng)導者位置。在詳細的評估報告中,亞馬遜云科技在韌性方面的得分為4.0,遠遠領(lǐng)先于其他云服務提供商。
亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞表示,亞馬遜云科技的成功來自多方面。基礎設施方面,確保了數(shù)據(jù)中心的物理安全和穩(wěn)定性;系統(tǒng)架構(gòu)方面,亞馬遜云科技的分布式軟件設計能夠充分利用底層基礎設施,提高系統(tǒng)的可靠性;運營機制方面,通過持續(xù)的運營實踐和流程改進,確保了服務的穩(wěn)定性和可靠性。這些實踐和經(jīng)驗積累,使得亞馬遜云科技能夠構(gòu)建出可靠的云服務,滿足客戶的需求,并在行業(yè)中保持領(lǐng)先地位。
基于此,亞馬遜云科技在2023年達到了一個新的里程碑,每天穩(wěn)定啟動的Amazon EC2虛擬機實例超過一億個,每秒API請求數(shù)達到100萬億次。這一龐大的規(guī)模展示了其在提供云服務方面的專業(yè)性和一致性。
亞馬遜云科技之所以能夠贏得全球數(shù)百萬客戶的信任和選擇,是因為它們在服務的可靠性、安全性和創(chuàng)新性方面做了很多努力。如今,亞馬遜云科技平臺已經(jīng)擁有超過240種服務,其中韌性服務占據(jù)了重要位置,并且韌性已成為許多服務設計的核心部分。這些因素共同促成了它連續(xù)13年在Gartner云基礎設施和平臺服務魔力象限中被評為領(lǐng)導者。
保障基礎設施安全
亞馬遜云科技在基礎設施方面的投入和設計是其服務穩(wěn)定性和可靠性的關(guān)鍵。代聞表示,如同選址對于建筑的重要性,亞馬遜云科技在建立數(shù)據(jù)中心時會考慮多種因素,包括地震風險、電力供應穩(wěn)定性等,以確保數(shù)據(jù)中心的物理安全和持續(xù)運行。亞馬遜云科技的數(shù)據(jù)中心設計遵循嚴格的標準,在全球范圍內(nèi)以城市為單元構(gòu)建,稱為“區(qū)域”(Region),每個區(qū)域內(nèi)設有多個“可用區(qū)”(Availability Zone, AZ),以實現(xiàn)數(shù)據(jù)中心之間的適當隔離和低延遲連接。
亞馬遜云科技每個可用區(qū)內(nèi)包含多個機房,這些機房不僅電力供應充足、設計冗余,還具備高容錯性和擴展性。機房之間的互聯(lián)非常充分,確保了區(qū)域內(nèi)的高內(nèi)聚性和低延遲通信。其網(wǎng)絡架構(gòu)還包括多個網(wǎng)絡中心,這些中心將不同的可用區(qū)連接起來,并與全球互聯(lián)網(wǎng)和其他區(qū)域進行高速、冗余的連接。這種三層網(wǎng)絡設計——機房內(nèi)部互聯(lián)、AZ到網(wǎng)絡中心的互聯(lián)、網(wǎng)絡中心到外部網(wǎng)絡的互聯(lián)——確保了云服務的高可用性和穩(wěn)定性。
基礎設施的設計和實施,是亞馬遜云科技保持領(lǐng)先的關(guān)鍵之一。
控制面與數(shù)據(jù)面的分離策略
亞馬遜云科技在設計服務時,采用了控制面與數(shù)據(jù)面分離的策略,這一策略在提高服務韌性方面發(fā)揮了關(guān)鍵作用。控制面負責處理服務的管理和配置,而數(shù)據(jù)面則負責處理實際的數(shù)據(jù)傳輸和處理。這種分離確保了即使控制面發(fā)生故障,數(shù)據(jù)面仍然可以獨立運行,從而最小化了故障對用戶服務的影響。
亞馬遜云科技的這種設計在Amazon EC2和Amazon S3等服務中得到了體現(xiàn)。例如,Amazon EC2在一個可用區(qū)內(nèi)提供服務,即使該區(qū)域內(nèi)發(fā)生故障,也不會影響其他可用區(qū)的服務。而Amazon S3則在區(qū)域級別提供服務,確保了即使某個可用區(qū)出現(xiàn)問題,也不會影響整個區(qū)域的服務。這種設計不僅提高了服務的韌性,也為用戶提供了不同級別的服務選項,以滿足他們的特定需求。
通過這些設計和實踐,亞馬遜云科技成功地構(gòu)建了一個既強大又靈活的云服務平臺,為用戶提供了可靠、安全且具有高度韌性的服務。
韌性的運營機制
在云服務的運營方面,亞馬遜云科技通過卓越的運營機制確保了服務的韌性,這是其領(lǐng)先行業(yè)的關(guān)鍵因素之一。據(jù)代聞介紹,亞馬遜云科技的運營機制圍繞四個核心要點展開:服務責任模型、運營就緒審查機制、安全的持續(xù)部署和糾錯流程。服務責任模型打破了開發(fā)與運維的界限,通過Devops文化實現(xiàn)研發(fā)和運維的緊密合作,每個服務團隊都對其服務的穩(wěn)定運行負責。我們的24小時on call機制確保了快速響應服務故障,避免了責任歸屬的混淆。
運營就緒審查機制則是在服務生命周期的各個階段進行風險評估,通過標準化的運營手冊和定期的審查,確保新服務的上線和更新符合運營標準。安全的持續(xù)部署流程通過分階段、逐步擴大的方式,從one box環(huán)境到多個region的部署,確保了服務的平滑升級和故障的最小化。糾錯流程則是對故障進行深入分析,通過編寫糾錯報告、審查和自動化改進,將經(jīng)驗教訓融入未來的服務迭代中,提高了整體的運營質(zhì)量和系統(tǒng)的韌性。
這些運營機制的建立和執(zhí)行,不僅體現(xiàn)了亞馬遜云科技對服務質(zhì)量的嚴格要求,也是其在云計算領(lǐng)域持續(xù)領(lǐng)先的重要保障。通過不斷的經(jīng)驗積累和流程優(yōu)化,才能夠更好地應對各種挑戰(zhàn),確保為客戶提供穩(wěn)定、可靠的云服務。
通過五個階段保持系統(tǒng)擁有足夠韌性
亞馬遜云科技基于豐富的實踐經(jīng)驗,開發(fā)了一個韌性系統(tǒng)建設生命周期框架,旨在幫助組織構(gòu)建和維護高韌性的系統(tǒng)。該框架包含五個關(guān)鍵階段,強調(diào)韌性是一個持續(xù)的生命周期過程,需要不斷地循環(huán)執(zhí)行這些階段,以適應不斷變化的環(huán)境和需求。
- 設定目標: 在初始階段,組織必須明確其韌性目標和要求,評估現(xiàn)有系統(tǒng)的韌性水平,并制定相應的改進計劃。這一階段的重點是系統(tǒng)風險識別和業(yè)務指標的確定,為后續(xù)的設計和實施奠定基礎。
- 設計及實施: 基于韌性最佳實踐,組織應構(gòu)建具有適當韌性控制措施的工作負載和系統(tǒng)。亞馬遜云科技提供了一系列增強韌性的服務和功能,如自動擴展、負載均衡和備份等,以支持這一階段的工作。重點環(huán)節(jié)包括備用方案、高可用性和容災方案的設計和實施。
- 驗證和測試: 提高系統(tǒng)的測試標準,采用混沌工程等方法驗證已知風險,并探索未知風險。這一階段的重點是可觀測性的建設和混沌工程的實施,確保系統(tǒng)能夠在各種壓力下保持穩(wěn)定。
- 持續(xù)運營: 實施運營最佳實踐,如自動化、監(jiān)控和變更管理等,以持續(xù)提高系統(tǒng)的可觀測性和自動化性。這一階段的目標是通過持續(xù)的運營活動,確保系統(tǒng)的韌性得到維護和優(yōu)化。
- 響應和改進: 定期回顧韌性策略和措施的有效性,總結(jié)事故的根因,避免問題的再次發(fā)生,并根據(jù)經(jīng)驗教訓不斷進行調(diào)整和改進。這一階段的目的是確保組織能夠從實踐中學習,不斷優(yōu)化其韌性策略。
通過這五個階段的循環(huán)執(zhí)行,組織能夠建立一個持續(xù)改進的韌性管理系統(tǒng),有效應對各種挑戰(zhàn)和變化。亞馬遜云科技的韌性系統(tǒng)建設生命周期框架為組織提供了一個清晰的指導,幫助它們構(gòu)建更加強大和可靠的系統(tǒng)。
2022年,奇瑞捷豹路虎邁出了數(shù)字化轉(zhuǎn)型的關(guān)鍵一步,選擇將關(guān)鍵的SAP系統(tǒng)遷移至亞馬遜云科技云上。通過亞馬遜云科技的區(qū)域和可用區(qū)特性,奇瑞捷豹路虎實現(xiàn)了業(yè)務敏捷性和人員工作效率的顯著提升。利用亞馬遜云科技的自適應跨可用區(qū)高可用集群,奇瑞捷豹路虎創(chuàng)新性地提出了高可用和同城災備融合方案。這一方案不僅增強了集群的可靠性和穩(wěn)定性,還最大限度地減少了停機時間,并確保了零數(shù)據(jù)丟失,將故障切換時間從半小時縮短至3分鐘。
紫訊科技與亞馬遜云科技合作,通過優(yōu)化使核心產(chǎn)品SLA提升至99.995%,RTO在10分鐘內(nèi),RPO小于1分鐘,顯著提升了業(yè)務的安全性和運營效率。
可以看到,通過一系列工具和服務,亞馬遜云科技幫助用戶夠構(gòu)建一個強大的韌性策略,快速響應潛在的中斷,并從中斷中迅速恢復,確保了業(yè)務的連續(xù)性和數(shù)據(jù)的完整性。
在云服務領(lǐng)域,可靠性、安全性、業(yè)務連續(xù)性以及系統(tǒng)韌性是貫穿始終的核心原則。伴隨著人工智能推動的應用迅猛發(fā)展,則更應增強憂患意識,正視層出不窮的新挑戰(zhàn)。為此,我們必須構(gòu)建起堅不可摧的韌性體系,未雨綢繆,確保在任何情況下都能保持服務的穩(wěn)定與安全。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.