99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

監(jiān)控告警滿飛天,運維在家睡到自然醒...

0
分享至

  本文闡述了 Netflix 的系統(tǒng)監(jiān)控實踐:自研 Telltale,成功運行并監(jiān)控著 Netflix 100 多個生產(chǎn)應(yīng)用程序的運行狀況。

  難忘的經(jīng)歷

  相信很多運維人都有過這樣的經(jīng)歷:監(jiān)控系統(tǒng)某個指標超過閾值,觸發(fā)告警。大半夜里,你被緊急召喚。

  半睜著眼,你滿臉疑惑:“系統(tǒng)真出問題了嗎,還是僅僅需要調(diào)整下告警?上一次有人調(diào)整我們的告警閾值是在什么時候?有沒有可能是上游或者下游的服務(wù)出現(xiàn)了問題?”

  鑒于這是一次非常重要的應(yīng)用告警,因此你不得不從床上爬起來,迅速打開電腦,然后瀏覽監(jiān)控儀表盤來追蹤問題源頭。

  忙了半天,你還沒確認這個告警是來自于系統(tǒng)的問題,但也意識到,從海量數(shù)據(jù)中尋找線索時,時間正在流逝。你必須盡快定位告警的原因,并祈禱系統(tǒng)穩(wěn)定運行。

  對我們的用戶來講,穩(wěn)健的 Netflix 服務(wù)至關(guān)重要。當你坐下來看《養(yǎng)虎為患》時,你肯定希望它能順利播放。

  多年來,我們從經(jīng)常在深夜被召喚的工程師那里了解到應(yīng)用程序監(jiān)控的痛點:

   過多的告警

   太多滾動瀏覽的儀表盤

   太多的配置

   過多的維護

  Telltale

  我們的流媒體團隊需要一個全新的監(jiān)控系統(tǒng),可以讓團隊成員快速地診斷和修復(fù)問題;因為在系統(tǒng)告警的緊急情況下,每一秒都至關(guān)重要!

  我們的 Node 團隊 需要一個僅需一小撮人就能運維大型集群的系統(tǒng)。因此,我們構(gòu)建了 Telltale。

  

  Telltale 的特性如下:

  匯集監(jiān)控數(shù)據(jù)源,創(chuàng)建整體監(jiān)控視圖: Telltale 匯集了各種監(jiān)控數(shù)據(jù)源,從而能創(chuàng)建關(guān)于應(yīng)用程序運行狀況的整體監(jiān)控視圖。

  多維度判斷應(yīng)用程序的健康狀況: Telltale 可以通過多個維度判斷一個應(yīng)用程序的健康情況,而無需根據(jù)單一指標頻繁調(diào)整告警閾值。

  及時告警: 因為我們知道應(yīng)用程序在什么情況下是正常的,所以能在應(yīng)用程序有異常趨勢時及時通知應(yīng)用程序的所有者。

  顯示關(guān)鍵數(shù)據(jù): 指標是了解應(yīng)用程序運行狀態(tài)的關(guān)鍵。但很多時候,你擁有太多的指標、太多的圖表以及太多的監(jiān)控儀表盤。而 Telltale 僅顯示應(yīng)用程序中有用的相關(guān)數(shù)據(jù)及其上游和下游服務(wù)的數(shù)據(jù)。

  用顏色區(qū)分問題的嚴重程度: 我們使用不同的顏色來表示問題的嚴重程度(除選擇顏色之外,還可以讓 Telltale 顯示不同的數(shù)字),以便運維人員一眼就能判斷出應(yīng)用程序的運行狀況。

  高亮提示: 我們還會對一些監(jiān)控事件進行高亮提示,比如局部區(qū)域的網(wǎng)絡(luò)流量疏散及就近的 服務(wù)部署,這些信息對于全面了解服務(wù)的健康情況至關(guān)重要,尤其是在真正發(fā)生系統(tǒng)故障的情況下。

  這就是我們的 Telltale 監(jiān)控。它現(xiàn)已成功運行并提供監(jiān)控服務(wù),監(jiān)控著 Netflix 100 多個生產(chǎn)應(yīng)用程序的運行狀況。

  

如果您正在學(xué)習(xí)Spring Boot,那么推薦一個連載多年還在繼續(xù)更新的免費教程:http://blog.didispace.com/spring-boot-learning-2x/
應(yīng)用程序健康評估模型

  微服務(wù)并非是孤立存在和運行的。它需要特定的依賴,與其他服務(wù)進行數(shù)據(jù)交互,甚至位于不同的 AWS 區(qū)域。

  上面的調(diào)用圖是一個相對簡單的圖,其中涉及許多服務(wù),實際的調(diào)用鏈可能會更深更復(fù)雜。

  一個應(yīng)用程序是系統(tǒng)生態(tài)的一部分,它的運行狀態(tài)可能會受到相關(guān)屬性變化的微弱影響,也有可能會受到區(qū)域范圍內(nèi)某些事件的影響從而發(fā)生根本性改變。

  canary 的啟動可能會對應(yīng)用程序產(chǎn)生一定影響。在一定程度上,上游或下游服務(wù)的部署同樣也可以帶來一定的影響。

  Telltale 通過使用多個維度的數(shù)據(jù)源構(gòu)建一個不斷自我優(yōu)化的模型來監(jiān)控應(yīng)用程序的健康度:

   Atlas 時序指標

   區(qū)域網(wǎng)絡(luò)流量疏散

   Mantis 實時流數(shù)據(jù)

   基礎(chǔ)架構(gòu)變更事件

   Canary 部署及使用

   上、下游服務(wù)的運行狀況

   表征 QoE 的相關(guān)指標

   告警平臺發(fā)出的報警

  不同的數(shù)據(jù)源對應(yīng)用程序健康度的影響權(quán)重不同。例如,與錯誤率增加相比,響應(yīng)時間的增加對應(yīng)用程序的影響要小很多。

  錯誤代碼有很多,但是某些特定的錯誤代碼的影響要比其他錯誤代碼的影響大。在服務(wù)下游部署 canary 可能不如在上游部署帶來的效果明顯。

  區(qū)域網(wǎng)絡(luò)流量轉(zhuǎn)移意味著某個區(qū)域的網(wǎng)絡(luò)流量降為零而另一個區(qū)域的網(wǎng)絡(luò)流量會加倍。

  你可以感受下不同的指標對于監(jiān)控的影響。監(jiān)控指標的具體含義決定了我們應(yīng)該如何科學(xué)有效地使用它來進行監(jiān)控。

  在構(gòu)建應(yīng)用程序健康狀況視圖時,Telltale 考慮了所有這些因素。應(yīng)用程序健康評估模型是 Telltale 的核心。

  智能監(jiān)控

  每個服務(wù)運維人員都知道告警閾值調(diào)整的難度。將閾值設(shè)置得太低,你會收到大量虛假告警。

  如果過度補償并放寬告警閾值,就會錯過重要的異常警告。這樣導(dǎo)致的最終結(jié)果是對告警缺乏信任。Telltale 可以幫助你免除不斷調(diào)整相關(guān)配置的繁瑣工作。

  通過提供準確的和嚴格管理的數(shù)據(jù)源,我們能讓應(yīng)用程序所有者的設(shè)置和配置過程變得更加容易。

  這些數(shù)據(jù)源通過按照一定的組合應(yīng)用到程序的配置中,以實現(xiàn)最常見的服務(wù)類型配置。

  Telltale 可以自動追蹤服務(wù)之間的依賴關(guān)系,以構(gòu)建應(yīng)用程序健康評估模型中的拓撲。

  通過數(shù)據(jù)源管理以及拓撲監(jiān)測,在不用付出很大的努力情況下就能使配置保持最新狀態(tài)。那些需要手動實踐的一些場景仍然支持手動配置和調(diào)整。

  沒有任何一個獨立的算法可以適用我們所有的監(jiān)控場景。因此,我們采用了混合算法,包括統(tǒng)計算法、基于規(guī)則的算法和機器學(xué)習(xí)算法。

  不久后,我們將在 Netflix Tech Blog 上發(fā)表一篇針對我們監(jiān)控算法的文章。

  Telltale 還具有分析器,可用于趨勢探測或內(nèi)存泄漏監(jiān)測。智能監(jiān)控意味著我們的用戶可以信賴我們的監(jiān)控結(jié)果。

  這表明故障發(fā)生時,用戶能更快地定位和解決系統(tǒng)異常問題。

如果您正在學(xué)習(xí)Spring Cloud,推薦一個經(jīng)典教程(含Spring Cloud Alibaba):https://blog.didispace.com/spring-cloud-learning
智能告警

  智能監(jiān)控必然會促進智能告警。當 Telltale 檢測到應(yīng)用程序中的運行異常時,就會產(chǎn)生異常事件。

  團隊可以選擇通過 Slack、電子郵件或 PagerDuty(均由我們的內(nèi)部告警系統(tǒng)提供支持)進行告警。

  如果該異常問題是由上游或下游系統(tǒng)引起的,則 Telltale 的上下文感知路由會提醒服務(wù)對應(yīng)的維護團隊。

  智能告警還意味著運維團隊針對特定異常只會收到一個通知,也就是說,告警風(fēng)暴已經(jīng)成為過去式。

  
Slack 中的 Telltale 通知示例

  在系統(tǒng)出現(xiàn)問題時,掌握準確的信息至關(guān)重要。我們的 Slack 告警程序還會啟動一個包含有關(guān)事件上下文信息的線程,提供 Telltale 識別到的異常問題信息及問題產(chǎn)生的原因。

  正確的上下文可以方便我們了解應(yīng)用程序的當前狀態(tài),以便值班運維的工程師能有針對性的定位和修復(fù)問題。

  異常告警事件會不斷發(fā)展而且擁有自己的生命周期,因此及時更新事件狀態(tài)至關(guān)重要。告警異常是好轉(zhuǎn)了還是惡化了?是否要考慮新的監(jiān)控信息或事件?

  Telltale 在當前事件發(fā)生改變時會更新 Slack 線程。系統(tǒng)返回正常狀態(tài)后,該線程將被標記為“已解決”,因此用戶一眼就能知道哪些異常事件正在處理中,哪些異常事件已成功修復(fù)。

  這些 Slack 線程不僅僅適用于 Telltale。團隊還可以用它們來共享有關(guān)事件的其他數(shù)據(jù),方便進一步觀察、理論分析和討論。

  異常信息數(shù)據(jù)和討論全部集中在一個線程中,方便達成針對當前異常的共識,有利于更快提出問題的解決方案以及異常事件的事后分析。

  我們致力于提高 Telltale 告警的質(zhì)量。一種方法是向我們的用戶學(xué)習(xí)。因此,我們在 Slack 消息中提供了反饋按鈕。

  用戶可以告訴我們以后某些情況不需要再發(fā)生告警,或提供某些告警不合理的原因。智能告警意味著用戶可以信賴我們的告警。

  
在 Slack 的 Telltale 通知中描述異常詳細信息的一個示例

  為什么我的應(yīng)用服務(wù)運行狀態(tài)欠佳?各種類型的監(jiān)控數(shù)據(jù)、應(yīng)用程序相關(guān)知識以及跨多種服務(wù)數(shù)據(jù)的相關(guān)性,有助于 Telltale 檢測分析應(yīng)用程序運行健康度降低的原因。

  這些原因包括實例異常、相關(guān)依賴的監(jiān)測和部署異常、數(shù)據(jù)庫異常或者網(wǎng)絡(luò)流量高峰等。突出高亮顯示這些可能的原因可以幫助運維人員節(jié)省大量寶貴的時間。

  異常事件管理

  
Telltale 異常事件摘要的一個示例

  當 Telltale 發(fā)送告警時,它還會創(chuàng)建一個快照,其中引用了不正常的監(jiān)控信號數(shù)據(jù)。隨著新監(jiān)控信息的到來,會將其添加到此快照中。

  這簡化了團隊的很多事后審查流程。當需要復(fù)查過去的異常問題時,“應(yīng)用程序事件摘要”功能可以從各個方面顯示當前的問題,包括一些關(guān)鍵指標,比如總停機時間和 MTTR(平均解決時間)。

  我們希望幫助我們的團隊了解更多的異常事件的模式,以便提高我們服務(wù)的整體可用性。

  
集群視圖下將相似異常事件分組

  部署監(jiān)控

  可以看出,Telltale 的應(yīng)用程序健康評估模型及其智能監(jiān)控功能非常強大,所以我們也會將其應(yīng)用于安全部署方面。我們從開放源碼交付平臺 Spinnaker 開始測試。

  隨著 Spinnaker 逐漸推出新版本,我們使用 Telltale 連續(xù)監(jiān)監(jiān)控運行新版本實例的運行狀態(tài)。

  持續(xù)監(jiān)控意味著新部署在問題出現(xiàn)時能自行停止并進行回滾操作。這意味著部署存在問題時的影響半徑較小,持續(xù)時間更短。

  

  持續(xù)優(yōu)化

  在復(fù)雜的系統(tǒng)中,運行微服務(wù)非常具有挑戰(zhàn)性。Telltale 的智能監(jiān)控和告警功能可以幫助我們運維人員提高系統(tǒng)可用性、降低運維人員的勞動強度并減少工作人員大半夜被叫醒的頻率。

  我們?yōu)?Telltale 做到的這些功能提升感到高興。但是遠沒有結(jié)束,我們?nèi)栽诓粩嗵剿餍滤惴ǎ蕴岣吒婢臏蚀_性。

  我們將在以后的 Netflix Tech Blog 文章中詳細介紹我們的工作進展。我們?nèi)匀辉趯?yīng)用程序健康評估模型進行進一步評估和改進。

  我們相信服務(wù)運行日志和跟蹤數(shù)據(jù)中會包含更多有價值的信息,這樣我們就能采集到更有用的指標數(shù)據(jù)。我們很期待與平臺其他團隊進行合作,共同開發(fā)這些新功能。

  將新應(yīng)用監(jiān)控引入 Telltale 可以享受到很好的服務(wù)體驗,但是無法很好的進行擴展,所以我們絕對可以優(yōu)化和提高自服務(wù)的用戶界面。

  我們確信,有更好的啟發(fā)式方法能幫助用戶找出影響服務(wù)健康度的一些因素。Telltale 簡化了應(yīng)用程序的監(jiān)控。

   來源 | http://7t4z2.cn/2Oa14

  END

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
宗慶后被曝有7子,看了宗馥莉為他立的墓碑,才知道她早就布局了

宗慶后被曝有7子,看了宗馥莉為他立的墓碑,才知道她早就布局了

麥大人
2025-07-18 12:05:16
老杜預(yù)感到什么,承諾3年后親自為女兒撐腰,打造第二個杜特爾特

老杜預(yù)感到什么,承諾3年后親自為女兒撐腰,打造第二個杜特爾特

起喜電影
2025-07-23 18:07:53
暴發(fā)戶舅舅93年買下京城5套四合院后坐牢,出獄去那一看,當場跪下

暴發(fā)戶舅舅93年買下京城5套四合院后坐牢,出獄去那一看,當場跪下

紅豆講堂
2025-07-21 16:30:58
德布勞內(nèi)社媒:很高興今天上演首秀,比賽有助于恢復(fù)狀態(tài)

德布勞內(nèi)社媒:很高興今天上演首秀,比賽有助于恢復(fù)狀態(tài)

直播吧
2025-07-23 05:48:04
林彪和九大開國元帥關(guān)系如何?

林彪和九大開國元帥關(guān)系如何?

河山歷史
2025-07-19 11:52:52
這次印度訪華全是反效果,幫中國徹底下決心,在西藏開工重大工程

這次印度訪華全是反效果,幫中國徹底下決心,在西藏開工重大工程

荷蘭豆愛健康
2025-07-22 11:45:09
和大衣哥兒子離婚4年后,陳亞男開始相親,揚言要找個條件更好的

和大衣哥兒子離婚4年后,陳亞男開始相親,揚言要找個條件更好的

手工制作阿殲
2025-07-23 14:33:31
剛剛!武商集團官宣!

剛剛!武商集團官宣!

越喬
2025-07-23 16:56:39
中美下輪貿(mào)易談判生變?美國制造兩個新麻煩,要中國配合制裁俄伊

中美下輪貿(mào)易談判生變?美國制造兩個新麻煩,要中國配合制裁俄伊

探史
2025-07-22 10:44:21
A股,今天最高漲至3613點,明天會漲還是準備下跌?提前分析!

A股,今天最高漲至3613點,明天會漲還是準備下跌?提前分析!

阿傖說事
2025-07-23 15:19:46
中國十大“網(wǎng)紅城市”排行榜,北方2個,南方8個,都是不錯的城市

中國十大“網(wǎng)紅城市”排行榜,北方2個,南方8個,都是不錯的城市

阿龍美食記
2025-07-23 18:57:56
不到24小時!雅魯藏布江工程剛動工,印主持人:派飛機炸中國工地

不到24小時!雅魯藏布江工程剛動工,印主持人:派飛機炸中國工地

南宗歷史
2025-07-23 16:59:28
當全紅嬋備賽畫面曝光,才明白陳芋汐有多狠,郭晶晶的話說對了

當全紅嬋備賽畫面曝光,才明白陳芋汐有多狠,郭晶晶的話說對了

查爾菲的筆記
2025-07-22 12:14:29
底褲被扒光!兩只杜賓犬女主人認慫了,登門道歉,網(wǎng)友們不買賬

底褲被扒光!兩只杜賓犬女主人認慫了,登門道歉,網(wǎng)友們不買賬

奇思妙想草葉君
2025-07-23 17:16:30
你們是不是對“下一盤大棋”有什么誤會?

你們是不是對“下一盤大棋”有什么誤會?

邏輯與常識
2025-07-18 06:58:00
女生男相!李湘母女在日本逛奢侈品店,王詩齡正面滿臉胡子好嚇人

女生男相!李湘母女在日本逛奢侈品店,王詩齡正面滿臉胡子好嚇人

娛樂小丸子
2025-07-22 20:50:25
大S死活不讓孩子回北京的原因,竟然是因為這個,倆孩子真可憐!

大S死活不讓孩子回北京的原因,竟然是因為這個,倆孩子真可憐!

大笑江湖史
2025-07-23 09:18:22
上海首批“大齡剩女”已住進養(yǎng)老院,如今的生活全被費翔說中了

上海首批“大齡剩女”已住進養(yǎng)老院,如今的生活全被費翔說中了

健身狂人
2025-07-22 15:21:36
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
公安部交管局局長王強:現(xiàn)有“智駕”非“自駕”,脫手脫眼駕駛面臨三重法律風(fēng)險!

公安部交管局局長王強:現(xiàn)有“智駕”非“自駕”,脫手脫眼駕駛面臨三重法律風(fēng)險!

時代汽車網(wǎng)
2025-07-23 17:06:09
2025-07-23 20:00:49
Meta
Meta
關(guān)注java進階架構(gòu)師送架構(gòu)
1059文章數(shù) 9856關(guān)注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關(guān)切雅魯藏布江下游水電站工程 中方回應(yīng)

頭條要聞

印度、孟加拉關(guān)切雅魯藏布江下游水電站工程 中方回應(yīng)

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態(tài)度原創(chuàng)

藝術(shù)
旅游
游戲
教育
本地

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

LPL第三階段:TES零封FPX,要想改變口碑,還需要成績說話

教育要聞

2025年天津高考提前批投檔線分析:中國民航大學(xué)訂單班受熱捧

本地新聞

這雙丑鞋“泰”辣眼,跪求內(nèi)娛不要抄作業(yè)

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 贵德县| 安新县| 银川市| 民勤县| 通道| 松阳县| 柯坪县| 临沭县| 巴楚县| 钟祥市| 黎平县| 柞水县| 河曲县| 香格里拉县| 班戈县| 宣汉县| 兴和县| 松溪县| 化德县| 仁布县| 绥棱县| 哈巴河县| 栖霞市| 武夷山市| 铜鼓县| 图片| 怀仁县| 塔城市| 高清| 灵寿县| 华宁县| 山西省| 内江市| 依兰县| 外汇| 胶州市| 温泉县| 清远市| 大兴区| 杭州市| 利辛县|