“苦救火、背鍋久矣!”
一句心酸,道出多少IT運維人的心聲。
很多故障和問題在理論情況下都不會發(fā)生,可偏偏在生產(chǎn)環(huán)境里發(fā)生了,還找不到原因,而如果恰巧這是個單點故障,那運維人可真是“表面穩(wěn)如泰山,內(nèi)心慌如老狗”。然而,一通操作猛如虎之后,一個小問題會不會變成連鎖故障?俗話說:運維無小事,小事不運維。想必這正是讓運維人心力交瘁的原因。
其實,很多風險規(guī)避機制都不是靠人,規(guī)避運維風險,同樣如此。云智原生時代,智能運維相伴而生,人工干預越來越少,“今天”的智能運維和“昨天”的運維有什么不同?“明天”的運維又將走向何方?
在數(shù)據(jù)上做文章
2016年,Gartner首次提出“智能運維”的概念,當時,學界認為,智能運維指的就是通過機器學習或者深度學習的算法,形成了算法的包,這樣的算法平臺就是智能運維平臺。
在產(chǎn)業(yè)界,則更傾向于認為智能運維是利用AI算法和大數(shù)據(jù)分析等技術,幫運維人員解決從數(shù)據(jù)采集、數(shù)據(jù)監(jiān)控,到數(shù)據(jù)分析,再到基于數(shù)據(jù)分析形成結論,并且反饋到日常工作中,以提高運維效率的這樣一個閉環(huán)。
從早期由運維人員手工完成IT運維工作,到后來的自動化運維階段,再到如今的智能運維,面對更大規(guī)模、更具復雜性的系統(tǒng),人的認知局限和生理極限已經(jīng)無法應對,運維在這一過程中面臨的挑戰(zhàn)越來越多。運維人員的職責也從操作性的維護工作,發(fā)展為需要多方面知識、具備 IT 綜合能力的研發(fā)運維工作。
以某銀行IT系統(tǒng)架構為例,其數(shù)據(jù)中心有400多萬個節(jié)點,每個節(jié)點都有自己的監(jiān)控數(shù)據(jù),常見的可觀測性數(shù)據(jù)包括指標、日志、調(diào)用關系等等,這些數(shù)據(jù)間的關系又非常復雜。而且,隨著云計算、微服務等技術的流行,以及業(yè)務的迅速發(fā)展,運維數(shù)據(jù)也呈現(xiàn)了指數(shù)級增長。毫不夸張地講,運維需要面對的場景越來越復雜和龐大了。
對于運維,每個企業(yè)都有自己的想法和思路,大家理想中的運維系統(tǒng)各不相同。有的公司希望能有把功能做深的專用運維軟件,從全局視角,通過統(tǒng)一運維的能力把數(shù)據(jù)都拉通;有的公司運維團隊很小,認為沒有必要建立這么多分域的運維系統(tǒng),希望一個獨立的運維系統(tǒng)把所有數(shù)據(jù)都處理了。
除了CPU等常規(guī)KPI數(shù)據(jù),還能不能采集一些非傳統(tǒng)的數(shù)據(jù)?比如隨流檢測、芯片級轉(zhuǎn)發(fā)丟包的數(shù)據(jù),清楚地知道數(shù)據(jù)丟在哪里了。無疑,這是把數(shù)據(jù)采集的范圍又往外擴張了一大步。“智能運維如果想達到好的效果,第一步就是要在數(shù)據(jù)上做文章。”新華三集團智能管理與運維產(chǎn)品線總經(jīng)理敖襄橋直言。
新華三集團智能管理與運維產(chǎn)品線總經(jīng)理 敖襄橋
用統(tǒng)一平臺降低運維復雜度
在運維整個系統(tǒng)中,會有安全、網(wǎng)絡等一系列特定領域的運維軟件,但這些運維軟件的數(shù)據(jù)往往沒有拉通,運維人員對多個系統(tǒng)進行運維的時候會有很多困擾。比如,在流程方面,運維工程師們就經(jīng)常面臨這樣一個困擾:申請安全防火墻的配置,給相關的工程師分配權限、視圖、操作,有一套流程要在安全系統(tǒng)里去操作,而要申請?zhí)摂M資源時,又需要到云的系統(tǒng)上去申請。
能不能有一個統(tǒng)一的平臺來降低運維的復雜度?在今年的領航者峰會上,新華三重磅發(fā)布U-Center5.0統(tǒng)一運維平臺,通過“統(tǒng)一門戶、統(tǒng)一告警、統(tǒng)一資源、統(tǒng)一流程、統(tǒng)一分析”這“五個統(tǒng)一”來進一步降低基礎設施與應用之間的統(tǒng)一運維復雜度。
統(tǒng)一門戶:
讓運維人員只需要面對一個統(tǒng)一的入口,通過U-Center就能夠進入到企業(yè)全視角的IT系統(tǒng)里進行運維,實現(xiàn)云、網(wǎng)、端異構全域混合資源的“一站式”管理。
統(tǒng)一資源:
通過CMDB把企業(yè)運維資產(chǎn)全部納管起來,從而實現(xiàn)數(shù)據(jù)的統(tǒng)一收集,讓IT資產(chǎn)全域可視、可管、可用,各種維度資源情況一覽無余。
統(tǒng)一告警:
U-Center可以實現(xiàn)多個來源的“統(tǒng)一告警”。敖襄橋表示:“客戶自己運維系統(tǒng)里的告警信息,我們會把它再納管到U-Center里面來,基于告警的過濾、壓縮、渲染、聚合規(guī)則及智能算法,實現(xiàn)告警降噪和風險的抑制,依懶OBASHI理論及CMDB中資源的關聯(lián)關系,最終實現(xiàn)根因定位,比如,告警發(fā)生在什么地方、運維人員是誰、發(fā)生問題的原因是什么等等,然后把告警和分析結論推給特定的運維同事。”
統(tǒng)一流程:
通過U-Center接入規(guī)范和流程自定義,打通各種運維工具之間的“主動脈”,使用一套流程工具替換各產(chǎn)品組件中的多個流程模塊,實現(xiàn)規(guī)范化的統(tǒng)一流程管理。
統(tǒng)一分析:
把多源、多類型的運維數(shù)據(jù)匯聚到U-Center上,通過數(shù)據(jù)基建、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)服務、數(shù)據(jù)應用實現(xiàn)多級價值提升。將各業(yè)務組件孤立的數(shù)據(jù)拉通,實現(xiàn)各專題或業(yè)務域數(shù)據(jù)的關聯(lián)對比及趨勢分析,充分萃取數(shù)據(jù)價值。
當智能運維遇到AIGC
智能運維與傳統(tǒng)運維最大的區(qū)別在于大數(shù)據(jù)的關聯(lián)分析能力,以及隨之帶來的故障預測能力。當前,業(yè)界也有標準將智能運維成熟度劃分為L1-L5,走到L3這個階段,一部分故障業(yè)務已經(jīng)可以自動處理,不需要人工參與,但更復雜問題的處理過程中還需要人來參與決策。
智能運維確實也在吻合不同應用場景的成熟度方面一步步往上走,而AIGC的能力正好作為加速升級的工具。“AIGC的出現(xiàn)讓我們看到了一個新的解決問題的方法。借助AIGC,智能運維的故障預測、趨勢預測、故障診斷可以真正地把過往的知識注入進去。沒有AIGC的時候,知識是知識,算法是算法,它們之間是沒有關聯(lián)的。”敖襄橋說。
在運維領域,需要訓練一個“懂運維”的大模型,而不僅僅是一個通用大模型。新華三在AIGC這件事情上,實際上有一個比較宏大的布局。據(jù)筆者了解,現(xiàn)在新華三內(nèi)部就有多個團隊正在進行相關研發(fā),以今年領航者峰會上正式發(fā)布的百業(yè)靈犀大模型為例,它背后就包含了一套相關軟件的布局,運維領域相關的一些數(shù)據(jù)的收集、相關模型的嘗試和評測都已經(jīng)在完整開發(fā)過程中。
“新華三在AIGC,包括智能運維方面的方向很清楚:第一個是將新華三過往20年的內(nèi)部積累數(shù)據(jù),整理和構造成新華三獨有的ICT領域運維數(shù)據(jù)集;第二個是關注學術界的技術進展,并遵循通用大模型的趨勢;第三是基于將新華三的歷史經(jīng)驗積累數(shù)據(jù)和學術界的進展,為客戶提供有新華三知識注入的ICT領域、智能運維領域的大模型。”敖襄橋說。
借助AIGC,通過自動化和預測分析來減少人工干預,提高IT運維的效率和效果是必由之路,也為運維服務打開了新的想象空間。
所有的變革都是為了未來做得更好,是向生而生。發(fā)展到今天,智能運維已經(jīng)不僅僅是對過程和方法的描述,它已經(jīng)開始滲透到企業(yè)管理和實踐層面,甚至慢慢影響了企業(yè)文化。正如敖襄橋所說:“運維是沒有盡頭的行業(yè),不斷會有新的訴求出現(xiàn),新的訴求會牽引著我們一起來前進。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.