近幾年,隨著(zhù)云計算、微服務(wù)等技術(shù)的流行,以及互聯(lián)網(wǎng)業(yè)務(wù)的迅速發(fā)展,運維人員要關(guān)注的服務(wù)數量也呈現了指數級增長(cháng),自動(dòng)化運維雖然提升了效率,解決了一部分問(wèn)題,但也遇到了新的難題,比如面對繁多的報警信息,運維人員應該如何處理?故障發(fā)生時(shí),又如何能夠迅速定位問(wèn)題?
智能化運維應運而生,智能化運維就是希望基于已有的運維數據(日志、監控信息、應用信息等)并通過(guò)機器學(xué)習的方式來(lái)進(jìn)一步解決自動(dòng)化運維沒(méi)辦法解決的問(wèn)題。傳統的監控為了發(fā)現現在的錯誤,智能化監控為了預測潛在的問(wèn)題,進(jìn)而實(shí)現更加全面和體系化的監控生態(tài)。這個(gè)階段最顯著(zhù)的標志應該是運維工作從依靠人工決策,逐步轉為依靠機器決策。
安全態(tài)勢感知平臺需要對全網(wǎng)資產(chǎn)進(jìn)行資源管理的基礎上,以業(yè)務(wù)應用為牽引,實(shí)現多維度數據采集和性能監控、故障監控以及全生命周期配置管理的流程,并充分利用可視化技術(shù)呈現實(shí)現全景運維。隨著(zhù)運維的精細化要求越來(lái)越高,智能化的運維可以讓運維更簡(jiǎn)單。這就需要更全面的自動(dòng)化能力和數據分析能力,具體的智能化運維設計需要實(shí)現如下目標。
● 集成多方的平臺能力。建立統一的智能化運維管理平臺,實(shí)現對多系統、多業(yè)務(wù)的整合,并能夠與威脅情報、網(wǎng)管平臺等第三方知識庫進(jìn)行對接。通過(guò)統一平臺化,模糊業(yè)務(wù)系統與運維平臺之間的邊界,增加深入的數據關(guān)聯(lián)分析。
● 強大的故障監測能力,運維對象從傳統的物理設備延展至云端虛擬化設備,實(shí)現物理設備、虛擬化設備、應用系統等多類(lèi)型資產(chǎn)的監測?梢陨钊霕I(yè)務(wù)并且對業(yè)務(wù)進(jìn)行多維度的故障挖掘,分析業(yè)務(wù)運行情況,重點(diǎn)監控關(guān)鍵資產(chǎn),關(guān)心業(yè)務(wù)關(guān)鍵節點(diǎn),快速發(fā)現問(wèn)題,生成工單。
● 多場(chǎng)景下的自動(dòng)化規則,通過(guò)歷史經(jīng)驗的積累建立多種運維場(chǎng)景模型規則。當出現資產(chǎn)變更/故障/異常分析/預測等運維場(chǎng)景時(shí),都可以找到智能化的模型/具體實(shí)現,并提供相對應的解決預案,可以通過(guò)自動(dòng)或者手動(dòng)的方式快速解決問(wèn)題。實(shí)現對已知場(chǎng)景的自動(dòng)化感知分析并處理。
● 大數據實(shí)時(shí)分析能力,當預制規則不匹配時(shí),根據運維平臺多維度采集的數據進(jìn)行問(wèn)題根源與可能的故障隱患的分析,并提供實(shí)時(shí)的變更和調度智能決策的能力。同時(shí),提供自動(dòng)學(xué)習的可能,不斷完善自動(dòng)化模型規則。
● 對運維事件的閉環(huán)處理。首先需要實(shí)現資源管理、業(yè)務(wù)信息管理平臺、自動(dòng)化平臺、監控平臺、IT數據運營(yíng)平臺等多個(gè)平臺要閉環(huán)對接,提供一站式的運維服務(wù)能力。其次需要提供事件的記錄、跟蹤、處理、反饋等關(guān)鍵節點(diǎn),保障運維工作高效運行。
● 更智能化的技術(shù)架構。無(wú)論是微服務(wù)還是Cloud Native的實(shí)現,其實(shí)都是從更高的技術(shù)架構要求上提供了運維統一平臺的自治能力,智能化的技術(shù)架構讓智能化運維真正有了落地的可能性。
態(tài)勢感知智能化云運維的技術(shù)實(shí)現
基于安全態(tài)勢感知平臺的運維需求,建立一個(gè)面向服務(wù)的基于一體化、智能化、容器化和可視化的統一智能云化運維平臺。
1、運維管理統一化:
建立統一運維平臺來(lái)進(jìn)行多方平臺的整合。整合資產(chǎn)管理、資產(chǎn)監控、故障處理等多套系統。
● 基于CMDB 配置管理技術(shù),建立面向IT資源和非IT資源的統一管理和監控體系。同步管理流程對資源管理庫的改動(dòng)數據,實(shí)現資源管理數據的整個(gè)生命周期的管理。
● 通過(guò)資產(chǎn)管理,將所有待管理的資產(chǎn)加入配置管理數據庫(CMDB),通過(guò)對CMDB中的資產(chǎn)進(jìn)行監控,定時(shí)獲取資產(chǎn)性能數據、配置詳情、trap日志等信息,為數據分析、自動(dòng)化處理提供最原始的數據信息。
● 建立ITIL(IT基礎架構庫)流程,通過(guò)構建人員、流程、資產(chǎn)、服務(wù)的云運維管理體系的業(yè)務(wù)模型,實(shí)現將運維事件服務(wù)化,關(guān)注服務(wù)流程,實(shí)現對運維事件的閉環(huán)處理。
2、決策智能化
傳統監控軟件大多是采樣式的。采樣意味著(zhù)監控的評定是一種模糊估算,是去除了細節的大趨勢上的一種判斷。在通過(guò)監控做到了總體穩定的初級目標以后,有必要通過(guò)全量數據分析的方式,對細節做更明確、更高效的診斷和優(yōu)化。 隨著(zhù)技術(shù)的發(fā)展,大數據的興起,靠數據來(lái)驅動(dòng)運維,也成為可能。
● 通過(guò)對歷史事件的時(shí)域頻域的分析,找出歷史規律,自動(dòng)發(fā)現異常。
● 全面覆蓋所有數據,進(jìn)行歷史數據進(jìn)行基線(xiàn)學(xué)習,無(wú)需設定固定閾值。
● 對于報警及異常事件,主動(dòng)利用場(chǎng)景規則進(jìn)行識別并找出關(guān)聯(lián)指標和事件,快速定位問(wèn)題,進(jìn)行問(wèn)題根源追溯。
● 通過(guò)對日志的整合分析,進(jìn)行診斷、聚類(lèi),對比和規律挖掘,突出有問(wèn)題的日志。
● 提供專(zhuān)業(yè)運維知識庫,通過(guò)特征匹配平臺自身進(jìn)行故障根源定位。
3、服務(wù)容器化:
圖 1 微服務(wù)架構設計
由于系統運維的復雜性、多業(yè)務(wù)性以及考慮到以后的可擴展性、快速迭代的特性,微服務(wù)架構更適合我們運維的業(yè)務(wù)需求。選擇微服務(wù)架構,使用微服務(wù)架構對整體的系統運維進(jìn)行解耦合,有利于后期進(jìn)行任務(wù)拓展、二次開(kāi)發(fā)。運維微服務(wù)設計將運維平臺切分為多個(gè)服務(wù)簇,詳見(jiàn)圖1 微服務(wù)架構設計,智能化云運維微服務(wù)設計主要包含如下幾個(gè)方面:
● 運維平臺微服務(wù)邊界切分:我們通過(guò)梳理業(yè)務(wù)流程、抽取公共服務(wù)、定義業(yè)務(wù)服務(wù)、設計數據模型、定義服務(wù)接口五個(gè)步驟將運維平臺切分為公共服務(wù)、資產(chǎn)管理、資產(chǎn)監控、安全策略配置、第三方聯(lián)動(dòng)、故障處理、數據分析等微服務(wù)。
● 微服務(wù)簇設計及契約接口定義:針對運維平臺的處理特點(diǎn),服務(wù)層中的微服務(wù)分三類(lèi)進(jìn)行規劃設計,運維配置服務(wù)簇負責從UDU標準數據集中進(jìn)行策略下發(fā)、配置核查和配置本分恢復等操作;運維監控微服務(wù)簇是運維處理的基礎,運維監控微服務(wù)簇通過(guò)對資產(chǎn)的監控獲取資產(chǎn)的性能數據、告警信息,拓撲鏈路信息,為其他服務(wù)提供最原始的數據。運維聯(lián)動(dòng)微服務(wù)簇負責安全策略響應、漏掃工具聯(lián)動(dòng)、APM服務(wù)的協(xié)同處理,同時(shí)還提供對接第三方威脅情報、故障處理建議來(lái)豐富運維平臺的知識庫。各類(lèi)微服務(wù)通過(guò)REST、RPC等輕量級通信機制和MessageBroker等消息服務(wù)進(jìn)行交互和聯(lián)系,構建微服務(wù)簇網(wǎng)絡(luò ),并通過(guò)服務(wù)路由進(jìn)行統一管理和調度。
● 微服務(wù)治理和容器部署:由各類(lèi)微服務(wù)簇連接成的微服務(wù)網(wǎng)絡(luò ),其高效協(xié)調工作離不開(kāi)微服務(wù)治理技術(shù)和容器管理技術(shù)。通過(guò)服務(wù)路由和服務(wù)治理負責各種大小微服務(wù)的資源調度、部署運行、服務(wù)發(fā)現、擴容縮容、統一配置和容錯等一整套功能,最后基于云計算和容器技術(shù)進(jìn)行微服務(wù)的自動(dòng)部署和動(dòng)態(tài)管理。
4、運維可視化:
提供可視化、智能化導航管理的新型運維模式,大大降低運維管理的技術(shù)難度,從整體到細節幫助用戶(hù)全面掌控運行情況,幫助用戶(hù)熟悉服務(wù)與流程的自動(dòng)化管理,提升IT 服務(wù)管理能力。提供從應用、資產(chǎn)域、資產(chǎn)多視角集中化的監控服務(wù)。
● 運營(yíng)全景圖,以業(yè)務(wù)和資產(chǎn)域為導向,通過(guò)業(yè)務(wù)進(jìn)行資源管理的劃分。以業(yè)務(wù)和資產(chǎn)域兩個(gè)維度進(jìn)行展現當前運維平臺所包含的資產(chǎn)運行狀態(tài)。通過(guò)展示網(wǎng)絡(luò )拓撲顯示資產(chǎn)域/業(yè)務(wù)之間的網(wǎng)絡(luò )連接情況,通過(guò)資產(chǎn)域/業(yè)務(wù)下鉆來(lái)查看具體業(yè)務(wù)/資產(chǎn)域內的詳細網(wǎng)絡(luò )鏈路圖。
● 實(shí)時(shí)告警預警,運維統一平臺提供實(shí)時(shí)的告警預警信息的推送和圖形化展現的功能。運維統一平臺告警主要包含設備自身故障告警、發(fā)生安全攻擊事件和性能監控項超過(guò)閾值。需要定義設備trap轉告警規則、預設監控項預警閾值。安全攻擊事件由數據分析平臺分析得出并推送至運維統一平臺。監控項預警閾值也可以通過(guò)數據分析學(xué)習實(shí)現平臺自反饋。
● 運行狀態(tài)報告,對業(yè)務(wù)、關(guān)鍵資產(chǎn)進(jìn)行運行狀態(tài)進(jìn)行分析,并提取各監控領(lǐng)域的關(guān)鍵指標,實(shí)時(shí)生成運行狀態(tài)報告來(lái)進(jìn)行推送和展示。
● 數據整合展示,對于第三方網(wǎng)管中心、漏掃工具、APM服務(wù)等傳入的網(wǎng)管監控數據,進(jìn)行統一平臺的整合重構,生成新的展示內容。
● 大屏展示了,運維大屏展示卡片式、拖拽布局,用戶(hù)可通過(guò)選擇運維數據源展示維度等配置實(shí)現運維大屏用戶(hù)自定義。預定義的大屏包含資產(chǎn)位置分布圖、實(shí)時(shí)告警信息、關(guān)鍵資產(chǎn)構成、高危資產(chǎn)TOPN、資產(chǎn)安全趨勢、服務(wù)器性能監控、網(wǎng)絡(luò )設備負載情況、故障告警處理情況等信息。
結束語(yǔ)
目前來(lái)看,當前基于人工智能的“自動(dòng)化運維”某種角度來(lái)看,還需要很長(cháng)的一段路要走。短期內基于機器學(xué)習的監控和分析以及基于規則的自動(dòng)化處理,可挖掘的空間很大。在對數據的特征建設和歸檔中走向“智能”,自己解放自己的雙手。