- 快捷搜索
- 全站搜索
" />
中國外匯交易中心暨全國銀行間同業拆借中心(以下簡稱交易中心)實現“全球人民幣及相關產品交易主平臺和定價中心”的戰略目標,持續進行交易系統的全新改造,計劃向全球金融機構提供7×24的交易及信息服務。去年交易中心通過采用“微部件—微服務—微數據”分布式架構,完成了新一代外匯系統的全新改造。今年正緊鑼密鼓地進行新一代本幣系統的建設。分布式架構的引入必然導致相應配套基礎設施的數量呈幾何級數的增加,如何保障系統穩定運行,迅速處理各類突發狀況是交易中心運維團隊所要面臨的巨大挑戰。
近幾年我們結合自身特點,對監控平臺實施了標準化、集成化、自動化及智能化的建設改造之路,完成了對交易中心包括基礎設施、應用系統和業務服務的全面監控,覆蓋監控告警的全生命周期,并實現了部分監控策略的自愈甚至預警等智能化功能,同時也提供了如變更維護期設置、監控策略一鍵化批量安裝、監控流程圖形化配置等個性化運維需求。
監控標準化
建設一個高度集成化自動化的監控平臺的重要前提是需要有一個標準化的監控體系,為此,我們對監控策略配置管理、監控代理部署方式等進行了標準化及規范化。
1.監控策略配置標準化
監控策略的提交、配置、維護等工作一直是監控工作中最核心的一環。與其他金融機構類似,交易中心的監控種類多種多樣,監控策略一直存在數量大、配置雜、管理困難等特點。監控策略配置顆粒度大小也一直是較難界定并掌握的難點,顆粒度設置過細,會產生大量告警使人麻木,過粗又可能會漏報重要告警,造成生產事故。不僅如此,原先監控策略的配置內容主要以文本方式描述,需求提出方和監控團隊通常需要花費額外時間進行策略的配置確認,溝通成本較高。為簡化監控策略部署方式,交易中心遵循PDCA模型,從硬件監控、系統監控、應用監控、網絡監控、日志監控、安全監控、API監控、性能監控、業務監控等多個維度對監控策略進行分類以及模板化配置;通過在模擬及生產環境進行多輪部署驗證及持續改進,最終實現了監控策略配置的標準化建設工作,極大降低了監控策略維護的復雜程度及溝通成本,提高了監控策略配置的準確性。
2.監控代理配置步驟標準化
監控代理配置步驟標準化的梳理工作,也是建設集中統一監控平臺的一項重要前提,原先各監控系統監控代理的安裝主要以人力部署為主,不僅存在操作風險,且大批量監控代理安裝相當耗時。我們針對不同類型的監控系統代理安裝,統一安裝步驟,撰寫配置模板及配置腳本,通過運行簡單腳本的方式就能完成各類監控代理的安裝配置,在降低學習成本、減少操作風險、提升工作效率的同時,也為后續監控系統代理的批量自動化部署打下了基礎。
監控集成化
在完成監控標準化后,我們開始著手進行監控工具及功能梳理、事件集中管理平臺建設、監控系統定制開發集成等工作,旨在集中整合監控資源,打造一個統一的集中監控平臺,平臺的上線不僅極大降低監控系統的運行維護成本,也使運維團隊能有更多精力和資源投入到監控系統的自動化及智能化建設中去,從而更進一步提高運維監控水平。
1.梳理監控工具,明確監控建設原則
交易中心的監控工作原先主要是通過使用第三方商業監控工具、免費閉源的監控軟件以及人工監控等方式來實現的。由于交易中心需監控的資源多樣,依賴單一監控工具無法覆蓋對操作系統、數據庫、中間件、日志、服務器、存儲、網絡、動能環境、數據流等指標的全面監控,因此,監控平臺建設過程也是各種第三方監控工具及產品的引入過程,并且對于現有工具無法滿足的個性化監控需求,只能通過人工監控加以彌補。隨著監控規模的日漸擴大,各種監控工具的增多,弊端也越發凸顯:各監控工具存在功能重復、監控資源利用率不高、監控數據分散及挖掘深度不夠、報警事件缺乏整合、個性化監控需求無法滿足、費用成本越來越高等。為進一步提高監控的有效性與精準性,朝著廣度、深度、精度方向邁進,我們開展了監控工具的梳理與整合。
首先,針對各類監控工具使用情況進行梳理,對監控工具可實現的各類監控功能進行分類整理,從易用性、擴展性、監控功能不可替代性、監控范圍覆蓋率等方面對監控工具進行全面打分,逐步下線得分較低的監控工具或產品,對于計劃下線的監控工具所獨有的監控功能,使用自主開發的方式進行替代。
其次,對于商業監控工具,如果存在比較成熟、有同行成功實施經驗且功能上基本可替代的開源監控軟件,逐步對該商業監控工具進行下線處理,同步上線開源監控軟件。選擇開源監控軟件不僅僅因為在軟件花費成本上具有天然優勢,更因為開放軟件靈活可定制的特性便于實現個性化監控需求,也便于未來實現監控系統內外部間的整合。在新一代外匯系統中,我們已經用Zabbix替代Tivoli,用ELK替代Splunk;對于暫時還無法替換但是又不存在開放接口的商業或免費閉源的監控工具,逐步使用能提供同類功能接口更加開放的第三方監控系統進行替代。
最后,對于無法通過現有工具實現的個性化監控需求,我們通過自主研發進行實現,逐步減少人工監控的場景。
2.開發事件管理平臺,集中管理報警事件
通過監控工具的梳理,了解到各監控工具的報警信息獨立、缺乏關聯(如服務器主板異常如何影響操作系統、數據庫乃至應用系統)、值班人員需要同時關注多個監控工具、存在疏漏事件點檢風險等問題,我們建設了用于對事件進行集中管理和關聯分析的事件管理平臺,通過將各類工具及系統的報警事件匯聚到事件平臺,并和配置管理庫CMDB中被影響的應用系統和對應業務進行關聯,使事件報警信息內容更加豐富,比如某服務器電源異常告警信息,除了包括告警時間、告警級別、服務器信息等基本告警信息外,還會列示出受影響的應用系統及相關業務。
為解決系統在短期內同一事件多次發生告警,導致技術人員即使已經在處理該類事件時,仍然會收到大量重復報警問題,我們在事件平臺中開發了事件降噪功能,通過對相關事件進行關聯及歸類,有效平衡了告警頻率和告警有效性的問題。如某日志文件發生大量關鍵字告警,經事件降噪后,在第一條日志告警觸發第一次告警后,之后將每隔10分鐘會另行通知本段時間內該類事件又觸發了多少次,直到事件報警冷卻時間結束后,重新進行告警。
3.整合監控資源,打造統一監控平臺
為進一步降低運維成本,提升監控水平,在完成監控工具梳理和事件平臺的建設后,著手開展監控資源整合也即集中監控平臺的建設工作,目標就是打造一個可以對監控相關工作提供統一入口進行綜合管理的平臺。
集中統一監控平臺架構自頂向下可分為展現層、匯聚層、監控應用層以及數據采集層:數據采集層通過自主研發及使用第三方監控代理的方式對機房動環、服務器、網絡設備、存儲、操作系統、應用中間件、消息中間件、數據庫以及應用系統等各類運行數據進行全面采集,供上層監控應用層進行監控及分析;監控應用層向下負責基于數據采集層的數據對應用系統從基礎設施到業務功能進行全方位監控,向上負責將各類報警事件匯聚至匯聚層進行集中管理;匯聚層通過對下層監控應用層的監控事件進行集中管理,對外實現事件報警、事件報警信息查詢、事件降噪等功能。展現層通過基于匯聚層的事件信息,對終端用戶提供可對報警事件、系統異常時上下文信息、監控策略等各類監控信息進行綜合管理的統一入口,避免原先運維人員需要到多個監控系統查詢報警信息并登錄到各個服務器通過查詢日志獲取系統異常信息等繁瑣操作。
集中統一監控平臺各層之間模塊功能獨立,耦合度低,具有良好的伸縮形和擴展性,通過自主研發實現了平臺內各模塊的統一封裝,對外均提供相關API接口,便于周邊運維系統調用監控數據。集中統一監控平臺也通過調用周邊運維系統API接口,實現自動開單、報警自愈、監控預警等自動化智能化監控功能。并且通過與大數據分析平臺結合,關聯基礎設施與業務數據,深度挖掘數據價值,實現以業務視角分析問題,為業務部門的運營決策提供支持,最終實現由“基礎設施運維”向“業務運維”的轉型。
監控自動化
1.變更維護期設置
通常情況下,監控系統無法識別出系統停止運行是因為發生異常還是系統處于變更維護期內。在系統變更時,系統管理員通常會收到大量無效報警,除了產生不必要的信息咨詢費用外,還可能會讓系統管理員忽略真正的報警。針對此問題,我們開發了變更維護期模塊,可以讓用戶通過指定系統的變更或維護時間段,達到在該時間段內監控系統不再報警的目的。該功能可屏蔽系統在變更時期正常停止時的告警,同時,維護期功能可按照“IP(或主機名)+事件類型”精度進行設置,降噪告警的同時也規避了只針對IP級別維護期可能丟棄有效告警的隱患。維護期模塊使得監控平臺擁有了無效事件丟棄能力,目前每月維護期策略提出約有1000余條,屏蔽無效告警信息約3萬條。
2.監控代理安裝及監控配置自動化
如前所述,隨著交易中心業務規模的迅速發展,應用系統數量及服務器規模增長迅速,新系統上線的監控代理部署及升級的工作量日益增大,需要投入大量人力。為此,我們根據監控代理部署流程規范,借助作業平臺的遠程作業執行接口,在集中統一監控平臺中實行了監控代理一鍵安裝等自動化功能,僅需2~3分鐘即可完成。且支持并行部署及非業務交易時間的定時無人值守安裝。在新一代外匯系統建設過程中,根據外匯日志特點進行了監控策略批量配置功能的自動化定制開發,僅用了3天時間完成原本約需50人天手工配置的近15000條的日志監控策略的配置任務。
3.監控策略配置自服務
在集中統一監控平臺建成之前,各監控工具的監控策略配置方式大相徑庭,監控團隊通常需要將應用管理員提出的各類監控需求逐條轉換成對應監控工具的配置文件,運行相關腳本,才可以完成監控策略的配置。不僅耗時耗力,且應用管理員也無法實時查看監控策略的配置進展情況,無法查看應用系統或者基礎設施的已有監控策略。
為此,我們自主研發了監控策略配置自服務模塊。通過對不同監控工具的各類監控策略模板進行統一封裝,提供給應用運維人員更易理解的統一輸入界面,使了解應用系統的應用管理員可以進行監控策略的自行配置管理,有效減少應用管理人員和監控配置人員間的溝通成本,釋放監控配置人力,讓監控團隊更專注于集中統一監控平臺的建設和改進工作,形成良性循環。
監控智能化
交易中心在大力開展監控自動化建設過程的同時,也已經在積極探索把機器學習、大數據挖掘等理論應用到監控領域中,并已經實現了部分監控功能的智能化。在監控策略配置自服務的基礎上,依托底層作業平臺,將針對操作系統、數據庫及中間件等操作封裝為標準指令執行模塊,前端提供用戶以畫流程圖的可視化方式進行監控流程的配置,該功能讓運維人員輕松實現靈活配置監控策略的同時,可以實現自愈等智能化監控功能;通過對報警內容的語義分析,實現對同類報警事件的歸類,結合調用流程管理平臺的接口,實現了對告警事件進行自動合并和事件開單的功能;實現了“磁盤空間報警時刪除首先指定目錄下的歸檔日志文件,進行空間釋放”的自愈功能。當然,目前還是需要預先清晰地定義自愈規則,以后將通過機器學習的方式實現自愈功能。此外,基于機器學習相關理論,集中統一監控平臺也已經初步實現了基礎設施資源使用率預測功能。即基于歷史性能數據,計算連續時間段內的動態閾值,通過綜合實時性能數據和動態閾值判斷,預測基礎設施資源的使用趨勢是否在安全界限內。
總結與展望
集中統一監控平臺自建成以來,系統運行穩定,平均每天發現并通知300起告警信息,監控的覆蓋率和準確率都達到了99%以上。對交易中心的各類基礎設施、應用系統和業務服務進行實時監控,能夠及時準確告警,協助快速定位問題,在故障的萌芽階段予以消除,促進了業務連續性的保障工作;且集中統一監控平臺的可配置性、可擴展性、可調整性有效支撐了業務發展的步伐。
監控可以形象地比喻為數據中心的“眼睛”,不僅要使“監控”這只眼睛能看得廣、看得遠、看得透,還要保護好“眼睛”,所以說交易中心集中統一監控平臺的建設及維護工作還任重道遠。對于遠程終端和虛擬終端的監控,基于業務視角和面向用戶體驗的監控,以及提前預警和自愈的智能監控,是下階段的重點工作方向。我們將不斷加強集中統一監控平臺的建設工作,更好地助力交易中心戰略目標的實現。
(文章來源:金融電子化雜志)
掃碼即可手機
閱讀轉發此文
相比傳統金融機構,民營銀行在資金實力、軟硬件設施、物理網點等方面都沒有
手機網民的迅速上升、智能手機的普及,是微信銀行產生與發展的時代背景。但