- 快捷搜索
- 全站搜索
" />
當前問題:數據中心云化之后,先進運維工具的開發和使用讓運維管理足以匹配云數據中心的發展速度。然而,由于企業存在部門邊界,每個部門都站在自己的角度去選擇或開發工具,勢必帶來工具繁多、重復建設、信息孤島、浪費資源等很多問題。
應對措施:為解決當前問題,中國人壽保險股份有限公司上海數據中心(簡稱國壽數據中心)著手開展云數據中心運維管理平臺的規劃。該平臺涵蓋目前云數據中心所需的運維工具合集,相當于運維工作的核心系統,為整個運維管理工作呈現一幅全局而統一的規劃圖。
云管平臺整體規劃
圍繞“智慧保險、科技國壽”的總體目標,結合“標準化”、“自動化”、“智能化”的運維管理思路,國壽數據中心規劃了“1+1+N”云數據中心運維管理平臺(簡稱云管平臺)。云管平臺建立在云基礎設施之上,包含1個統一的云門戶、1個統一的CMDB云配置管理庫、N個云數據中心運維子平臺。平臺各組件互有關聯、相互協作,值得注意的是運維子平臺的數量N,根據目前云數據中心建設情況定義為8,未來將隨著云數據中心的建設情況以及技術的不斷突破創新而隨之變化。
云管平臺組件介紹
1.云門戶
云門戶是運維、監控、調度、服務流程等的統一入口,是面向內外部使用人員的統一窗口。云門戶通過分權分級管理的模式,根據使用者身份、工作職責和關注事項將每位使用者的工作內容在門戶中以個性化的方式呈現出來,同時能與外部信息靈活地整合,為服務、運維、管理等工作提供便利。
2.CMDB云配置管理庫
CMDB云配置管理庫是云數據中心運維管理的數據基礎。從業務角度看,云配置管理庫存儲與所有云基礎設施相關的各種配置信息,并與所有服務支持和服務交付等流程緊密相連,支持流程和各類運維平臺的運轉。從技術角度看,云配置管理庫是一個共享的數據管理服務平臺,為各類周邊系統和用戶提供數據增刪改、權限配置、數據可視化、后臺批作業、通知提醒等共享服務,進而作為各運維子平臺的信息匯總及信息交互的平臺。因此,云配置管理庫在整個IT運維環境中處于基礎核心地位,應作為云數據中心權威的配置數據來源且是唯一的來源。
3.運維子平臺
運維子平臺包含生產調度平臺、IT流程平臺、安全管控平臺、集成交付平臺、監控與預警平臺、自動化運維平臺、運維分析平臺和智能與探索,是“監、管、控”思路的主要體現。
(1)管理模塊
生產調度平臺、IT流程平臺和安全管控平臺組成了管理模塊,分別指導運維工作“何時執行”“怎么執行”“安全執行”,可認為是云管平臺的大腦。其中,生產調度平臺是運維工作的總指揮官,負責指揮調度運維工作的執行;IT流程平臺是運維執行流程指南,規范和控制著運維工作本身;安全管控平臺是運維工作的安全操作指南,規定了所有運維工作必須在安全管控下進行。
生產調度平臺對生產事件進行統一調度,包括統一變更、緊急事件、版本管理、7×24監控等,統一調度有利于提升生產問題的發現與解決能力,對內可提升生產效率,對外可提升客戶體驗。
IT運維管理主要以流程為導向。流程是為了提供各類符合要求的IT服務,而對實現IT服務目標的一系列活動進行系統的計劃、組織、協調與控制的過程,這些活動的先后順序、內容、責任都需要有明確的定義。IT運維的每項工作都離不開流程的設計,尤其是智能化運維更需要以成熟的流程為基礎。
安全管理是企業安全、穩定運行的基礎,涉及到運維管理的方方面面,對于云數據中心,首先要考慮全方位的安全防護體系,同時對于各個組成部分需有各自的安全防護措施,盡量防止“蝴蝶效應”式的安全問題。
(2)監控模塊
監控與預警平臺是監控模塊,用于“監視執行”,可認為是云管平臺的眼睛,是保證運維對象始終處于正常運行狀態的手段。監控平臺需要支持對機房設施、物理基礎設施、數據中心骨干網絡、資源使用情況、應用系統等實現全面的監控,讓運維管理者對系統的性能、故障、可用性、流量及配置等情況都做到“及時掌控”。
(3)控制模塊
集成交付平臺、自動化運維平臺組成了控制模塊,主要任務是“執行”,可認為是云管平臺的雙手,是運維操作處理和控制中心。
系統正式上線時,需要執行多步操作,通過流水線部署方式將高度自動化測試、部署以及全面配置管理結合在一起,基于高水平自動化持續集成的基礎實現快速發布、使整個交付過程標準且可靠,是智能化運維的高階目標。
自動化運維平臺是運維操作的合集,云數據中心的規模決定了運維管理很大程度上都要依賴于自動化技術,將資源管理、容量管理、作業執行等大量規律性、周期性、重復性的操作通過自動化作業形式完成,這是技術發展的必然趨勢。
(4)自學習模塊
運維分析平臺用于進行“執行分析”,可認為是云管平臺的一種“自學習能力”。運維分析不僅是對執行效果的度量,還包含了事前預判,即利用數據挖掘技術在運維數據中挖掘出有價值的信息,實現對運維、業務、采購等方面提前預判并做出相應的決策,如了解業務增長與設備性能之間的關系、需要擴容的數量等,從而提前預判,做到事前防范。
(5)待開發功能
智能與探索用于預測云數據中心未來運維發展態勢及前沿技術等,包括各平臺的先進技術和管理理念,可認為是云管平臺的“待開發潛能”。這部分內容新穎而廣泛,有待逐步開發。當研究成熟后,根據成果分類可應用于各功能平臺,令云管平臺的整體持續保持先進化發展,以跟上云數據中心不斷發展的步伐。
云管平臺建設現狀
根據云管平臺的規劃,國壽數據中心逐步推進各平臺功能的建設。
云門戶:自研云門戶原型,并已逐步向外提供服務功能。
CMDB云配置管理庫:搭建了整個配置管理共享集成的生態庫,全面納管中心的生產設備和邏輯主機配置等信息,并與多個運維系統平臺集成,形成靈活高效的整合能力。
IT流程平臺:自研面向互聯網扁平化、促進開發運維融合的新一代IT流程平臺,以流程為核心,結合DevOps的理念,兼顧服務模式的穩定性和敏捷性,實現統一的同質化服務。
安全管控平臺:開展安全體系建設,通過新加坡金融管理局TVRA評估及ISO27001認證貫標,初步建成一個可持續改進的安全管理體系。
監控與預警平臺:在基礎設施、業務交易、安全風險、基礎環境等方面開展監控建設。自主監控平臺針對基礎設施,通過對系統運行狀態數據的自動采集、智能處理、分級展現,及時掌控系統異常情況;“全球鷹”應用監控和“響尾蛇”預警系統針對業務交易,定位系統的“慢”,并通過數據挖掘技術感知應用系統未來可能的風險,便于提前介入處理;“大黃蜂”智能安全監控平臺針對安全風險,通過日志解析,實現安全風險的主動發現、智能定位和自動化處理;基礎動力環境設備方面也均配備了監控采集裝置,并在建基礎動力環境設備運行狀態的集中監控,以便實現基礎環境設備統一管理。
集成交付平臺:自研自動化部署與發布平臺,推動DevOps一體化運維落地,目前平臺已接入大部分主要系統,部署時長縮短約85%,部署成功率達95%以上,大大提升了應用交付的整體效率。
自動化運維平臺:自研智能自動化運維平臺,以應對海量資源管理的壓力,實現主要運維工作自動化,以較少的人力管理中心數萬臺服務器,大大提升了運維效率,實現了運維能力的指數級提升。
(作者:中國人壽保險股份有限公司上海數據中心 史莉雯 楊洋 高波 張宏豪)
(文章來源:金融電子化雜志)
掃碼即可手機
閱讀轉發此文
ITIL是一套方法論,能為IT服務提供良好的指導思想,將工作中習慣的以技術為
在日切雙附加檔追溯法的基礎上進行時點的控制,可以減少附加檔中的數據量,