工商銀行主機平臺網絡實驗室以建設面向業務多點多活的“分布式云數據中心”為主線,確定多活數據中心、云數據中心和智能運維管理服務三個研究方向,加快基礎設施與應用平臺的融合,支撐全行業務連續性、資源統一調度與敏捷供應以及IT運營成本有效控制。接下來,實驗室還將強調研究成果的轉化落地,在完成研究成果檢驗的同時,推動生產應用發揮效益。
“高可用、敏捷響應、成本可控”是銀行業數據中心的基本需求。工商銀行主機平臺網絡創新實驗室(以下簡稱“實驗室”)從生產運營實際出發,專注于基礎設施和技術架構領域的前瞻性應用研究,以建設面向業務多點多活的“分布式云數據中心”為主線,確定多活數據中心、云數據中心和智能運維管理服務三個研究方向,加快基礎設施與應用平臺的融合,支撐全行業務連續性、資源統一調度與敏捷供應以及IT運營成本有效控制。
實驗室研究課題不僅從技術視角跟蹤分布式事務、智能路由、數據同步和智能化接管等技術的最新發展,通過配置優化、技術提升和管理流程優化有效控制IT基礎設施的總體擁有成本(TCO);而且還注重從業務視角看信息化銀行業務發展趨勢和需求,通過歸納匯總,分別構建與不同類別業務應用場景相匹配的基礎架構模型,推動技術架構的標準化和持續演進。
例如:在基礎設施領域,要推動設備資源配置的深度定制和新技術應用,研究推廣超融合基礎架構。在云計算領域,要加快基礎設施與應用平臺的融合,合理規劃和構建物理設備、虛擬機等分層資源池;推動負載均衡、防火墻等網絡服務虛擬化,提升基礎設施全流程自主服務和敏捷能力,并實現與成本控制的動態平衡。在智能化運維領域,要研究基于運維場景驅動的配置信息集市研究,實現配置項自動采集和服務自注冊功能,推動配置信息跨專業融合和共享,夯實面向服務的智能運維基礎,推動IT運維數據分析和人工智能技術在信息系統健康檢查、問題快速定位以及故障自動化處置等領域的應用。
一、多活數據中心研究
業務連續性一直以來都是銀行信息系統頭等重要的事情。2014年6月,隨著工商銀行數據中心(上海)嘉定園區的啟用,工商銀行“兩地三中心”架構基本建成,成為國內首家具備跨數據中心分鐘級切換接管的大型商業銀行。
各大商業銀行在本世紀前十五年也基本完成了數據大集中和同城、異地數據中心建設,部分先進銀行還結合兩地優勢建成了“兩地三中心”,實現了一定程度的雙活。除此之外,銀行業務,特別是網絡金融業務的爆發式增長對銀行信息系統的敏捷擴張能力提出了更高的要求。國內外大型互聯網企業選擇橫向擴容的方式,其數據中心的數量、容量、地域分布,特別是多數據中心協作給我們的研究工作提供了啟示。
“多活”并不是雙活技術的簡單線性疊加,如何構建多活數據中心以提升業務連續性水平、更好地利用多數據中心資源,緩解單個數據中心過大過熱的壓力,是業界共同關心的話題和研究探索的前沿,也是實驗室研究的重點。
宏觀層面,“活”的主體是數據中心,選取數據載體以及應用的核心組件——數據庫作為更小顆粒度對象,則更適宜做技術上的深入研究。同時,數據庫也是多活數據中心的關鍵技術,而對應無狀態的操作系統或服務進程實例,保持其“活”的技術相對簡單得多。“活”的程度見仁見智,我們依據“活”的程度由低到高依次劃分并定義出冷備、熱備、只讀、分片和全集五個等級,如圖1所示。
其中,冷備不屬于“活”的范疇,熱備和只讀的技術架構是非對稱的,具有明顯的主從特征,較容易從雙活技術架構發展而來。與之相對的是全集等級,其技術架構是完全對稱的、去中心化的,實現起來難度最大,多活性價比不佳,歷來不是技術研究的熱點領域。處在中間的是分片等級,涵蓋的內容廣、跨度大,依據分片規則和實現技術的不同,既可以是“活”的程度較低、偏中心化的架構,也可以是“活”的程度較高、偏對稱化的架構。分片等級作為一個較為理想的性能和成本的平衡點,不但可選用的技術架構最為豐富、靈活,而且業界最新的多活技術研究成果和應用實踐也大都集中在這一領域。
多活數據中心實質是一個分布式系統,其核心是一致性問題。2012年,美國耶魯大學的D.Abadi在CAP定理的基礎上提出了一個擴展模型PACELC,即一個系統如果需要處理網絡分區(Partition),就必須在可用性(Availability)或一致性(Consistency)之間做出某種權衡;否則(不需要考慮網絡分區)的話,就在系統的延時(Latency)和一致性(Consistency)之間做出權衡,這與工程實踐更為貼近。
實驗室在多活數據中心領域選擇基于分布式一致性協議的OLTP數據庫、基于分布式消息中間件的多活數據傳輸復制和分布式存儲三個研究子項。在分布式數據庫方面,實驗室以開源分布式數據庫為原型,參照業界案例開展研究。探索自主可控的,滿足基于多點多活的業務連續性和靈活橫向擴展雙重目標的解決方案,進行原型驗證和應用試點。
在多活數據傳輸復制和傳輸方面,橫向比較Kafka、Active MQ、Rabbit MQ等各類開源產品,依據應用場景需求選擇適用產品,構建多平臺、跨中心的數據復制和傳輸平臺,實現多中心數據復制和傳輸服務化(Data Replication as a Service ,DRaaS)。
分布式存儲方面,通過建設海量、高可用、敏捷供應的分布式存儲云,基于同一套存儲系統向上層應用提供塊、文件和對象三種數據服務,包括各種企業級訪問接口、容量、性能和數據保護能力均可按需獲取,解除傳統專有存儲設備綁定,同時實現跨園區多點多活訪問的存儲高可用保護。目前在數據集中備份和分布式對象存儲等應用場景開展了原型設計并完成了功能性測試,同時在基于分布式文件訪問方面開展了研究,推動文件系統關鍵數據由主備模式向多點多活訪問模式轉型。
“多活”是一種IT架構能力,而從來不是目的。“多活”是實現業務連續性的手段之一,是提高資產利用效率的要求。“多活”也是數據中心競爭力的體現,具體能力與實際部署之間可以存在差異。
二、云數據中心演進
隨著云計算、大數據、人工智能等新型技術的成熟應用,這些新型技術所采用的分布式、服務化的設計理念,與傳統傳統數據中心“煙囪式”的部署和管理存在較大差異,同時,應用出現了容器化、服務化、DevOps等新趨勢,對于數據中心基礎IT資源的靈活敏捷提出了新要求。從數據中心運營層面來看,傳統數據中心在云化轉型背景下面臨的主要挑戰包括如何提升資源利用率、如何支撐業務應用快速部署、如何提升內部管理效率三大方面。
該領域研究重點是深入開展云數據中心技術和路線研究,持續推動數據中心資源向快速供應、彈性伸縮、高效利用的管理和調度模式轉型,建設能夠為工商銀行業務和應用架構轉型提供友好支撐的基礎設施云服務生態圈。
實驗室從梳理數據中心現狀主要矛盾和業界技術發展趨勢兩方面入手,以云數據中心云化技術為核心,從技術、架構、流程和管理四個維度進行梳理和對標,形成云化管理能力建設矩陣,如圖2所示。
具體演進內容包括:
(1)分布式資源域規劃研究。針對大數據平臺、分布式數據庫、流處理平臺等分布式系統進行規劃,綜合考慮服務器、存儲、網絡流量等特性,規劃建設分布式資源域,并通過IaaS平臺實現自動化快速供應。
(2)多租戶管理研究。結合分行測試云、集團子公司托管云研究分級權限隔離,網絡隔離,配額管理,自助服務,運維流程調整等多租戶的隔離、安全問題,探索多租戶管理模式,實現基礎IT資源在不同機構間的共享和安全隔離,提升基礎IT資源使用效率。
(3)網絡功能虛擬化。防火墻、負載均衡虛擬化技術研究及自助服務,探索NFV服務鏈部署。
(4)端到端自助彈性部署。通過研究流程編排、網絡功能虛擬化部署及自助服務等技術,實現一個涵蓋網絡、計算、存儲、數據庫、數據遷移、應用交付等全鏈路端到端彈性部署及擴容的原型。
(5)云備份技術研究。基于分布式對象存儲技術,探索研究在多租戶場景下云的分層備份,包括云運營層面的容災和備份、租戶系統層的備份、租戶應用層的直通備份等自服務的實現。
IaaS演進如圖3所示。
隨著工商銀行IaaS云落地推廣,實驗室要不斷研究豐富面向用戶的自助服務目錄并推動落地,統一在云管理平臺上建模,面向用戶提供統一的管理界面;通過服務封裝將復雜流程統一展現為用戶能夠理解的云服務,降低IT系統交互的復雜性,最終實現面向用戶的云服務,解放專業人員。接下來,實驗室還將在數據庫云化部署領域開展探索研究,期望在高可用、資源利用效率和數據庫服務快速供應方面取得新的突破。
三、智能化運維
隨著數據中心運維規模和復雜度的不斷增加,運維人員急需從日常繁雜瑣碎、重復例行的日常工作中解放出來,做更多的運維數據分析和復雜問題解決,將工作結果用于提升運維系統的“智力”水平,即所謂AIOps。 AIOps的理想狀態就是把運維工作的三大部分監控、管理和故障定位利用機器學習算法的方法有機結合起來。
在大數據時代,智能運維是構建于大數據之上的,不可避免地要用到智能算法,而體現智能算法價值的就是:智能算法需要大量的數據去做支撐。實驗室結合業界先進的數據中心運營理念,深入開展人工智能、大數據分析、物聯網等技術在數據中心運營領域的應用以及智能化運維方法的研究,認為智能運維應該至少包括3個領域的10種能力(如圖4所示)。
智能數據中心建設以運維數據分析為切入點開展研究,在建設思路上以應用實例推動運維數據分析平臺建設,在平臺建設中注意與現有運維架構融合與提升。依托運維數據分析平臺,實驗室從存在運維痛點的實際場景出發,組織力量開展針對性研究,目前對以下場景開展了研究工作:
(1)分布式CMDB建設。在生產主CMDB的基礎上建設運維場景驅動的優化配置信息系統,形成“主CMDB+優化系統”的彈性分布式架構。整個系統以控制層為核心,每個運維場景對應一個擴展節點,能夠實現擴展節點的快速彈性供應。
(2)網絡流量異常監控分析。實現網絡設備之間、各設備指標之間的關聯性發現,為進一步實現告警關聯分析奠定基礎,推動網絡平臺指標統一化,力爭面向應用的網絡異常流定位。
(3)磁盤性能畫像。根據對磁盤性能指標綜合打分情況,展示應用磁盤熱點盤分布,提供關鍵指標預警,協助評估應用系統存儲優化建議,提供固定閾值及動態基線報警,IO異常智能預測。
(4)主機批量運行時間預估。在批量開始前,精確預測當晚主機批量運行時間,標明影響因素、程度及應急建議,為生產調度決策提供依據;在批量完成后,采用多樣化的研究方法,豐富批量分析手段,推動應用和系統環境優化,以技術手段提升數據服務時效和質量。
實驗室在具體研究工作中既注重做好業界技術發展跟蹤和前瞻性研究,又關注同業和互聯企業的應用研究,保證研究方向的正確性。同時從數據中心運營實際出發,以問題為導向,解決生產運營中的痛點。接下來,實驗室還將強調研究成果的轉化落地,在完成研究成果檢驗的同時,推動生產應用發揮效益。
實驗室集聚了數據中心(上海)一線運維的優秀人才,在過去一年努力實現在知識結構、技術研究和創新應用能力和思維模式上的轉型,下一步要更加注重人才隊伍建設,優化研究資源投入和激勵機制,激發優秀創意,提升實驗室影響力以吸引并集聚更多的研究型優秀人才。
(文章來源:《中國金融電腦》雜志)
掃碼即可手機
閱讀轉發此文