- 快捷搜索
- 全站搜索
“數據倉庫之父”bill Inmon(比爾•恩門)在其《建立數據倉庫》一書中定義了數據倉庫的概念,隨后又給出了更為精確的定義:數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。與其他數據庫應用系統不同的是,數據倉庫更像一種過程,是對分布在企業內部各處的業務系統的數據進行整合、加工和分析的過程。數據倉庫是面向主題設計的,存儲的一般是歷史數據;并有意引入冗余,采用反范式的方式來設計。為分析數據而服務,其基本的元素是維表和事實表;數據倉庫是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它決不是所謂的“大型數據庫”。
近年來,隨著數據庫技術的發展和成熟,人們嘗試對數據庫中的數據進行再加工,形成一個綜合的、面向分析的環境,以更好支持決策分析,從而形成了數據倉庫技術。數據倉庫的關鍵仍然是數據庫,以辯證的眼光來看,數據倉庫的興起實際上是數據管理的一種回歸,是一種螺旋式的上升。企業級數據倉庫(EDW)應當被設計成一種已在“上游”處理過的數據的標準存儲器。它已經進行了清洗、轉化和主數據處理,并在這里被合并成一個“記錄系統”。數據標準化重構的原則是,將它從源系統單一視角中移出,放到整個企業的多角度中。
數據倉庫模型設計是數據倉庫建設過程中最為復雜的任務之一,設計人員不僅需要理解大量的業務需求,還需要熟悉企業已有操作型數據源系統的數據狀況。目前國外比較成熟的數據數據倉庫建模方法主要以bill Inmon(比爾•恩門)推崇的數據驅動(data-driven)方法和Ralph Kimball(拉爾夫•金博爾)所提倡的業務驅動(demand-driven)建模方法為主。前者關注數據源系統數據,而忽視了企業最終用戶的業務需求;后者僅強調滿足各個業務部門的業務需求,從而導致數據倉庫邏輯模型可能難以滿足整個企業級的需要,并且,這種方法未考慮數據源問題,所以設計出的數據倉庫可能會出現沒有充分底層數據支持的情況。
隨著數據倉庫技術的發展,為彌補上述方法中的不足,業界紛紛提出了數據驅動與業務驅動相結合的一種數據倉庫建模方法,該方法主要以數據源業務特征分析為基礎,即把數據源數據表(即來自企業各個業務系統的數據)基于數據倉庫主題(subjects)分類,這種方法充分綜合了數據驅動和業務驅動兩種方法的優點,可以把數據源系統的數據與企業用戶的業務需求有效結合起來。
保險業務部門和系統繁多,數據來源也眾多。企業數據倉庫模型的建設將建立全方位的數據視角,消滅信息孤島和數據差異,為企業提供一個統一的數據視圖。各個部門不再只是關注自己的數據,開始關注部門之間數據的內在聯系,并關注整個企業數據的一致性。另外通過數據模型的建設,能夠很好的分離出底層技術的實現和上層業務的展現。當上層業務發生變化時,通過數據模型底層的技術實現可以非常輕松的完成業務的變動,從而達到整個數據倉庫系統的靈活性。再者,險企數據倉庫模型的建立需要對保險業務進行全面的梳理,改進業務流程。保險業務模型的建立,能夠幫助險企對保險業務進行全面的梳理。一方面,使得IT人員和管理人員對業務架構圖和整個業務的運行情況有了全面的理解,有利于將不同業務按照特定的規律進行分門別類和程序化,另一方面,能夠幫助險企進一步地改進業務流程,提高業務效率,以便于更好地指導和管理業務部門的生產。
1.保險數據倉庫建模的特點
數據倉庫是一個支持管理決策的數據集合,數據是面向主題的、集成的、不易丟失的、且隨時間增長的,數據倉庫是所有業務系統和外部數據源的快照集合。傳統的OLTP(在線事務處理系統)系統,通常是按照應用建立模型,換言之,OLTP系統是面向應用的。而數據倉庫是按照主題(Subject)來建模,不同于OLTP的系統,它并不是用來運行當前的操作和應用,而是用來分析數據并且從現有數據中發現和挖掘新的價值,主要是預測未來的情況。所以它更是一種OLAP的系統(在線分析處理系統)。所以,數據倉庫建模的兩個重要特點是面向主題和集成性。
面向主題與傳統數據庫面向應用相對應,主題是一個在較高層次將數據歸類的標準,是用戶使用數據倉庫進行決策分析時所關心的重點方面。每一個主題對應一個分析領域,通常與多個操作型信息系統相關。另一方面,主題域用于關注一個特定領域的業務概念,模型由不同主題域組成。保險業務的主題域可以分為關鍵主題域和輔助主題域等,也有精細化管理的保險公司,將主體域分級處理,構建了一級、二級等多級的主題域,來滿足企業內部業務分析的需求。由于業務流程的相似性,保險業務底層主體域在各個保險公司都比較通用,如表1所示。

集成性是指在來源復雜的數據進入數據倉庫之前,必須經過數據加工和集成,消除源數據中的不一致性,以保證數據倉庫內的數據是關于整個企業的一致的全局信息。在保險業中,一般都有核保核賠、核心業務、渠道管理、綜意險、銀保通等多種業務系統,它們都是面向應用的,所支持的交易類型簡單而且固定。由于系統實施的先后等原因,這些系統可能運行在不同的平臺上,相互之間沒有什么關系,各系統之間的數據存在冗余。比如每個系統中都會有客戶的數據,當針對險企建立其數據倉庫應用時,要把上述生產系統中的數據轉換到數據倉庫中來。從整個險企的角度來看,其數據模型不再面向個別應用,而是面向整個保險領域的主題,比如客戶、產品、渠道、協議、理賠等。因此,各個生產系統中與客戶、產品、渠道等相關的信息將分別轉換到數據倉庫中相應的主題(主題域)中,從而在整個險企的業務界面上提供一個一致的信息視圖。當針對保險業務建立起企業級數據倉庫的應用時,同樣產生相應的主體域(如協議、理賠、機構、財務、產品、渠道、資產等等)。
目前業界較為主流的數據倉庫廠商主要是IBM和NCR,這兩家公司除了能夠提供較為強大的數據倉庫平臺之外,也有各自的針對某個行業的數據模型。比如在銀行業,IBM有BDWM(Banking data warehouse model),而NCR有FS-LDM(Financial Services Logical Data Model)模型。在電信業,IBM有TDWM(Telecom Data warehouse model),而NCR有TS-LDM(Telecom Services Logical Data Model)模型。由此可見,不同的公司針對某個行業的理解,會有不同的數據模型。
掃碼即可手機
閱讀轉發此文
險企數據大集中已是一條必經之路。而數據的集中不是簡單的物理集中,而應考
險企數據大集中已是一條必經之路。而數據的集中不是簡單的物理集中,而應考