- 快捷搜索
- 全站搜索
大數據是用來描述數據規模巨大、數據類型復雜的數據集。這些數據集的規模已經超出普通的數據庫管理工具在可容忍的運行時間內進行數據的捕獲、存儲和處理的能力。特別是近年來,伴隨著物聯網、移動互聯網、社交網絡的快速發展,企業數據增長迅猛,半結構及非結構化的數據呈幾何倍增長;數據來源的渠道也逐漸增多:網絡日志、社交媒體,以及遍布各地的傳感器網絡等。大數據的時代已然來臨,大數據分析已成為各行業競爭發展的變革點。而如何有效整合來自移動終端設備、社交網絡、PC、傳感器網絡等產生的結構化、非結構化的海量數據,并加以分析挖掘潛在的業務價值,已成為大數據時代企業經營發展的趨勢和焦點。
一、大數據的特點對企業經營管理的重要意義
1.大數據的特點
第一,數據規模巨大且增長迅猛從TB級別躍升到PB乃至EB級別。
第二,數據類型繁多:既包含傳統的結構化數據(如文本數據),也包含越來越多的非結構化數據(如網絡日志、音頻、視頻、圖片、傳感器數據等)。這些數據對處理分析能力提出了更高的要求。
第三,數據價值極為關鍵但不易挖掘。由于海量數據中價值密度相對較低,但數據的商業價值卻極為重要。如何通過強大的機器算法更迅速地完成數據的價值“提純”,是目前信息化亟待解決的難題。
2.大數據對企業經營管理的重要意義
伴隨著傳統的商業智能系統向縱深應用的拓展,企業決策已經越來越依賴于數據而非直覺經驗。然而,傳統的數據倉庫對于數據分析通常是建立在關系模型的基礎之上,面向結構化數據處理,各分析主題之間的關系在系統內已經被創立,而且用以分析的數據也大都是企業自身信息系統中產生的運營數據,這些數據大都是標準化、結構化的。事實上,這些數據只占到了企業所能獲取的數據中的15%。
對于企業而言,85%的數據屬于廣泛存在于社交網絡、物聯網、電子商務等媒介的非結構化數據,這些非結構化數據的產生往往伴隨著社交網絡、移動計算、傳感器等新興渠道和技術的不斷涌現和應用。企業用以分析的數據越全面,分析的結果就越接近于真實。大數據分析意味著企業能夠從這些新的數據中獲取新的洞察力,并將其與已知業務的各個細節相融臺。在大數據時代,企業進行數據分析的背景也發生了變化:(1)要涵蓋數據規模;(2)要能真實精確地挖掘商業價值,快速分析響應;(3)要面向豐富多樣的數據類型,包括結構化和非結構化的數據。這使得傳統解決方案在新的需求面前束手無策。
二、大數據分析的解決方案
1.大數據分析相關系統
(1)Hadoop
Hadoop是效仿谷歌Filesystem和谷歌MapReduce而實現的一套海量數據分布式處理的開源軟件框架,被廣泛部署運用于雅虎、Facebook等互聯網企業。目前,運行于雅虎的Hadoop集群被廣泛用于雅虎廣告、財經數據以及用戶日志等數據的處理分析。
Hadoop由兩部分組成,一部分是HDS分布式文件系統,一部分是MR框架(MaDReduc e Framework)。HDFS是MapReduce的數據存儲來源。HDFS按照一定粒度的數據分塊來劃分文件,并將這些數據分塊分散存放在集群中的不同節點,為MapReduce提供并行計算的數據存儲。同時,HDFS利用多副本存放策略來保障數據的可靠性、可用性,并提供較高的數據輸入輸出吞吐率。MapReduce框架是進行海量數據并行計算的框架,由一個作業追蹤(Master)節點和多個任務追蹤(Worker)節點構成。作業追蹤節點用于任務劃分、任務調度;而任務追蹤節點用于接收來自于作業追蹤節點分配的Map或者Reduce任務,并執行這些任務,同時將任務的狀態回饋給作業追蹤節點。Hadoop通過計算移動到集群中的各個節點,在各個節點進行并行計算任務(Map階段),產生結果后將集群中各節點的數據匯總反饋至客戶端(Reduce階段)。
(2)Hive
Hive是Facebook開源的基于Hadoop的數據倉庫平臺。通過Hive,可以方便地進行海量數據提取、轉化、加載。Hive定義了一個類似于SQL的查詢語言HQL,能夠將用戶編寫的SQL轉化為相應的MapReduce程序。當然,用戶也可以自定義Mapper和Reducer來完成更為復雜的分析工作。作為互聯網領域應用最為廣泛的開源數據倉庫。基于MapReduce的Hive在擴展性和容錯性方面有強大的優勢,其前景被業界一致看好。但是相比傳統并行數據倉庫,Hive在存儲引擎支持、執行引擎高效化以及多樣化接口等方面,有待進一步發展。
(3)Pig
Pig是一個基于Hadoop的大規模數據分析平臺,使程序員可以更加方便地進行大規模數據處理。Pig Latin是一門吸收了SQL語法的過程式語言。它在保存了過程式語言靈活性的同時,很大程度上吸納了聲明式語言易于進行數據處理描述的特點。該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化處理的MapReduce運算。Pig為復雜的海量數據并行計算提供了一個簡單的操作和編程接口。
綜上所述,目前廣泛使用的開源海量數據處理系統大都以Hadoop作為數據存儲和并行處理的基礎框架一一HDFS提供海量數據存儲平臺,MR框架提供海量數據并行計算模型。Hive和Pig都是在Hadoop之上提供了類SQL語言的解決方案,這大大減少了并行處理程序開發的難度,使用戶不必具備較強的程序編寫能力,進而更多地關注業務邏輯。以上海量數據處理系統在高可用性、高容錯、擴展性方面都提供了很好的支持。
掃碼即可手機
閱讀轉發此文
大數據意味著巨大的商機,可強化客戶體驗,提高客戶忠誠度。形象地說,“數據的收集能力+教據的分析能力=企業智商”。這關乎商塑
從腦電波采集到3D打印,這些新技術都已經問世。融入更多科技元素的生活模式
大數據意味著巨大的商機,可強化客戶體驗,提高客戶忠誠度。形象地說,“數