- 快捷搜索
- 全站搜索
隨著社交網絡、電子商務、移動互聯網等信息通信技術的快速普及使用,基于新興信息技術的商務應用和金融服務創新(如網上支付、移動支付、第三方支付等)也呈現出爆發式增長趨勢。據中國互聯網信息中心(CNNIC)于2014年7月21日發布的《第34次中國互聯網絡發展狀況統計報告》顯示,截至2014年6月,我國使用網上支付的用戶規模達到2.92億,較2013年底增加3208萬人,半年度增長率為12.3%。根據易觀國際的一項研究表明,2014年第二季度中國第三方互聯網支付市場交易規模達18406.6億元,同比增長了64.1%。
在互聯網新興技術普及應用的過程中,越來越多的用戶數據產生、散布在互聯網的各個角落,產生了大體量(Volume)、多樣化(Variety)、高速度(Velocity)和低價值(Value)等大數據概念(big data),并滲透到每一個行業和業務職能領域,為下一步商業和金融服務創新浪潮奠定了數據基礎。
傳統的數據挖掘、分析處理方法和工具,在非結構化、高速化的大數據處理要求面前顯得過于乏力,需要創新開發適應新型大數據處理需求的數據挖掘和數據處理方法。
互聯網網頁數據是大數據領域的一個重要組成部分,是互聯網公司和金融機構獲取用戶消費、交易、產品評價信息以及其他社交信息等數據的重要途徑,為互聯網和金融服務創新提供了豐富的數據基礎,因此,對互聯網網頁的大數據處理流程和技術進行探索具有重要意義。
互聯網網頁數據具有分布廣、格式多樣、非結構化等大數據的典型特點,我們需要有針對性地對互聯網網頁數據進行采集、轉換、加工和存儲,尤其在網頁數據的采集和處理方面,存在亟須突破的若干關鍵技術。
一、網頁大數據采集和處理的基本流程
互聯網網頁數據采集就是獲取互聯網中相關網頁內容的過程,并從中抽取出用戶所需要的屬性內容。互聯網網頁數據處理,就是對抽取出來的網頁數據進行內容和格式上的處理,進行轉換和加工,使之能夠適應用戶的需求,并將之存儲下來,以供后用。
互聯網的網頁大數據采集和處理的整體過程如圖1所示,包含四個主要模塊:web爬蟲(Spider)、數據處理(Data Process)、爬取URL隊列(URL Queue)和數據。這四個主要模塊的功能如下。

爬蟲(Spider):從Internet上抓取網頁內容,并抽取出需要的屬性內容。
數據處理(Dp—data Process):對爬蟲抓取的內容進行處理。
URL隊列(URL Queue):為爬蟲提供需要抓取數據網站的URL。
數據(Data)包含三方面:①Site URL,需要抓取數據網站的URL信息;②Spider Data,爬蟲從網頁中抽取出來的數據;③Dp Data,經過dp處理之后的數據。
整個web數據采集和處理的基本步驟如下:
(1)將需要抓取數據的網站的URL信息(Site URL)寫入URL Queue;
(2)爬蟲從URL隊列中獲取需要抓取數據的網站的Site URL信息;
(3)爬蟲從Internet抓取與Site URL對應的網頁內容,并抽取出網頁特定屬性的內容值;
(4)爬蟲將從網頁中抽取出的數據(Spider Data)寫入數據庫;
(5)dp讀取Spider Data,并進行處理;
(6)dp將處理之后的數據(Dp Data)寫入數據庫。
二、數據采集的基本流程與關鍵技術
1.數據采集的整體框架
Web爬蟲的整個抓取過程如圖2所示,主要包括六個模塊:網站頁面(Site Page),鏈接抽取(URL Extractor),鏈接過濾(URL Filter。),內容抽取((Content Extractor),爬取URL隊列(Site URL Frontier)和數據。

這六個模塊的主要功能如下。
網站頁面(Site Page):獲取網站的網頁內容。
鏈接抽取(URL Extractor):從網頁內容中抽取出該網站正文內容的鏈接地址。
鏈接過濾(URL:Filter):判斷該鏈接地址的網頁內容是否已經被抓取過。
內容抽取(Content Extractor):從網頁內容中抽取所需屬性的內容值。
URL隊列(URL Queue):為爬蟲提供需要抓取數據網站的URL。
數據(:Data)包含三方面:Site URL,需要抓取數據網站的URL信息;Spider URL,已經抓取過數據的網頁URL;Spider Content,經過抽取的網頁內容。
2.數據采集的基本流程
整個數據采集過程的基本步驟如下:
(1)將需要抓取數據的網站的URL信息(Site URL)寫入URL Queue;
(2)爬蟲從URL隊列中獲取需要抓取數據的網站的Site URL信息;
(3)獲取某個具體網站的網頁內容;
(4)從網頁內容中抽取出該網站正文頁內容的鏈接地址;
(5)從數據庫中讀取已經抓取過內容的網頁地址(Spider URL);
(6)過濾URL。將當前的URL和已經抓取過的URL進行比較;
(7)如果該網頁地址沒有被抓取過,則將該地址寫入(Spider URL)數據庫;如果該地址已經被抓取過,則放置對這個地址的抓取操作;
(8)獲取該地址的網頁內容,并抽取出所需屬性的內容值;
(9)將抽取的網頁內容寫入數據庫。
3.數據采集的關鍵技術——鏈接過濾
鏈接過濾的實質就是判斷一個鏈接(當前鏈接)是不是在一個鏈接集合(已經抓取過的鏈接)里面。在對網頁大數據的采集中,可以采用布隆過濾器來實現對鏈接的過濾。
掃碼即可手機
閱讀轉發此文
2013年下半年,余額寶看似“暴發戶”式的成功造成了銀行領域的極大震動,大
商業銀行只有從打造數據化能力做起,讓數據轉化為對業務產生洞察的信息,才