- 快捷搜索
- 全站搜索
" />
當(dāng)前問題:保險(xiǎn)公司在業(yè)務(wù)辦理和處理中所用的各類資料多以圖片形式存在(一般通過紙質(zhì)掃描或移動(dòng)端拍照采集獲得),需要人工介入對(duì)大量圖片進(jìn)行質(zhì)量審核和內(nèi)容錄入,占用較多的業(yè)務(wù)處理時(shí)間,影響高效快速響應(yīng)客戶。
應(yīng)對(duì)措施:借助OCR技術(shù),有望替代人工實(shí)現(xiàn)圖片的自動(dòng)審核和錄入,幫助業(yè)務(wù)實(shí)現(xiàn)全流程自動(dòng)化處理。
OCR識(shí)別技術(shù)
OCR識(shí)別的核心技術(shù)包括文本區(qū)域檢測及文字切分、文字特征提取以及文字內(nèi)容識(shí)別。區(qū)域檢測及文字切分常用的方法包括投影法、邊界輪廓檢測法、CNN卷積神經(jīng)網(wǎng)絡(luò)法等;文字特征提取常用的方法包括結(jié)構(gòu)法和統(tǒng)計(jì)法,前者利用單字的構(gòu)成基元及拓?fù)浣Y(jié)構(gòu)作為特征,后者利用單字的圖像像素空間向量作為特征,各有利弊,因此經(jīng)常混合使用。文字內(nèi)容識(shí)別常用的方法包括K-近鄰法、SVM支持向量機(jī)法、神經(jīng)網(wǎng)絡(luò)法等,用待識(shí)別文字的特征與字典庫進(jìn)行匹配,字典庫內(nèi)容包含所有欲識(shí)別文字的字符集,通過匹配選擇最適合的分類結(jié)果作為識(shí)別結(jié)果。衡量一個(gè)OCR系統(tǒng)好壞的主要指標(biāo)有:識(shí)別率、拒識(shí)率、誤識(shí)率、識(shí)別速度等。
對(duì)于OCR識(shí)別應(yīng)用,一般處理流程包括6個(gè)步驟,如圖1所示。

圖1 OCR識(shí)別應(yīng)用處理流程
6個(gè)步驟中,專業(yè)的OCR引擎可完成步驟3~5的處理,其他步驟根據(jù)識(shí)別對(duì)象的具體特點(diǎn)通過應(yīng)用程序開發(fā)實(shí)現(xiàn)。
單證OCR識(shí)別的應(yīng)用方法和流程
本文以保單正本頁為例,對(duì)OCR識(shí)別單證的一般應(yīng)用方法、流程及算法進(jìn)行探索研究,總結(jié)經(jīng)驗(yàn)方法。整個(gè)研究過程選用Tesseract 4.0 作為OCR識(shí)別引擎,該工具是當(dāng)前主流的OCR開源工具,最初由HP公司開發(fā),后來由Google維護(hù),支持包括中文在內(nèi)的60多種語言,以字符的線段特征和原型特征作為識(shí)別特征,采用基于KNN的自適應(yīng)分類器,最新的4.0版本還引入了LSTM神經(jīng)網(wǎng)絡(luò)算法。應(yīng)用開發(fā)語言選用了主流的數(shù)據(jù)科學(xué)語言Python語言。研究中選取了保單上的關(guān)鍵要素信息進(jìn)行識(shí)別(如圖2虛線框表示部分),按照要素在保單上的排序順序輸出結(jié)果,整體流程方法如下。

圖2 識(shí)別內(nèi)容區(qū)域
01.預(yù)處理保單正本頁圖片
輸入的圖片格式采用tif或jpeg格式,關(guān)鍵的處理方法包括:對(duì)圖片進(jìn)行灰度化處理,將三通道RGB圖片轉(zhuǎn)換為單通道的灰度圖片;提升分辨率,一般圖片分辨率為72DPI,Tesseract對(duì)圖片分辨率的要求是至少300DPI,需要進(jìn)行轉(zhuǎn)換調(diào)整;統(tǒng)一圖片大小,方便后續(xù)圖片切割,對(duì)圖片進(jìn)行歸一化處理保持統(tǒng)一尺寸;去掉圖片噪音,使用低通濾波算法降低圖片干擾。
02.分析保單正本頁版面特征
分析待識(shí)別內(nèi)容在保單正本頁上的坐標(biāo)分布,供下一步圖片切割使用。首先,使用低通濾波、形態(tài)學(xué)中的膨脹腐蝕及邊緣檢測處理技術(shù),檢測圖片各保單要素信息所在的區(qū)域輪廓(如圖3所示),其中邊緣檢測分別使用Prewitt算子、Laplace算子、Sobel算子進(jìn)行測試,Sobel算子表現(xiàn)效果最好并確定選用該算子。其次,在輪廓檢測后,由于輪廓順序混亂無法確定哪個(gè)輪廓對(duì)應(yīng)哪個(gè)保單要素,為此需要定位輪廓所處位置,利用輪廓坐標(biāo)以及保單要素自身的寬度特征信息等,確定輪廓間的前后上下順序,計(jì)算輪廓所處行和位置編號(hào),然后對(duì)照原始圖片上各要素的位置,確定輪廓與保單要素的對(duì)應(yīng)關(guān)系,進(jìn)而得到各保單要素的坐標(biāo)位置信息。

圖3 待識(shí)別保單要素區(qū)域輪廓
03.切割正本頁圖片并二次處理
使用上一步產(chǎn)生的保單要素坐標(biāo)位置信息,自動(dòng)從正本頁圖片上切割分離出每個(gè)待識(shí)別要素的子圖片,供識(shí)別使用。分割出的子圖片詳見圖4所示。

圖4 切割后的保單要素
另外,根據(jù)Tesseract特點(diǎn),其識(shí)別率與圖片大小相關(guān),在實(shí)踐中發(fā)現(xiàn)調(diào)整保單要素圖片大小可獲得不同的識(shí)別率,因此逐一對(duì)各要素圖片進(jìn)行調(diào)試并最終確定每個(gè)要素圖片的縮放比率,在45%到110%之間不等,按此對(duì)切割后的圖片進(jìn)行二次縮放處理。
04.識(shí)別子圖片內(nèi)容
使用python中的Tesseract算法函數(shù)進(jìn)行識(shí)別,Tesseract提供了對(duì)行文字切分、特征提取和分類識(shí)別的能力,將各保單要素子圖片作為輸入,輸出為識(shí)別結(jié)果。
05.識(shí)別結(jié)果后處理
修正錯(cuò)誤識(shí)別的內(nèi)容。有些識(shí)別錯(cuò)誤具有一定的規(guī)律性,比如Tesseract在識(shí)別保單號(hào)和投保單號(hào)時(shí),容易將‘0’識(shí)別成‘C’,‘7’識(shí)別成‘/’,‘9’識(shí)別成‘%’等,可以進(jìn)行排查替換。另外,針對(duì)一些專業(yè)詞匯,比如險(xiǎn)種名稱、交費(fèi)方式,可以建立詞匯字典,將識(shí)別結(jié)果與字典內(nèi)容進(jìn)行相似度匹配檢查,用最佳匹配結(jié)果替換降低錯(cuò)誤率。相似度檢查方法可使用difflib庫中的get_close_matches函數(shù)算法,實(shí)現(xiàn)最佳內(nèi)容查找匹配。
通過上述方法,完成對(duì)保單正本頁的識(shí)別。在評(píng)價(jià)識(shí)別準(zhǔn)確率方面,采用了如下公式規(guī)則:將保單正本頁上每個(gè)信息要素做為一個(gè)識(shí)別對(duì)象,如合同號(hào)、投保單號(hào)各是一個(gè)識(shí)別對(duì)象,計(jì)算公式為:準(zhǔn)確率=(正確識(shí)別的對(duì)象個(gè)數(shù))/(識(shí)別對(duì)象總數(shù))。按此公式計(jì)算,使用Tesseract進(jìn)行識(shí)別的準(zhǔn)確率達(dá)80%左右。
結(jié)束語
OCR技術(shù)在單證識(shí)別領(lǐng)域的應(yīng)用還有很多難點(diǎn)有待進(jìn)一步深入研究解決,包括圖片存在噪聲、模糊、光線變化、形變、復(fù)雜背景干擾等問題,單證票據(jù)存在虛線干擾、版面缺失、文字溢出表格、文字與表格線交叉等情況,對(duì)定位和識(shí)別文字形成巨大挑戰(zhàn)。人工智能機(jī)器學(xué)習(xí)的發(fā)展將為這些問題的突破帶來機(jī)遇,在文字區(qū)域檢測方面,R-CNN、Faster R-CNN、R-FCN等目標(biāo)檢測算法通過訓(xùn)練樣本獲取圖片上各要素的輪廓位置特征,克服了傳統(tǒng)圖像處理方法受到的圖片問題干擾,具有比傳統(tǒng)方法更加準(zhǔn)確的位置定位;在文字識(shí)別方面,CNN、RNN、CTC、LSTM等算法通過訓(xùn)練學(xué)習(xí)自動(dòng)提取字符特征,降低了傳統(tǒng)特征提取方法的復(fù)雜度,并提升了分類識(shí)別的準(zhǔn)確率。總之,基于深度學(xué)習(xí)的目標(biāo)檢測和識(shí)別訓(xùn)練正在成為OCR識(shí)別技術(shù)的新趨勢,將是下一步研究應(yīng)用的方向。
(文章來源:金融電子化雜志)
掃碼即可手機(jī)
閱讀轉(zhuǎn)發(fā)此文
作為支撐比特幣發(fā)展的底層技術(shù),區(qū)塊鏈的出現(xiàn)預(yù)示著互聯(lián)網(wǎng)的用途可能從傳統(tǒng)
商業(yè)銀行發(fā)展互聯(lián)網(wǎng)金融,其實(shí)對(duì)既有的技術(shù)體系規(guī)劃和設(shè)計(jì)提出了新的要求。