OCR技術(shù)是光學(xué)字符識(shí)別的縮寫(Optical Character Recognition),是通過掃描等光學(xué)輸入方式將各種票據(jù)、報(bào)刊、書籍、文稿及其它印刷品的文字轉(zhuǎn)化為圖像信息,再利用文字識(shí)別技術(shù)將圖像信息轉(zhuǎn)化為可以使用的計(jì)算機(jī)輸入技術(shù)??蓱?yīng)用于銀行票據(jù)、大量文字資料、檔案卷宗、文案的錄入和處理領(lǐng)域。適合于銀行、稅務(wù)等行業(yè)大量票據(jù)表格的自動(dòng)掃描識(shí)別及長期存儲(chǔ)。相對一般文本,通常以最終識(shí)別率、識(shí)別速度、版面理解正確率及版面還原滿意度4個(gè)方面作為OCR技術(shù)的評測依據(jù);而相對于表格及票據(jù), 通常以識(shí)別率或整張通過率及識(shí)別速度為測定OCR技術(shù)的實(shí)用標(biāo)準(zhǔn)。
OCR識(shí)別技術(shù)不僅具有可以自動(dòng)判斷、拆分、 識(shí)別和還原各種通用型印刷體表格,在表格理解上做出了令人滿意的實(shí)用結(jié)果,能夠自動(dòng)分析文稿的版面布局,自動(dòng)分欄、并判斷出標(biāo)題、橫欄、圖像、表格等相應(yīng)屬性,并判定識(shí)別順序,能將識(shí)別結(jié)果還原成與掃描文稿的版面布局一致的新文本。表格自動(dòng)錄入技術(shù),可自動(dòng)識(shí)別特定表格的印刷或打印漢字、字母、數(shù)字,可識(shí)別手寫體漢字、手寫體字母、數(shù)字及多種手寫符號(hào),并按表格格式輸出。提高了表格錄入效率,可節(jié)省大量人力。同時(shí)支持將表格識(shí)別直接還原成PTF、PDF、HTML等格式文檔;并可以對圖像嵌入橫排文本和豎排文本、表格文本進(jìn)行自動(dòng)排版面分析。
采用OCR識(shí)別技術(shù),可以將其應(yīng)用于銀行票據(jù)光盤縮微系統(tǒng),可以自動(dòng)提取票據(jù)要素,可減輕操作員的工作量,減少重復(fù)勞動(dòng),尤其是在與銀行事后且監(jiān)督系統(tǒng)相結(jié)合后,可以替代原先的操作人員完成事后監(jiān)督工作。由計(jì)算機(jī)自動(dòng)識(shí)別票據(jù)上的日期、帳號(hào)、金額等要素,通過銀行事后監(jiān)督系統(tǒng)與業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行比較,完成傳統(tǒng)的事后監(jiān)督操作;配有印章驗(yàn)證系統(tǒng)后,自動(dòng)將憑證圖像中的印章與系統(tǒng)中預(yù)留的印鑒進(jìn)行比較,完成印章的真?zhèn)巫R(shí)別。
利用目前的高新技術(shù)-OCR,直接從憑證影像中提取金額、帳號(hào)等重要數(shù)據(jù),代替人的手工錄入,與條碼識(shí)別/流水識(shí)別緊密結(jié)合,實(shí)現(xiàn)建立事后副本帳、完成事后監(jiān)督的工作。OCR處理一般使用性能較好的PC機(jī),OCR處理程序一經(jīng)啟動(dòng)會(huì)自動(dòng)掃描數(shù)據(jù)庫中的憑證影像,發(fā)現(xiàn)有需OCR處理而未處理的,提取到本地進(jìn)行處理。
OCR手寫體、印刷體識(shí)別技術(shù),能識(shí)別不同人寫的千差萬別的手寫體漢字和數(shù)字,應(yīng)用于本系統(tǒng),識(shí)別憑證影像中儲(chǔ)戶填寫的信息,如大寫金額、小寫金額、帳號(hào)、存期、日期、證件號(hào)等,可以代替手工錄入。同時(shí)被識(shí)別得出的金額還要與流水識(shí)別所得的金額進(jìn)行核對,核對成功,則OCR識(shí)別成功。這樣處理是為了避免誤判。
經(jīng)過對銀行產(chǎn)生的實(shí)際憑證進(jìn)行的大量測試,在實(shí)際開發(fā)過程中,根據(jù)銀行的實(shí)際需求,OCR技術(shù)在票據(jù)和表格識(shí)別能力和手寫體自動(dòng)識(shí)別能力上不斷提升,目前處理速度可達(dá)到每分鐘60~80張票據(jù),存折識(shí)別率已經(jīng)達(dá)到了85%以上,存單、憑條識(shí)別率達(dá)到90%以上,而85%以上的識(shí)別率就能減少80%以上的數(shù)據(jù)錄入員。