簡述
OCR(Optical Character Recognition)是指使用掃瞄器或數位相機對文本資料進行掃描成圖像檔案,然後對圖像檔案進行分析處理,自動識別獲取文字信息及版面信息的軟體。OCR SDK是指將OCR軟體的核心技術(不包含UI)整理成SDK(SOFTWARE DEVELOPMENT TOOLKIT)軟體開發包的形式,供各種應用程式調用OCR核心技術,開發OCR各種套用軟體(如文檔識別、名片識別、證件識別等)。
組成
OCR SDK核心技術模組主要是由下面幾個部分組成:圖像輸入:讀取不同圖像格式檔案的算法。
圖像預處理:主要包括圖像二值化,噪聲去除,傾斜較正等算法
版面分析:將文檔圖片分段落,分行的算法就叫版面分析算法
字元切割:字元切割算法主要處理因字元粘連、斷筆造成字元難以簡單切割的問題。
字元特徵提取:對字元圖像提取多維的特徵用於後面的特徵匹配模式識別算法。
字元識別:將當前字元提取的特徵向量與特徵模板庫進行模板粗分類和模板細匹配,識別出字元的算法。
版面恢復:識別原文檔的排版,按原排版格式將識別結果輸出到word或pdf等格式文檔,叫做版面恢復算法。
後處理校正: 根據特定的語言上下文的關係,對識別結果進行較正的算法。
目前國內最好的OCR SDK公司有:北京文通、廈門雲脈、北京漢王