字元識別系統
OCR識別系統
OCR是OptcaI Character Recognition的簡稱,指光學字元識別技術,是自動識別技術研究和套用中的一個重要領域。
光學字元識別技術的工作原理是通過掃瞄器或數位相機等光學輸入設備獲取紙張上的文字圖片信息,採用光學的方式將文檔資料轉換成原始黑白點陣的圖像檔案,利用各種模式識別算法分析文字形態特徵,判斷出文字的標準編碼,通過識別軟體將圖像中的文字轉換成文本格式,並按通用格式存儲在文本檔案或者資料庫當中,還可以利用文字處理或者編輯軟體或者進一步加工。通俗的說OCR實際上是讓計算機認字,實現文字信息自動輸入,幫助人們低成本、快速度、高質量地將文檔資料和各類紙介信息進行數位化,推進信息資源的開發和利用。
OCR發展意義
1.文字識別是中文信息錄入的快捷手段,由於漢字是非字母、非拼音化的文字,筆劃複雜多樣,人工鍵入速度慢而勞動強度大,計算機自動識別文字或語言方式解決了這一難題,能快速高效地將漢字輸入進計算機。
2.文字識別技術是提高辦公自動化水平的主要因素。辦公自動化就是要藉助計算機來進行文檔的處理, 以代替人們日常的辦公活動,在現代社會,圖像信息占有較大的比重,存在大量文字信息,因此,文字的自動識別對圖像的處理有重要的意義。
3.文字識別技術豐富和完善了文字識別理論。現在人們已可通過手寫檔案經OCR 產品的識別錄入計算機, 大大推動發展了文字識別理論。
4.文字識別是智慧型計算機智慧型接口的重要組成部分,智慧型計算機能認識文字、圖像和景物,能聽懂語音、理解文字。視覺是智慧型計算機接受外界信息的主要手段,而識別文字是智慧型計算機必備的功能。
識別方法
文字識別一般包括文字信息的採集、信息的分析與處理、信息的分類判別等幾個部分。
信息採集將紙面上的文字灰度變換成電信號,輸入到計算機中去。信息採集由文字識別機中的送紙機構和光電變換裝置來實現,有飛點掃描、攝像機、光敏元件和雷射掃描等光電變換裝置。
信息分析和處理 對變換後的電信號消除各種由於印刷質量、紙質(均勻性、污點等)或書寫工具等因素所造成的噪音和干擾,進行大小、偏轉、濃淡、粗細等各種正規化處理。
信息的分類判別 對去掉噪聲並正規化後的文字信息進行分類判別,以輸出識別結果。
文字識別方法 文字識別方法基本上分為統計、邏輯判斷和句法三大類。常用的方法有模板匹配法和幾何特徵抽取法。
模板匹配法
模板匹配法是將輸入的文字與給定的各類別標準文字(模板)進行相關匹配,計算輸入文字與各模板之間的相似性程度,取相似度最大的類別作為識別結果。這種方法的缺點是當被識別類別數增加時,標準文字模板的數量也隨之增加。這一方面會增加機器的存儲容量,另一方面也會降低識別的正確率,所以這種方式適用於識別固定字型的印刷體文字。這種方法的優點是用整個文字進行相似度計算,所以對文字的缺損、邊緣噪聲等具有較強的適應能力。
幾何特徵抽取法
幾何特徵抽取法是抽取文字的一些幾何特徵,如文字的端點、分叉點、凹凸部分以及水平、垂直、傾斜等各方向的線段、閉合環路等,根據這些特徵的位置和相互關係進行邏輯組合判斷,獲得識別結果。這種識別方式由於利用結構信息,也適用於手寫體文字那樣變型較大的文字。
支持向量機
文字識別一直是模式識別最重要的研究領域之一。經過多年的研究,已經取得了大量成果。但是,無約束的非特定人手寫漢字識別仍然被認為是文字識別領域最困難的問題之一 ,其原因可以歸結為 : (1) 漢字規模大。(2) 相似漢字較多, 且有些相似字差別極其細微。(3) 存在大量的不規則書寫變形。 由於(2) 、(3) 的存在 ,導致手寫漢字,特別是相似字在特徵空間中的距離變小,使得普通的距離分類器的推廣能力變弱。 因此,如何補償手寫漢字的書寫變形,提高分類器的泛化和推廣能力,就成為漢字識別研究的關鍵問題之一。
而支持向量機作為一種新的機器學習方法,由於其建立在結構風險最小化準則上。而不僅僅是經驗風險最小,從而使得其具有較強的泛化推廣能力。
套用領域
文字識別可套用於許多領域,如閱讀、翻譯、文獻資料的檢索、信件和包裹的分揀、稿件的編輯和校對、大量統計報表和卡片的匯總與分析、銀行支票的處理、商品發票的統計匯總、商品編碼的識別、商品倉庫的管理,以及水、電、煤氣、房租、人身保險等費用的徵收業務中的大量信用卡片的自動處理和辦公室打字員工作的局部自動化等。以及文檔檢索,各類證件識別,方便用戶快速錄入信息,提高各行各業的工作效率。