Optical Character Recognition

ition Recogn ition

概要

是屬於圖型識別(Pattern Recognition,PR)的一門學問。其目的就是要讓計算機知道它到底看到了什麼,尤其是文字資料。
由於OCR是一門與識別率拔河的技術,因此如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產生。而根據文字資料存在的媒體介質不同,及取得這些資料的方式不同,就衍生出各式各樣、各種不同的套用。
早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數字為對象,直至1965至1970年之間開始有一些簡單的產品,如印刷文字的郵政編碼識別系統,識別郵件上的郵政編碼,幫助郵局作區域分信的作業;也因此至今郵政編碼一直是各國所倡導地址書寫方式。

相關介紹

OCR可以說是一種不確定的技術研究,正確率就像是一個無窮趨近函式,知道其趨近值,卻只能靠近而無法達到,永遠在與100%作拉鋸戰。因為其牽扯的因素太多了,書寫者的習慣或檔案印刷品質、掃瞄器的掃瞄品質、識別的方法、學習及測試的樣本……等等,多少都會影響其正確率,也因此,OCR的產品除了需有一個強有力的識別核心外,產品的操作使用方便性、所提供的除錯功能及方法,亦是決定產品好壞的重要因素。
一個OCR識別系統,其目的很簡單,只是要把影像作一個轉換,使影像內的圖形繼續保存、有表格則表格內資料及影像內的文字,一律變成計算機文字,使能達到影像資料的儲存量減少、識別出的文字可再使用及分析,當然也可節省因鍵盤輸入的人力與時間。
從影像到結果輸出,須經過影像輸入、影像前處理、文字特徵抽取、比對識別、最後經人工校正將認錯的文字更正,將結果輸出。

相關詞條

相關搜尋

熱門詞條

聯絡我們