尚書7號ocr文字識別系統完全版

1. 1. 1.

中文名: 尚書7號OCR文字識別系統完全版
英文名: Shocr
版本: Shocr7.0,Shocr6.0
發行時間: 2005年10月30日
製作發行: 北京漢王科技有限公司地區: 大陸

軟體介紹

本軟體系統是套用OCR(Optical Character Recognition)技術,為滿足書籍、報刊雜誌、報表票據、公文檔案等錄入需求而設計的軟體系統。目前,許多信息資料需要轉化成電子文檔以便於各種套用及管理,但因信息數位化處理的方式落後,不但費時費力,而且資金耗費巨大,造成了大量文檔資料的積壓,因此急需一種快速高效的軟體系統來滿足這種海量錄入需求。本軟體系統正是適用於個人、小型圖書館、小型檔案館、小型企業進行大規模文檔輸入、圖書翻印、大量資料電子化的軟體系統。
●識別字元
簡體字元集:國標GB2312-80的全部一、二級漢字6800多個。
純英文字元集。
繁字集:除了簡體漢字外,還可以混識台灣繁體字5400多個以及香港繁體字和GBK漢字。
●識別字型種類
能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字型,並支持多種字型混排。
● 識別字號
初號 小六號字型。
●表格識別
可以自動判斷、拆分、識別和還原各種通用型印刷體表格。
●可支持繁體WINDOWS系統
首先,尚書七號開始將整個OCR的過程,明確化了,通過程式的選單,我們就能夠知道整個OCR的過程,主要分為:“檔案”、“編輯”、“識別”、“輸出”等步驟。
在檔案選單中,您可以調用掃瞄器,或者選擇將已經掃描好的圖像檔案打開。得到圖像檔案後,用戶開始的工作,就是“編輯“選單裡面所提示的:圖像頁面的處理,其中包括圖像頁的傾斜校正(提供自動和手動實現方法),旋轉等功能。
處理完畢後,就可以進入“識別過程”,該過程關鍵的是“版面分析”,現在尚書七號的自動版面分析功能很強,面對報紙雜誌等複雜情況的版面,也是分析的正確率很高。不再需要我們在尚書六號裡面那樣的建議手工劃識別範圍。也正是這點,大大降低了使用者的工作量。為了方便,“識別”選單下,也提供了用戶自己在自動版面分析後,通過修改識別范圍框的屬性,來決定需要識別否的功能(默認的情況下,圖象屬性的欄目是不用識別的。當然,如果用戶還是習慣原來尚書六號那樣,自己來設定識別區域,只要直接用滑鼠劃框就可以了。接下來,用戶就可以直接選擇“開始識別”的按鈕了,等待識別的結果。

使用方法介紹

一、 掃瞄器驅動程式請切換到高級控制臺狀態
為了得到較好的OCR使用效果,建議用戶將掃瞄器的驅動SCANWIZARD 5軟體,由初始安裝的標準控制臺,切換到高級控制臺狀態。其切換的方法,如下圖所示。
二、 第一次使用尚書OCR7號軟體
1. 尚書7號OCR軟體是MICROTEK中晶科技公司,向漢王科技購買授權,贈送給用戶使用的軟體,該軟體是放在了掃瞄器隨機的驅動光碟中,用戶可以選擇安裝。
2. 軟體安裝完畢後,用戶請點擊桌面左下角“開始”,找到“尚書7號OCR”軟體圖示,並點擊。打開尚書7號OCR的使用界面。
3. 打開尚書7號OCR的“檔案”采單下的“選擇掃瞄器”,選擇對應掃瞄器的驅動“MICROTEK SCANWIZARD 5”的選項。並選擇“確定”。
4. 選擇“檔案”選單下的“掃描”,將打開掃瞄器的驅動。如下圖,下面的界面是掃瞄器的“高級控制臺”。
5. 擁護請注意選擇SCANWIZARD 5軟體中,左面“設定”視窗中的“圖像類型”,請選擇“RGB色彩”或者“灰階”的類型,並注意掃瞄器解析度是300PPI。
6. 當用戶作完“預覽”後,設定需要掃描的範圍,就可以點擊“掃描”按鈕,掃瞄器將開始掃描的工作。將掃描好的檔案,直接傳遞到尚書7號OCR默認的目錄中(默認的存儲圖像檔案的目錄是用戶計算機C糟下的SHOCR2002目錄下的IMAGE目錄)。掃描完畢後,請用戶關閉掉掃瞄器驅動程式SCANWIZARD 5.用戶可以看到需要掃描的檔案已經傳遞給尚書7號中,默認的檔案名稱是HW001.JPG。
7. 請用戶選擇尚書7號軟體中的“編輯”選單下的“自動傾斜校正”,讓尚書7號軟體對掃描進來的圖像作相應的旋轉,以保證圖像中的文字是水平排列,而非傾斜。因為太過傾斜的文字,將影響到尚書軟體的識別效果。
9. 版面分析完畢後,用戶可以看到對應的文字塊,都有對應的識別框被選擇,如下圖
10. 用戶此時,請注意,對應的識別框,其屬性是否正確。識別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性,分別有四種不同顏色的選框來表示
11. 核對無誤後,用戶可以使用“識別”選單下的“開始識別”按鈕。得到的結果如下:
12. 此時實際上已經進入文字校對狀態:
13. 當用戶校對完畢後,或者不在尚書7號內作校對,用戶可以選擇“輸出”選單下的“到指定格式檔案”。
用戶可以看到,識別的結果,有TXT、RTF、HTML、XLS等格式可以選擇。默認的輸出的目錄是用戶計算機C糟下的SHOCR2002目錄下的OUTPUT目錄。用戶選擇一個對應的檔案名稱,就可以存檔了。為了方便,用戶可以選擇“輸出到外部編輯器”的選項,這樣存檔的同時,尚書7號OCR會自動調出對應的編輯軟體,如TXT存檔可以自動調用NOTEPAD軟體,RTF存檔將自動調用WORD軟體,XLS存檔將自動調用EXCEL軟體。
一個簡單的OCR操作就此完成了。
三、 普通文檔(只含有文字)的OCR識別
1. 過程與上面所介紹,基本一樣,只是用戶需要注意存檔格式。
2. 一般,如果用戶需要對該文字,進行重新排版工作,請用戶選擇TXT存檔,然後再將其內容拷貝到WORD中。
3. 如果用戶希望保留稿件的原有格式,並能夠作版面的恢復,請使用RTF格式存檔,該格式將有版面的恢復功能。但是用戶只能針對其中的文字,作一些個別字的調整,無法作大範圍的排版方式的修改。
四、 帶表格的稿件的OCR識別
1. 其中,掃描、自動傾斜矯正過程同普通文稿是一樣的。
2. 但是注意“版面分析”後,對其結果進行檢查。應該在表格上,經過版面分析後,有一個蘭色的框,選中了表格部分,如果不是,用戶需要修改欄屬性或者考慮手動劃定識別區域。
3. 注意輸出結果的選擇,如果是需要重新排版,用戶應該分別用TXT和XLS格式存檔,然後將TXT中的文字和XLS中的表格分別拷貝到WORD,進行排版。

相關詞條

熱門詞條

聯絡我們