尚書7號ocr文字識別系統完全版:1． 1． 1．中文名: 尚書7號OC -百科知識中文網

中文名: 尚書7號OCR文字識別系統完全版
英文名: Shocr
版本: Shocr7.0,Shocr6.0
發行時間: 2005年10月30日
製作發行: 北京漢王科技有限公司地區: 大陸

軟體介紹

本軟體系統是套用OCR（Optical Character Recognition）技術，為滿足書籍、報刊雜誌、報表票據、公文檔案等錄入需求而設計的軟體系統。目前，許多信息資料需要轉化成電子文檔以便於各種套用及管理，但因信息數位化處理的方式落後，不但費時費力，而且資金耗費巨大，造成了大量文檔資料的積壓，因此急需一種快速高效的軟體系統來滿足這種海量錄入需求。本軟體系統正是適用於個人、小型圖書館、小型檔案館、小型企業進行大規模文檔輸入、圖書翻印、大量資料電子化的軟體系統。
●識別字元
簡體字元集：國標GB2312-80的全部一、二級漢字6800多個。
純英文字元集。
簡繁字集：除了簡體漢字外，還可以混識台灣繁體字5400多個以及香港繁體字和GBK漢字。
●識別字型種類
能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字型，並支持多種字型混排。
● 識別字號
初號小六號字型。
●表格識別
可以自動判斷、拆分、識別和還原各種通用型印刷體表格。
●可支持繁體WINDOWS系統
首先，尚書七號開始將整個OCR的過程，明確化了，通過程式的選單，我們就能夠知道整個OCR的過程，主要分為：“檔案”、“編輯”、“識別”、“輸出”等步驟。
在檔案選單中，您可以調用掃瞄器，或者選擇將已經掃描好的圖像檔案打開。得到圖像檔案後，用戶開始的工作，就是“編輯“選單裡面所提示的：圖像頁面的處理，其中包括圖像頁的傾斜校正（提供自動和手動實現方法），旋轉等功能。
處理完畢後，就可以進入“識別過程”，該過程關鍵的是“版面分析”，現在尚書七號的自動版面分析功能很強，面對報紙雜誌等複雜情況的版面，也是分析的正確率很高。不再需要我們在尚書六號裡面那樣的建議手工劃識別範圍。也正是這點，大大降低了使用者的工作量。為了方便，“識別”選單下，也提供了用戶自己在自動版面分析後，通過修改識別范圍框的屬性，來決定需要識別否的功能（默認的情況下，圖象屬性的欄目是不用識別的。當然，如果用戶還是習慣原來尚書六號那樣，自己來設定識別區域，只要直接用滑鼠劃框就可以了。接下來，用戶就可以直接選擇“開始識別”的按鈕了，等待識別的結果。

使用方法介紹

一、掃瞄器驅動程式請切換到高級控制臺狀態
為了得到較好的OCR使用效果，建議用戶將掃瞄器的驅動SCANWIZARD 5軟體，由初始安裝的標準控制臺，切換到高級控制臺狀態。其切換的方法，如下圖所示。
二、第一次使用尚書OCR7號軟體
1．尚書7號OCR軟體是MICROTEK中晶科技公司，向漢王科技購買授權，贈送給用戶使用的軟體，該軟體是放在了掃瞄器隨機的驅動光碟中，用戶可以選擇安裝。
2．軟體安裝完畢後，用戶請點擊桌面左下角“開始”，找到“尚書7號OCR”軟體圖示，並點擊。打開尚書7號OCR的使用界面。
3．打開尚書7號OCR的“檔案”采單下的“選擇掃瞄器”，選擇對應掃瞄器的驅動“MICROTEK SCANWIZARD 5”的選項。並選擇“確定”。
4．選擇“檔案”選單下的“掃描”，將打開掃瞄器的驅動。如下圖，下面的界面是掃瞄器的“高級控制臺”。
5．擁護請注意選擇SCANWIZARD 5軟體中，左面“設定”視窗中的“圖像類型”，請選擇“RGB色彩”或者“灰階”的類型，並注意掃瞄器解析度是300PPI。
6．當用戶作完“預覽”後，設定需要掃描的範圍，就可以點擊“掃描”按鈕，掃瞄器將開始掃描的工作。將掃描好的檔案，直接傳遞到尚書7號OCR默認的目錄中（默認的存儲圖像檔案的目錄是用戶計算機C糟下的SHOCR2002目錄下的IMAGE目錄）。掃描完畢後，請用戶關閉掉掃瞄器驅動程式SCANWIZARD 5.用戶可以看到需要掃描的檔案已經傳遞給尚書7號中，默認的檔案名稱是HW001.JPG。
7．請用戶選擇尚書7號軟體中的“編輯”選單下的“自動傾斜校正”，讓尚書7號軟體對掃描進來的圖像作相應的旋轉，以保證圖像中的文字是水平排列，而非傾斜。因為太過傾斜的文字，將影響到尚書軟體的識別效果。
9．版面分析完畢後，用戶可以看到對應的文字塊，都有對應的識別框被選擇，如下圖
10．用戶此時，請注意，對應的識別框，其屬性是否正確。識別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性，分別有四種不同顏色的選框來表示
11．核對無誤後，用戶可以使用“識別”選單下的“開始識別”按鈕。得到的結果如下：
12．此時實際上已經進入文字校對狀態：
13．當用戶校對完畢後，或者不在尚書7號內作校對，用戶可以選擇“輸出”選單下的“到指定格式檔案”。
用戶可以看到，識別的結果，有TXT、RTF、HTML、XLS等格式可以選擇。默認的輸出的目錄是用戶計算機C糟下的SHOCR2002目錄下的OUTPUT目錄。用戶選擇一個對應的檔案名稱，就可以存檔了。為了方便，用戶可以選擇“輸出到外部編輯器”的選項，這樣存檔的同時，尚書7號OCR會自動調出對應的編輯軟體，如TXT存檔可以自動調用NOTEPAD軟體，RTF存檔將自動調用WORD軟體，XLS存檔將自動調用EXCEL軟體。
一個簡單的OCR操作就此完成了。
三、普通文檔（只含有文字）的OCR識別
1．過程與上面所介紹，基本一樣，只是用戶需要注意存檔格式。
2．一般，如果用戶需要對該文字，進行重新排版工作，請用戶選擇TXT存檔，然後再將其內容拷貝到WORD中。
3．如果用戶希望保留稿件的原有格式，並能夠作版面的恢復，請使用RTF格式存檔，該格式將有版面的恢復功能。但是用戶只能針對其中的文字，作一些個別字的調整，無法作大範圍的排版方式的修改。
四、帶表格的稿件的OCR識別
1．其中，掃描、自動傾斜矯正過程同普通文稿是一樣的。
2．但是注意“版面分析”後，對其結果進行檢查。應該在表格上，經過版面分析後，有一個蘭色的框，選中了表格部分，如果不是，用戶需要修改欄屬性或者考慮手動劃定識別區域。
3．注意輸出結果的選擇，如果是需要重新排版，用戶應該分別用TXT和XLS格式存檔，然後將TXT中的文字和XLS中的表格分別拷貝到WORD，進行排版。

尚書7號ocr文字識別系統完全版

軟體介紹

使用方法介紹

相關詞條

尚書7號ocr文字識別系統完全版

熱門詞條