尚書七號:尚書7號OCR軟體是MICROTEK中晶科技公司，向漢王科技購 -百科知識中文網

軟體特色

簡繁字集：除了簡體漢字外，還可以混識台灣繁體字5400多個以及香港繁體字和GBK漢字。

識別字型種類：能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字型，並支持多種字型混排。

識別字號:初號小六號字型。

表格識別:可以自動判斷、拆分、識別和還原各種通用型印刷體表格。

可支持繁體WINDOWS系統

詳細操作

1．尚書7號OCR軟體是MICROTEK中晶科技公司，向漢王科技購買授權，贈送給用戶使用的軟體，該軟體是放在了掃瞄器隨機的驅動光碟中，用戶可以選擇安裝。

2．軟體安裝完畢後，用戶請點擊桌面左下角“開始”，找到“尚書7號OCR”軟體圖示，並點擊。打開尚書7號OCR的使用界面。

3．打開尚書7號OCR的“檔案”采單下的“選擇掃瞄器”，選擇對應掃瞄器的驅動“MICROTEK SCANWIZARD 5”的選項。並選擇“確定”。

4．選擇“檔案”選單下的“掃描”，將打開掃瞄器的驅動。下面的界面是掃瞄器的“高級控制臺”。

5．用戶請注意選擇SCANWIZARD 5軟體中，左面“設定”視窗中的“圖像類型”，請選擇“RGB色彩”或者“灰階”的類型，並注意掃瞄器解析度是300PPI。

6．當用戶作完“預覽”後，設定需要掃描的範圍，就可以點擊“掃描”按鈕，掃瞄器將開始掃描的工作。將掃描好的檔案，直接傳遞到尚書7號OCR默認的目錄中（默認的存儲圖像檔案的目錄是用戶計算機C糟下的SHOCR2002目錄下的IMAGE目錄）。掃描完畢後，請用戶關閉掉掃瞄器驅動程式SCANWIZARD 5.用戶可以看到需要掃描的檔案已經傳遞給尚書7號中，默認的檔案名稱是HW001.JPG。

7．請用戶選擇尚書7號軟體中的“編輯”選單下的“自動傾斜校正”，讓尚書7號軟體對掃描進來的圖像作相應的鏇轉，以保證圖像中的文字是水平排列，而非傾斜。因為太過傾斜的文字，將影響到尚書軟體的識別效果。

9．版面分析完畢後，用戶可以看到對應的文字塊，都有對應的識別框被選擇。

10．用戶此時，請注意，對應的識別框，其屬性是否正確。識別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性，分別有四種不同顏色的選框來表示。

11．核對無誤後，用戶可以使用“識別”選單下的“開始識別”按鈕。得到結果......

12．此時實際上已經進入文字校對狀態......

13．當用戶校對完畢後，或者不在尚書7號內作校對，用戶可以選擇“輸出”選單下的“到指定格式檔案”.

用戶可以看到，識別的結果，有TXT、RTF、HTML、XLS等格式可以選擇。默認的輸出的目錄是用戶計算機C糟下的SHOCR2002目錄下的OUTPUT目錄。用戶選擇一個對應的檔案名稱，就可以存檔了。為了方便，用戶可以選擇“輸出到外部編輯器”的選項，這樣存檔的同時，尚書7號OCR會自動調出對應的編輯軟體，如TXT存檔可以自動調用NOTEPAD軟體，RTF存檔將自動調用WORD軟體，XLS存檔將自動調用EXCEL軟體。

一個簡單的OCR操作就此完成了。

識別

識別說明

用掃瞄器掃描的文字圖像，不能對個別文字進行編輯修改，在教學中，需要利用文字識別軟體，將文字圖像進行識別，將圖像格式轉化成文本格式，常見的文字識別軟體有很多，主要功能基本相同，尚書七號就是其中很優秀的一款。用尚書七號對文字圖像識別轉化的過程，利用其主選單：“檔案”、“編輯”、“識別”、“輸出”可以很方便地完成。

識別步驟

步驟1：獲取文字圖像檔案。

選擇“檔案”選單下的“掃描”或“打開圖像”（將已經掃描好的圖像檔案打開）命令，打開圖像檔案。如果連線了多台掃瞄器，可以選擇“檔案”選單下的“選擇掃瞄器”命令，調用掃瞄器。

步驟2：對掃描的圖像頁進行調整

選擇“編輯”選單下“圖像頁面的處理”子選單下的“圖像頁的傾斜校正”（提供自動和手動實現方法）及“鏇轉”等命令，將掃描的圖像頁進行調整。

步驟3：版面分析與文字識別轉化

版面分析，選擇識別範圍，在進行文字識別前要選擇識別範圍，識別過程的核心是“版面分析”。尚書七號的自動版面分析功能很強，對報紙雜誌等複雜的版面，也能保持很高的分析正確率。

設定好後，直接點擊“開始識別”的按鈕就可以進行文字識別了。

步驟4：校對修改

自動識別完畢，識別結果的“文本視窗”會彈出，這個視窗能夠提供識別結果的校對，為了校對方便，尚書七號增加了游標跟隨顯示原圖像行的校對方法（如圖3出現的黃色提示行的出現）。

提供的校對方法，一眼就能夠看到圖像原文和識別出文本的差別，如果發現識別有誤，可以進行修改。

步驟5：輸出

如果檢查修改後確認無誤，選擇識別結果的“輸出”選單，輸出的檔案格式有：RTF、HTML、XLS、2126，可以根據自己的需要選擇對應的格式。如果用戶想得到類似原文的識別結果，請選擇RTF格式。把RTF格式輸出的檔案用WORD打開後，會發現幾乎保留了原文的所有痕跡，包括原來頁面中的彩色圖像，都已經保留在WORD中了。

注意

1、圖片質量。批量識別時，首先應確保要識別的圖片質量。如不能識別還需要重新處理，甚至會導致軟體死掉，浪費時間。我本人就曾深受其苦。圖片解析度應稍高，肉眼看感覺偏大，因為識別工具是有點近視的，文字和底色對比要求不高，通常來說，肉眼能看清楚即可，底色發灰或發黑基本不會影響識別結果。

2、避免有不規則形狀（圖片）出現。識別工具在進行版面分析時，只能採用方形切割，當圖片中存在文字環繞不規則形狀時，則無法將文字和該形狀劃分開，則將出現錯誤或無法識別。此時，較快的辦法是在PS中，吸取該圖片附近的頁面底色，用粗畫筆將該區域塗上，不必講求效果，顏色沒有太大差別即可，重新保存圖片。

3、避免圖象傾斜。尚書七號中也有自動傾斜校正和手動傾斜校正工具，但即使經過校正，識別率還是低很多。如果是拍攝的書本，可能會產生一定弧度，此時保證行的兩端對齊即可。另外在拍攝時應避免高光等會使圖象各部分亮度反差大的情況。

4.為了得到較好的OCR使用效果，建議用戶將掃瞄器的驅動SCANWIZARD 5軟體，由初始安裝的標準控制臺，切換到高級控制臺狀態。

文檔識別

1．過程與上面所介紹，基本一樣，只是用戶需要注意存檔格式。

2．一般，如果用戶需要對該文字，進行重新排版工作，請用戶選擇TXT存檔，然後再將其內容拷貝到WORD中。

3．如果用戶希望保留稿件的原有格式，並能夠作版面的恢復，請使用RTF格式存檔，該格式將有版面的恢復功能。但是用戶只能針對其中的文字，作一些個別字的調整，無法作大範圍的排版方式的修改。

OCR識別

1．其中，掃描、自動傾斜矯正過程同普通文稿是一樣的。

2．但是注意“版面分析”後，對其結果進行檢查。應該在表格上，經過版面分析後，有一個蘭色的框，選中了表格部分，如果不是，用戶需要修改欄屬性或者考慮手動劃定識別區域。

3．注意輸出結果的選擇，如果是需要重新排版，用戶應該分別用TXT和XLS格式存檔，然後將TXT中的文字和XLS中的表格分別拷貝到WORD，進行排版。

尚書七號

基本信息

軟體特色

詳細操作

識別

識別說明

識別步驟

注意

文檔識別

OCR識別

相關詞條

尚書七號OCR

尚書七號ORC識字正式版

尚書7號ocr文字識別系統完全版

文字識別軟體

黃天麟[元處士]

潘湖湖口黃相第

黃近

黃天麟

相關搜尋

熱門詞條