漢字情報輸入技術
正文
在漢字信息處理和計算機檢索中以計算機可讀的方式輸入漢字的有關方法和設備。在中國及一些使用漢字的國家和地區,漢字輸入是計算機情報系統的重要組成部分。漢字輸入特點 漢字是圖形文字,數量龐大,字形複雜,同音字多。與拼音文字相比,漢字的計算機輸入有許多特殊問題需要解決。通常在同一系統中,需要同時處理漢字和西文,因而還需要考慮兩種字元的兼容和區分,這樣給漢字編碼和輸入帶來許多困難。
漢字輸入方式 70年代以來,人們廣泛重視漢字輸入技術的研究,已提出的漢字輸入技術大致可分鍵盤輸入、 漢字圖形識別輸入、 漢語語音識別輸入幾種類型。漢語語音識別技術目前尚處於實驗性階段,這是因為除去語音識別技術本身的困難之外,還由於漢語中同音字多的關係。漢字圖形識別技術用於漢字輸入的裝置是光學字元識別裝置 (OCR)。人們分別就印刷體、手寫印刷體和手寫體 3種類型的識別對象進行試驗研究。從目前所得到的結果看,印刷體漢字識別無論在識別率及識別速度方面都取得了較好的結果,並已有產品推出,識別率達99%以上,速度是100字/秒左右,但識別字數目前在2000~3000字之內。手寫漢字識別技術已用到一些文字處理設備上,但僅僅作為鍵盤輸入的一種補充手段。迄今為止,鍵盤輸入是計算機漢字輸入的主要方法。
漢字輸入鍵盤 可分成3種類型:
①整字鍵盤,又稱“大鍵盤”。同中文打字機一樣,把漢字分布在鍵盤的各個鍵位上,由於漢字數量多,導致鍵盤面積大,後來多改用“筆觸式”來縮小面積,原理仍是一樣。其優點是直觀,但不足是找字不便、鍵輸入速度慢、價格高昂、不易維修等。
②字根鍵盤,又稱“中鍵盤”。利用漢字在形狀上由數百個“部首”、“偏旁”等部件所構成的原理,在鍵面上布置了這些部件,使用時按一定規則把它們加以組織以輸入漢字。 由於具有與大鍵盤一樣的缺點, 且規則不易掌握,所以中鍵盤輸入漢字的方法已逐漸淘汰。
③標準鍵盤,又稱“小鍵盤”。與西文輸入鍵盤兼容,用英、數字的組合代表全部漢字字元集,已成為計算機漢字輸入的主流。
漢字輸入編碼 現已提出數百種不同的漢字輸入編碼方案,但本質上都是建立漢字字元集與一個小的符號集合之間的對應關係,而這一小的字元集應是標準鍵盤所能容納得下的。按照建立對應關係所持依據的不同,主要的編碼方法一般可劃分成3種類型:
① 按形分解。筆形碼(八筆字型、五筆字型等)、三角碼、倉頡碼及巨觀碼等,均屬此類。
② 按音分解。漢語拼音,緊縮漢語拼音及雙拼等即是。
③ 音形結合。“見字識碼”為其代表。
實際上,使用者一般不拘於一種方法,所以大多數計算機漢字輸入系統均配有多種輸入方法,以供使用者自由選擇和切換。以上各種計算機漢字輸入技術,在情報工作中均可採用。除編碼輸入方法外,印刷體的識別技術是值得重視的,它尤其適用於印刷品情報資料向計算機轉貯。