中文信息處理系統

中文信息處理系統是具備中文信息處理能力的計算機信息處理系統。這種系統應具備一個使用方便的漢字輸入系統、能進行編輯排版的漢字輸出系統、能處理漢字數據類型的各種處理程式。

中文信息處理系統

正文

具備中文信息處理能力的計算機信息處理系統。所謂中文信息一般指漢字信息。漢字是一種形聲文字,字元的數量很大,不像西文信息那樣只用幾十個字母的字元集就能表示,因此中文信息處理系統是建立在大字元集基礎上的信息處理系統。這種系統應具備一個使用方便的漢字輸入系統、能進行編輯排版的漢字輸出系統、能處理漢字數據類型的各種處理程式。為了能夠保留西文信息處理系統的全部功能和套用所有成熟的軟體產品,就要使中文信息處理系統與西文信息處理系統兼容。
漢字輸入系統 將漢字輸入並轉變為計算機內部編碼的系統。輸入方式可分為大鍵盤式(整字輸入)、中鍵盤式(字根部首拼字輸入)和小鍵盤式(編碼輸入)。小鍵盤指標準的西文計算機鍵盤,包括26個字母鍵、10個數字鍵、若干常用標點符號鍵和一些特殊功能鍵。由於鍵數少,有利於盲打,小鍵盤生產工藝成熟穩定,造價便宜,便於普及推廣。漢字編碼有多種方式,歸納起來可分為三類:字形碼(筆劃、部首、字根及角形等)、字音碼、音形碼。中國目前字形碼的方案較多。由於不同的人對各種編碼方案的適應能力也不相同,因此,漢字信息處理系統往往採用多種輸入方式兼容的輸入子系統。用戶可根據自已的習慣選用不同的輸入方式。
大鍵盤模擬中文打字機字盤的構造,一字一鍵,採用機械結構或筆觸式結構(基於靜電耦合原理、光電原理或電磁感應原理)。大鍵盤的優點是直觀易學,缺點是鍵數過多,尋找鍵位困難,而且設備複雜,造價較高。
中鍵盤是根據漢字的拼形特點設計的。把漢字分解為字根、部首等純形符號,按一定順序組成字根序列。漢字字根在250~350個左右,經歸類合併,最後形成40~100個字根的字根表,一個字根設定一鍵與之對應,按若干個鍵輸入一個漢字。
小鍵盤的編碼方案很多,有的按字音編碼,有的按字形編碼,有的兼用字音和字形。常用的編碼方案有:漢語拼音,見字識碼,聲韻部形碼,五筆字形碼,漢字字元碼,漢字拼形碼,三角編碼,四角號碼,電報號碼,範例檢字法等。對編碼方案的考慮原則是:適套用戶的習慣,易學,易記,編碼容易,編碼的長度小,重碼率低。
除了用按鍵方式向計算機輸入漢字以外,還有兩種藉助計算機功能的自動輸入漢字方式,即漢字自動識別(圖像識別輸入)和漢語語音識別(聲音識別輸入)。圖像識別輸入採用圖像輸入設備,將記錄在載體(例如紙張)上的漢字當作圖像讀入計算機,通過一些預處理,將其數位化,去除噪聲干擾,並整形成規範化的形式,然後通過特徵抽取,獲得一組可區別文字的特徵。最後由識別系統將這些特徵與先驗知識庫中已知文字特徵進行一系列比較、判斷和分析,得出判別結果,即內部碼錶示的漢字。聲音識別輸入與圖像識別輸入大致相似。由聲音輸入設備將聲波代碼讀入計算機,經過類似的處理分析後得出識別結果。這兩種輸入方式都已有一些初步的試驗結果,但尚須進一步深入研究。
漢字輸出系統 將漢字的內部編碼經轉換通過輸出設備以漢字圖像形式輸出。漢字是大字元集,很難採用整字模式印刷設備來輸出字元形狀,因此需要採用圖像信息輸出,即點陣掃描式輸出。相應的漢字字形點陣被送入緩衝區,再通過輸出設備將緩衝區內容輸出。現代大多數漢字輸出系統都是採用這種原理對西文輸出系統加以改造,以圖為字來完成漢字輸出的。字形表示的設計往往取決於原來西文輸出系統的輸出緩衝區設定。一般來說,漢字字形點陣設計成西文字元點陣的2×2倍大小。
另一種方案是直接建立面向內部碼的輸出緩衝區。再建立一個面向西文、漢字字形的輸出字典或字型檔。標準的固定的小字元集可用唯讀存儲器(ROM),相對穩定的大字元集可用可程式序唯讀存儲器(EPROM),而非標準的隨機圖形字元集則用隨機存取存儲器(RAM)。
漢字化程式設計 一個計算機系統可以分為三個層次。①裸機:即計算機主機和各種外圍設備; ②系統軟體:處於裸機外面,包括作業系統、編譯系統和各種服務程式;③套用軟體:處於系統軟體外面。因此,一個計算機系統有三層界面。用戶和應用程式之間為用戶界面。用戶通過用戶界面操縱計算機系統,用戶界面應當是用戶容易掌握和樂於接受的。中文信息處理系統的用戶界面應能適應中文環境,能經常用中文提示操作人員和數據錄入人員。第二個界面是系統界面,這是系統軟體提供的軟體開發環境。第三個界面是機器界面,這是計算機硬體提供的基本功能,是軟體設計的基礎。
漢字化程式設計有四項要求:①允許中文註解;②允許中文常量賦值;③允許用中文定義變數名;④定義全套中文保留字。前兩項要求,只要保證中西文信息結構兼容,就能滿足。原來西文的軟體系統均可運行。加上一個中文的編輯系統,用戶就完全可以用中文編寫程式,用中文寫註解和常量,基本上改善了程式的可讀性。對第三項要求,則需要加一個預處理系統。由於前兩項要求已使程式可讀性基本改善,所以這一要求並不特別需要。第四項要求也可通過預處理的辦法加以解決。但是這樣會破壞程式設計語言的國際化和標準化,不便於吸收外國成熟的軟體產品。
漢字資料庫系統 漢字資料庫和漢字資料庫管理系統已在部分大、中型機和一些微機上開發成功,並將關係資料庫 dBASEⅡ改造成漢字關係資料庫。漢字資料庫系統已套用在漢字文獻資料庫、事務管理、人事檔案管理、工資管理、企業管理、商業管理、通信管理、交通運輸管理、計算機輔助教學等方面。
參考書目
 張壽萱等:《中文信息的計算機處理》,宇航出版社,北京,1984。

配圖

相關連線

相關搜尋

熱門詞條

聯絡我們