漢字輸入編碼
正文
為便於將漢字送入中文處理終端或系統,用預先設計好的方法,將漢字音、形、義有關要素變成數字、字母或鍵位名稱的轉換方法。漢字輸入編碼是人到機(計算機)交換漢字特徵信息的界面。世界上使用漢字的人口約占世界總人口的 1/4,因此研究和發展漢字輸入編碼是一項非常急迫的任務。中國是漢字的發源國,漢字套用已有數千年歷史。1987年中國研究漢字輸入編碼的人員已近 400人,不論在深度和廣度上,都走在世界前列。
1981年,中國國家標準局公布的國標 GB2312-80《漢字信息交換用編碼字元集》,收漢字6763個,到80年代中期除專業用字元集外,都以國標字元集所收漢字作為輸入編碼範圍。
漢字輸入編碼入手的方法,是在漢字中尋找統一的有規律的特徵信息,將漢字二維平面圖形信息轉換成一維線性代碼。根據所取特徵信息的不同,漢字輸入編碼分從音編碼和從形編碼兩大類。其他類型是相互結合型,或與字義結合,或與檢字法結合,或與詞組結合。因設計的目的、思想不同,用以編碼的元素、所用碼元的數量、取碼方法和規則,避開同碼字和占用鍵盤鍵位的方法等,都因設計者而異,因此產生了數百種漢字輸入編碼方案。
從音編碼是以1958年 2月11日中國全國人民代表大會批准公布的《漢語拼音方案》為基本編碼元素。漢語拼音是以北京語音為標準音,以北方語為基礎方言,以典範的白話文著作為語法規範的國語。自推廣國語以來,已有相當數量的人掌握了漢語拼音,以此為基礎作漢字輸入編碼,為這部分人所樂於接受。但中國各地方言複雜,不少人還難以做到準確認讀漢字,因此容易出現差錯。此外,北京語系只有21個聲母,39個韻母,1332個音節,不能區別成千上萬個漢字,同音字很多,所以需要增加定字編碼。這就要從形、從義去找,或藉助計算機將同音字全顯示出來,再去選擇定字,可見從音編碼方式輸入繁瑣,輸入速度低。但日常漢語口語中有詞、語句的限定,同音字不會被人誤解。利用這一漢語特徵,拼音編碼已向拼音詞組編碼發展來解決部分欠缺。
從形編碼是以筆畫和字根(字元、部件)為編碼元素。現代漢字是從甲骨文、金文演變而來,經過篆書、隸書、楷書等演變而形成的。在形體上逐漸由圖形變為筆畫,象形變為象徵,複雜變為簡單。造字原則從表形、表義到形聲,漢字數量增多主要是形聲字數量多。漢字從形編碼是充分利用現代漢字這些特徵,把漢字平面圖形編成線性代碼。
漢字從形編碼利用人們已有的漢字書寫知識,在鍵盤上象寫字一樣打入筆畫和字根,從計算機內選出漢字,既直接又方便。這樣就要把上千個字根和上百個筆畫儘可能歸納,減少它們的數量,以便於記憶字根所在鍵位。到1987年已能將字根歸納為100個左右,筆畫為5個。字根少了會造成分解漢字圖形的難度,字根多了又會增加記憶量,所以設計者需從中選取最佳的取捨方案,做到易學易記,因此形碼方案數量很多。為達到高速輸入,從形編碼也向詞組編碼發展。
漢字輸入編碼將會隨著計算機套用的普及,通過學術評議和用戶實踐,由數百種優選成數種實用方案。