鄭碼輸入法

鄭碼輸入法

鄭碼輸入法是一套字形輸入法,其發明人是中國著名文字學家、《英華大詞典》主編鄭易里教授。其構造比五筆字型先進,但未能流行。微軟的Windows95中文版中就裝有“鄭碼”輸入法。它是一種形碼,與常見的形碼有許多相似之處:比如它也是從漢字的結構入手;也要將漢字分解成若干部件;也要按某種規律安排鍵位;也要建立某種漢字的拆分規則等等。鄭碼在漢字編碼字元集範圍、詞庫容量、字詞平均碼廠、動態字重碼率及符合語言文字規範等方面都取得了突出的成績。隨著鄭碼的普及,它擁有了較多的用戶,尤其在處理大字元集方面它具有較強的適應性,它的輸入速度也比較快,是一種較好的形碼輸入方法。

程式特點

鄭易里鄭易里

鄭碼輸入法中有許多思想與五筆字型思想非常相似,很難說誰借鑑了誰,總之都是發明者對中國文字做了大量研究的結果。在鄭碼中對於漢字的筆畫也規定為“按一定走向連續完成的一筆”,也分為五種,分別是:橫、豎、撇、點、折(也分別包括橫提、向左的豎鉤、捺等形近的變體);對於漢字的形成認為是分為筆畫、獨體字與合體字三個層次;也認為字根是漢字形體的基礎單元;鄭碼中的字根也分為成字字根和非成字字根兩大類;也認為漢字合體字的字型中可以分為左右型、上下型和包圍包孕型(這與五筆字型中的非類略有區別,實際上五筆字型中的雜合型字大部分是這裡的包圍包孕型);也按筆畫分類分區排列鍵位;一個漢字(或詞組)最多也是鍵入四鍵;也有像五筆字型中的一級簡碼那樣的高頻字;也有二級簡碼。

榮獲全國科技信息優秀成果獎榮獲全國科技信息優秀成果獎

為了適應不同用戶的需求,鄭碼輸入法又分為《普及型》和《標準型》兩種。這兩種方法所用的基本字根的分類排列規律是一致的,編碼規則也沒有多大的差別。《普及型》的編碼規則較簡單,較易學,適合一般辦公人員或年齡偏大的用戶使用,但重碼略多;《標準型》的編碼在基本字根的代碼方面有不同,除第一主根外每個基本字根都被擴充了一個位碼,減小了重碼字,並適用超過2萬字的中、日、韓國際標準漢字大字元集。

鍵盤布局

在香港榮獲首屆世界華人發明博覽會大獎在香港榮獲首屆世界華人發明博覽會大獎

鄭碼是按英文母的順序安排這170個基本字根的,是標準輸入法,將英文字母鍵盤分成了26個跟區。研製者將26個英文字母按順序分成了橫起筆類、豎起筆類、撇起筆類、點起筆類和折起筆類等五個區。每個區中所含字母(根區)個數不等,所以鄭碼的鍵盤圖不像五筆字型的鍵盤那樣具有明顯的分區鍵位。橫起筆類中含A到H共八個字母鍵位;豎起筆類中含I到L共四個字母鍵位;撇起筆類中含M到R共六個字母鍵位;點起筆類中含S到W共五個字母鍵位;折起筆類中含X、Y、Z三個字母鍵位。分類分區的依據就是起筆的“筆形”,然後再按第二筆和第三筆的筆形排列每個區內的基本字根與英文字母的對應順序。具體做法是:先按使用功能將基本字根分為主根和副根,再按起筆筆形將主根和副根分為上述的五個大類(橫起筆、豎起筆等)。主根的鍵位確定之後,副根按自身的筆形從屬相應的主根。

鄭碼輸入法鄭碼輸入法

而主根又被分為第一主根和第二主根兩類,第一主根是組字能力最強的基根,共26個,如基根(第一主根)“一、土、王”的代碼就是A、B、C等等,他們的代碼就是一代表根區的英文字母作為代碼;並不是每個根區都有第二主根的,在鄭碼的標準方案中,為每個第二主根又規定了一個位碼D,這樣第二主根就有兩個字母作為代碼,(叫做2碼根,而相對來說第一主根就叫做1碼根)。避免了諸多基根共用一個根區代碼而造成重碼率高的現象,例如基根(第二主根)“二”的代碼就是BD,基根“三”的代碼就是CD等。第一主根和第二主根共同提供了本區字根的筆形特徵。

副根中大多數都是大家熟悉的規範的部首。在標準型中也為每個副根規定了一個位嗎,這樣副根也是2碼根。例如副根“丁”的代碼是AI,“氣”的代碼是MY,“穴”的代碼是WO等。

副根的第一個代碼是區碼,第二個代碼(位碼)的確定共有四種情況,分別按如下規則執行:

按副根構形中含有的主根成分確定,例如前述的“穴”中含有O區主根“八”的成分,因此他的位碼為O,這是副根位碼確定的主要方式。

按副根構形中還有的筆畫成分確定,如前述的“丁”中含有一筆豎鉤,因此位碼定為代表一筆豎的區碼I。

按副根構形中含有的其他副根成分確定,如“示”的構形中含有K區副根“小”的成分因此位碼定為K,整個菜碼為BK。

幾個特殊副根的位碼需要強行記憶,如“山LL”、“匕RR”和“已YY”。

基根採用了雙符代碼後可以及大地減少重碼,而且基根代碼的排序非常有規律,使鄭碼具備了字典的查字碼功能,為識字教學與計算機輸入的結合創造了條件。

取碼方法

鄭碼輸入法鄭碼輸入法

單字首根(即第一個基根)的代碼要按照實際碼數取,不能有所省略。就是說,首根是1碼根就取1碼;首根是2碼根就取2碼(區碼和位碼都要取)。

為保證單字編碼不超過4個字母,首根之後的其餘基根代碼要根據不同情況決定取捨。一般是先舍位碼,只取區碼的1碼。

例如:櫻--木F貝LO貝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是,對於四基根和多基根字,還要將中間一些基根的代碼全部捨棄,只取前兩碼和最末2個基根各1碼。就是說,取兩頭舍中間。

例如:縮--糹Z宀WD(亻)一A白NK--ZWAN

糖--米UF(廣)肀XB口J--UFXJ

詞語取碼方式

為使詞語的代碼不超過 4 個字母,編碼時要根據詞語中單字數的多少決定基根代碼的取捨。

給詞語編碼時,只需取用基根的區碼。

二字詞

取每個字的首根和次根的區碼各1碼, 表述為:2 - 2

舉例:數量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA

第一主根作為單字參與構詞,在需取 2 碼時要在其代碼後加“A”(與作為單字用的規則一致)。高頻字參與構詞時,要在其代碼後加“V”。

舉例:土地 ---- 土/B 地/B ---- BABV

三字詞

取第一字首根的1碼,取第二字首根和次根各1碼;取第三字首根1碼組成,表述為:1 - 2 - 1。

舉例:科技館 ---- 禾/M 扌/D 十/E 飠/O ---- MDEO

四字詞和多字詞

取前四字的首根各1碼組成,表述為:1 - 1 - 1 - 1

舉例:

輕描淡寫 ---- 車/H 扌/D 氵/V 冖/W ---- HDVW

出污泥而不染--- 凵/Z 氵/V 氵/V 而/G (不 氵) --- ZVVG

簡碼的取碼方式,對一些常用字或詞,按一定的規則,取其常規碼中的 1-3 個字元作為簡略編碼,稱為簡碼。簡碼對專職操作員提高輸入速度大有好處,非專職操作員不必特別去記憶。

一級簡碼:對應於 26 個高頻字。

二級簡碼用該字首根和次根各 1 碼組成。

舉例:

把 -- DY 找 -- DH 管 -- MW

需 -- FG 取 -- CX

個別常用詞也有二級簡碼,就是取每字第一個基根的區碼。

舉例:

中國--JJ 國家--JW 一定--AW 我們--MN 政府--AT 開展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各種--RM 採取--PC

三級簡碼

二基根字:取第一個基根的區碼和第二個基根的區位碼,如:處 -- RID。

三基根和多基根字:依次取第一、第二和第三個基根的區碼,如:散 -- EQM。

程式歷史

“計算機全漢字處理系統集成”榮獲全國科技信息優秀成果獎

1.《鄭碼》專利名為《字根編碼輸入法及其設備》,是中國著名文字學家、享譽海內外的《英華大詞典》主編鄭易里教授經半個世紀對漢字的研究,後期和鄭瓏高級工程師共同創造的重大科技成果。1989年以其獨到的科學性、新穎性、創造性和實用性獲得中、美、英國專利。中國專利號89108851.2。 2.1990年7月,《鄭碼》通過國家主管單位——《全國漢字輸入方案評測工作組》嚴格評測,所有測試項目皆為優級。認為《鄭碼》做到了易學和快速輸入結合,,從各方面均給予了國際領先的最高評價。

3.1990年11月,經我國著名中文信息專家、文字學家、標準化專家、計算機軟體專家的國家級鑑定,肯定了評測結論,指出:《鄭碼》規律性強,把機器檢索和人工檢索有機地結合在一起,在理論上和實踐上為漢字鍵盤輸入字形編碼作出了奠基性的貢獻,並給予《鄭碼》漢字輸入系統在國內外編碼方案中具有領先水平的最高評價。

4.1991年5月,國家語委專家就《鄭碼》編碼系統的文字規律進行審查,認為《鄭碼》漢字輸入系統在基本字根選用,字根筆畫分類、筆形分區、取碼筆順等主要方面率先做到已符合國家語言文字規範,具備了廣泛套用和推廣條件。

5.1991年10月,套用《鄭碼》漢字輸入系統完成世界最大漢字型檔——6萬漢字編碼,同時完成ISO-10646C.J.K20902國際標準漢字編碼。

6.1992年4月,國家技術監督局召開新聞發布會,向國內外宣布中國國家標準科技攻關任務——中國電腦大漢字型檔建成,6萬漢字已全部進入計算機,並同時完成國際標準ISO-10646統一中、日韓的20902個漢字字元集。這是世界上最大的漢字資料庫,選用我國著名文字學家鄭易里教授研究多年的重大發明——《鄭碼》作為檢索系統,並實現了計算機檢索,它的投入使用對國內外中文信息處理事業的發展產生了重大影響。

7.1992年9月,北京111中學學生用《鄭碼》參加“’92海峽兩岸電腦漢字輸入表演賽”榮獲兩項冠軍、兩項亞軍,並創單項離散文本歷屆比賽最高成績。

8.1992年10月,《鄭碼》榮獲北京國際發明金獎和最優秀國際發明大獎。在十幾個參展國家的1300項發明中,榮獲金獎的有70項,而獲得最優秀國際發明大獎的僅3項。

9.1993年2月,中國科學技術協會為總結90年鑑定會後《鄭碼》不斷取得的顯著進展,聘請了國內最權威的信息界專家對《鄭碼》進行評審。評審們也給予國際領先的最高評價。認為《鄭碼》符合國家語言文字規範,和漢字語文識字教學背景一致,易學、快速,適合各種字元集,不但應在全國範圍內加強推廣套用,而且第一次提出宜於在國際上推廣套用。

10.1993年8月,用《鄭碼》的中學生獲全國中學生計算機輸入比賽《浪潮杯》冠軍。

11.1993年9月,《鄭碼》發明人鄭瓏高級工程師以大陸傑出科技人士身份應邀訪問台灣做學術報告,受到台灣中文信息界專家學者熱烈歡迎和讚揚。

12.1993年12月,《鄭碼》選手在新加坡漢字輸入大賽上榮獲王鼎昌總統親自頒發的、唯一的最佳選手金獎。

13.1994年4月,在國際上規模最大、檔次最高的日內瓦國際發明展上,《鄭碼》編碼系統繼北大方正雷射照排系統之後,成為我國第二個獲得電子信息方面的金獎項目。評審們評價為:《鄭碼》漢字輸入系統的發明對中國和亞洲地區文化信息事業的發展做出了重大貢獻!

14.1994年5月中國長城計算機集團、中科院聯想集團、北大方正新天地公司聯合簽約,套用推廣《鄭碼》。

15.1994年8月,世界最大的軟體公司——美國微軟公司經四次派不同專家到中易公司考察後,初步確定選用《鄭碼》裝入新開發的Windows3.2和Windows95中。

16.1995年2月,韓國最大的電子集團——三星集團在大陸和台灣廣泛選碼後,最終優選《鄭碼》作為公司中文信息產品使用的輸入法。經對韓國姑娘培訓、試用後獲得很大成功並給予《鄭碼》高度評價,並出版韓文版《鄭碼》教材。從此《鄭碼》在韓國名聲大振,學用人員與日俱增。

17.1995年3月“中央和國家機關司局長領導幹部計算機普及培訓班”經中組部培訓局審核決定選用《鄭碼》作為對中央司局長輸入法教學。

18.1995年8月,國家主管部門根據國家技術監督局和電子部的委託,為對國內外用戶推薦規範化的輸入法,對全國漢字輸入法進行規範化評選。《鄭碼》名列推薦前茅。

19.1995年10月,美國微軟公司正式優選《鄭碼》裝入Windows95中文版中,支持20902國際標準漢字。

20.日本EPSON公司、新加坡、香港等公司都已選用《鄭碼》,並出版繁體字版和日文版《鄭碼》教材。

21.1996年10月,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》項目榮獲國家科委、國防科工委、中國科學院、中國科協、中國自然科學基金會五單位聯合頒發的《全國科技信息優秀成果一等獎》。此為我國科技信息界最高榮譽。

22.到1997年,《鄭碼》已成為中國大陸裝機率(80%)最高的漢字輸入系統。

計算機全漢字處理系統集成”在香港榮獲首屆世界華人發明博覽會大獎

23.1997年末,IBM公司正式簽署《鄭碼》漢字輸入系統專利使用權契約,在中文軟體中全面使用《鄭碼》。 24.1998年末,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》項目榮獲“世界華人發明”大獎。香港特區首長董建華親自頒獎。

25.1998年末,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》項目榮獲北京市科技進步一等獎。

26.1998年12月,《鄭碼》漢字輸入系統經國家語委、國家質量技術監督局、中文信息學會、電子工業部等權威專家審核,其文字編碼規律已完全符合新頒布的國家語言文字規範。這是唯一通過此審定的編碼系統。

27.1999年,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》榮獲我國最高獎項《國家科技進步獎》。

28.2000年3月,以《鄭碼》為核心的《計算機全漢字信息處理系統集成》被中國軟體行業協會評為1999年度中國優秀軟體,並向國內外推薦。

29.2001年,Windows所有中文版從1995年全部預裝《鄭碼》。2000年以後,在所有英文版的多文種處理中也預裝《鄭碼》,在WindowsXP中又預裝支持GB18030-2000全部《鄭碼》。

30.2002年,美國IBM公司全面預裝《鄭碼》漢字輸入系統。

31.2004年,以《鄭碼》系統為核心的中易大型古籍全文數位化工程系統,承擔國家圖書館古籍《地方志》全文化工程中發揮關鍵作用。

基本原理

鄭碼輸入法鄭碼輸入法

漢字是方塊圖形文字,每字由一至數個單元構成。例如“師傅”的“傅”字由單元“亻、専(音fù)”構成,其中的“専”又由單元“甫、寸”構成,可見“亻、甫、寸”是構成“傅”字的基礎單元,構字單元的排列順序,用圖形可表示為(見圖1.1)。如果把“亻”換成“氵”,在上面加“”頭便構成“簿”字;換成“艹”頭又成為“薄”字。以“薄”為例,構成“薄”字的基礎單元是“艹、氵、甫、寸”,用圖形表示為(見圖1.2)。而基礎單元由筆畫構成,例如“寸”由筆畫“一亅丶”構成。

用於漢字編碼,將構字的基礎單元叫做“字根”或叫做“部件”,構字的最小單元是筆畫。也就是說,“薄”字由“艹、氵、甫、寸”4個字根構成;“札”字由字根“木”和筆畫“(折)”構成。對這些字根我們並不陌生,因為許多字根就是我們熟悉的部首。

《鄭碼》給一部分字根安排了代碼,這部分字根叫做“基本字根”。將基本字根和筆畫的代碼按一定規則代入即得到漢字的編碼。例如:有基本字根“氵V、甫F、寸D、艹E、M、亻N、木F、又X”和筆畫“乚(折)Z”,得到漢字的編碼:“薄EVFD、簿MVFD、札FZ、權FX、樹FXD、符MND”。這就是《鄭碼》編碼的基本原理。

用鍵盤輸入編碼,通過機內碼轉換可在顯示屏看見輸入的漢字,同時可用印表機或雷射發排機將漢字輸入,印在紙張或膠片上,這樣便完成了漢字輸入和輸出的全過程。

相關條目

鄭易里 鄭碼 中文輸入法
五筆 輸入法 簡體字

輸入法大全

輸入法大全及其理論,發明者等。

相關詞條

相關搜尋

熱門詞條

聯絡我們