GBK 亦採用雙位元組表示,總體編碼範圍為8140-FEFE,首位元組在81-FE 之間,尾位元組在40-FE 之間,剔除 xx7F一條線。總計23940 個碼位,共收入21886個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號883 個。
概述
1993年,Unicode 1.1版本推出,收錄了中國大陸、台灣、日本及韓國通用字元集的漢字,總共有20,902個。中國大陸訂定了等同於Unicode 1.1版本的“GB 13000.1-93”“信息技術 通用多八位編碼字元集(UCS) 第一部分:體系-{}-結構與基本多文種平面”。
由於GB 2312-80只收錄了6763個漢字,有不少漢字,如部分在GB 2312-80推出以後才簡化的漢字(如“-{囉}-”),部分人名用字(如中國前總理朱鎔基的“-{鎔}-”字),台灣及香港使用的繁體字,日語及朝鮮語漢字等,並未有收錄在內。中文電腦開發商,於是利用了GB 2312-80未有使用的編碼空間,收錄了所有出現在Unicode 1.1及GB 13000.1-93之中的漢字,制定了GBK編碼。
根據西方資料,GBK最初是由微軟對GB2312的擴展,也就是CP936字碼表 (Code Page 936)的擴展(原來的CP936和GB 2312-80一模一樣),最初出現於Windows 95簡體中文版中,由於Windows產品的流行和在大陸廣泛被使用,中華人民共和國國家有關部門將其作為技術規範。注意GBK並非國家正式標準,只是國家技術監督局標準化司、電子工業部科技與質量監督司發布的“技術規範指導性檔案”。雖然GBK收錄了所有Unicode 1.1及GB 13000.1-93之中的漢字,但是編碼方式與Unicode 1.1及GB 13000.1-93不同。僅僅是GB 2312到GB 13000.1-93之間的過渡方案。
後續
中華人民共和國國家標準總局於2000年推出了GB 18030-2000標準,以取代GBK。GB 18030-2000除了保留了全部GBK編碼的漢字外,還增加了大約一百個漢字及四位元組編碼空間。請參看GB18030-2000。
引入標準
隨著信息技術在各行業套用的深入,GB 2312收錄漢字數量不足的缺點已經初步顯露出來。例如:"鎔"字現在是高頻率使用字,而GB 2312卻沒有為它編碼,因而,政府、新聞、出版、印刷等行業和部門在使用中感到十分不便。1995年,全世界大多數的PC作業系統都實現了16/32位。GB 13000.1的實現出現了一線曙光。一方面為了對GB 2312進行擴充,一方面順應當時技術的發展向GB 13000.1推進,同時兼顧當時最廣泛採用GB2312內碼系統。原電子部和原國家技術監督局聯合頒布了指導性技術檔案《漢字內碼擴展規範》1.0版,即GBK。在漢字處理系統中,由於GB 2312需要經常性的使用轉移序列規則,最廣泛使用的實際是經過GB 2312+8080H移位後的內碼模式。因為如不使用轉義序列規則,GB2312規定的一個漢字字元的交換碼用兩個ASCII圖形字元編碼的表示方法,在中國最初的計算機上實現中西文信息兼容時會造成漢字內碼與漢字交換碼的不一致性。為解決這一問題,國內外推出了十多種計算機漢字內碼制式,最常用的就是兩位元組內碼制式,而在其中以高位為“1”的兩位元組內碼套用最廣(所以要移位8080H),它是把漢字交換碼兩位元組高位置“1”而成,例如在CC-DOS系統中。台灣的CNS 11643、日本的JIS 0203等標準也是採用同樣方式來實現。
編碼原理
GBK在GB 2312內碼系統的基礎上進行了擴充,其內碼空間為0x8140 ~ 0xFEFE,去除第二位元組的0x7F(192個碼位),總共23940個碼位。它收錄了GB 13000.1-1993的全部20902個CJK統一漢字,包括GB 2312的全部6763個漢字。此外,它增補編碼了52個漢字,13個漢字結構符(在ISO/IEC 10646.1: 2000中稱為表意文字描述符)和一些常用部首與漢字部件。在GBK的內碼系統中,GB 2312漢字所在碼位保持不便,這樣,保證了GBK對GB 2312的完全兼容。同時,GBK內碼與GB 13000.1代碼一一對應,為GBK向GB 13000.1的轉換提供了解決辦法。GBK碼位空間示意圖
補充舉例
理想語認定國際通用標準的鍵盤符號是GBK圖符,各自都有基本讀音,參見如下表格:
(常用的如國際專利IPO數字代碼,包括 簡訊愛情數字密碼字母符號,也都是 可以 轉化 念讀的, 理想語'意筋表述只是 只需在前面 加上 雙合鍵符綴WS, 例如WS520 我愛你 :)
英理 Bi Pi EyM EyF Di Ti EyN EyL Ji Ky EyQu Yi Jy Kj EyKeSi Wh Eh Yk Ey Ea Zy Xi EySi Vi Eo
鍵符 B P M F D T N L G K H E J Q X Y I U A R Z C S V O
漢音 Bo Po Mo Fo De Te Ne Le Ge Ke He Ee Ji Qi Xi Yi Ii Ui Ai Ri Za Ca Sa Va O~) 波 潑 摸 佛 的 特 呢 勒 戈 科 喝 鵝 雞 器 西 衣 支 吃 石 日 雜 擦 灑 Va 喔)
漢理 Do Te Nf Lm Gg Kk Hh Zz Uu Aa
數串 11 22 33 44 55 66 77 88 99 00
漢音 垛 特 能 攔 供 口 海 長 出 沙
數符 1 2 3 4 5 6 78 9 0
漢音 Yi Er Sm Si Wu Lj Qi Ba Jj Ai
變音 Yp Eh S~ S~ W~ L~ Q~ B~ J~ A~
英音 Wc Tu TuLi Fo FhWu XiKeSi SyVc EyTe Nh TyN
上述是簡訊的 愛情數字密碼 經常使用的 :)
相關鏈街
微軟CP936編碼表
方正GBK字型檔內碼錶