國家標準
GB 2312 或 GB 2312-80 是中國國家標準簡體中文字元集,全稱《信息交換用漢字編碼字元集·基本集》,又稱GB0,由中國國家標準總局發布,1981年5月1日實施。GB2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支持GB 2312。概述
GB 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個字元。GB 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。
對於人名、古漢語等方面出現的罕用字,GB 2312不能處理,這導致了後來GBK及GB 18030漢字字元集的出現。
分區表示
GB 2312中對所收漢字進行了“分區”處理,每區含有94個漢字/符號。這種表示方式也稱為區位碼。01-09區為特殊符號。16-55區為一級漢字,按拼音排序。56-87區為二級漢字,按部首排序。10-15區及88-94區則未有編碼。
舉例來說,“啊”字是GB2312之中的第一個漢字,它的區位碼就是1601。
位元組結構
在使用GB2312的程式通常採用EUC儲存方法,以便兼容於ASCII。瀏覽器編碼表上的“GB2312”,通常都是指“EUC-CN”表示法。每個漢字及符號以兩個位元組來表示。第一個位元組稱為“高位位元組”,第二個位元組稱為“低位位元組”。
“高位位元組”使用了0xA1-0xF7(把01-87區的區號加上0xA0),“低位位元組”使用了0xA1-0xFE(把01-94加上0xA0)。 由於一級漢字從16區起始,漢字區的“高位位元組”的範圍是0xB0-0xF7,“低位位元組”的範圍是0xA1-0xFE,占用的碼位是72*94=6768。其中有5個空位是D7FA-D7FE。
例如“啊”字在大多數程式中,會以兩個位元組,0xB0(第一個位元組)0xA1(第二個位元組)儲存。(與區位碼對比:0xB0=0xA0+16,0xA1=0xA0+1)。
問題
收了兩個不規範字:“瀋”:由“審[審]”類推簡化而來,但《簡化字總表》已將“瀋”簡化歸併為“沈”。舊版《新華字典》收有此字,釋為“汁”;新版取消,併入“沈”。“镟”:由“釒[釒]”類推簡化而來,但《簡化字總表》已將“镟”簡化歸併為“鏇”。“鍾”:原版收入使用繁體偏旁之“鍾”字。有認為收入“鍾”字已是錯,因《簡化字總表》已將“鍾”簡化歸併為“鍾”;但1965年《印刷通用漢字字形表》已將“鍾”(使用簡化偏旁)註明為“作為人名地名及引用文言文的時候仍有需要”。修訂
GB 5007.1-85《信息交換用漢字 24x24 點陣字模集》首次附錄對 GB 2312 之更正,包括:調整拉丁字母“g”之字形補充六個拼音符號 ɑ?ńň?ɡ補充94個半字圖形字元(第3區之半角版本,相當於 GB 1988)“鍾”更正為“鍾”另建議於第11區加入第8區首32個拼音符號(包括以上補充六個)之半角版本。
GB2312 本身一直未有修訂,但此等修訂部份收入相關字模集(下詳)、GB 12345、後續之 GBK 及 GB 18030。
GB2312 亦用於 ISO-IR-165。
字模集
GB 5007.1-85《信息交換用漢字 24x24 點陣字模集》GB 5007.2-85《信息交換用漢字 24x24 點陣字模數據集》GB 5199.1-85《信息交換用漢字 15x16 點陣字模集》GB 5199.2-85《信息交換用漢字 15x16 點陣字模數據集》GB 6345.1-86《信息交換用漢字 32x32 點陣字模集》GB 6345.2-86《信息交換用漢字 32x32 點陣字模數據集》GB 12034-89《信息交換用漢字 32x32 點陣仿宋體字模集及數據集》GB 12035-89《信息交換用漢字 32x32 點陣楷體字模集及數據集》GB 12036-89《信息交換用漢字 32x32 點陣黑體字模集及數據集》GB 12037-89《信息交換用漢字 36x36 點陣宋體字模集及數據集》GB 12038-89《信息交換用漢字 36x36 點陣仿宋體字模集及數據集》GB 12039-89《信息交換用漢字 36x36 點陣楷體字模集及數據集》GB 12040-89《信息交換用漢字 36x36 點陣黑體字模集及數據集》GB 12041-89《信息交換用漢字 48x48 點陣宋體字模集及數據集》GB 12042-89《信息交換用漢字 48x48 點陣仿宋體字模集及數據集》GB 12043-89《信息交換用漢字 48x48 點陣楷體字模集及數據集》GB 12044-89《信息交換用漢字 48x48 點陣黑體字模集及數據集》GB/T 13443-92《信息交換用漢字 128x128 點陣楷體字模集及數據集》GB/T 13444-92《信息交換用漢字 128x128 點陣仿宋體字模集及數據集》GB/T 13445-92《信息交換用漢字 256x256 點陣楷體字模集及數據集》GB/T 13446-92《信息交換用漢字 256x256 點陣仿宋體字模集及數據集》GB/T 13844-92《圖形信息交換用矢量漢字單線宋體字模集及數據集》GB/T 13845-92《圖形信息交換用矢量漢字宋體字模集及數據集》GB/T 13846-92《圖形信息交換用矢量漢字仿宋體字模集及數據集》GB/T 13847-92《圖形信息交換用矢量漢字楷體字模集及數據集》GB/T 13848-92《圖形信息交換用矢量漢字黑體字模集及數據集》參看
同一時期的繁體字標準:大五碼(Big5)、國家標準中文交換碼(CNS 11643)、CCCII、香港增補字元集(HKSCS)Unicode、通用字元集(ISO/IEC 10646)中日韓統一表意文字GB 12345注釋
^ 印刷通用漢字字形表,中國北京:文字改革出社,1986年^ ɑ(U+0251)?(U+1E3F;其時 Unicode 未收,故 CP936 亦未收[1])
ń(U+0144)
ň(U+0148)
?(U+01F9;Unicode 3.0 始開始收納,故 CP936 亦未收[2])
ɡ(U+0261)
外部連結
TransWiki中文 - GB2312漢字拼音對照表GB 2312 簡體中文編碼表
信息交換用漢字編碼字元集屬性(官方)