產生原因
在計算機中,所有的數據在存儲和運算時都要使用二進制數表示(因為計算機用高電平和低電平分別表示1和0),例如,像a、b、c、d這樣的52個字母(包括大寫)以及0、1等數字還有一些常用的符號(例如*、#、@等)在計算機中存儲時也要使用二進制數來表示,而具體用哪些二進制數字表示哪個符號,當然每個人都可以約定自己的一套(這就叫編碼),而大家如果要想互相通信而不造成混亂,那么大家就必須使用相同的編碼規則,於是美國有關的標準化組織就出台了ASCII編碼,統一規定了上述常用符號用哪些二進制數來表示。
美國標準信息交換代碼是由美國國家標準學會(American National Standard Institute , ANSI )制定的,標準的單位元組字元編碼方案,用於基於文本的數據。起始於50年代後期,在1967年定案。它最初是美國國家標準,供不同計算機在相互通信時用作共同遵守的西文字元編碼標準,它已被國際標準化組織(International Organization for Standardization, ISO)定為國際標準,稱為ISO 646標準。適用於所有拉丁文字字母。
表述方式
ASCII 碼使用指定的7 位或8 位二進制數組合來表示128 或256 種可能的字元。標準ASCII 碼也叫基礎ASCII碼,使用7 位二進制數(剩下的1位二進制為0)來表示所有的大寫和小寫字母,數字0 到9、標點符號, 以及在美式英語中使用的特殊控制字元。其中:
0~31及127(共33個)是控制字元或通信專用字元(其餘為可顯示字元),如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BS(退格)、BEL(響鈴)等;通信專用字元:SOH(文頭)、EOT(文尾)、ACK(確認)等;ASCII值為8、9、10 和13 分別轉換為退格、制表、換行和回車字元。它們並沒有特定的圖形顯示,但會依不同的應用程式,而對文本顯示有不同的影響。
32~126(共95個)是字元(32是空格),其中48~57為0到9十個阿拉伯數字。
65~90為26個大寫英文字母,97~122號為26個小寫英文字母,其餘為一些標點符號、運算符號等。
同時還要注意,在標準ASCII中,其最高位(b7)用作奇偶校驗位。所謂奇偶校驗,是指在代碼傳送過程中用來檢驗是否出現錯誤的一種方法,一般分奇校驗和偶校驗兩種。奇校驗規定:正確的代碼一個位元組中1的個數必須是奇數,若非奇數,則在最高位b7添1;偶校驗規定:正確的代碼一個位元組中1的個數必須是偶數,若非偶數,則在最高位b7添1。
後128個稱為擴展ASCII碼。許多基於x86的系統都支持使用擴展(或“高”)ASCII。擴展ASCII 碼允許將每個字元的第8 位用於確定附加的128 個特殊符號字元、外來語字母和圖形符號。
標準表
Bin (二進制) | Oct (八進制) | Dec (十進制) | Hex (十六進制) | 縮寫/字元 | 解釋 |
0000 0000 | 00 | 0 | 0x00 | NUL(null) | 空字元 |
0000 0001 | 01 | 1 | 0x01 | SOH(start of headline) | 標題開始 |
0000 0010 | 02 | 2 | 0x02 | STX (start of text) | 正文開始 |
0000 0011 | 03 | 3 | 0x03 | ETX (end of text) | 正文結束 |
0000 0100 | 04 | 4 | 0x04 | EOT (end of transmission) | 傳輸結束 |
0000 0101 | 05 | 5 | 0x05 | ENQ (enquiry) | 請求 |
0000 0110 | 06 | 6 | 0x06 | ACK (acknowledge) | 收到通知 |
0000 0111 | 07 | 7 | 0x07 | BEL (bell) | 響鈴 |
0000 1000 | 010 | 8 | 0x08 | BS (backspace) | 退格 |
0000 1001 | 011 | 9 | 0x09 | HT (horizontal tab) | 水平制表符 |
0000 1010 | 012 | 10 | 0x0A | LF (NL line feed, new line) | 換行鍵 |
0000 1011 | 013 | 11 | 0x0B | VT (vertical tab) | 垂直制表符 |
0000 1100 | 014 | 12 | 0x0C | FF (NP form feed, new page) | 換頁鍵 |
0000 1101 | 015 | 13 | 0x0D | CR (carriage return) | 回車鍵 |
0000 1110 | 016 | 14 | 0x0E | SO (shift out) | 不用切換 |
0000 1111 | 017 | 15 | 0x0F | SI (shift in) | 啟用切換 |
0001 0000 | 020 | 16 | 0x10 | DLE (data link escape) | 數據鏈路轉義 |
0001 0001 | 021 | 17 | 0x11 | DC1 (device control 1) | 設備控制1 |
0001 0010 | 022 | 18 | 0x12 | DC2 (device control 2) | 設備控制2 |
0001 0011 | 023 | 19 | 0x13 | DC3 (device control 3) | 設備控制3 |
0001 0100 | 024 | 20 | 0x14 | DC4 (device control 4) | 設備控制4 |
0001 0101 | 025 | 21 | 0x15 | NAK (negative acknowledge) | 拒絕接收 |
0001 0110 | 026 | 22 | 0x16 | SYN (synchronous idle) | 同步空閒 |
0001 0111 | 027 | 23 | 0x17 | ETB (end of trans. block) | 結束傳輸塊 |
0001 1000 | 030 | 24 | 0x18 | CAN (cancel) | 取消 |
0001 1001 | 031 | 25 | 0x19 | EM (end of medium) | 媒介結束 |
0001 1010 | 032 | 26 | 0x1A | SUB (substitute) | 代替 |
0001 1011 | 033 | 27 | 0x1B | ESC (escape) | 換碼(溢出) |
0001 1100 | 034 | 28 | 0x1C | FS (file separator) | 檔案分隔設定 |
0001 1101 | 035 | 29 | 0x1D | GS (group separator) | 分組符 |
0001 1110 | 036 | 30 | 0x1E | RS (record separator) | 記錄分隔設定 |
0001 1111 | 037 | 31 | 0x1F | US (unit separator) | 單元分隔設定 |
0010 0000 | 040 | 32 | 0x20 | (space) | 空格 |
0010 0001 | 041 | 33 | 0x21 | ! | 嘆號 |
0010 0010 | 042 | 34 | 0x22 | " | 雙引號 |
0010 0011 | 043 | 35 | 0x23 | # | 井號 |
0010 0100 | 044 | 36 | 0x24 | $ | 美元符 |
0010 0101 | 045 | 37 | 0x25 | % | 百分號 |
0010 0110 | 046 | 38 | 0x26 | & | 和號 |
0010 0111 | 047 | 39 | 0x27 | ' | 閉單引號 |
0010 1000 | 050 | 40 | 0x28 | ( | 開括弧 |
0010 1001 | 051 | 41 | 0x29 | ) | 閉括弧 |
0010 1010 | 052 | 42 | 0x2A | * | 星號 |
0010 1011 | 053 | 43 | 0x2B | + | 加號 |
0010 1100 | 054 | 44 | 0x2C | , | 逗號 |
0010 1101 | 055 | 45 | 0x2D | - | 減號/破折號 |
0010 1110 | 056 | 46 | 0x2E | . | 句號 |
0010 1111 | 057 | 47 | 0x2F | / | 斜槓 |
0011 0000 | 060 | 48 | 0x30 | 0 | 字元0 |
0011 0001 | 061 | 49 | 0x31 | 1 | 字元1 |
0011 0010 | 062 | 50 | 0x32 | 2 | 字元2 |
0011 0011 | 063 | 51 | 0x33 | 3 | 字元3 |
0011 0100 | 064 | 52 | 0x34 | 4 | 字元4 |
0011 0101 | 065 | 53 | 0x35 | 5 | 字元5 |
0011 0110 | 066 | 54 | 0x36 | 6 | 字元6 |
0011 0111 | 067 | 55 | 0x37 | 7 | 字元7 |
0011 1000 | 070 | 56 | 0x38 | 8 | 字元8 |
0011 1001 | 071 | 57 | 0x39 | 9 | 字元9 |
0011 1010 | 072 | 58 | 0x3A | : | 冒號 |
0011 1011 | 073 | 59 | 0x3B | ; | 分號 |
0011 1100 | 074 | 60 | 0x3C | < | 小於 |
0011 1101 | 075 | 61 | 0x3D | = | 等號 |
0011 1110 | 076 | 62 | 0x3E | > | 大於 |
0011 1111 | 077 | 63 | 0x3F | ? | 問號 |
0100 0000 | 0100 | 64 | 0x40 | @ | 電子郵件符號 |
0100 0001 | 0101 | 65 | 0x41 | A | 大寫字母A |
0100 0010 | 0102 | 66 | 0x42 | B | 大寫字母B |
0100 0011 | 0103 | 67 | 0x43 | C | 大寫字母C |
0100 0100 | 0104 | 68 | 0x44 | D | 大寫字母D |
0100 0101 | 0105 | 69 | 0x45 | E | 大寫字母E |
0100 0110 | 0106 | 70 | 0x46 | F | 大寫字母F |
0100 0111 | 0107 | 71 | 0x47 | G | 大寫字母G |
0100 1000 | 0110 | 72 | 0x48 | H | 大寫字母H |
0100 1001 | 0111 | 73 | 0x49 | I | 大寫字母I |
01001010 | 0112 | 74 | 0x4A | J | 大寫字母J |
0100 1011 | 0113 | 75 | 0x4B | K | 大寫字母K |
0100 1100 | 0114 | 76 | 0x4C | L | 大寫字母L |
0100 1101 | 0115 | 77 | 0x4D | M | 大寫字母M |
0100 1110 | 0116 | 78 | 0x4E | N | 大寫字母N |
0100 1111 | 0117 | 79 | 0x4F | O | 大寫字母O |
0101 0000 | 0120 | 80 | 0x50 | P | 大寫字母P |
0101 0001 | 0121 | 81 | 0x51 | Q | 大寫字母Q |
0101 0010 | 0122 | 82 | 0x52 | R | 大寫字母R |
0101 0011 | 0123 | 83 | 0x53 | S | 大寫字母S |
0101 0100 | 0124 | 84 | 0x54 | T | 大寫字母T |
0101 0101 | 0125 | 85 | 0x55 | U | 大寫字母U |
0101 0110 | 0126 | 86 | 0x56 | V | 大寫字母V |
0101 0111 | 0127 | 87 | 0x57 | W | 大寫字母W |
0101 1000 | 0130 | 88 | 0x58 | X | 大寫字母X |
0101 1001 | 0131 | 89 | 0x59 | Y | 大寫字母Y |
0101 1010 | 0132 | 90 | 0x5A | Z | 大寫字母Z |
0101 1011 | 0133 | 91 | 0x5B | [ | 開方括弧 |
0101 1100 | 0134 | 92 | 0x5C | \ | 反斜槓 |
0101 1101 | 0135 | 93 | 0x5D | ] | 閉方括弧 |
0101 1110 | 0136 | 94 | 0x5E | ^ | 脫字元 |
0101 1111 | 0137 | 95 | 0x5F | _ | 下劃線 |
0110 0000 | 0140 | 96 | 0x60 | ` | 開單引號 |
0110 0001 | 0141 | 97 | 0x61 | a | 小寫字母a |
0110 0010 | 0142 | 98 | 0x62 | b | 小寫字母b |
0110 0011 | 0143 | 99 | 0x63 | c | 小寫字母c |
0110 0100 | 0144 | 100 | 0x64 | d | 小寫字母d |
0110 0101 | 0145 | 101 | 0x65 | e | 小寫字母e |
0110 0110 | 0146 | 102 | 0x66 | f | 小寫字母f |
0110 0111 | 0147 | 103 | 0x67 | g | 小寫字母g |
0110 1000 | 0150 | 104 | 0x68 | h | 小寫字母h |
0110 1001 | 0151 | 105 | 0x69 | i | 小寫字母i |
0110 1010 | 0152 | 106 | 0x6A | j | 小寫字母j |
0110 1011 | 0153 | 107 | 0x6B | k | 小寫字母k |
0110 1100 | 0154 | 108 | 0x6C | l | 小寫字母l |
0110 1101 | 0155 | 109 | 0x6D | m | 小寫字母m |
0110 1110 | 0156 | 110 | 0x6E | n | 小寫字母n |
0110 1111 | 0157 | 111 | 0x6F | o | 小寫字母o |
0111 0000 | 0160 | 112 | 0x70 | p | 小寫字母p |
0111 0001 | 0161 | 113 | 0x71 | q | 小寫字母q |
0111 0010 | 0162 | 114 | 0x72 | r | 小寫字母r |
0111 0011 | 0163 | 115 | 0x73 | s | 小寫字母s |
0111 0100 | 0164 | 116 | 0x74 | t | 小寫字母t |
0111 0101 | 0165 | 117 | 0x75 | u | 小寫字母u |
0111 0110 | 0166 | 118 | 0x76 | v | 小寫字母v |
0111 0111 | 0167 | 119 | 0x77 | w | 小寫字母w |
0111 1000 | 0170 | 120 | 0x78 | x | 小寫字母x |
0111 1001 | 0171 | 121 | 0x79 | y | 小寫字母y |
0111 1010 | 0172 | 122 | 0x7A | z | 小寫字母z |
0111 1011 | 0173 | 123 | 0x7B | { | 開花括弧 |
0111 1100 | 0174 | 124 | 0x7C | | | 垂線 |
0111 1101 | 0175 | 125 | 0x7D | } | 閉花括弧 |
0111 1110 | 0176 | 126 | 0x7E | ~ | 波浪號 |
0111 1111 | 0177 | 127 | 0x7F | DEL (delete) | 刪除 |
大小規則
數字的ASCII碼<大寫字母的ASCII碼<小寫字母的ASCII碼。
查詢ASCII技巧,方便查詢ASCII碼對應的字元:新建一個文本文檔,按住ALT+要查詢的碼值(注意,這裡是十進制),鬆開即可顯示出對應字元。例如:按住ALT+97,則會顯示出'a'。
出現問題
ASCII是美國標準,所以它不能良好滿足其它講英語國家的需要。例如英國的英鎊符號(£)在哪裡?
拉丁語字母表重音符號
使用斯拉夫字母表的希臘語、希伯來語、阿拉伯語和俄語。
漢字系統的中國象形漢字,日本和朝鮮。
1967年,國際標準化組織(ISO:International Standards Organization)推薦一個ASCII的變種,
代碼0x40、0x5B、0x5C、0x5D、0x7B、0x7C和0x7D“為國家使用保留”,而代碼0x5E、0x60和0x7E標為
“當國內要求的特殊字元需要8、9或10個空間位置時,可用於其它圖形符號”。
擴展
1. 1981年IBM PC ROM256個字元的字元集,即IBM擴展字元集
2. 1985年11 Windows字元集被稱作“ANSI字元集”,遵循了ANSI草案和ISO標準(ANSI/ISO8859-1-1987,簡“Latin 1”。
3. 1987年4月代碼頁437,字元的映像代碼,在MS-DOS3.3出現。
擴展ASCII 字元是從128 到255(0x80-0xff)的字元。
擴展ASCII不再是國際標準。
4. 雙位元組字元集(DBCS:double-byte character set),解決中國、日本和韓國的象形文字元和ASCII的某種兼容性。DBCS從256代碼開始,就像ASCII一樣。與任何行為良好的代碼頁一樣,最初的128個代碼是ASCII。然而,較高的128個代碼中的某些總是跟隨著第二個位元組。這兩個位元組一起(稱作首位元組和跟隨位元組)定義一個字元,通常是一個複雜的象形文字。
常用ASCII碼
ESC鍵:VK_ESCAPE (27)
回車鍵:VK_RETURN (13)
TAB鍵:VK_TAB (9)
Caps Lock鍵:VK_CAPITAL (20)
Shift鍵:VK_SHIFT (16)
Ctrl鍵:VK_CONTROL (17)
Alt鍵:VK_MENU (18)
空格鍵:VK_SPACE (32)
退格鍵:VK_BACK (8)
左徽標鍵:VK_LWIN (91)
右徽標鍵:VK_RWIN (92)
滑鼠右鍵快捷鍵:VK_APPS (93)
Insert鍵:VK_INSERT (45)
Home鍵:VK_HOME (36)
Page Up:VK_PRIOR (33)
PageDown:VK_NEXT (34)
End鍵:VK_END (35)
Delete鍵:VK_DELETE (46)
方向鍵(←):VK_LEFT (37)
方向鍵(↑):VK_UP (38)
方向鍵(→):VK_RIGHT (39)
方向鍵(↓):VK_DOWN (40)
F1鍵:VK_F1 (112)
F2鍵:VK_F2 (113)
F3鍵:VK_F3 (114)
F4鍵:VK_F4 (115)
F5鍵:VK_F5 (116)
F6鍵:VK_F6 (117)
F7鍵:VK_F7 (118)
F8鍵:VK_F8 (119)
F9鍵:VK_F9 (120)
F10鍵:VK_F10 (121)
F11鍵:VK_F11 (122)
F12鍵:VK_F12 (123)
Num Lock鍵:VK_NUMLOCK (144)
小鍵盤0:VK_NUMPAD0 (96)
小鍵盤1:VK_NUMPAD1 (97)
小鍵盤2:VK_NUMPAD2 (98)
小鍵盤3:VK_NUMPAD3 (99)
小鍵盤4:VK_NUMPAD4 (100)
小鍵盤5:VK_NUMPAD5 (101)
小鍵盤6:VK_NUMPAD6 (102)
小鍵盤7:VK_NUMPAD7 (103)
小鍵盤8:VK_NUMPAD8 (104)
小鍵盤9:VK_NUMPAD9 (105)
小鍵盤。:VK_DECIMAL (110)
小鍵盤*:VK_MULTIPLY (106)
小鍵盤+:VK_ADD (107)
小鍵盤-:VK_SUBTRACT (109)
小鍵盤/:VK_DIVIDE (111)
Pause Break鍵:VK_PAUSE (19)
Scroll Lock鍵:VK_SCROLL (145)
漢字編碼
國標碼區位碼
在計算機中一個漢字通常用兩個位元組的編碼表示,我國制定了“中華人民共和國國家標準信息交換漢字編碼字元集(基本集GB2312—1980)”,簡稱國標碼,是計算機進行漢字信息處理和漢字信息交換的標準編碼。在該編碼中,共收錄漢字和圖形符號7445個,其中一級常用漢字3755個(按漢語拼音字母順序排列),二級常用漢字3008個(按部首順序排列),圖形符號682個。
在GB2312—1980中規定,全部國標漢字及符號組成一個94×94的矩陣。在此矩陣中,每一行稱為一個“區”,每一列稱為一個“位”。於是構成了一個有94個區(01~94區),每個區有94個位(01~94位)的漢字字元集。區碼與位碼組合在一起就形成了“區位碼”,唯一地確定某一漢字或符號。
區位碼的分布規則如下:
1)01~09區:圖形符號區。
2)10~15區:自定義符號區。
3)16~55區:一級漢字區,按漢字拼音排序,同音字按筆畫順序。
4)56~87區:二級漢字區,按偏旁部首、筆畫排序。
5)88~94區:自定義漢字區。
漢字輸入碼
所謂漢字輸入碼就是用於使用西文鍵盤輸入漢字的編碼。每個漢字對應一組由鍵盤符號組成的編碼,不同的漢字輸入法其輸入碼不同。漢字輸入碼也稱外碼。常見的漢字輸入編碼方案可分為如下4類:
1)數碼:用數字組成的等長編碼,典型代表有區位碼、電報碼。
2)音碼:根據漢字的讀音組成的編碼,典型代表有全拼碼和雙拼碼。
3)形碼:根據漢字的形狀、結構特徵組成的編碼,典型代表有五筆字型、表形碼。
4)音形碼:將漢字讀音與其結構特徵綜合考慮的編碼,典型代表有自然碼、首尾拼音碼。
漢字內碼
無論用戶用哪種輸入法,漢字輸入到計算機後都轉換成漢字內碼進行存儲,以方便機內的漢字處理。漢字內碼是採用雙位元組的變形國標碼,在每個位元組的低7位與國標碼相同,每個位元組的最高位為1,以與ASCII碼字元編碼區別。
漢字字形碼
漢字字形碼(漢字輸出碼)是將點陣組成的漢字模型數位化,形成一串二進制數稱為漢字字形碼,其主要用於輸出漢字。輸出漢字時,將漢字字形碼再還原為由點陣構成的漢字,所以漢字字形碼又被稱為漢字輸出碼。
漢字是一種象形文字,每一個漢字可以看成是一個特定的圖形,這種圖形可以用點陣、 輪廓向量、骨架向量等多種方法表示,而最基本的是用點陣表示。如果用16x16點陣來表示 一個漢字,則一個漢字占16行,每一行有16個點,其中每一個點用一個二進制位表示,值“0” 表示暗,值“1”表示亮。由於計算機存儲器的每個位元組有8個二進制位,因此,16個點要用 兩個位元組來存放,16x16點陣的一個漢字字形需要用32個位元組來存放,這32個位元組中的信息 就構成了一個16x16點陣漢字的字模。