UTF-16的1個文字使用16個BIT[2個BYTE] 為一個單位。即「-16」名字的由來。BMP(Basic multilingual Plane)標準內的文字、使用16個BIT 進行表示(可以與 ISO/IEC 10646的UCS-2相互替換使用)。BMP標準以外的文字,使用32個BIT [4個BYTE]進行表示。所以不要把UTF16誤認為只有兩個BTYE,長度為4個BYTE的情況也存在。
除了UTF16一個格式外,還存在UTF16-BE和UTF16-LE兩種UTF16的衍生格式。
UTF16[2 BYTE]格式說明:
1,固定位元組順序排列的的兩中UTF16格式[2BYTE]
UTF16-BE:高位元組BYTE在前
UTF16-LE:低位元組BYTE在前
1,不固定位元組順序排列的的UTF16格式[2BYTE]
通過字元串起始的兩個BOM特殊字元決定字元的高低位元組排序。
FE FF:高位元組BYTE在前
FF FE:低位元組BYTE在前
字元串也可以不包含BOM特殊位,默認為高位元組BYTE在前
以字元“M”為例,表示方式如下:
格式 “M”
UTF-16BE :00 4D
UTF-16LE :4D 00
UTF-16 :FE FF 00 4D 或 FF FE 4D 00
UTF16[4 BYTE]格式說明:
BMP包含的文字字元範圍為U+0x0000..U+0xD7FF和U+0xE000..U+0xFFFF['U+'的意義為Unicode字元集]
BMP以外的U+0x10000..U+0x10FFFF的字元數據需要表示為4個BYTE的格式。[U+0x10FFFF..以後的數據目前沒有字型檔使用到]
所以,當字元值的區間為0xD800..0xDFFF時,此UTF16字元為4位元組表示。
表示方法[二進制]:
000uuuuuxxxxxxxxxxxxxxxx[字元原值] ->110110wwwwxxxxxx 110111xxxxxxxxxx [UTF16格式]
wwww = uuuuu - 1
其中uuuuu為字元原值超出0xFFFF的部分
xxxxxxxxxxxxxxxx為0xFFFF之內的部分
以 “U+0x10302” 為例,表示方式如下:
格式 “U+10302 ”
UTF-16BE:D8 00 DF 02
UTF-16LE:00 D8 02 DF
UTF-16 :FE FF D8 00 DF 02 或 FF FE 00 D8 02 DF
注意:按照上述格式進行編碼存在同一字元串中即包含2 BYTE的UTF16字元,也包含4 BYTE的UTF16字元。需要在字元解析時注意。
相關詞條
-
J2SE
,已經慎重地添加到該平台。輔助字元被編碼為一對特殊的 UTF16 值...對(surrogate pair)是一個高 UTF16 值和後面的一個低 UTF16 值的組合。這些高值和低值來自一個特殊範圍的 UTF16 值。一般來說...
J2SE簡介與J2EE、J2ME的比較 J2SE的特性 證書比較 -
易筆記
UTF8,UTF16和Unicode碼轉換的,可以把任意字元轉換成這3種...,因為手邊之後一個藍牙手機. 4.修正編碼轉換里轉UTF16碼時前...
簡介 各版本更新說明 -
計算機編碼
從基礎的開始最小的單元是位(bit),接著是位元組(Byte),一個位元組=8位,英語表示是1 byte=8 bits 。機器...
從基礎的開始 ASCII 字元集 GB2312 字元集 GBK字元集 BIG5 字元集 -
艾諾V7000HDV
基本信息記憶體容量:4G、8G和16G 存儲介質:快閃記憶體 電池:內置1800毫安鋰電池 擴展卡:支持擴展卡,TF卡...
基本信息 視頻功能 附加功能 其它性能 經典造型 三色時尚外觀 -
艾諾V6000HDV
基本信息記憶體容量:4G、8G和16G 存儲介質:快閃記憶體 電池:內置1800毫安鋰電池 擴展卡:支持擴展卡,TF卡...
基本信息 視頻 附加功能:FM收音 錄音 遊戲 經典造型 三色時尚外觀 產品特點 -
易筆記II
易筆記II是最好的手機端文檔編寫工具之一功能簡介 *快速的文檔完全打開技術,600K文檔完整打開只需不到2秒. *...
功能簡介 歷史版本 -
iconv
簡介 頭檔案"iconv.h"。iconv命令可以將一種已知的字元集檔案轉換成另一種已知的字元集檔案。 ...
簡介 主要內容 linux下使用方法 php下使用方法 -
ISO10646標準
ISO10646標準:對字元編碼與Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312 Unicode: unicode.org制定的編碼機制, 要將全世界常用文字都...