位元組

位元組

位元組(Byte)是計算機信息技術用於計量存儲容量和傳輸容量的一種計量單位,一個位元組等於8位二進制數,在UTF-8編碼中,一個英文字元等於一個位元組。位元組(Byte 發音:/‘bait/)。數據存儲是以“位元組”(Byte)為單位,數據傳輸是以“位”(bit)為單位,一個位就代表一個0或1(即二進制),每8個位(bit)組成一個位元組(Byte)。8bit=1Byte 注意1b不等於1B,數據存儲是以10進制表示,數據傳輸是以2進制表示所以1Kb不等於1KB,1KB=1024B,1KB=1024Byte=1024*8bit。

基本信息

簡介

位元組(Byte 發音:/‘bait/):位元組是通過 網路傳輸信息(或在 硬碟或 記憶體中存儲信息)的單位。網路上的所有信息都是以“位”(bit)為單位傳遞的,一個位就代表一個0或1,每8個位(bit)組成一個位元組(Byte)。

換算

字元與位元組

ASCII碼:一個英文字母(不分大小寫)占一個位元組的空間,一個中文漢字占兩個位元組的空間。一個二進制數字序列,在計算機中作為一個數字單元,一般為8位二進制數,換算為十進制。最小值0,最大值255。如一個ASCII碼就是一個位元組。

UTF-8編碼:一個英文字元等於一個位元組,一個中文(含繁體)等於三個位元組。

Unicode編碼:一個英文等於兩個位元組,一個中文(含繁體)等於兩個位元組。

符號:英文標點占一個位元組,中文標點占兩個位元組。舉例:英文句號“.”占1個位元組的大小,中文句號“。”占2個位元組的大小。

不同數量級間

數據存儲是以10進制表示,數據傳輸是以2進制表示的,所以1KB不等於1000B。

1KB=1024B;1MB=1024KB=1024×1024B。其中1024=2。

1B(byte,位元組)= 8 bit(見下文);

1KB(Kibibyte,千位元組)=1024B= 2^10 B;

1MB(Mebibyte,兆位元組,百萬位元組,簡稱“兆”)=1024KB= 2^20 B;

1GB(Gigabyte,吉位元組,十億位元組,又稱“千兆”)=1024MB= 2^30 B;

1TB(Terabyte,萬億位元組,太位元組)=1024GB= 2^40 B;

1PB(Petabyte,千萬億位元組,拍位元組)=1024TB= 2^50 B;

1EB(Exabyte,百億億位元組,艾位元組)=1024PB= 2^60 B;

1ZB(Zettabyte,十萬億億位元組,澤位元組)= 1024EB= 2^70 B;

1YB(Yottabyte,一億億億位元組,堯位元組)= 1024ZB= 2^80 B;

1BB(Brontobyte,一千億億億位元組)= 1024YB= 2^90 B;

1NB(NonaByte,一百萬億億億位元組) = 1024 BB = 2^100 B;

1DB(DoggaByte,十億億億億位元組) = 1024 NB = 2^110 B;

存儲類型

以下以Visual Basic為例,講解各種數據類型所占位元組。

數據類型 儲存空間大小(單位:位元組) 範圍
Byte(位元組型) 1 0 - 255
Boolean(布爾型/邏輯型) 2 True 或 False
Integer(整數型) 2 -32,768 ~ 32767
Long(長整形) 4 -2,147,483,648 ~ 2,147,483,647
Single ( 單精度浮點型 ) 4 負數範圍: -3.402823E38 ~ -1.401298E-45 正數範圍: 1.401298E-45 ~ 3.402823E38
Double ( 雙精度浮點型 ) 8 負數範圍: -1.797,693,134,862,32E308 ~ -4.940,656,458,412,47E-324 正數範圍: 4.940,656,458,412,47E-324 ~ 1.797,693,134,862,32E308
Currency (變比整形 / 貨幣類型) 8 -922,337,203,685,477.5808 ~ 922,337,203,685,477.5807
Decimal(十進制型) 14 沒有小數點時: +/-79,228,162,514,264,337,593,543,950,335 有小數點時: +/-7.922,816,251,426,433,759,354,395,033,5 最小的非零值: +/-0.000,000,000,000,000,000,000,000,000,1
Date(時間日期型) 8 100 年 1 月 1 日 ~ 9999 年 12 月 31 日
Object(對象型) 4 任何 Object 引用
String (變長) 10 長度從 0 到 大約 20 億
String (定長) 10 長度從 1 到大約 65,400
Variant (數字) 16 任何數字值,最大可達 Double 的範圍
Variant (字元) 22 與字元串長度,變長 String 有相同的範圍
用戶自定義變數 - -

任何數據類型的數組都需要 20 個位元組的記憶體空間,加上每一數組維數占 4 個位元組,再加上數據本身所占用的空間。數據所占用的記憶體空間可以用數據元數目乘上每個元素的大小加以計算。例如,以 4 個 2位元組之 Integer 數據元所組成的一維數組中的數據,占 8 個位元組。這 8 個位元組加上額外的 24 個位元組,使得這個數組所需總記憶體空間為 32 個位元組。

包含一數組的 Variant 比單獨的一個數組需要多 12 個位元組。

數據類型

Byte數據類型(位元組型)用一個位元組(Byte)儲存,可區別256個數字,取值範圍:0到255。 Byte是從0-255的無符號類型,所以不能表示負數。具體參照數據類型。

語言字元

效果等同於 unsigned char型

typedef unsigned char BYTE

定義一種新類型BYTE,它其實就是unsigned char

在VC++中,byte型數據的定義包含在windows.h頭檔案中,調用byte需要添加代碼#include

而在java中,byte是一個關鍵字

表示聲明了一個整形常量在內容中占用一個位元組

取值範圍是-128~127

易混概念辨析

在計算機中,一串數碼作為一個整體來處理或運算的,稱為一個計算機字,簡稱字。字通常分為若干個位元組(每個位元組一般是8位)。在存儲器中,通常每個單元存儲一個字,因此每個字都是可以定址的。字的長度用位數來表示。

在計算機的運算器、控制器中,通常都是以字為單位進行傳送的。字出現在不同的地址其含義是不相同。例如,送往控制器去的字是指令,而送往運算器去的字就是一個數。

字長

計算機的每個字所包含的位數稱為字長。根據計算機的不同,字長有固定的和可變的兩種。固定字長,即字長度不論什麼情況都是固定不變的;可變字長,則在一定範圍內,其長度是可變的。

計算的字長是指它一次可處理的二進制數字的數目。計算機處理數據的速率,自然和它一次能加工的位數以及進行運算的快慢有關。如果一台計算機的字長是另一台計算機的兩倍,即使兩台計算機的速度相同,在相同的時間內,前者能做的工作是後者的兩倍。

一般地,大型計算機的字長為32-64位,小型計算機為12-32位,而微型計算機為4-16位。字長是衡量計算機性能的一個重要因素。

位元組

位元組是指一小組相鄰的二進制數碼。通常是8位作為一個位元組。它是構成信息的一個小單位,並作為一個整體來參加操作,比字小,是構成字的單位。

在微型計算機中,通常用多少位元組來表示存儲器的存儲容量。

例如,在C++的數據類型表示中,通常char為1個位元組,int為4個位元組,double為8個位元組。

理解編碼的關鍵,是要把字元的概念和位元組的概念理解準確。這兩個概念容易混淆,我們在此做一下區分:

概念描述 舉例

字元人們使用的記號,抽象意義上的一個符號。 '1', '中', 'a', '$', '¥' ……

位元組計算機中存儲數據的單元,一個8位的二進制數,是一個很具體的存儲空間。0x01, 0x45, 0xFA……

字元串

在記憶體中,如果“字元”是以ANSI編碼形式存在的,一個字元可能使用一個位元組或多個位元組來表示,那么我們稱這種字元串為ANSI字元串或者多位元組字元串。如,"中文123" (占8位元組,包括一個隱藏的\0)。

字元集

對於ANSI編碼方式,存在不同的字元集(Charset)。同樣的位元組序列,在不同的字元集下表示的字元不一樣。要正確解析一個ANSI字元串,還要選擇正確的字元集,否則就可能導致所謂的亂碼現象。不同語言版本的作業系統,都有一個默認的字元集。在不指定字元集的情況下,系統會使用此字元集來解析ANSI字元串。也就是說,如果我們在簡體中文版的Windows下打開了一個由日文作業系統保存的ANSI文本檔案(僅包含ANSI字元串的文本檔案),我們看到的將是亂碼。但是,如果我們使用Visual Studio之類的帶編碼選擇的文本編輯器打開此檔案,並且選擇正確的字元集,我們將可以看到它的原貌。注意:簡體中文字元集中的繁體字和繁體中文字元集中的繁體字,編碼不一定相同(事實證明,似乎是完全不同)。

每個字元集都有一個唯一的編號,稱為代碼頁(Code Page)。簡體中文(GB2312)的代碼頁為936,而系統默認字元集的代碼頁為0,它表示根據系統的語言設定來選擇一個合適的字元集。

Unicode

字元串在記憶體中,如果“字元”是以在Unicode中的序號存在的,那么我們稱這種字元串為Unicode字元串或者寬位元組字元串。在Unicode中,每個字元都占兩個位元組。如,"中文123"(占10位元組)。

Unicode和ANSI的區別就相當於輸入法內的“全形”和“半角”的區別。

由於不同ANSI編碼所規定的標準是不相同的(字元集不同),因此,對於一個給定的多位元組字元串,我們必須知道它採用的是哪一種字元集則,才能夠知道它包含了哪些“字元”。而對於Unicode字元串來說,不管在什麼環境下,它所代表的“字元”內容總是不變的。Unicode 有著統一的標準,它定義了世界上絕大多數的字元的編碼,使得拉丁文、數字、簡體中文、繁體中文、日文等都能以同一種編碼方式保存。

相關詞條

相關搜尋

熱門詞條

聯絡我們