概念
第一參數μ是服從常態分配的隨機變數的均值,第二個參數σ2是此隨機變數的方差,所以常態分配記作N(μ,σ2 )。服從常態分配的隨機變數的機率規律為取 μ鄰近的值的機率大 ,而取離μ越遠的值的機率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。常態分配的密度函式的特點是:關於μ對稱,在μ處達到最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位於x軸上方的鐘形曲線。當μ=0,σ2 =1時,稱為標準常態分配,記為N(0,1)。μ維隨機向量具有類似的機率規律時,稱此隨機向量遵從多維常態分配。多元常態分配有很好的性質,例如,多元常態分配的邊緣分布仍為常態分配,它經任何線性變換得到的隨機向量仍為多維常態分配,特別它的線性組合為一元常態分配。常態分配最早由A.棣莫弗在求二項分布的漸近公式中得到。C.F.高斯在研究測量誤差時從另一個角度導出了它。P.S.拉普拉斯和高斯研究了它的性質。生產與科學實驗中很多隨機變數的機率分布都可以近似地用常態分配來描述。例如,在生產條件不變的情況下,產品的強力、抗壓強度、口徑、長度等指標;同一種生物體的身長、體重等指標;同一種種子的重量;測量同一物體的誤差;彈著點沿某一方向的偏差;某個地區的年降水量;以及理想氣體分子的速度分量,等等。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結果,那么就可以認為這個量具有常態分配(見中心極限定理)。
常態分配
若 的密度函式(頻率曲線)為正態函式(曲線)
(3-1)
則稱 服從常態分配,記號 ~ 。其中μ 、σ 是兩個不確定常數,是常態分配的參數,不同的μ 、不同的σ 對應不同的常態分配。
正態曲線呈鍾型,兩頭低,中間高,左右對稱,曲線與橫軸間的面積總等於1。
常態分配特徵
服從常態分配的變數的頻數分布由 、 完全決定。
(1) 是常態分配的位置參數,描述常態分配的集中趨勢位置。常態分配以 為對稱軸,左右完全對稱。常態分配的均數、中位數、眾數相同,均等於 。
(2) 描述常態分配資料數據分布的離散程度, 越大,數據分布越分散, 越小,數據分布越集中。 也稱為是常態分配的形狀參數, 越大,曲線越扁平,反之, 越小,曲線越瘦高。
標準常態分配
1.標準常態分配是一種特殊的常態分配,標準常態分配的 , ,通常用 (或Z)表示服從標準常態分配的變數,記為 ~N(0, )。
2.標準化變換: ,此變換有特性:若 服從常態分配 ,則 就服從標準常態分配,故該變換被稱為標準化變換。
3. 標準常態分配表
標準常態分配表中列出了標準正態曲線下從-∞到+∞ 範圍內的面積比例 。
正態曲線下面積分布
1.實際工作中,正態曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變數值落在該區間的機率(機率分布)。不同 範圍內正態曲線下的面積可用公式3-2計算。
(3-2)
。
2.幾個重要的面積比例
軸與正態曲線之間的面積恆等於1。正態曲線下,橫軸區間 內的面積為68.27%,橫軸區間 內的面積為90.00%,橫軸區間 內的面積為95.00%,橫軸區間 內的面積為99.00%。
常態分配的套用
某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現為正態或近似常態分配;有些指標(變數)雖服從偏態分布,但經數據轉換後的新變數可服從正態或近似常態分配,可按常態分配規律處理。其中經對數轉換後服從常態分配的指標,被稱為服從對數常態分配。
1. 估計頻數分布 一個服從常態分配的變數只要知道其均數與標準差就可根據公式(3-2)估計任意取值 範圍內頻數比例。
2. 制定參考值範圍
(1)常態分配法 適用於服從正態(或近似正態)分布指標以及可以通過轉換後服從常態分配的指標。
(2)百分位數法 常用於偏態分布的指標。表3-1中兩種方法的單雙側界值都應熟練掌握。
表3-1 常用參考值範圍的制定
機率
(%) 常態分配法 百分位數法
雙側 單 側 雙側 單側
下 限 上 限 下 限 上 限
90
95
99
3. 質量控制:為了控制實驗中的測量(或實驗)誤差,常以 作為上、下警戒值,以 作為上、下控制值。這樣做的依據是:正常情況下測量(或實驗)誤差服從常態分配。
4. 常態分配是許多統計方法的理論基礎。 檢驗、方差分析、相關和回歸分析等多種統計方法均要求分析的指標服從常態分配。許多統計方法雖然不要求分析指標服從常態分配,但相應的統計量在大樣本時近似常態分配,因而大樣本時這些統計推斷方法也是以常態分配為理論基礎的。
常態分配的概念
由表1.1的頻數表資料所繪製的直方圖,圖3.1(1)可以看出,高峰位於中部,左右兩側大致對稱。我們構想,如果觀察例數逐漸增多,組段不斷分細,直方圖頂端的連線就會逐漸形成一條高峰位於中央(均數所在處),兩側逐漸降低且左右對稱,不與橫軸相交的光滑曲線圖3.1(3)。這條曲線稱為頻數曲線或頻率曲線,近似於數學上的常態分配(normal distribution)。由於頻率的總和為100%或1,故該曲線下橫軸上的面積為100%或1。
圖3.1頻數分布逐漸接近常態分配示意圖
為了套用方便,常對常態分配變數X作變數變換。
(3.1)
該變換使原來的常態分配轉化為標準常態分配 (standard normal distribution),亦稱u分布。u被稱為標準正態變數或標準正態離差(standard normal deviate)。
常態分配的特徵
1.正態曲線(normal curve)在橫軸上方均數處最高。
2.常態分配以均數為中心,左右對稱。
3.常態分配有兩個參數,即均數和標準差。是位置參數,當固定不變時,越大,曲線沿橫軸越向右移動;反之,越小,則曲線沿橫軸越向左移動。是形狀參數,當固定不變時,越大,曲線越平闊;越小,曲線越尖峭。通常用表示均數為,方差為的常態分配。用N(0,1)表示標準常態分配。
4.正態曲線下面積的分布有一定規律。
實際工作中,常需要了解正態曲線下橫軸上某一區間的面積占總面積的百分數,以便估計該區間的例數占總例數的百分數(頻數分布)或觀察值落在該區間的機率。正態曲線下一定區間的面積可以通過附表1求得。對於正態或近似常態分配的資料,已知均數和標準差,就可對其頻數分布作出概約估計。
查附表1應注意:①表中曲線下面積為-∞到u的左側累計面積;②當已知μ、σ和X時先按式(3.1)求得u值,再查表,當μ、σ未知且樣本含量n足夠大時,可用樣本均數和標準差S分別代替μ和σ,按式求得u值,再查表;③曲線下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,∞)的面積相等,④曲線下橫軸上的總面積為100%或1。
常態分配曲線下有三個區間的面積套用較多,應熟記:①標準常態分配時區間(-1,1)或常態分配時區間(μ-1σ,μ+1σ)的面積占總面積的68.27%;②標準常態分配時區間(-1.96,1.96)或常態分配時區間(μ-1.96σ,μ+1.96σ)的面積占總面積的95%;③標準常態分配時區間(-2.58,2.58)或常態分配時區間(μ-2.58σ,μ+2.58σ)的面積占總面積的99%。