基本介紹
與比較兩個樣本大小關係的假設檢驗可以分成適用於獨立樣本和相關樣本的兩大類一樣,在比較三個以上樣本大小關係的非參數統計檢驗中,也有兩類基本設計。第一種設計涉及若干獨立的隨機樣本。這些樣本的樣本量可以相同也可以不同,而且每個樣本中的每個個體與其它樣本中的任何個體無對應關係。這種檢驗多個獨立總體大小的非參數方法主要有Kruskal-Wallis檢驗和推廣的中位數檢驗。第二種設計所考查的樣本中的每個個體都具有完全相同的樣本量,而且各樣本中的每一個體都與其它樣本中的相應個體具有對應關係。這類數據中包含的信息顯然多於獨立樣本。Friedman檢驗(Friedman’s ranktest),又稱Friedman隨機區組秩方差分析(Friedman's methodfor randomized blocks)就屬於此類方法。它能夠充分利用相關樣本中的全部信息。從理論上說,使用Kruskal-Wallis檢驗與推廣的中位數法判斷多個相關樣本是否來自大小有明顯差異的總體也不失正確,但這種做法就像用檢驗兩個獨立樣本的非參數方法,如Mann-Whitney U一檢驗或者Kolmogorov單側檢驗來比較兩個相關樣本大小一樣,必然會忽略樣本中關於不同個體間差別的信息,從而降低檢驗功效,這當然是研究者不希望發生的 。
雖然到目前為止還不了解Friedman檢驗的準確功效效率,但由於它充分利用了原始數據中的信息,其功效應當很接近相應的參數方法。
對三個以上相關樣本進行Friedman檢驗的原假設和對立假設與兩種多個獨立總體大小比較方法相同,記為:
:多個樣本來自大小沒有明顯差異的總體,
:多個樣本來自大小有明顯差異的總體。
對於Friedman秩方差分析,由於樣本之間具有相關關係,因而不能像Kruskal-Wallis法那樣將所有樣本放在一起排序,而只能利用不同樣本中個體間的對應關係,分別對每一對應數據組中的k個數據求秩。對待檢驗的k個樣本量均為n的樣本:
依次對樣本中的第1,2…n個數據組排序。即先對獨立排序,再對排序,依此類推,最終得到n組(每組k個)秩數據:
k個樣本的秩和分別是:
再按下式計算檢驗值:
根據事先確定的顯著性水平()以及自由度(k-1),從表中查得檢驗的臨界值,如果
便可以拒絕檢驗的原假設。
在樣本量較小的情況下,以上計算結果明顯偏離卡方分布。此時需利用專門的臨界值表進行檢驗。如果計算值大於臨界值:
可以拒絕檢驗原假設。
對於涉及6個以上總體的小樣本量Friedman檢驗,如果不能從有關書籍中查到臨界值,便只能採用卡方檢驗了 。
舉例說明
例1 根據三項指標評價四個小流域的水環境質量。希望通過評價
結果回答下述問題:這四個流域的水環境質量有沒有明顯差別。
以得分表示的評價結果為:
指標 | 流域1 | 流域2 | 流域3 | 流域4 |
1 | 9 | 4 | 1 | 7 |
2 | 6 | 5 | 2 | 8 |
3 | 9 | 1 | 2 | 6 |
對每一指標,流域與流域間的對應關係一目了然,因此這是樣本量為3的4個相關樣本。有:
k=4
n=3
由於樣本量很小且測量水平較低(僅僅是離散評分),應當采
用檢驗相關樣本大小的Friedman秩方差分析。檢驗的原假設為:
H:四個流域的水環境質量無明顯差別,
H:四個流域的水環境質量有明顯差別。
分別對三項指標得分(4個)獨立排序,求秩。然後計算各樣本秩和:
指標 | 流域1 | 流域2 | 流域3 | 流域4 |
R | 4 | 2 | 1 | 3 |
3 | 2 | 1 | 4 | |
4 | 1 | 2 | 3 | |
11 | 5 | 4 | 10 |
計算檢驗統計量如下:
由於樣本量較小,不宜直接使用卡方檢驗。該例題樣本數為4,樣本量等於3,可以利用Friedman檢驗臨界值表。從表中查到,
該值小於計算統計量,因此可以在0.05顯著性水平條件下拒絕檢驗的原假設。由此可見,四個流域的水環境質量有明顯差別。
例2 作為大樣本的例子,仍採用上例的方式檢驗三座城市大氣質量有沒有顯著差異。測試了與大氣質量有關的18項指標,下表列舉了評分結果:
指標 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
城市1 | 2 | 5 | 4 | 1 | 6 | 7 | 6 | 1 | 9 | |
城市2 | 7 | 6 | 8 | 4 | 2 | 8 | 4 | 9 | 2 | |
城市3 | 5 | 1 | 7 | 8 | 5 | 4 | 2 | 8 | 4 | |
指標 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | |
城市1 | 7 | 5 | 3 | 6 | 7 | 6 | 9 | 6 | 2 | |
城市2 | 3 | 6 | 4 | 9 | 8 | 6 | 7 | 3 | 5 | |
城市3 | 5 | 2 | 1 | 5 | 4 | 3 | 6 | 2 | 1 |
對以上結果排序得到的秩數據及秩和為:
指標 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ||
城市1 | 1 | 2 | 1 | 1 | 3 | 2 | 3 | 1 | 3 | ||
城市2 | 3 | 3 | 3 | 2 | 1 | 3 | 2 | 3 | 1 | ||
城市3 | 2 | 1 | 2 | 3 | 2 | 1 | 1 | 2 | 2 | ||
指標 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | ||
城市1 | 3 | 2 | 2 | 2 | 2 | 2.5 | 3 | 3 | 2 | 38.5 | |
城市2 | 1 | 3 | 3 | 3 | 3 | 2.5 | 2 | 2 | 3 | 43.5 | |
城市3 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 26.0 |
為檢驗以下原假設:
H:三城市大氣質量沒有明顯差異,
H:三城市大氣質量有明顯差異,
計算:
因樣本量較大,可直接查分布表,選擇0.05顯著性水平,在自由度為2的條件下,臨界值為:
該值小於計算值,故拒絕檢驗的原假設。研究結論是:三城市大氣質量有明顯差異 。