ANOVA

ANOVA 方差分析
ANOVA 代表“方差分析”(Analysis of Variance),這是一種用於確定可變性來源的方法。人們在工業中廣泛採用此方法,來幫助在生產過程中確定潛在問題的來源,並確定所測輸出值中的偏差是源於各種製造過程之間的可變性,還是源於它們內部的可變性。通過以預定模式來改變因子並對輸出進行分析,我們可以利用統計方法,來對製造過程中導致偏差產生的原因做出準確評估。

方差分析是用來研究各種同時起作用的變數和自變數影響被觀察特徵變異性的一種統計方法。在方差分析中,被解釋特徵只能是數量特徵,而解釋特徵(傳統上稱為因素特徵,因素A,因素B等)既可以是數量特徵,也可以是質量特徵。在方差分析中不採用因素的本身值,而只研究被解釋特徵在各種因素等級上的變差。根據所要解決的任務(即在解釋特徵發生變化時闡明被觀察特徵值的變化),回歸分析與方差分析最接近,然而回歸分析只能利用數量資料來實現。如果把數量特徵當作解釋特徵來研究,數量特徵就可變成質量特徵,其步驟是將數量特徵劃分成幾個區間,其中每一區間都是要素的表現級。
在社會學研究中,方差分析是用來分出和估計被研究特徵總變差中的單個因素。因此就需要將部分總體觀察到的方差(見“變差指標”詞條)分成由獨立特徵產生的組成部分。每一組成部分都可以估計總體中的方差。為了檢驗估計方差的顯著性,可以將這種方差估計與由於部分總體的偶然組合而產生的方差估計進行比較。檢驗方差的顯著性可以按F判據進行(費氏檢驗)。例如,在研究大學生的社會政治定向(被解釋特徵)時,初步認為回答者的政治情報掌握程度(解釋特徵,或因素A)對這些定向強度有影響。分出因素A(情報掌握程度)的k級(這時k=4)。在第一組裡(情報掌握的最高程度)取n1個人(n1=42),第二組取n2個人(n2=43),第三組取n3個人(n3=20),第四組取n4個人(n4=55):
Ⅰy1.1,y1.2,……,y1.42;
Ⅱy2.1,y2.2,……,y2.43;
Ⅲy3.1,y3.2,……,y3.20;
Ⅳy4.1,y4.2,……,y4.55;
通常還可寫成:
Ⅰy1.1,y1.2,……,y1n1,
Ⅱy2.1,y2.2,……,y2n2,
kyk.1,yk.2,……,ykn2k,
這裡y表示被解釋特徵(社會政治定向強度)值。每一個yknk與一定的knk回答者的定向強度相對應。例如y1.20與屬於第一級(情報掌握最高級)的第20個回答者所表示的定向強度相對應。應該記住,因素A的級(政治情報掌握程度)是質量特徵;被解釋特徵值表示數量上的定向強度。
為了描述方差分析中所必需的這種結構,應引進平方和概念,或特徵變差(SS)概念。特徵y的總變差是方差分式中的分子,式中yi表示特徵y的值,表示特徵y的平均值,n是觀察數。因素A的每一級,即,式中表示y對於κ的平均值,yki表示隸屬於κ級的特徵yi的值。所有級的特徵的總變差為其中是總體的平均值,ni是第i級的觀察總數。
檢驗零假設(即因素A各級之間沒有差別的假設)是根據反映所得資料總變差的平方和分解成幾個組成部分〔因素A確定的結果特徵y的變差(用SSA表示)和未考慮因素(SScc)引起的變差,即SS=SSA+SSoe〕的可能進行的。我們可以通過變換證明這一情況。SS=SSA+SSoc與公式SS全部=SS之間+SS內部等值,這裡SS之間表示各組平方和,即表示因素A引起的變差,而SS內部表示級內部的平方和,即表示未考慮因素引起的可變性。
由於特徵的總變差能夠分解成幾個組成部分,於是就有可能對進入特徵值可變性的每一部分進行估計。說明每一組成部分(SSA和SSoc)的確定數稱之為自由度。將平方和分為相應的自由度時就得到估計特徵方差的值。這些值分別由MSSA和MSSoc表示,稱為均方值。按F判據,將符合主要效果的方差估計與符合剩餘變差的估計進行比較。為了確定顯著水平,在分子與分母的自由度為已知時,所取得的值還要與單值所確定的表中值進行比較。
因此,在進行方差分析時,要完成下列運算:1)確定,即確定y對於因素A每個級的平均值;2)計算,即計算y對於整個總體的平均值;3)計算和;4)計算出MSSA和MSSocoMSSA的
自由度數比因素A的各級數小於1,MSSoc的自由度數等於觀察的總數減去與因素級數量相等的數;5)計算F比值。
F判據可以作出肯定或推翻零假設的結論。如果Fk>Fkkp,那么就是說,零假設(不存在相異性)不能證明,但可以肯定因素A對特徵y變差影響的統計顯著性。例如,在研究政治情報能夠影響社會政治定向時,則得到F=2.81(當⍺=0.05),V1=3(因為研究了4個級的政治情報掌握程度)和V2=156(總共160次觀察),零假設被否定,因為F=2.81大於表中值(Fkp=2.60)。結論是,政治情報掌握級可以作為社會政治定向強度可變性的因素。
然而,F判據對於作出因素各級之間相異性的結論顯然是不夠的。可以藉助於集合比較方法回答這一問題。
在k=2時,即解釋特徵有兩個級,當觀察數很小時,可用學生氏判據代替F判據。當k>2時,兩者不能互換。
方差分析法是以涉及被研究總體特徵的許多假定為基礎的。比如,可以假定:1)觀察結果隨機選擇(即選擇相同的和獨立的機率);2)取自常態分配;3)方差相等;4)各種樣本(因素級)是獨立的。然而,違反這些假定是可能的。可以肯定,方差分析對正常性的偏差影響不大。在樣本容量相等時,方差分析對方差的非齊次性有影響。
在該詞條里簡要描述了單因素方差分析,但是方差分析也可以用因素的大數定律進行,在多因素分析中解決課題的一般方法與上述方法相似,但計算技術比較複雜。

相關詞條

相關搜尋

熱門詞條

聯絡我們