原理
方差分析的基本原理是認為不同處理組的均數間的差別基本來源有兩個:
(1) 隨機誤差,如測量誤差造成的差異或個體間的差異,稱為組內差異,用變數在各組的均值與該組內變數值之偏差平方和的總和表示, 記作SSw,組內自由度dfw。
(2) 實驗條件,即不同的處理造成的差異,稱為組間差異。用變數在各組的均值與總均值之偏差平方和表示,記作SSb,組間自由度dfb。
總偏差平方和 SSt = SSb + SSw。
組內SSw、組間SSb除以各自的自由度(組內dfw =n-m,組間dfb=m-1,其中n為樣本總數,m為組數),得到其均方MSw和MSb,一種情況是處理沒有作用,即各組樣本均來自同一總體,MSb/MSw≈1。另一種情況是處理確實有作用,組間均方是由於誤差與不同處理共同導致的結果,即各樣本來自不同總體。那么,MSb>>MSw(遠遠大於)。
MSb/MSw比值構成F分布。用F值與其臨界值比較,推斷各樣本是否來自相同的總體。
基本思想
方差分析的基本思想是:通過分析研究不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。
舉例分析:
下面我們用一個簡單的例子來說明方差分析的基本思想:
如某克山病區測得11例克山病患者和13名健康人的血磷值(mmol/L)如下:
患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87
問該地克山病患者與健康人的血磷值是否不同?
從以上資料可以看出,24個患者與健康人的血磷值各不相同,如果用離均差平方和(SS)描述其圍繞總均值的變異情況,則總變異有以下兩個來源:
組內變異,即由於隨機誤差的原因使得各組內部的血磷值各不相等;
組間變異,即由於克山病的影響使得患者與健康人組的血磷值均值大小不等。
而且:SS總=SS組間+SS組內 v總=v組間+v組內
如果用均方(離差平方和除以自由度)代替離差平方和以消除各組樣本數不同的影響,則方差分析就是用組間均方去除組內均方的商(即F值)與1相比較,若F值接近1,則說明各組均值間的差異沒有統計學意義,若F值遠大於1,則說明各組均值間的差異有統計學意義。實際套用中檢驗假設成立條件下F值大於特定值的機率可通過查閱F界值表(方差分析用)獲得。
利用統計軟體分析結果如下:
data a;
input type num @@;
cards;
1 0.84 1 1.05 1 1.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11
2 0.54 2 0.64 2 0.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.56 2 1.87
;
run;
proc anova;
class type;
model num=type;
means type;
run;
| 自由度 | 離差平方和 | 均方 | F 值 | P值 |
SS組間(處理因素) | 1 | 1.13418185 | 1.13418185 | 6.37 | 0.0193(有統計學意義) |
SS組內(抽樣誤差) | 22 | 3.91761399 | 0.17807336 | | |
總和 | 23 | 5.05179583 | | | |
套用
方差分析主要用途:①均數差別的顯著性檢驗,②分離各有關因素並估計其對總變異的作用,③分析因素間的互動作用,④方差齊性檢驗。
在科學實驗中常常要探討不同實驗條件或處理方法對實驗結果的影響。通常是比較不同實驗條件下樣本均值間的差異。例如醫學界研究幾種藥物對某種疾病的療效;農業研究土壤、肥料、日照時間等因素對某種農作物產量的影響;不同化學藥劑對作物害蟲的殺蟲效果等,都可以使用方差分析方法去解決。
一個複雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數據分析找出對該事物有顯著影響的因素,各因素之間的互動作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數組中,把數據間的總的“變差”按各指定的變差來源進行分解的一種技術。對變差的度量,採用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個很重要的思想。
經過方差分析若拒絕了檢驗假設,只能說明多個樣本總體均值不相等或不全相等。若要得到各組均值間更詳細的信息,應在方差分析的基礎上進行多個樣本均值的兩兩比較。
多個樣本均值間兩兩比較
多個樣本均值間兩兩比較常用q檢驗的方法,即Newman-keuls法,其基本步驟為:建立檢驗假設-->樣本均值排序-->計算q值-->查q界值表判斷結果。
多個實驗組與一個對照組均值間兩兩比較
多個實驗組與一個對照組均值間兩兩比較,若目的是減小第II類錯誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯誤,最好選用新復極差法,前者查t界值表,後者查q'界值表。
主要內容
分析方法
根據資料設計類型的不同,有以下兩種方差分析的方法:
1、對成組設計的多個樣本均值比較,應採用完全隨機設計的方差分析,即單因素方差分析。
2、對隨機區組設計的多個樣本均值比較,應採用配伍組設計的方差分析,即兩因素方差分析。
兩類方差異同
兩類方差分析的異同:
兩類方差分析的基本步驟相同,只是變異的分解方式不同,對成組設計的資料,總變異分解為組內變異和組間變異(隨機誤差),即:SS總=SS組間+SS組內,而對配伍組設計的資料,總變異除了分解為處理組變異和隨機誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。
基本步驟
整個方差分析的基本步驟如下:
1、建立檢驗假設;
H0:多個樣本總體均值相等;
H1:多個樣本總體均值不相等或不全等。
檢驗水準為0.05。
2、計算檢驗統計量F值;
3、確定P值並作出推斷結果。
假設檢驗
1. 方差分析的假定條件為:
(1)各處理條件下的樣本是隨機的。
(2)各處理條件下的樣本是相互獨立的,否則可能出現無法解析的輸出結果。
(3)各處理條件下的樣本分別來自常態分配總體,否則使用非參數分析。
(4)各處理條件下的樣本方差相同,即具有齊效性。
2. 方差分析的假設檢驗
假設有K個樣本,如果原假設H0樣本均數都相同,K個樣本有共同的方差σ ,則K個樣本來自具有共同方差σ和相同均值的總體。
如果經過計算,組間均方遠遠大於組內均方,則推翻原假設,說明樣本來自不同的正態總體,說明處理造成均值的差異有統計意義。否則承認原假設,樣本來自相同總體,處理間無差異。
套用條件:
各樣本是相互獨立的隨機樣本
各樣本均來自常態分配總體
3. 各樣本的總體方差相等,即具有方差齊性
4.在不滿足正態性時可以用非參數檢驗
分類舉例
單因素
單因素方差分析:
(一)單因素方差分析概念理解步驟
是用來研究一個控制變數的不同水平是否對觀測變數產生了顯著影響。這裡,由於僅研究單個因素對觀測變數的影響,因此稱為單因素方差分析。
例如,分析不同施肥量是否給農作物產量帶來顯著影響,考察地區差異是否影響婦女的生育率,研究學歷對工資收入的影響等。這些問題都可以通過單因素方差分析得到答案。
單因素方差分析的第一步是明確觀測變數和控制變數。例如,上述問題中的觀測變數分別是農作物產量、婦女生育率、工資收入;控制變數分別為施肥量、地區、學歷。
單因素方差分析的第二步是剖析觀測變數的方差。方差分析認為:觀測變數值的變動會受控制變數和隨機變數兩方面的影響。據此,單因素方差分析將觀測變數總的離差平方和分解為組間離差平方和和組內離差平方和兩部分,用數學形式表述為:SST=SSA+SSE。
單因素方差分析的第三步是通過比較觀測變數總離差平方和各部分所占的比例,推斷控制變數是否給觀測變數帶來了顯著影響。
(二)單因素方差分析原理總結
容易理解:在觀測變數總離差平方和中,如果組間離差平方和所占比例較大,則說明觀測變數的變動主要是由控制變數引起的,可以主要由控制變數來解釋,控制變數給觀測變數帶來了顯著影響;反之,如果組間離差平方和所占比例小,則說明觀測變數的變動不是主要由控制變數引起的,不可以主要由控制變數來解釋,控制變數的不同水平沒有給觀測變數帶來顯著影響,觀測變數值的變動是由隨機變數因素引起的。
(三)單因素方差分析基本步驟
1、提出原假設:H0——無差異;H1——有顯著差異
2、選擇檢驗統計量:方差分析採用的檢驗統計量是F統計量,即F值檢驗。
3、計算檢驗統計量的觀測值和機率P值:該步驟的目的就是計算檢驗統計量的觀測值和相應的機率P值。
4、給定顯著性水平,並作出決策
(四)單因素方差分析的進一步分析
在完成上述單因素方差分析的基本分析後,可得到關於控制變數是否對觀測變數造成顯著影響的結論,接下來還應做其他幾個重要分析,主要包括方差齊性檢驗、多重比較檢驗。
1、方差齊性檢驗
是對控制變數不同水平下各觀測變數總體方差是否相等進行檢驗。
前面提到,控制變數不同水平下觀測變數總體方差無顯著差異是方差分析的前提要求。如果沒有滿足這個前提要求,就不能認為各總體分布相同。因此,有必要對方差是否齊性進行檢驗。
SPSS單因素方差分析中,方差齊性檢驗採用了方差同質性(homogeneity of variance)檢驗方法,其原假設是:各水平下觀測變數總體的方差無顯著差異。
2、多重比較檢驗
單因素方差分析的基本分析只能判斷控制變數是否對觀測變數產生了顯著影響。如果控制變數確實對觀測變數產生了顯著影響,進一步還應確定控制變數的不同水平對觀測變數的影響程度如何,其中哪個水平的作用明顯區別於其他水平,哪個水平的作用是不顯著的,等等。
例如,如果確定了不同施肥量對農作物的產量有顯著影響,那么還需要了解10公斤、20公斤、30公斤肥料對農作物產量的影響幅度是否有差異,其中哪種施肥量水平對提高農作物產量的作用不明顯,哪種施肥量水平最有利於提高產量等。掌握了這些重要的信息就能夠幫助人們制定合理的施肥方案,實現低投入高產出。
多重比較檢驗利用了全部觀測變數值,實現對各個水平下觀測變數總體均值的逐對比較。由於多重比較檢驗問題也是假設檢驗問題,因此也遵循假設檢驗的基本步驟。
檢驗構造方法
(1)LSD方法
LSD方法稱為最小顯著性差異(Least Significant Difference)法。最小顯著性差異法的字面就體現了其檢驗敏感性高的特點,即水平間的均值只要存在一定程度的微小差異就可能被檢驗出來。
正是如此,它利用全部觀測變數值,而非僅使用某兩組的數據。LSD方法適用於各總體方差相等的情況,但它並沒有對犯一類錯誤的機率問題加以有效控制。
(2)S-N-K方法
S-N-K方法是一種有效劃分相似性子集的方法。該方法適合於各水平觀測值個數相等的情況,
3、其他檢驗
(1)先驗對比檢驗
在多重比較檢驗中,如果發現某些水平與另外一些水平的均值差距顯著,如有五個水平,其中x1、x2、x3與x4、x5的均值有顯著差異,就可以進一步分析比較這兩組總的均值是否存在顯著差異,即1/3(x1+x2+x3)與1/2(x4+x5)是否有顯著差異。這種事先指定各均值的係數,再對其線性組合進行檢驗的分析方法稱為先驗對比檢驗。通過先驗對比檢驗能夠更精確地掌握各水平間或各相似性子集間均值的差異程度。
(2)趨勢檢驗
當控制變數為定序變數時,趨勢檢驗能夠分析隨著控制變數水平的變化,觀測變數值變化的總體趨勢是怎樣的,是呈現線性變化趨勢,還是呈二次、三次等多項式變化。通過趨勢檢驗,能夠幫助人們從另一個角度把握控制變數不同水平對觀測變數總體作用的程度。
多因素
多因素方差分析:
(一)多因素方差分析基本思想
多因素方差分析用來研究兩個及兩個以上控制變數是否對觀測變數產生顯著影響。這裡,由於研究多個因素對觀測變數的影響,因此稱為多因素方差分析。多因素方差分析不僅能夠分析多個因素對觀測變數的獨立影響,更能夠分析多個控制因素的互動作用能否對觀測變數的分布產生顯著影響,進而最終找到利於觀測變數的最優組合。
例如:
分析不同品種、不同施肥量對農作物產量的影響時,可將農作物產量作為觀測變數,品種和施肥量作為控制變數。利用多因素方差分析方法,研究不同品種、不同施肥量是如何影響農作物產量的,並進一步研究哪種品種與哪種水平的施肥量是提高農作物產量的最優組合。
(二)多因素方差分析的其他功能
1、均值檢驗
在SPSS中,利用多因素方差分析功能還能夠對各控制變數不同水平下觀測變數的均值是否存在顯著差異進行比較,實現方式有兩種,即多重比較檢驗和對比檢驗。多重比較檢驗的方法與單因素方差分析類似。對比檢驗採用的是單樣本t檢驗的方法,它將控制變數不同水平下的觀測變數值看做來自不同總體的樣本,並依次檢驗這些總體的均值是否與某個指定的檢驗值存在顯著差異。其中,檢驗值可以指定為以下幾種:
觀測變數的均值(Deviation);
第一水平或最後一個水平上觀測變數的均值(Simple);
前一水平上觀測變數的均值(Difference);
後一水平上觀測變數的均值(Helmert)。
2、控制變數互動作用的圖形分析
控制變數的互動作用可以通過圖形直觀分析。
(三)多因素方差分析的進一步分析
在上述案例中,已經對廣告形式、地區對銷售額的影響進行了多因素方差分析,建立了飽和模型。由分析可知:廣告形式與地區的互動作用不顯著,先進一步嘗試非飽和模型,並進行均值比較分析、互動作用圖形分析。
1、建立非飽和模型
2、均值比較分析
3、控制變數互動作用的圖形分析
協方差
協方差分析:
(一)協方差分析基本思想
通過上述的分析可以看到,不論是單因素方差分析還是多因素方差分析,控制因素都是可控的,其各個水平可以通過人為的努力得到控制和確定。但在許多實際問題中,有些控制因素很難人為控制,但它們的不同水平確實對觀測變數產生了較為顯著的影響。例如,在研究農作物產量問題時,如果僅考察不同施肥量、品種對農作物產量的影響,不考慮不同地塊等因素而進行方差分析,顯然是不全面的。因為事實上有些地塊可能有利於農作物的生長,而另一些卻不利於農作物的生長。不考慮這些因素進行分析可能會導致:即使不同的施肥量、不同品種農作物產量沒有產生顯著影響,但分析的結論卻可能相反。
再例如,分析不同的飼料對生豬增重是否產生顯著差異。如果單純分析飼料的作用,而不考慮生豬各自不同的身體條件(如初始體重不同),那么得出的結論很可能是不準確的。因為體重增重的幅度在一定程度上是包含諸如初始體重等其他因素的影響的。
(二)協方差分析的原理
協方差分析將那些人為很難控制的控制因素作為協變數,並在排除協變數對觀測變數影響的條件下,分析控制變數(可控)對觀測變數的作用,從而更加準確地對控制因素進行評價。
協方差分析仍然沿承方差分析的基本思想,並在分析觀測變數變差時,考慮了協變數的影響,人為觀測變數的變動受四個方面的影響:即控制變數的獨立作用、控制變數的互動作用、協變數的作用和隨機因素的作用,並在扣除協變數的影響後,再分析控制變數的影響。
方差分析中的原假設是:協變數對觀測變數的線性影響是不顯著的;在協變數影響扣除的條件下,控制變數各水平下觀測變數的總體均值無顯著差異,控制變數各水平對觀測變數的效應同時為零。檢驗統計量仍採用F統計量,它們是各均方與隨機因素引起的均方比。
(三)協方差分析的套用舉例
為研究三種不同飼料對生豬體重增加的影響,將生豬隨機分成三組各餵養不同的飼料,得到體重增加的數據。由於生豬體重的增加理論上會受到豬自身身體條件的影響,於是收集生豬餵養前體重的數據,作為自身身體條件的測量指標。