判別分析

判別分析

判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變數統計分析方法。 其基本原理是按照一定的判別準則,建立一個或多個判別函式,用研究對象的大量資料確定判別函式中的待定係數,並計算判別指標。據此即可確定某一樣本屬於何類。 當得到一個新的樣品數據,要確定該樣品屬於已知類型中哪一類,這類問題屬於判別分析問題。

簡介

判別分析,是一種統計判別和分組技術,就一定數量樣本的一個分組變數和相應的其他多元變數的已知信息,確定分組與其他多元變數信息所屬的樣本進行判別分組。

解決問題:已知某種事物有幾種類型,現在從各種類型中各取一個樣本,由這些樣本設計出一套標準,使得從這種事物中任取一個樣本,可以按這套標準判別它的類型。

基本思想

根據判別中的組數,可以分為兩組判別分析和多組判別分析;

根據判別函式的形式,可以分為線性判別和非線性判別;

根據判別式處理變數的方法不同,可以分為逐步判別、序貫判別等;

根據判別標準不同,可以分為距離判別、Fisher判別、Bayes判別法等。

判別函式

判別分析通常都要設法建立一個判別函式,然後利用此函式來進行批判,判別函式主要有兩種,即線性判別函式(Linear Discriminant Function)和典則判別函式(Canonical Discriminate Function)。

線性判別函式是指對於個總體,如果各組樣品互相對立,且服從多元常態分配,就可建立線性判別函式,形式如下:

其中,是判別組數;是判別指標(又稱判別分數或判別值),根據所用的方法不同,可能是機率,也可能是坐標值或分值;是自變數或預測變數,即反映研究對象特徵的變數;是各變數係數,也稱判別係數。建立函式必須使用一個訓練樣品。所謂訓練樣品就是已知實際分類且各指標的觀察值也已測得的樣品,它對判別函式的建立非常重要。

典則判別函式是原始自變數的線性組合,通過建立少量的典則變數可以比較方便地描述各類之間的關係,例如可以用畫散點圖和平面區域圖直觀地表示各類之間的相對關係等。

建立方法

建立判別函式的方法一般由四種:全模型法、向前選擇法、向後選擇法和逐步選擇法。

1)全模型法是指將用戶指定的全部變數作為判別函式的自變數,而不管該變數是否對研究對象顯著或對判別函式的貢獻大小。此方法適用於對研究對象的各變數有全面認識的情況。如果未加選擇的使用全變數進行分析,則可能產生較大的偏差。

2)向前選擇法是從判別模型中沒有變數開始,每一步把一個隊判別模型的判斷能力貢獻最大的變數引入模型,直到沒有被引入模型的變數都不符合進入模型的條件時,變數引入過程結束。當希望較多變數留在判別函式中時,使用向前選擇法。

3)向後選擇法與向前選擇法完全相反。它是把用戶所有指定的變數建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變數剔除模型,直到模型中的所用變數都不符合留在模型中的條件時,剔除工作結束。在希望較少的變數留在判別函式中時,使用向後選擇法。

4)逐步選擇法是一種選擇最能反映類間差異的變數子集,建立判別函式的方法。它是從模型中沒有任何變數開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變數加入到模型中,同時也檢查在模型中是否存在“由於新變數的引入而對判別貢獻變得不太顯著”的 變數,如果有,則將其從模型中出,以此類推,直到模型中的所有變數都符合引入模型的條件,而模型外所有變數都不符合引入模型的條件為之,則整個過程結束。

判別方法

判別方法是確定待判樣品歸屬於哪一組的方法,可分為參數法和非參數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別準則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。

1)最大似然法:用於自變數均為分類變數的情況,該方法建立在獨立事件機率乘法定理的基礎上,根據訓練樣品信息求得自變數各種組合情況下樣品被封為任何一類的機率。當新樣品進入是,則計算它被分到每一類中去的條件機率(似然值),機率最大的那一類就是最終評定的歸類。

2)距離判別:其基本思想是由訓練樣品得出每個分類的重心坐標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變數均為連續變數的情況下進行分類,且它對變數的分布類型無嚴格要求,特別是並不嚴格要求總體協方差陣相等。

3)Fisher判別:亦稱典則判別,是根據線性Fisher函式值進行判別,通常用於梁祝判別問題,使用此準則要求各組變數的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變數組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異儘可能小,而不同類間投影的離差儘可能大。Fisher判別的優勢在於對分布、方差等都沒有任何限制,套用範圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。

4)Bayes判別:許多時候用戶對各類別的比例分布情況有一定的先驗信息,也就是用樣本所屬分類的先驗機率進行分析。比如客戶對投遞廣告的反應絕大多數都是無回音,如果進行判別,自然也應當是無回音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗機率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變數必須服從多元常態分配、各組協方差矩陣必須相等、各組變數均值均有顯著性差異。

驗證方法

對於判別分析,用戶往往很關心建立的判別函式用於判別分析時的準確度如何。通常的效果驗證方法如自身驗證、外部數據驗證、樣品二分法、互動驗證、Bootstrap法。

套用

在氣候分類、農業區劃、土地類型劃分中有著廣泛的套用。

在市場調研中,一般根據事先確定的因變數(例如產品的主要用戶、普通用戶和非用戶、自有房屋或租賃、電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變數為類別數據,有多少類別就有多少類別處理組;自變數通常為可度量數據。通過判別分析,可以建立能夠最大限度的區分因變數類別的函式,考查自變數的組間差異是否顯著,判斷那些自變數對組間差異貢獻最大,評估分類的程度,根據自變數的值將樣本歸類。

套用範圍

1)信息丟失

2)直接的信息得不到

3)預報

4)破壞性實驗

假設條件

1)分組類型在兩種以上,且組間樣本在判別值上差別明顯。

2)組內樣本數不得少於兩個,並且樣本數量比變數起碼多兩個。

3)所確定的判別變數不能是其他判別變數的線性組合。

4)各組樣本的協方差矩陣相等。

5)各判別變數之間具有多元常態分配。

6)樣品量應在所使用的自變數個數的10~20倍以上時,建立的判別函式才比較穩定;而自變數個數在8~10之間時,函式的判別效果才能比較理想。當然,在實際工作中判別函式的自變數個數往往會超過10個,但應該注意的是,自變數的個數多並不代表效果好

spss操作:“分析”~“分類”~“判別”~進入判別分析主對話框。

這裡有容易引起歧義的二個變數,最上面的為分組變數。對分組變數的了解需要聯繫判別分析的原理以及適用範圍。因為判別分析是已知分類數目的情況下,進行分析,這個已知的分類數目就是這個分組變數。其實,一般分析步驟中,都是先進行聚類分析,聚類之後得到的分類結果就是這個分組變數,然後再選擇這個分組變數,進行分析。也就是,聚類分析是母親,母親的孩子就是判別分析。得到的判別函式就是預測想要知道的個案究竟屬於哪一類。另一個變數就是選擇變數,它位於主對話框的最下面。這個選擇變數在回歸分析相應的對話框中也有,意思就是選擇你需要的變數,這個變數可以為數據視窗的一個整個變數,也可以利用子設定“值”進行選擇,所以,它的名字叫做選擇變數。

“統計量”子對話框:“描述性”欄,包括“均值”“單變數ANOVA”“BoxsM”

需要特別說明,以後只要見到ANOVA這個單詞,它的意思就是方差分析,也就是進一步輸出方差分析表,其中最重要的就是P值也就是Sig值。

BoxsM複選框:指的是輸出對組協方差矩陣的等同性檢驗的檢驗結果。也就是對各類協方差矩陣相等的假設進行檢驗。

“函式係數”欄:其實就是將判別函式係數進行設定。包括“費雪”和“未標準化”。費雪指的是對每一類給出一組係數,並且給出該組中判別分數最大的觀測量。

“矩陣”欄:都是複選框,對應相應的矩陣也就是在結果表中的四種數陣。“組內相關”“組內協方差”“分組協方差”“總體協方差”這個都是計算機自動計算,人工計算是不可能完成的任務。

“分類”子對話框:本文也提到過先驗機率,先驗機率就是已知一部分信息,來了解未知信息也就是後驗機率。

“所有組相等”也就是如果分為幾類,這所有的類中的先驗機率都相等。

“根據組大小計算”各類先驗機率按照和各類樣本量呈正比。

“使用協方差矩陣”欄:是二個單選框。“在組內”指使用合併組內協方差矩陣進行分析

“分組”指使用各組協方差矩陣進行分析。

“輸出”欄~“個案結果”:對每一個觀測量輸出判別分數,也就是選定變數的個案的分進哪個組的資格得分。實際類,預測類,也就是根據判別得分計算的古今對比。實際類就是目前實際上分為幾類,預測類就是過去對未來預測,它們一對比,就可以知道過去和現在差別在哪裡。附屬選項“將個案限制在”在後面的小矩形框中輸入觀測量數,含義為僅輸出設定的觀測量結果,當個案也就是觀測量太多,可以用此法。

“摘要表”輸出分類小結,給出正確和錯分的觀測量數,和錯判率。

“不考慮該個案時的分類”這個根據字面就可以理解,不贅述。

“圖”欄:“合併組”生成一張包括各類的散點圖,該散點圖根據前兩個判別函式得到,如果只有一個判別函式,則生成直方圖。

“分組”複選框:有幾類就有幾張散點圖,和上面一樣,如果只有一個判別函式,就生成直方圖。

“區域圖”複選框:將觀測量分到各組中去的區域圖。此圖將一張圖的平面劃分出類數,相同的區域,每一類占據一個區,各類的均值在各區中用星號標出,如果僅有一個判別函式,即沒有此圖。

“保存”子對話框:這個設定是非常重要的,並且特別直觀,只要選擇,就可以在數據視窗生成相應的新變數。這個新變數分別是:“預測組成員”這個預測組成員是根據判別分數,以及後驗機率最大的預測分類。也就是,每個個案的預測分類。

“判別得分”這個根據名字就可以理解。該分數=沒有標準化的判別係數×自變數的值+一個常數。每次運行判別過程都給出一組表明判別分數的新變數。有幾個判別函式就建立幾個判別函式減1的新變數。新變數名稱詞頭為dis-。

舉例:1 醫學實踐中根據各種化驗結果,疾病症狀等判斷病人患有什麼疾病。

2 體育人才選拔根據運動員的體形,運動成績,生理指標,心理素質指標判斷是否繼續培養。

3 動植物分類

判別分析最主要的分析目的:得到判別函式,對未知個案進行預測分類。

“組成員機率”表示觀測量屬於哪一類的機率,有幾類,就給出幾類機率值,新變數默認名為dis預測分類數-判別機率,例如有三類,二個判別函式,則新變數名稱可以為dis1-1,dis2-1,dis3-1,dis3-2以此類推。

逐步判別分析:只要在主對話框中選擇“使用步進式方法”,就可以篩選變數,同時,方法對話框將激活。

“方法”對話框中“標準”欄的設定和線性回歸的一樣,不贅述。

“方法”欄:原則就是,負面指標越小越好,正面指標越大越好。負面指標是wilks lambda和未解釋方差,正面指標是馬氏距離,最小F值,Raos V。馬氏距離在回歸中越大代表這個個案為影響點可能越大,也就是,只有這個個案為影響點,它越重要,越對判別函式影響越大,把它挑出來,也就是馬氏距離最大。

結果:1 sig值小於0.05,說明可以繼續分析,函式具有判別作用,也就是有統計學意義。

2 數據視窗對話框,將在“保存”子對話框設定的新變數和在主對話框的分組變數進行對比,每個個案被分到哪類,以及判別得分,都一目了然。

3 根據輸出表中的係數,可以寫出判別函式,進行以後的預測。

相關詞條

相關搜尋

熱門詞條

聯絡我們