定義
依據研究對象(樣品或指標)的特徵,對其進行分類的方法,減少研究對象的數目。
各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質相近事物歸入一類。
各指標之間具有一定的相關關係。
聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。 聚類分析區別於分類分析(classification analysis) ,後者是有監督的學習。
變數類型:定類變數、定量(離散和連續)變數
聚類方法
1,層次聚類(Hierarchical Clustering)
合併法、分解法、樹狀圖
2. 非層次聚類
劃分聚類、譜聚類
聚類方法特徵:
聚類分析簡單、直觀。
聚類分析主要套用於探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和後續的分析;
不管實際數據中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;
聚類分析的解完全依賴於研究者所選擇的聚類變數,增加或刪除一些變數對最終的解都可能產生實質性的影響。
研究者在使用聚類分析時應特別注意可能影響結果的各個因素。
異常值和特殊的變數對聚類有較大影響
當分類變數的測量尺度不一致時,需要事先做標準化處理。
當然,聚類分析不能做的事情是:
自動發現和告訴你應該分成多少個類——屬於非監督類分析方法
期望能很清楚的找到大致相等的類或細分市場是不現實的;
樣本聚類,變數之間的關係需要研究者決定;
不會自動給出一個最佳聚類結果;
我這裡提到的聚類分析主要是譜系聚類(hierarchical clustering)和快速聚類(K-means)、兩階段聚類(Two-Step);
根據聚類變數得到的描述兩個個體間(或變數間)的對應程度或聯繫緊密程度的度量。
可以用兩種方式來測量:
1、採用描述個體對(變數對)之間的接近程度的指標,例如“距離”,“距離”越小的個體(變數)越具有相似性。
2、採用表示相似程度的指標,例如“相關係數”,“相關係數”越大的個體(變數)越具有相似性。
計算聚類——距離指標D(distance)的方法非常多:按照數據的不同性質,可選用不同的距離指標。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-Square measure) 等;相似性也有不少,主要是皮爾遜相關係數了!
聚類變數的測量尺度不同,需要事先對變數標準化;
聚類變數中如果有些變數非常相關,意味著這個變數的權重會更大
歐式距離的平方是最常用的距離測量方法;
聚類算法要比距離測量方法對聚類結果影響更大;
標準化方法影響聚類模式:
變數標準化傾向產生基於數量的聚類;
樣本標準化傾向產生基於模式的聚類;
一般聚類個數在4-6類,不易太多,或太少;
統計量
群重心
群中心
群間距離
分層步驟
定義問題與選擇分類變數
聚類方法
確定群組數目
聚類結果評估
結果的描述、解釋
K-means
屬於非層次聚類法的一種
(1)執行過程
初始化:選擇(或人為指定)某些記錄作為凝聚點
循環:
按就近原則將其餘記錄向凝聚點凝集
計算出各個初始分類的中心位置(均值)
用計算出的中心位置重新進行聚類
如此反覆循環,直到凝聚點位置收斂為止
(2)方法特點
通常要求已知類別數
可人為指定初始位置
節省運算時間
樣本量大於100時有必要考慮
只能使用連續性變數
過程
特點:
處理對象:分類變數和連續變數
自動決定最佳分類數
快速處理大數據集
前提假設:
變數間彼此獨立
分類變數服從多項分布,連續變數服從常態分配
模型穩健
算法原理
第一步:逐個掃描樣本,每個樣本依據其與已掃描過的樣本的距離,被歸為以前的類,或生成一個新類
第二步,對第一步中各類依據類間距離進行合併,按一定的標準,停止合併
判別分析 Discriminant Analysis
介紹: 判別分析
分類學是人類認識世界的基礎科學。聚類分析和判別分析是研究事物分類的基本方法,廣泛地套用於自然科學、社會科學、工農業生產的各個領域。
判別分析DA
概述
DA模型
DA有關的統計量
兩組DA
案例分析
判別分析
判別分析是根據表明事物特點的變數值和它們所屬的類,求出判別函式。根據判別函式對未知所屬類別的事物進行分類的一種分析方法。核心是考察類別之間的差異。
判別分析
不同:判別分析和聚類分析不同的在於判別分析要求已知一系列反映事物特徵的數值變數的值,並且已知各個體的分類。
DA適用於定類變數(因)、任意變數(自)
兩類:一個判別函式;
多組:一個以上判別函式
DA目的
建立判別函式
檢查不同組之間在有關預測變數方面是否有顯著差異
決定哪個預測變數對組間差異的貢獻最大
根據預測變數對個體進行分類
判別分析模型
要先建立判別函式 Y=a1x1+a2x2+...anxn,其中:Y為判別分數(判別值),x1 x2...xn為反映研究對象特徵的變數,a1 a2...an為係數
有關統計
典型相關係數
特徵值
Wilk's (0, 1) = SSw/SSt for X
組重心
分類矩陣
兩組判別
定義問題
估計DA函式係數
確定DA函式的顯著性
解釋結果
評估有效性
定義問題
判別分析的第一步
第二步就是將樣本分為:
分析樣本
驗證樣本
估算判別函式係數
直接法(direct method)就是同時用所有的預測變數估計判別函式,此時每個自變數都包括在內,而不考慮其判別能力。這種方法適用於前期研究或理論模型顯示應包括哪些自變數的情況。
逐步判別分析(stepwise discriminant analysis),預測變數依據其對組別的判別能力被逐步引入。
確定顯著性
零假設:總體中各組所有判別函式的均值相等。
特徵值
典型相關係數
Wilk‘s (0, 1) 轉換成卡方值檢驗
見travel.spo
解釋結果
係數的符號無關緊要,但能夠表示每個變數對判別函式值的影響,以及與特定組的聯繫。
我們可以通過標準化判別函式係數的絕對值初步判斷變數的相對重要性。
通過考察結構相關係數,也可以對預測變數的相對重要性進行判斷。
組重心
評估判別分析的有效性
根據分析樣本估計出的判別權數,乘以保留樣本中的預測變數值,就得出保留樣本中每個樣本的判別分。
可以根據判別分及適當的規則劃分為不同的組別。
命中率(hit ratio)或稱樣本正確分類機率,就是分類矩陣對角線元素之和與總樣本數的比例。
比較樣本正確分類百分比與隨機正確分類百分比。
因子分析模型
因子分析模型(FA)
基本思想
因子分析模型
FA的基本思想
“因子分析”於1931年由Thurstone提出,概念起源於Pearson和Spearmen的統計分析
FA用少數幾個因子來描述多個變數之間的關係,相關性較高的變數歸於同一個因子;
FA利用潛在變數或本質因子(基本特徵)去解釋可觀測變數
FA模型
X1=a11F1+a12F2+ …+a1pFp+v1
X2=a21F1+a22F2+ …+a2pFp+v2 X=AF+V
Xi=ai1F1+ai2F2+ …+aipFp+vi
Xm=ap1F1+ap2F2+ …+ampFm+vm
Xi — 第i個標準化變數
aip — 第i個變數對第p個公因子的標準回歸係數
F — 公因子
Vi — 特殊因子
公因子模型
F1=W11X1+W12X2+ …+W1mXm
F2=W21X1+W22X2+ …+W2mXm
Fi=Wi1X1+Wi2X2+ …+WimXm
Fp=Wp1X1+Wp2X2+ …+WpmXm
Wi — 權重,因子得分係數
Fi — 第i個因子的估計值(因子得分)
有關統計量
Bartlett氏球體檢驗:各變數之間彼此獨立
KMO值:FA合適性
因子負荷:相關係數
因子負荷矩陣
公因子方差(共同度)
特徵值
方差百分比(方差貢獻率)
累計方差貢獻率
因子負荷圖
碎石圖
FA步驟
定義問題
檢驗FA方法的適用性
確定因子分析方法
因子鏇轉
解釋因子
計算因子得分
注意事項
樣本量不能太小
變數相關性
公因子有實際意義