基本思想
Q型系統聚類法一般是在樣品間距離矩陣的基礎上進行的,故當樣品的個數n很大(如n≥100)時,系統聚類法的計算量是非常大的,將占據大量的計算機記憶體空間和較多的計算機時間,甚至會因計算機記憶體或計算機時間的限制而無法進行。因此,當n很大時,我們自然需要一種相比系統聚類法而言計算量少得多,以致計算機運行時只需占用較少的記憶體空間和較短計算時間的聚類法。動態聚類法正是基於這種考慮而產生的一種方法。由於該方法不必確定距離矩陣,在計算機運行中不必存儲基本數據,因此同系統聚類法相比,這種方法更適用於大的數據集,而且n越大,它的優越性就越突出。
動態聚類法的基本思想是:選擇一批凝聚點或給出一個初始的分類,讓樣品按某種原則向凝聚點凝聚,對凝聚點進行不斷地修改或疊代,直至分類比較合理或疊代穩定為止。
註:類的個數可以事先指定,也可以在聚類過程中確定。選擇初始凝聚點(或給出初始分類)的一種簡單方法是採用隨機抽選樣品的方法。
算法步驟
運用動態聚類法對樣本進行分類一般分成三步。
第一步:運用標準變換法對原始數據進行標準化處理。
第二步:選擇預定數目的聚核,對樣本數據進行初始分組。
聚核就是一批有代表性的點,是欲形成類的中心。聚核選擇直接決定初始分類,對分類結果也有很大的影響,由於聚核的不同選擇,其最終分類結果也將出現不同,故選擇時要慎重。通常選擇聚核的方法有如下幾種:
①人為選擇,當人們對所欲分類的問題有一定了解時,根據經驗,預先確定分類個數和初始分類,並從每一類中選擇一個有代表性的樣品作為聚核。
②將數據人為地分為K類,計算每一類的重心,並將這些重心作為聚核。
③密度法選擇聚核,以某個正數d為半徑,以每個樣品為球心,落在這個球內的樣本數(不包括作為球心的樣品)就叫做這個樣品的密度。
④人為地選擇一正數d,首先以所有樣本的均值作為第一聚核,然後依次考察每個樣本,若某樣本與已選定的聚核的距離均大於d,該樣本作為新的聚核,否則考察下一個樣本。
算法舉例
動態聚類法有許多種方法,在這一節中,我們將討論一種比較流行的動態聚類法——k均值法。它是由麥奎因提出並命名的,其基本步驟如下:
(1)選擇k個樣品作為初始凝聚點,或者將所有樣品分成k個初始類,然後將這k個類的重心(均值)作為初始凝聚點。
(2)對除凝聚點之外的所有樣品逐個歸類,將每個樣品歸入凝聚點離它最近的那個類(通常採用歐氏距離),該類的凝聚點更新為這一類目前的均值,直至所有樣品都歸了類。
(3)重複步驟(2),直至所有的樣品都不能再分配為止。
最終的聚類結果在一定程度上依賴於初始凝聚點或初始分類的選擇。經驗表明,聚類過程中的絕大多數重要變化均發生在第一次分配中。