聚類挖掘

數據挖掘的算法之一,通過統計學的聚類分析方法進行數據挖掘。

聚類分析將大量的數據劃分為性質相同的子類,以便於了解數據的分布情況。因此,它廣泛套用於模式識別,圖像處理,數據壓縮等許多領域,例如,

1 在市場分心中,通過聚類分析能幫助決策者識別不同特徵的客戶群以及各客戶群的行為特徵,

2 在生物工程研究中,聚類分析能夠用於推導動植物的種類,按照功能對基因進行劃分並獲取種群中的固有結構特徵,

3 在非關係資料庫領域,聚類分析能夠識別具有相同地理特徵的區域以及該區域的環境和人的特徵。

4 在Web信息檢索領域,聚類分析能夠對Web文檔進行分類,提高檢索效率。

聚類就是把一組個體按照相似性歸成若干類別。它的目的是使得屬於同一類別的個體之間的距離儘可能的小,而不同類別上的個體的距離儘可能的大。聚類的結果可以得到一組數據對象的集合,稱其為簇。簇中的對象彼此相似,而其他簇中的對象相異。在許多套用中,可以將一個簇中的數據對象作為一個整體來對待。

聚類技術最早在統計學和人工智慧等領域得到廣泛的研究。在人工智慧中,聚類又稱作無監督歸納。因為和分類學習相比,分類學習的例子或數據對象有類別標記,而要聚類的例子沒有標記,需要有聚類學習算法來自動完成。近年來,隨著數據挖掘的發展,聚類以其特有的優點,成為數據挖掘研究領域一個非常活躍的研究課題。在數據挖掘里,面臨的常常是含有大量數據的資料庫,因此要探討面向大規模資料庫的聚類方法,以適應新問題帶來的挑戰。

相關詞條

熱門詞條

聯絡我們