根據算法思想,傳統的聚類算法可分以下五類 :① 劃分方法:將數據集隨機劃分為k個子集,隨後通過疊代重定位技術試圖將數據對象從一個簇移到另一個簇來不斷改進聚類的質量;②層次方法:對給定的數據對象集合進行層次的分解,根據層次的形成方法,又可以分為凝聚和分裂方法兩大類;③基於密度的方法:根據領域對象的密度或者某種密度函式來生成聚類,使得每個類在給定範圍的區域內必須至少包含一定數目的點;④基於格線的方法:將對象空間量化為有限數目的單元,形成一個格線結構,使所有聚類操作都在這個格線結構上進行,使聚類速度得到較大提高;⑤基於模型的方法:為每個類假定一個模型,尋找數據對給定模型的最佳擬合。
目前,聚類分析的研究集中在聚類方法的可伸縮性、對複雜形狀和類型的數據進行聚類的有效性、高維聚類分析技術以及混合數據的聚類方法研究,其中,高維數據聚類是聚類分析的難題,也是涉及到聚類算法是否適用於很多領域的關鍵。而傳統聚類算法對高維數據空間進行聚類時會遇到困難,為了解決這個問題,R.Agrawal首次提出了子空間聚類的概念 ,以解決高維數據的聚類問題。
傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。
目前一般使用兩種方法解決以上問題:(1)特徵轉換,(2)特徵選擇 /子空間聚類。
特徵選擇只在那些相關的子空間上執行挖掘任務,因此它比特徵轉換更有效地減少維。特徵選擇一般使用貪心策略等搜尋方法搜尋不同的特徵子空間,然後使用一些標準來評價這些子空間,從而找到所需的簇。
子空間聚類算法拓展了特徵選擇的任務,嘗試在相同數據集的不同子空間上發現聚類。和特徵選擇一樣,子空間聚類需要使用一種搜尋策略和評測標準來篩選出需要聚類的簇,不過考慮到不同簇存在於不同的子空間,需要對評測標準做一些限制。
選擇的搜尋策略對聚類結果有很大的影響。根據搜尋的方向的不同,可以將子空間聚類方法分成兩大類:自頂向下的搜尋策略和自底向上的搜尋策略。
相關詞條
-
聚類分析
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。 聚類分析的目標就是在相似的基礎上收集數據來分類。聚類...
區別 定義 分析模型 有關統計 兩組判別 -
高維聚類分析
將物理或抽象對象的集合分組稱為由類似的對象組成的多個類的過程被稱為聚類。高維聚類分析與傳統聚類分析的最主要差別就是高維度。高維數據聚類是聚類技術的難點和重點。
詳細內容 傳統算法 套用 -
子空間聚類
傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。 子空間聚類算法拓展了特徵選擇的任務,嘗試在相同數據集的不同子空間上發現聚類。
-
中國電子學會第十六屆資訊理論學術年會論文集
第1部分 基於Open 基於Erlan
基本信息 內容簡介 目錄 -
聚類
。還有許多評判劃分質量的其他準則。傳統的劃分方法可以擴展到子空間聚類...的一些擴展也考慮了子空間聚類。層次方法的缺陷在於,一旦一個步驟(合併或分裂...決定輸入參數的領域知識最小化:許多聚類算法在聚類分析中要求用戶輸入一定...
典型套用 典型要求 計算方法 研究情況 -
聚類算法
方法可以擴展到子空間聚類,而不是搜尋整個數據空間。當存在很多屬性並且數據...大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析起源於...成了聚類分析。聚類分析內容非常豐富,有系統聚類法、有序樣品聚類法、動態聚類...
算法起源 算法用途 聚類要求 算法分類 具體方法 -
分層次管理
的差別。層次識別一般在具有同質性客體上,由於不同時間、不同空間、不同目標...一個國家或地區經濟是一個大系統,其經濟總量增長是各層次的子經濟系統增長量...
基本介紹 方法 實例 -
消費者市場
簡介消費者市場又稱最終消費者市場、消費品市場或生活資料市場,是指個人或家庭為滿足生活需求而購買或租用商品的市場。消費者市場是市場...
簡介 購買對象 市場區隔 -
現代模式識別
空間模式識別方法16.1 概述16.2 子空間投影16.3 子空間判別法16.4 線性回歸模型法16.5 正交子空間法16.6 Kohonen學習子空間法16.7 子空間的平均學習法文獻簡評套用簡介習題參考文獻第...
圖書簡介 圖書目錄