套用方法是,每一步中都選擇兩個類別合併為一個類別,選擇的依據是使合併後分類方案的後驗機率P(C|D)最大,即每一步進行局部最佳化的目標函式為P(C|D),其中D是個體的集合D = {d1,d2,...,dn},分類方案C表示類別的集合,是對D的一個劃分:C = {c1,c2,...,cm},ci是D的子集,ci∩cj= ∅,對任意i,j都成立。
在初始階段,每個個體被看作一個獨立的類別,即ci={di},1≤i≤n,此時的分類方案為C_0。假設現在已經完成第k步,其分類方案是C_k,我們需要為k+1步選擇最優的聚類方案C_k+1的關鍵是選擇合適的兩個類別cx,cy進行合併。
其中
P(C_k|D) = ∏∏P(c|d), 對c∈C, d∈c
= ∏∏[P(d|c)*P(c)/P(d)],
...
= PC(C)∏SC(c)/P(D)
其中 PC(C)=∏P(c)^|c|, 對c∈C,
SC(c)=∏P(d|c), 對d∈c
C_k和C_k+1之間顯然有C_k+1 = C_k-{cx,cy}+{cx∪cy},於是:
P(C_k+1|D)/P(C_k|D)
= [PC(C_k+1)/PC(C_k)]*[SC(cx∪cy)/SC(cx)/SC(cy)]
( 1‑2 )
由於對k+1步而言,P(C_k|D)是已知常數,我們無須直接計算P(C_k+1|D),就可以找到最佳的cx, cy。上式中第一項採用近似估計值PC(C_k+1)/PC(C_k)] ~ A^(-1), A>1是一個常數。
至此我們只要選擇最大化P(C_k+1|D)/P(C_k|D)的兩個類別,在第k+1步將其合併為一個類即可,綜合上的討論,我們可以給出形式化的算法如下(見圖)
相關詞條
-
貝葉斯分類算法
貝葉斯分類算法是統計學的一種分類方法,它是一類利用機率統計知識進行分類的算法。在許多場合,樸素貝葉斯(Naïve Bayes,NB)分類算法可以與決策樹...
分類 分類算法 基本步驟 -
最大期望算法
最大期望算法(Expectation-Maximization algorithm, EM),或Dempster-Laird-Rubin算法 ,是一類通...
歷史 理論 算法 性質 套用 -
數據挖掘算法
數據挖掘算法是根據數據創建數據挖掘模型的一組試探法和計算。 為了創建模型,算法將首先分析您提供的數據,並查找特定類型的模式和趨勢。
概念描述 算法分類 -
智慧型Web算法
1.2 1.3.2 2.3.1
圖書信息 內 容 簡 介 譯者序 前 言 目 錄 -
scikit-learn機器學習常用算法原理及編程實戰
機器學習是非常熱門的方向,然而普通的程式設計師想要轉行機器學習卻困難重重。回想起來,筆者在剛開始學習機器學習時,一上來就被一大堆數學公式和推導過程所折磨,這...
書籍介紹 目錄 -
地理信息系統算法基礎
《地理信息系統算法基礎》是2010年7月5日科學出版社出版的圖書,作者是張宏。該書廣泛收集和整理了多年來地理信息系統算法領域的相關資料。
圖書簡介 圖書目錄 -
生物信息學:智慧型化算法及其套用
一、模體的生物學意義105 二、基本遺傳算法153 一、RNA的組成172
基本相信 內容簡介 作者簡介 目錄 -
數據挖掘原理與算法(第二版)
《數據挖掘原理與算法(第二版)》,作者毛國君,由清華大學出版社於2007年出版。 本書是一本全面介紹數據挖掘和知識發現技術的專業書籍,它系統地闡述了數據...
內容提要 編輯推薦 目錄