基本定義
種類
研究較多的貝葉斯分類器主要有四種,分別是Naive Bayes、TAN、BAN和GBN。
解釋
貝葉斯網路是一個帶有機率注釋的有向無環圖,圖中的每一個結點均表示一個隨機變數,圖中兩結點間若存在著一條弧,則表示這兩結點相對應的隨機變數是機率相依的,反之則說明這兩個隨機變數是條件獨立的。網路中任意一個結點X均有一個相應的條件機率表(Conditional Probability Table, CPT),用以表示結點X在其父結點取各可能值時的條件機率。若結點X無父結點,則X的CPT為其先驗機率分布。貝葉斯網路的結構及各結點的CPT定義了網路中各變數的機率分布。
分類
貝葉斯分類器是用於分類的貝葉斯網路。該網路中應包含類結點C,其中C 的取值來自於類集合( c, c, ... , c),還包含一組結點X = (X, X, ... , X),表示用於分類的特徵。對於貝葉斯網路分類器,若某一待分類的樣本D,其分類特徵值為x = (x, x, ... , x) ,則樣本D屬於類別c的機率P(C = c | X = x, X = x, ... , X = x) ,(i = 1, 2, ... , m) 應滿足下式:
P(C = c | X = x) = Max{P(C = c | X = x), P(C = c | X = x), ... , P(C = c | X = x)}
而由貝葉斯公式:
P(C = c | X = x) = P(X = x | C = c) * P(C = c) / P(X = x)
其中,P(C = c) 可由領域專家的經驗得到,而P(X = x | C = c) 和P(X = x) 的計算則較困難。
兩階段
套用貝葉斯網路分類器進行分類主要分成兩階段。第一階段是貝葉斯網路分類器的學習,即從樣本數據中構造分類器,包括結構學習和CPT學習;第二階段是貝葉斯網路分類器的推理,即計算類結點的條件機率,對分類數據進行分類。這兩個階段的時間複雜性均取決於特徵值間的依賴程度,甚至可以是NP完全問題,因而在實際套用中,往往需要對貝葉斯網路分類器進行簡化。根據對特徵值間不同關聯程度的假設,可以得出各種貝葉斯分類器,Naive Bayes、TAN、BAN、GBN就是其中較典型、研究較深入的貝葉斯分類器。
正文
在具有模式的完整統計知識條件下,按照貝葉斯決策理論進行設計的一種最優分類器。
最小錯誤機率貝葉斯分類器
把代表模式的特徵向量 x分到c個類別( ω1,ω2,..., ωc)中某一類的最基本方法是計算在 x的條件下,該模式屬於各類的機率,用符號P( ω1| x),P( ω2| x),...,P( ωc| x)表示。比較這些條件機率,最大數值所對應的類別 ωi就是該模式所屬的類。例如表示某個待查細胞的特徵向量 x屬於正常細胞類的機率是0.2,屬於癌變細胞類的機率是0.8,就把它歸類為癌變細胞。上述定義的條件機率也稱為後驗機率,在特徵向量為一維的情況下,一般有圖中的變化關係。當 x= x*時,P(ω1|x)=P(ω2|x), 對於 x>x*的區域,由於P(ω2|x)>P(ω1|x)因此x屬ω2類,對於x<x*的區域,由於P(ω1|x)>P(ω2|x),x屬ω1類,x*就相當於區域的分界點。圖中的陰影面積就反映了這種方法的錯誤分類機率,對於以任何其他的 x值作為區域分界點的分類方法都對應一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤機率的分類器
貝葉斯分類器
進行計算
一般情況下,不能直接得到後驗機率而是要通過貝葉斯公式進行計算。式中的 P( x│ ωi)為在模式屬於 ωi類的條件下出現 x的機率密度,稱為 x的類條件機率密度; P( ωi)為在所研究的識別問題中出現 ωi類的機率,又稱先驗機率; P( x)是特徵向量 x的機率密度。分類器在比較後驗機率時,對於確定的輸入 x,P( x)是常數,因此在實際套用中,通常不是直接用後驗機率作為分類器的判決函式 gi( x)(見線性判別函式)而採用下面兩種形式:
對所有的c個類計算 gi( x)( i=1,2,...,c)。與 gi( x)中最大值相對應的類別就是 x的所屬類別。
最小風險貝葉斯分類器
由於客觀事物的複雜性,分類器作出各種判決時的風險是不一樣的。例如將癌細胞誤判為正常細胞的風險就比將正常細胞誤判為癌細胞的風險大。因此,在貝葉斯分類器中引入了風險的概念。在實際套用中根據具體情況決定各種風險的大小,通常用一組係數 Cij來表示。 Cij表示分類器將把識別樣本分類為 ωi,而該樣本的真正類別為 ωj時的風險。設計最小風險分類器的基本思想是用後驗機率計算將 x分類為 ωi的條件風險比較各 Ri( x)的大小,與最小值對應的類別是分類的結果。評價這種分類器的標準是平均風險,它的平均風險最小。在實際套用時,後驗機率是難以獲得的,根據模式類別的多少和 Cij的取值方式,可設計出各種分類器,例如模式為兩類時,判別函式為如果選擇 C11和 C22為零, C12和 C21為1,它就是兩類最小錯誤機率分類器。實際上,最小錯誤機率分類器是最小風險分類器的一種特殊情況。
設計貝葉斯分類器的關鍵是要知道樣本特徵 x的各種機率密度函式。條件機率密度函式為多元常態分配是研究得最多的分布。這是由於它的數學表達式易於分析,在實際套用中也是一種常見的分布形式。經常使用參數方法來設計常態分配的判別函式。