相似性度量

相似性度量

相似性的度量方法很多,有的用於專門領域,也有的適用於特定類型的數據,如何選擇相似性的度量方法是一個相當複雜的問題,

聚類通常按照對象間的相似性進行分組,因此如何描述對象間相似性是聚類的重要問題。數據的類型不同,相似性的含義也不同。例如,對數值型數據而言,兩個對象的相似度是指它們在歐氏空間中的互相鄰近的程度;而對分類型數據來說,兩個對象的相似度是與它們取值相同的屬性的個數有關。
聚類分析按照樣本點之間的親疏遠近程度進行分類。為了使類分得合理,必須描述樣本之間的親疏遠近程度。刻畫聚類樣本點之間的親疏遠近程度主要有以下兩類函式:
(1)相似係數函式:兩個樣本點愈相似,則相似係數值愈接近1;樣本點愈不相似,則相似係數值愈 接近0。這樣就可以使用相似係數值來刻畫樣本點性質的相似性。
(2)距離函式:可以把每個樣本點看作高維空間中的一個點,進而使用某種距離來表示樣本點之間的相似性,距離較近的樣本點性質較相似,距離較遠的樣本點則差異較大。
需要由領域專家確定採用哪些指標特徵變數來精確刻畫樣本的性質,以及如何定義樣本之間的相似性測度。

相關詞條

相關搜尋

熱門詞條

聯絡我們