係數基本概念
定義
給定兩個集合A,B,Jaccard 係數定義為A與B交集的大小與A與B並集的大小的比值,定義如下:
當集合A,B都為空時,J(A,B)定義為1。
與Jaccard 係數相關的指標叫做Jaccard 距離,用於描述集合之間的不相似度。Jaccard 距離越大,樣本相似度越低。公式定義如下:
其中對參差(symmetric difference) 。
性質
相似性
非對稱二元屬性的相似性
在數據挖掘領域,常常需要比較兩個具有布爾值屬性的對象之間的距離,Jaccard距離就是常用的一種方法。給定兩個比較對象A,B。A, B 均有n個二元屬性,即每個屬性取值為{0,1}。定義如下4個統計量:
:A,B屬性值同時為0的屬性個數;
:A屬性值為0且B屬性值為1的屬性個數;
:A屬性值為1且B屬性值為0的屬性個數;
:A,B屬性值同時為1的屬性個數;
如下圖數示:
顯然有
Jaccard 係數:
Jaccard距離:
廣義係數
廣義Jaccard係數
(1)給定兩個n維向量 則 Jaccard 係數定義如下:
(2)給定兩個關於 的非負函式 f 和 g ,則 Jaccard 係數定義如下:
主要套用場景
比較文本相似度,用於文本查重與去重;
計算對象間距離,用於數據聚類等。
套用舉例
項目相似性度量是協同過濾系統的核心。 相關研究中,基於物品協同過濾系統的相似性度量方法普遍使用餘弦相似性。 然而,在許多實際套用中,評價數據稀疏度過高,物品之間通過餘弦相似度計算會產生誤導性結果。 將傑卡德相似性度量套用到基於物品的協同過濾系統中,並建立起相應的評價分析方法。 與傳統相似性度量方法相比,傑卡德方法完善了餘弦相似性只考慮用戶評分而忽略了其他信息量的弊端,特別適合於套用到稀疏度過高的數據 。