相關相似性:相關相似性（Correlation）方法依據雙方共同評分的項 -百科知識中文網

簡介

為了讓用戶從大量信息中找到自己感興趣的信息，推薦系統已逐漸成為電子商務中一個必不可少的工具，並且得到研究者的關注。協同過濾推薦系統是目前為止成功、且運用最多的推薦技術，與傳統的直接分析內容進行推薦不同，基於用戶的協同過濾推薦系統通過分析用戶興趣，在用戶群中找到與指定用戶的相似用戶，綜合戶對該項目的喜好程度。

為找這些相似用戶對同一項目的評價，預測出該用到目標用戶的最近鄰居進行推薦，必須度量用戶之間的相似性，然後選擇相似性最高的若干用戶，作為目標用戶的最近鄰居。目標用戶的最近鄰居查詢是否準確，直接關係到整個推薦系統的推薦質量，而要想準確查詢目標用戶，需要準確計算不同用戶之間的相似性，所以如何準確計算用戶之間相似性就成為提高推薦準確率的關鍵。計算用戶之間相似性的方法主要包括餘弦相似性，修正的餘弦相似性以及相關相似性等。

相似性度量

相似性度量，即綜合評定兩個事物之間相近程度的一種度量。兩個事物越接近，它們的相似性度量也就越大，而兩個事物越疏遠，它們的相似性度量也就越小。相似性度量的給法種類繁多，一般根據實際問題進行選用。常用的相似性度是有：相關係數(衡量變數之間接近程度)，相似係數(衡量樣品之間接近程度)，若樣品給出的是定性數據，這時衡量樣品之間接近程度，可用樣本的匹配係數、一致度等。

用數量化方法對事物進行分類，就必須用數量化方法描述事物間的相似程度。一個事物常常需要用多個變數來刻畫，如對一群用p個變數描述的樣本點進行分類，則每個樣本點可看做是p維空間的一個點，很自然的想到用距離來度量樣本點間的相似程度。

相似性度量方法

協同過濾推薦技術中一個必不可少的步驟是計算目標用戶與其他用戶之間的相似性，從而生成最近鄰居集合，進而產生推薦，傳統的相似性計算方法有以下3種。

餘弦相似性

用向量和分別表示用戶i 和用戶j 的評分向量，而它們的相似性就是通過計算向量之間夾角的餘弦來進行度量，則用戶x 和用戶y 之間的相似性為

修正餘弦相似性

考慮到用戶之間評分尺度的不同，公式中利用用戶的平均評分作出了一定的修正，即用戶i 和用戶j 之間的相似性。

相似性計算方法

常態分配函式

常態分配是一個在數學、物理及工程等領域都非常重要的機率分布函式。

通過式可以看出，當時f(x)達到最大值，而當的值越大，的值越小。

修正函式

將在常態分配函式的基礎上，設用戶x 的評分項目個數為m，用戶y的評分項目個數為n，max(m，n)表示用戶，和用戶y評分項目集合中評分項目個數較大的項目數，令常態分配函式中，經過變換得到函式

易知，當m=n時，取得最大值為1，當越大，的值越小隨著不斷增加，

逐漸從1趨近於0，且。

改進後的相似性計算方法

正是由於相關相似性沒有考慮用戶評分記錄項的數量對相似度的影響，而導致了兩用戶A和C觀看了相同2部電影的相似度會明顯大於觀看了相同200部電影的用戶A和B之間的相似度。故可以在相關相似性的基礎上添加一個修正函式來修正兩用戶之間由評分項目數量差距帶來的負面影響，即

在前面例子的基礎上，由於用戶A和用戶B有過的評分電影完全相同，則用戶A和用戶B之間的修正函式為：；而用戶A和用戶C有過的評分電影只有兩部，且二者觀看電影數量差距較大，則用戶A和用戶C之間的修正函式為f(198) =0.376。

假設有5個用戶User5~User5，且他們的評分項目數為200，100，70，30和10，則他們之間的懲罰函式值如表2所示。

表2中行與列的交叉點為兩用戶的修正函式數值，易知：當兩用戶的評分項目數差距越大時，修正函式對其相關相似性的修正力度也就越大，這正好符合文中的預期。

相關相似性

簡介

相似性度量

相似性度量方法

餘弦相似性

修正餘弦相似性