無論Pagerank、HITs甚至HillTop算 法都存在“主題漂移"問題,特別對於瘋狂而又隨意互動外鏈的站點,導致搜尋引擎返回主題無關結果,搜尋引擎用戶體驗很差。而TSPR借鑑了早期開發目錄 (ODP,如Yahoo,Dmoz等)的思想並結合PageRank算法:針對一個查詢來確定一個URL對該查詢的主題敏感性得分,作為排名的一個重要依據,大大提高了返回結果的主題相關性。
TSPR算法主要分為兩個過程:
第一過程針對URL離線生成Rank向量,這個過程是基於開放目錄的,以Dmoz為例,“易點網站最佳化”的首頁 URL"http://www.***.cn/"在"Open Directory - World: Chinese Simplified: 行銷: 網路行銷"這個主題(這裡假設為Cj)里,假設該頁面上的非隸屬URL數為L個,那么"ggseo"的URL對主題Cj的得分(Ranki)為1/L,由於“易點網站最佳化”的URL可能出現在多個主題目錄中(對於主題目錄頁面中沒有該URL,自然得分就為0),那么選取TOP N個主題得分,組成這個URL的Rank向量。
第二個過程就是線上生成針對查詢關鍵字的URL的主題敏感性得分,(1).首先計算一個查詢是某一主題的可能性與敏感性得分,和HillTop算法一樣, 將一個查詢分為k個術語(term),根據樸素貝葉斯分類器(機器學習與數據挖掘常用的一種數學方法,這裡不詳述),計算該查詢是某一主題的機率,以“網站最佳化”為例,分為"網站"和"最佳化"兩個術語屬於Cj主題的機率為0.8和0.1,那么該查詢為Cj主題的可能性為P(Cj)*0.08 (其中P(Cj)也是一個機率,也可以作為個性化參數,如表示用戶對主題Cj的偏好程度);(2).然後計算針對該查詢和主題Cj時"易點網站最佳化"的URL的敏感性得分,該得分為TSPRj=Ranki*P(Cj)*0.08,那么的針對“網站最佳化”這個查詢,ggseo的URL針對“網站最佳化”這個查詢的敏感性得分等於上述所有主題中TOP N個TSPRj得分之和(其實也就是第一個過程Rank向量與該查詢屬於TOP N個Cj機率向量的點積)。
TSPR算法的總體過程如上,簡單的說,對於一個查詢,計算一個URL對該查詢的主題敏感性得分是依賴於開放目錄的。足見Google對開放目錄的重視。
總結:1.一個網站的被開放目錄收錄是極其重要的,是其在一些主題性關鍵字查詢獲得較好Google排名的保證,而這類關鍵字一般都是熱門關鍵字,是網站的立身 之本。2.從第一個過程可以看出,一個主題的網站越多,每個網站的敏感性得分就會越小,從第二個過程可以看出一個網站被越多的主題收錄,敏感性的就越高,顯然被越多的開放目錄收錄,主題敏感性就越高。所以選擇合適主題,讓儘量多的開放目錄收錄可以提高重要頁面的主題敏感性得分。