概念
PageRank是Google專有的算法,用於衡量特定網頁相對於搜尋引擎索引中的其他網頁而言的重要程度。它由Larry Page 和 Sergey Brin在20世紀90年代後期發明。PageRank實現了將連結價值概念作為排名因素。
PageRank將對頁面的連結看成投票,指示了重要性。
算法
PageRank讓連結來"投票"
一個頁面的“得票數”由所有鏈向它的頁面的重要性來決定,到一個頁面的超連結相當於對該頁投一票。一個頁面的PageRank是由所有鏈向它的頁面(“鏈入頁面”)的重要性經過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級。
2005年初,Google為網頁連結推出一項新屬性nofollow,使得網站管理員和網站作者可以做出一些Google不計票的連結,也就是說這些連結不算作"投票"。nofollow的設定可以抵制評論垃圾。
假設一個由4個頁面組成的小團體: A, B, C和 D。如果所有頁面都鏈向 A,那么 A的 PR(PageRank)值將是 B, C及 D的Pagerank總和。
繼續假設 B也有連結到 C,並且 D也有連結到包括 A的3個頁面。一個頁面不能投票2次。所以 B給每個頁面半票。以同樣的邏輯, D投出的票只有三分之一算到了 A的PageRank上。
換句話說,根據鏈出總數平分一個頁面的 PR值。
最後,所有這些被換算為一個百分比再乘上一個係數。由於“沒有向外連結的頁面”傳遞出去的PageRank會是0,所以,Google通過數學系統給了每個頁面一個最小值:
說明:在Sergey Brin和Lawrence Page的1998年原文中給每一個頁面設定的最小值是1-d,而不是這裡的
(1-d)/N。 所以一個頁面的PageRank是由其他頁面的PageRank計算得到。Google不斷的重複計算每個頁面的PageRank。如果給每個頁面一個隨機PageRank值(非0),那么經過不斷的重複計算,這些頁面的PR值會趨向於穩定,也就是收斂的狀態。這就是搜尋引擎使用它的原因。
指標
Google工具條上的PageRank指標從0到10。它似乎是一個對數標度算法,細節未知。PageRank是Google的商標,其技術亦已經申請專利。
PageRank近似於一個用戶,是指在Internet上隨機地單擊連結將會到達特定網頁的可能性。通常,能夠從更多地方到達的網頁更為重要,因此具有更高的PageRank。每個到其他網頁的連結,都增加了該網頁的PageRank。具有較高PageRank的網頁一般都是通過更多其他網頁的連結而提高的。
為了查看站點PageRank,請安裝GOOGLE工具條並啟用PageRank特性,或者在firefox安裝SearchStatus外掛程式。但是請注意,GOOGLE所指示的PageRank是個緩衝值,通常是過時的。
更新頻率
PageRank值每年只發布幾次,有時就得使用過時信息,因此,PageRank並不是一個非常精確的度量。GOOGLE自己也似乎在使用更精確的值來進行排名。
在GOOGLE使用來構造搜尋結果頁面的採集算法中,PageRank只是其中的一個因素。有可能在特定查詢下,具有較低PageRank的頁面仍然能夠排在具有較高PageRank的頁面前面。PageRank也不一定是相關的,它使用連結來衡量整體受歡迎程度,而不是使用相關主題。GOOGLE在計算搜尋排名時也考慮連結的相關程度,因此PageRank不應該成為搜尋引擎行銷的唯一重點。構建相關連結,通常也自然會帶來較高的PageRank。此外,為了提高PageRank而特意構建太多的不相關連結也有可能損害站點的排名,因為GOOGLE試圖檢測並對不相關連結降分,認為這種連結是用於提高排名得分的。
PageRank還被用戶廣泛認為是站點可靠的因素,因為用戶傾向於相信帶有較高值的站點更為著名或權威。當然,這就是PageRank所設計的目標。這個概念是GOOGLE所認可的,因此GOOGLE通過減少或清零PageRank來懲罰那些垃圾或不相關站點。
其它算法
GOOGLE PageRank並不是唯一的連結相關的排名算法,而是最為廣泛使用的一種。其他算法還有:
一、Hilltop 算法
二、ExpertRank
三、HITS
四、TrustRank