基本介紹
網頁抓取主要有三個方面:
1、蒐集新出現的網頁;
2、蒐集那些在上次蒐集後有改變的網頁;
3、發現自從上次蒐集後已經不再存了的網頁,並從庫中刪除。
優先策略
通常是儘可能的首先抓取重要性的網頁,這樣保證在有限的資源內儘可能地照顧到那些重要性高的網頁。
什麼是重要性高的網頁呢,主要由這三個方面決定的:
連結歡迎度
連結歡迎度主要是由反向連結的數目和質量決定的。
連結重要度
連結重要度它是關於一個URL字元串的函式,僅僅考察字元串本身,它主要通過一些模式,如認為包含|“。com”,“HOME”的URL重要度高,以及包含較少斜槓的URL重要度高等。
平均連結的深度
平均連結的深度表示在一個種子站點集合中,每個種子站點如果存在一條鏈路到達該網頁,那么平均連結深度又是該網頁的一個連結指標,因為距離種子站點越近說明被訪問的機會越多。