定義
通過成功地對內容進行爬網,爬網程式可以訪問和讀取您希望用於搜尋查詢的單個檔案或內容片段。這些檔案的關鍵字和元數據存儲在內容索引(有時稱為“索引”)中。該索引包含關鍵字和元數據,關鍵字存儲在索引伺服器的檔案系統中,而元數據存儲在搜尋資料庫中。該系統可維護關鍵字、與單個內容片段關聯的元數據以及從中對內容進行爬網的源的 URL 之間的映射。
爬網內容
爬網內容 (Office SharePoint Server 2007),對內容進行爬網是指系統訪問和分析內容及其屬性(有時稱為“元數據”)從而建立可提供搜尋查詢服務的內容索引的過程。
通過成功地對內容進行爬網,爬網程式可以訪問和讀取用戶希望用於搜尋查詢的單個檔案或內容片段。這些檔案的關鍵字和元數據存儲在內容索引(有時稱為“索引”)中。該索引包含關鍵字和元數據,關鍵字存儲在索引伺服器的檔案系統中,而元數據存儲在搜尋資料庫中。該系統可維護關鍵字、與單個內容片段關聯的元數據以及從中對內容進行爬網的源的 URL 之間的映射。
爬網原因
當伺服器場已部署並運行一段時間後,搜尋服務管理員通常必須更改爬網計畫。其原因如下:
1、為了適應停機期和高峰使用期的變化。
2、為了適應作為內容宿主的伺服器上內容更新頻率的變化。
爬網情況
獨立於較快主伺服器上承載的內容,對較慢主伺服器上承載的內容進行爬網。
對新的內容源進行爬網。
爬網的頻率與目標內容更新的頻率相同。例如,可能需要對每日更新的庫執行每日爬網,並對很少更新的庫執行較低頻率的爬網。
執行方法
通常情況下,需要通過安排爬網時間來自動完成大多數爬網。但有時,可能需要手動啟動爬網。例如,可能需要啟動爬網以對要爬網和編制索引的內容套用爬網規則等管理更改,或者確定爬網日誌中的錯誤是否已解決。
此外,不管是手動啟動爬網還是按計畫啟動爬網,都可能需要停止或暫停一個或多個爬網。例如,其伺服器承載待爬網內容的管理員可能通知爬網會給伺服器帶來太多負載,或者要爬網的伺服器當前處於脫機狀態。在上述任一情況下,都可能需要停止或暫停爬網。
應考慮完全爬網比增量爬網需要更多的時間和伺服器資源。
完全爬網
比增量爬網占用索引伺服器上更多的記憶體和 CPU 周期。
在爬網伺服器場中的內容時占用前端 Web 伺服器上更多的記憶體和 CPU 循環。這不適用於伺服器場外部的內容。
比增量爬網使用更多的網路頻寬。
還必須注意不要同時暫停太多內容源的爬網,因為暫停的每個內容源都會消耗索引伺服器上的記憶體和 CPU 資源。
若要啟動完全爬網或增量爬網,停止、暫停或繼續爬網,請執行以下過程之一:
啟動完全爬網 (Office SharePoint Server 2007)
啟動增量爬網 (Office SharePoint Server 2007)
停止爬網 (Office SharePoint Server 2007)
暫停和繼續爬網 (Office SharePoint Server 2007)
計畫爬網
以下各節提供了有關按計畫爬網內容時注意事項的詳細信息。
停機期和使用高峰期
應考慮承載待爬網內容的伺服器的停機期和使用高峰期。例如,如果要對伺服器場以外的眾多不同伺服器承載的內容進行爬網,則這些伺服器可能會按不同的計畫備份且具有不同的使用高峰期。通常,管理員無法對伺服器場以外的伺服器進行管理控制。因此,建議與承載待爬網內容的伺服器的管理員協調爬網事宜,以確保不會在伺服器停機或使用高峰期嘗試爬網其中的內容。
常見的一種情況是與站內的 SharePoint 網站內容相關的內容不在貴組織的控制範圍內。可以將此內容的開始地址添加到現有內容源中或者為外部內容創建一個新內容源。由於外部網站的可用性千差萬別,因此為不同的外部內容添加單獨的內容源會很有幫助。這樣,就可以在其他內容源的爬網時間以外爬網外部內容的內容源。可以根據每個網站的可用性按爬網計畫更新外部內容。
頻繁更新的內容
制定爬網計畫時,應考慮某些內容源的更新頻率通常高於其他內容源。例如,如果知道某些網站集或外部源中的內容只在周五進行更新,那么對這些內容進行爬網的頻率若高於每周一次就會浪費資源。但是,伺服器場可能包含從周一到周五持續更新,但周六和周日通常不會更新的其他網站集。在這種情況下,可能希望一周數次爬網這些網站而周末則不進行爬網。
在所在環境的網站集中存儲內容的方式可指導管理員為每個 Web 應用程式中的各個網站集創建其他內容源。例如,如果網站集只存儲歸檔信息,則爬網該網站集的頻率就不必像爬網存儲經常更新內容的網站集那樣頻繁。在這種情況下,管理員可能需要使用不同的內容源來爬網這兩個網站集,以便按不同的計畫對它們進行爬網。
完全和增量爬網計畫
作為搜尋服務管理員,可以為每個內容源單獨配置爬網計畫。對於每個內容源,管理員可以指定不同的完全爬網時間和增量爬網時間。
建議根據運行搜尋服務的伺服器和承載爬網內容的伺服器的可用性、性能及頻寬因素來制定爬網計畫。
在制定爬網計畫時,應考慮以下最佳方案:
基於類似的可用性以及承載內容的伺服器可接受的總體資源使用率,對內容源中的開始地址進行分組。
將每個內容源的增量爬網安排在承載內容的伺服器可用並且對伺服器資源的需求較低時進行。也可以添加或編輯一個或多個爬網程式影響規則,以便減少被爬網伺服器上的負載。
使伺服器場內各伺服器的爬網計畫交錯,以便場內各伺服器上的負載在時間上分布均勻。
僅當下一節中列出的原因為必需原因時,才安排完全爬網。建議執行完全爬網的頻率應低於執行增量爬網的頻率。
將要求完全爬網的管理更改安排在完全爬網前不久執行。例如:建議在執行下一次計畫的完全爬網之前嘗試安排創建爬網規則,以便消除額外的完全爬網。
是否同時進行爬網取決於要爬網的索引伺服器的容量。建議管理員錯開爬網時間以便索引伺服器不會同時使用多個內容源進行爬網。索引伺服器的性能和承載該內容的伺服器的性能決定爬網的重疊程度。隨著時間推移,管理員會逐漸了解爬網每個內容源通常所需的時間,從而可以制定爬網計畫策略。建議記錄在環境中爬網所需時間的趨勢數據。
執行完全爬網的原因
搜尋服務管理員執行完全爬網的原因包括:
伺服器場中的伺服器上安裝了一個或多個修補程式或 Service Pack。有關詳細信息,請參閱該修補程式或 Service Pack 的說明。
SSP 管理員添加了一個新的託管屬性。
要重新對 Windows SharePoint Services 3.0 或 Office SharePoint Server 2007 網站上的 ASPX 頁面編制索引。
要檢測在上次對檔案共享執行完全爬網之後對檔案共享所做的安全更改。
解決連續的增量爬網失敗問題。在極少數情況下,如果在某個存儲庫中的任何級別上執行增量爬網時連續失敗了一百次,則索引伺服器將從索引中刪除受影響的內容。
已添加、刪除或修改爬網規則。
要修復損壞的索引。
搜尋服務管理員已創建一個或多個伺服器名稱映射。
分配給默認內容訪問帳戶或爬網規則的帳戶已更改。
在以下情況下,即使請求執行增量爬網,系統也會執行完全爬網:
SSP 管理員停止了先前的爬網。
從備份還原了內容資料庫。
伺服器場管理員已分離並重新附加內容資料庫。
從未對此網站執行完全爬網。
更改日誌不包含正在執行爬網的地址的條目。如果更改日誌中沒有對應於待爬網項的條目,則無法進行增量爬網。
分配給默認內容訪問帳戶或爬網規則的帳戶已更改。
要修復損壞的索引。
如果在索引中檢測到損壞情況,則根據損壞的嚴重程度,系統可能會嘗試執行完全爬網。
在初始部署後,可以依據伺服器場中的伺服器以及承載內容的伺服器的性能和容量來調整計畫。