概述
網站日誌是記錄web伺服器接收處理請求以及運行時錯誤等各種原始信息的以.log結尾的檔案,確切的講,應該是伺服器日誌。網站日誌分析方法
1、訪問次數、停留時間、抓取量從這三項數據中我們可以得知:平均每次抓取頁面數、單頁抓取停留時間和平均每次停留時間。
平均每次抓取頁面數=總抓取量/訪問次數
單頁抓取停留=每次停留/每次抓取
平均每次停留時間=總停留時間/訪問次數
從這些數據我們可以看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數、停留時間、抓取量越高、平均抓取頁面、平均停留時間,表明網站越受搜尋引擎喜歡。而單頁抓取停留時間表明網站頁面訪問速度,時間越長,表明網站訪問速度越慢,對搜尋引擎抓取收錄較不利,我們應儘量提高網頁載入速度,減少單而立停留時間,讓爬蟲資源更多的去抓取收錄
網站日誌的作用
通過網站日誌可以清楚的得知用戶在什麼IP、什麼時間、用什麼作業系統、什麼瀏覽器、什麼解析度顯示器的情況下訪問了你網站的哪個頁面,是否訪問成功。對於專業從事搜尋引擎最佳化工作者而言,網站日誌可以記錄各搜尋引擎蜘蛛機器人爬行網站的詳細情況,例如:哪個IP的百度蜘蛛機器人在哪天訪問了網站多少次,訪問了哪些頁面,以及訪問頁面時返回的HTTP狀態碼。
如何查看網站日誌?
網站日誌一般存放在虛擬主機的logfiles資料夾下,可以通過FTP工具將網站日誌下載下來,下載下來的為log格式的文檔,可通過txt文檔方式查看。如何查看自己的伺服器的日記? (以Windows 2003系統為例)
1、開始--管理工具--事件查看器--系統 或者 控制臺--管理工具--事件查看器--系統。
2、在遠程客戶端,運行IE瀏覽器,在地址欄中輸入“https://Win2003伺服器IP位址:8098”,如“https://192.168.1.1:8098”。在彈出的登錄對話框中輸入管理員的。
用戶名和密碼,點擊“確定”按鈕即可登錄Web訪問接口管理界面。接著在“歡迎使用”界面中點擊“維護”連結,切換到“維護”管理頁面,然後點擊“日誌”連結,進入。
到日誌管理頁面。在日誌管理頁面中,管理員可以查看、下載或清除Windows 2003伺服器日誌。選擇系統日誌可進行查看。並且在日誌管理頁面中可列出Windows 2003伺服器。
日誌分析軟體
市面上各家網頁伺服器自發展初隨時都會紀錄其所有的交易於一個日誌檔裡頭。這種特性不久就被網管意識到可以透過軟體讀取它,以提供網頁流行度的相關資料;從而造成網站日誌分析軟體的興起。90年代早期,網站統計資料僅是簡單的客戶端對網站伺服器請求 (或者訪問) 的記數值。一開始這是挺合理的方法,因為每個網站通常只有單一個 HTML 檔案。然而,隨著圖形進入 HTML 標準,以及網站擴增至多重 HTML 檔案,這種記數變得沒什麼幫助。最早真正的商用日誌分析器於1994年由 IPRO 發行[1]。
90年代中期,兩種計量單位被引入以更準確的估計人類於網站伺服器上的活動總數。它們是網頁點閱數(Page Views) 以及訪問量 (Visits,或者節區(Session))。一次的網頁點閱數定義為客戶端對伺服器提出某單一網頁讀取請求,恰好為對某一圖形請求的相反;而一次的訪問量則定義為來自於某一唯一已識別的客戶端對伺服器一連串請求直到閒置一段時間──通常為30分鐘──為止。網頁點閱數與訪問量仍舊在報告上十分常見,不過現今它們被當作是過於簡單的量度。
90年代末期,隨著網路蜘蛛與機器人問世,伴隨著大型企業以及網際網路服務提供商使用代理伺服器與動態指定IP位址,鑑別某網站單一訪客變得更困難。對此,日誌分析器以指定Cookie作為追蹤訪問量的對策,並忽略已知的蜘蛛機器人的讀取請求。
網頁快取的廣泛使用也造成日誌分析上的問題。如果某人再度造訪某頁,第二次的讀取請求通常由網頁瀏覽器快取達成,因此網站伺服器端不會接受到此請求。這意味著該訪問者瀏覽過該站的“足跡”丟失。快取與否可於設定網站伺服器時克服,不過這可能導致降低該網站的效能。
日誌分析
從網站上下載下的網站日誌,在txt文本中就可以看到以下數據:117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"
分析:
117.26.203.167 訪問ip
02/May/2011:01:57:44 -0700 訪問日期 -時區
GET/index.php HTTP/1.1 根據HTTP/1.1 協定 抓取(域名下)/index.php 這個頁面(GET表示伺服器動作)
500 伺服器回響狀態碼
伺服器回響狀態碼通常狀態碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功的獲取到了所請求的檔案,如果是搜尋引擎,則證明蜘蛛在這次爬行中順利的發現了一些新的內容。而301則代表用戶所訪問的某個頁面url已經做了301重定向(永久性)處理,302則是暫時性重定向。404則代表所訪問的頁面已經不存在了,或者說訪問的url根本就是個錯誤的。500則是伺服器的錯誤。
19967 表示抓取了19967個位元組
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示訪問者使用火狐瀏覽器及Alexa Toolbar 等訪問端信息
如果你的日誌里格式不是如此,則代表日誌格式設定不同。
很多日誌里可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是通過查看每日的日誌里百度蜘蛛抓取次數來獲知。抓取頻率並沒有一個規範的時間表或頻率數字,我們一般通過多日的日誌對比來判斷。
當然,我們希望百度蜘蛛每日抓取的次數越多越好。