google機器人:google機器人是Google 的web 抓取漫遊 -百科知識中文網

google機器人是Google 的web 抓取漫遊器。它從web上收集文檔，為Google搜尋引擎建立可搜尋的索引。 Googlebot是google的機器人的意思，俗稱google爬蟲。
把火狐偽裝成爬蟲有什麼好處呢？對經常光顧verycd的朋友們非常有用。可以免登錄看貼。首先我們用火狐測試一下：打開這裡是不是要求你登錄？
繼續，設定方法，打開火狐，Ctrl+T新建一個瀏覽標籤，輸入：about:config，打開配置頁面，右鍵點擊頁面選擇“新建→字元串”，在彈出的視窗中輸入：general.useragent.override，確定之後，輸入：Googlebot/2.1 (+http://www.googlebot.com/bot.html)，繼續確定，關閉視窗。
其實上次Matt所透露的僅僅是其中一方面的內容。今天，Matt再次寫了一篇非常詳細的文章，解釋了Google的各種bot是怎樣抓取網頁的，以及Google最新的BigDaddy在抓取網頁方面有什麼新的變化等等，內容非常的精彩，所以和大家分享一下。

首先要介紹的是Google的"crawl caching proxy"（爬行快取代理）。Matt舉了一個ISP與用戶的例子來說明它。用戶上網時，總是先通過ISP獲取網頁內容，然後ISP就會把用戶訪問過的網頁快取起來備用。比如說，當用戶A訪問了www.kenwong.cn，那么中國電信（或網通等）就會把"幻滅的麥克風"傳送給用戶A，然後將"幻滅的麥克風"快取起來，當用戶B在下一秒鐘里再訪問www.kenwong.cn，那么中國電信就會把快取里的"幻滅的麥克風"傳送給用戶B，這樣就能節省了頻寬。
正如本站之前所報導的那樣，Google最新的軟體層面的升級（轉移至BigDaddy）已經接近完成，因此升級後的Google各方面的能力都將得到加強。這些加強包括了更智慧型化的googlebot爬行、改良的規範性以及更好的收錄網頁能力。而在Googlebot爬行抓取網頁方面，Google也採取了節省頻寬的方法。Googlebot也隨著BigDaddy的升級而得到了升級。新的Googlebot已經正式支持了gzip編碼，所以如果你的網站開啟了gzip編碼功能，那么就能節省Googlebot爬行你的網頁時所占的頻寬。
除了改良的Googlebot外，升級後的Google將會採用上面所說到的crawl caching proxy來抓取網頁，以進一步節省頻寬。下面是一個示意圖，顯示了傳統的Googlebot是怎樣爬行一個網站的：

google機器人

相關詞條

google機器人

GOOGLE ANDROID

Google實驗室

《Google是如何控制世界的》

Google Wave

機器人歷險記

Google Hacker

工業機器人

相關搜尋

熱門詞條