把火狐偽裝成爬蟲有什麼好處呢?對經常光顧verycd的朋友們非常有用。可以免登錄看貼。首先我們用火狐測試一下:打開這裡是不是要求你登錄?
繼續,設定方法,打開火狐,Ctrl+T新建一個瀏覽標籤,輸入:about:config,打開配置頁面,右鍵點擊頁面選擇“新建→字元串”,在彈出的視窗中輸入:general.useragent.override,確定之後,輸入:Googlebot/2.1 (+http://www.googlebot.com/bot.html),繼續確定,關閉視窗。
其實上次Matt所透露的僅僅是其中一方面的內容。今天,Matt再次寫了一篇非常詳細的文章,解釋了Google的各種bot是怎樣抓取網頁的,以及Google最新的BigDaddy在抓取網頁方面有什麼新的變化等等,內容非常的精彩,所以和大家分享一下。
首先要介紹的是Google的"crawl caching proxy"(爬行快取代理)。Matt舉了一個ISP與用戶的例子來說明它。用戶上網時,總是先通過ISP獲取網頁內容,然後ISP就會把用戶訪問過的網頁快取起來備用。比如說,當用戶A訪問了www.kenwong.cn,那么中國電信(或網通等)就會把"幻滅的麥克風"傳送給用戶A,然後將"幻滅的麥克風"快取起來,當用戶B在下一秒鐘里再訪問www.kenwong.cn,那么中國電信就會把快取里的"幻滅的麥克風"傳送給用戶B,這樣就能節省了頻寬。
正如本站之前所報導的那樣,Google最新的軟體層面的升級(轉移至BigDaddy)已經接近完成,因此升級後的Google各方面的能力都將得到加強。這些加強包括了更智慧型化的googlebot爬行、改良的規範性以及更好的收錄網頁能力。而在Googlebot爬行抓取網頁方面,Google也採取了節省頻寬的方法。Googlebot也隨著BigDaddy的升級而得到了升級。新的Googlebot已經正式支持了gzip編碼,所以如果你的網站開啟了gzip編碼功能,那么就能節省Googlebot爬行你的網頁時所占的頻寬。
除了改良的Googlebot外,升級後的Google將會採用上面所說到的crawl caching proxy來抓取網頁,以進一步節省頻寬。下面是一個示意圖,顯示了傳統的Googlebot是怎樣爬行一個網站的:
相關詞條
-
google機器人
google機器人是Google 的web 抓取漫遊器。它從web上收集文檔,為Google搜尋引擎建立可搜尋的索引。 Googlebot是google...
-
GOOGLE ANDROID
Android 是Google開發的基於Linux平台的開源手機作業系統。它包括作業系統、用戶界面和應用程式——行動電話工作所需的全部軟體,而且不存在任...
簡介 Android手機 團隊成員 未來發展 市場前景 -
Google實驗室
Google實驗室(Google Labs)是一個用來演示Google還在測試階段的新項目產品的網站。它也作為一個正開發中新服務的試驗場。另外,也是Go...
簡介 優秀套用 產品 項目 -
《Google是如何控制世界的》
在本書中,丹尼爾將向讀者揭示Google的創立與發展,以及在市場競爭中迎接挑戰、經受考驗、獲取成功的過程。
基本資料 編輯推薦 內容簡介 作者簡介 目錄列表 -
Google Wave
Google Wave,按照Google 2009年5月27日在Google I/O上的說法是“一種個人通信和協作工具”。它是一個基於Web的服務,計算...
名詞解析 設計理念 主要功能 體驗版 相關新聞 -
機器人歷險記
robots是網站跟爬蟲間的協定,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的許可權,也就是說robots.txt是搜尋引擎中訪問網站的時候要查看...
robots簡介 使用誤區 使用技巧 robots.txt檔案的格式 -
Google Hacker
Google hacker (Google黑客)是利用GOOGLE提供的搜尋功能查找黑客們想找到的信息。一般是查找網站後台,網管的個人信息,也可以用來查...
入侵方法 後記 -
工業機器人
工業機器人(英語:industrial robot簡稱IR)是面向工業領域的多關節機械手或多自由度的機器裝置,它能自動執行工作,是靠自身動力和控制能力來...
歷史沿革 主要特點 組成結構 發展前景 技術原理