簡介
一般情況下,大多數網站創建者或管理員都會在網站的根目錄放置一個名為robots.txt的文本檔案,用來控制自己的網站哪些目錄允許SE搜尋引擎 爬行並收錄,哪些目錄禁止搜尋引擎收錄,Disallow,正是robots.txt檔案中設定禁止搜尋引擎收錄哪些目錄的一個詞語。
示例
例子:
1. 允許所有SE(搜尋引擎)收錄本站:robots.txt為空就可以,什麼都不要寫。
2. 禁止所有SE(搜尋引擎)收錄網站的某些目錄:
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/
3. 禁止某個SE(搜尋引擎)收錄本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE(搜尋引擎)收錄本站:
User-agent: *
Disallow: /
它的用途是告訴上一子集,確定某個對象用的。
robots.txt
什麼是robots.txt
robots.txt是一個純文本txt檔案,用在網站伺服器上。它是搜尋引擎訪問網站的時候要查看的第一個檔案,robots.txt檔案告訴搜尋引擎在伺服器上什麼檔案是可以被查看的,哪些網頁可以收錄,哪些不允許收錄,對與seo最佳化而言,放置一個robots.txt是對搜尋引擎友好的表現,robots.txt必須放置在一個站點的根目錄下,且檔案名稱必須全部小寫。
robots.txt作用
robots.txt主要作用是保障網路安全與網站隱私,搜尋引擎遵循robots.txt協定。通過根目錄中創建的純文本檔案robots.txt,網站就可以聲明哪些頁面不想被搜尋引擎爬行並收錄,每個網站都可以自主控制網站是否願意被搜尋引擎收錄,或者指定搜尋引擎只收錄指定的內容。當搜尋引擎訪問某個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果該檔案不存在,那么爬蟲就沿著連結抓取,如果存在,爬蟲就會按照該檔案中的內容來確定訪問的範圍。
robots.txt檔案的格式
User-agent:_____ 空白處為定義搜尋引擎的類型;
Crawl-delay:_____ 空白處為定義抓取延遲;
Disallow:_____ 空白處為定義禁止搜尋引擎收錄的地址;
Allow:_____ 空白處為定義允許搜尋引擎收錄的地址;