Disallow

Disallow

disallow在字典中是這樣定義的“捨棄”(deny)這個詞的拒絕,謝絕同意,不接受,的意思,在網路中的意思就是告訴搜尋引擎蜘蛛都有哪些檔案不被抓取,也成為禁止抓取。

簡介

一般情況下,大多數網站創建者或管理員都會在網站的根目錄放置一個名為robots.txt的文本檔案,用來控制自己的網站哪些目錄允許SE搜尋引擎 爬行並收錄,哪些目錄禁止搜尋引擎收錄,Disallow,正是robots.txt檔案中設定禁止搜尋引擎收錄哪些目錄的一個詞語。

示例

例子:

1. 允許所有SE(搜尋引擎)收錄本站:robots.txt為空就可以,什麼都不要寫。

2. 禁止所有SE(搜尋引擎)收錄網站的某些目錄:

User-agent: *

Disallow: /目錄名1/

Disallow: /目錄名2/

Disallow: /目錄名3/

3. 禁止某個SE(搜尋引擎)收錄本站,例如禁止百度:

User-agent: Baiduspider

Disallow: /

4. 禁止所有SE(搜尋引擎)收錄本站:

User-agent: *

Disallow: /

它的用途是告訴上一子集,確定某個對象用的。

robots.txt

什麼是robots.txt

robots.txt是一個純文本txt檔案,用在網站伺服器上。它是搜尋引擎訪問網站的時候要查看的第一個檔案,robots.txt檔案告訴搜尋引擎在伺服器上什麼檔案是可以被查看的,哪些網頁可以收錄,哪些不允許收錄,對與seo最佳化而言,放置一個robots.txt是對搜尋引擎友好的表現,robots.txt必須放置在一個站點的根目錄下,且檔案名稱必須全部小寫。

robots.txt作用

robots.txt主要作用是保障網路安全與網站隱私,搜尋引擎遵循robots.txt協定。通過根目錄中創建的純文本檔案robots.txt,網站就可以聲明哪些頁面不想被搜尋引擎爬行並收錄,每個網站都可以自主控制網站是否願意被搜尋引擎收錄,或者指定搜尋引擎只收錄指定的內容。當搜尋引擎訪問某個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果該檔案不存在,那么爬蟲就沿著連結抓取,如果存在,爬蟲就會按照該檔案中的內容來確定訪問的範圍。

robots.txt檔案的格式

User-agent:_____ 空白處為定義搜尋引擎的類型;

Crawl-delay:_____ 空白處為定義抓取延遲;

Disallow:_____ 空白處為定義禁止搜尋引擎收錄的地址;

Allow:_____ 空白處為定義允許搜尋引擎收錄的地址;

相關詞條

相關搜尋

熱門詞條

聯絡我們