基本介紹
爬行器(Spider)指在 Web 上漫遊,尋找要添加進搜尋引擎索引中的列表。爬行器有時也稱為 Web 爬行榜(Webcrawler)或機器人。針對有機列表最佳化頁面也就是為了吸引爬行器的注意。網路爬蟲,也稱為蜘蛛程式(Spider)。網路爬蟲是一個自動提取網頁的程式,是搜尋引擎的重要組成部分。作為爬蟲來講,就是儘可能多和快的給搜尋引擎輸送網頁,實現強大的數據支持。
網路爬蟲是通過網頁的連結地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其他連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。
如果把整個網際網路當成一個網站,那么網路爬蟲就可以用這個原理把網際網路上所有的網頁都抓取下來。