基本定義
網上檢索引擎,也就是我們所說的搜尋引擎。
分類
搜尋引擎按其工作方式主要可分為三種,分別是全文搜尋引擎(Full Text Search Engine)、目錄索引類搜尋引擎(Search Index/Directory)和元搜尋引擎(Meta Search Engine)。
全文搜尋引擎
全文搜尋引擎是名副其實的搜尋引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從網際網路上提取的各個網站的信息(以網頁文字為主)而建立的資料庫中,檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此他們是真正的搜尋引擎。
從搜尋結果來源的角度,全文搜尋引擎又可細分為兩種,一種是擁有自己的檢索程式(Indexer),俗稱“蜘蛛”(Spider)程式或“機器人”(Robot)程式,並自建網頁資料庫,搜尋結果直接從自身的資料庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的資料庫,並按自定的格式排列搜尋結果,如Lycos引擎。
目錄索引
目錄索引雖然有搜尋功能,但在嚴格意義上算不上是真正的搜尋引擎,僅僅是按目錄分類的網站連結列表而已。用戶完全可以不用進行關鍵字(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜尋也都屬於這一類。
元搜尋引擎(META Search Engine)
元搜尋引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜尋,並將結果返回給用戶。著名的元搜尋引擎有InfoSpace、Dogpile、Vivisimo等(元搜尋引擎列表),中文元搜尋引擎中具代表性的有搜星搜尋引擎。在搜尋結果排列方面,有的直接按來源引擎排列搜尋結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
集合式搜尋引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜尋引擎,但區別在於不是同時調用多個引擎進行搜尋,而是由用戶從提供的4個引擎當中選擇,因此叫它“集合式”搜尋引擎更確切些。
門戶搜尋引擎:如AOL Search、MSN Search等雖然提供搜尋服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他引擎。
免費連結列表(Free For All Links,簡稱FFA):這類網站一般只簡單地滾動排列連結條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
由於上述網站都為用戶提供搜尋查詢服務,為方便起見,我們通常將其統稱為搜尋引擎。
工作原理
了解搜尋引擎的工作原理對我們日常搜尋套用和網站提交推廣都會有很大幫助。
全文搜尋引擎
在搜尋引擎分類部分我們提到過全文搜尋引擎從網站提取信息建立網頁資料庫的概念。搜尋引擎的自動信息蒐集功能分兩種。一種是定期搜尋,即每隔一段時間(比如Google一般是28天),搜尋引擎主動派出“蜘蛛”程式,對一定IP位址範圍內的網際網路站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜尋,即網站擁有者主動向搜尋引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程式,掃描你的網站並將有關信息存入資料庫,以備用戶查詢。由於近年來搜尋引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜尋引擎資料庫,因此目前最好的辦法是多獲得一些外部連結,讓搜尋引擎有更多機會找到你並自動將你的網站收錄。
當用戶以關鍵字查找信息時,搜尋引擎會在資料庫中進行搜尋,如果找到與用戶要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵字的匹配程度,出現的位置/頻次,連結質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁連結返回給用戶。
目錄索引
與全文搜尋引擎相比,目錄索引有許多不同之處。
首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由於登錄Yahoo!的難度最大,而它又是商家網路行銷必爭之地,所以我們會在後面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜尋引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜尋引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵字搜尋,也可按分類目錄逐層查找。如以關鍵字搜尋,返回的結果跟搜尋引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜尋引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜尋引擎現在也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍。在默認搜尋模式下,一些目錄類搜尋引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜尋,如Yahoo。
起源
所有搜尋引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用檔案名稱查找檔案的系統,於是便有了Archie。Archie是第一個自動索引網際網路上匿名FTP網站檔案的程式,但它還不是真正的搜尋引擎。Archie是一個可搜尋的FTP檔案名稱列表,用戶必須輸入精確的檔案名稱搜尋,然後Archie會告訴用戶哪一個FTP地址可以下載該檔案。 由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了一個Gopher(Gopher FAQ)搜尋工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜尋工具。