功能
目錄搜尋引擎雖然有搜尋功能,但嚴格意義上不能稱為真正的搜尋引擎,只是按目錄分類的網站連結列表而已。用戶完全可以按照分類目錄找到所需要的信息。該類搜尋引擎因為加入了人的智慧型,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。
主要技術
一個搜尋引擎由搜尋器、索引器、檢索器和用戶接口等四個部分組成。
搜尋器
搜尋器的功能是在網際網路中漫遊,發現和蒐集信息。它常常是一個電腦程式,日夜不停地運行。它要儘可能多、儘可能快地蒐集各種類型的新信息,同時因為網際網路上的信息更新很快,所以還要定期更新已經蒐集過的舊信息,以避免死連線和無效連線。目前有兩種蒐集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在網際網路中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多連結的站點(如Yahoo!)。
● 將Web空間按照域名、IP位址或國家域名劃分,每個搜尋器負責一個子空間的窮盡搜尋。
搜尋器蒐集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP檔案、字處理文檔、多媒體信息。
搜尋器的實現常常用分散式、並行計算技術,以提高信息發現和更新的速度。商業搜尋引擎的信息發現可以達到每天幾百萬網頁。
索引器
索引器的功能是理解搜尋器所搜尋的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、連結流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵字及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔設定(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
在搜尋引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、資訊理論法和機率法。短語索引項的提取方法有統計法、機率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關係(proximity)。
索引器可以使用集中式索引算法或分散式索引算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規模峰值查詢時的回響速度)有很大的影響。一個搜尋引擎的有效性在很大程度上取決於索引的質量。
檢索器
檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數模型、機率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜尋引擎,高效率、多方式地從搜尋引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機互動的理論和方法,以充分適應人類的思維習慣。 用戶輸入接口可以分為簡單接口和複雜接口兩種。
簡單接口只提供用戶輸入查詢串的文本框;複雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關係(相鄰、NEAR)、域名範圍(如.edu、.com)、出現位置(如標題、內容)、信息時間、長度等等。一些公司和機構正在考慮制定查詢選項的標準。
特點
首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽你的網站,然後根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo這樣的超級索引,登錄更是困難。
此外,在登錄搜尋引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
最後,搜尋引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵字搜尋,也可按分類目錄逐層查找。如以關鍵字搜尋,返回的結果跟搜尋引擎一樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
發展趨勢
相互滲透
搜尋引擎與目錄搜尋引擎有相互融合滲透的趨勢。一些純粹的全文搜尋引擎現在也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而像 Yahoo! 這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍(注)。在默認搜尋模式下,一些目錄搜尋引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則默認的是網頁搜尋,如Yahoo。
套用趨減
分類目錄的信息有效性下降意味著其網路行銷價值的降低,登錄分類目錄的網站難以獲得有效的訪問量。與技術型的搜尋引擎自動收錄網站、自動更新網站索引信息相比,網站信息不能及時更新正是分類目錄的致命缺陷 。由於已經收錄的網站信息無法自動更新,即使分類目錄中的一些網站已經關閉,或者域名被用於其他完全無關的領域,但顯示在分類目錄網站上的信息仍然是最初登錄的內容。即使分類目錄網站提供了用戶自行修改網站信息的功能,但有些網站因關閉或者其他原因,通常也不會主動更新信息,因此結果造成分類目錄網站信息有效性降低,使得用戶查找信息非常不便,最終影響了分類目錄作為網站推廣方法的效果。
網路行銷
1、通常只能收錄網站首頁(或者若干頻道),而不能將大量網頁都提交給分類目錄;
2、網站一旦被收錄將在一定時期內保持穩定,有些分類目錄允許用戶自行修改網站介紹等部分信息;
3、無法通過“搜尋引擎最佳化”等手段提高網站在分類目錄中的排名;
4、對於付費分類目錄登錄,通常需要交納年度費用;
5、在高質量的分類目錄登錄,對於提高網站在搜尋引擎檢索結果中的排名有一定價值;
6、由於分類目錄收錄大量同類網站,並且多數用戶更習慣於用搜尋引擎直接檢索,因此僅靠分類目錄被用戶發現的機會相對較小,難以帶來很高的訪問量,通常還需要與其他網站推廣手段共同使用。