並行搜尋引擎(又稱集成搜尋引擎、元搜尋引擎、大型搜尋引擎)是一種可同時檢索多個搜尋引擎,並以統一的檢索界面返回檢索結果的檢索工具,其結構模型如圖1 所示。Metacrawler 是世界上第1個並行搜尋引擎,它使用幾大頂級搜尋引擎(Google, hoo, About等)進行並行搜尋,返回最相關的檢索結果,從而使網頁檢索更容易。並行搜尋引擎通過其轉換功能,將檢索用詞轉換為搜尋引擎可接受的形式,並提交給搜尋引擎,用於查找匹配記錄、進行記錄去重及檢索結果整合。由於並行搜尋引擎能協同檢索多個搜尋引擎,忽略其數據來源的結構差異,剔除相互之間的重複記錄,並檢驗檢索結果信息的有效性,因此可獲得高質量的檢索效果。
圖1 並行搜尋引擎的基本結構模型
與獨立搜尋引擎相比,並行搜尋引擎有4 個優勢:
(1)檢索信息擴大對Internet 的覆蓋範圍。研究表明,Internet 數據增長速度比獨立引擎索引網路數據的速度快很多,導致主流的獨立搜尋引擎對Internet 的覆蓋範圍逐步下降,而並行搜尋引擎可以緩解該矛盾。
(2)提高信息檢索的擴展性。使用並行搜尋引擎檢索網路信息比使用集中化的獨立搜尋引擎更容易得到擴展。
(3)並行檢索可以同時使用多個搜尋引擎。用戶只需要提交一次查詢就可以使用多個獨立引擎,不必熟悉每個獨立引擎的檢索界面,且並行搜尋引擎可以對檢索結果進行排序和冗餘處理。
(4)提高檢索效率。有時並行搜尋的檢索速度低於單個獨立搜尋引擎,但並行檢索可以獲得較大的結果集,為用戶提供更有效的檢索信息。一些學者認為未來的網路檢索服務將由許多各自覆蓋的小部分互連網的專業引擎協同提供。通用大型檢索系統的任務將由並行搜尋引擎代替。相對一些成熟的獨立搜尋引擎而言,並行搜尋引擎仍然
存在缺陷。由於並行搜尋引擎基本沒有自己管理的檢索信息,因此無法獲得檢索信息的描述信息,且其檢索質量還部分依賴於為其提供服務的獨立搜尋引擎,具體體現在:
(1)並行搜尋引擎可能不支持某些高級檢索功能,比如高級布爾檢索等。
(2)並行搜尋引擎不會返回所有檢索結果,例如,它只是將每個搜尋引擎最相關的檢索結果返回給用戶,若某個獨立搜尋引擎在規定時間內沒有回響,則忽略它的檢索結果。
(3)因為獨立搜尋引擎之間一般都有重複紀錄出現,所以並行搜尋引擎必須面對信息冗餘問題。文獻[4]提出基於Agent的方法,包含自然語言分析器、查詢定製、網頁收回、網頁過濾、網頁排序和用戶選項Agent來解決上述問題。本文基於格線的並行搜尋引擎,參考文獻的思想來解決並行搜尋引擎的一些問題。
相關詞條
-
並行設計
並行設計是一種對產品及其相關過程(包括設計製造過程和相關的支持過程)進行並行和集成設計的系統化工作模式。
-
並行處理計算機系統
並行處理計算機系統是指同時執行多個任務或多條指令或同時對多個數據項進行處理的計算機系統。
並行處理計算機系統 正文 相關連線 -
雲搜尋
雲搜尋(Cloud Search Engine),運用雲計算(Cloud Computing)技術的 搜尋引擎,可以綁定多個域名,定義搜尋範圍和性質,同...
例子 現狀 優勢 趨勢 -
《並行程式設計》
《並行程式設計》是由美.威爾金森 / 美.艾倫 譯者:陸鑫達所著,2002年1月1日,由機械工業出版社出版。
簡介 作者 書評 -
成都全搜尋
成都全搜尋是由成都商報投資組建的成都地區最大的社區生活入口網站,並致力於打造成都最大的網路社區。
簡介 成都全搜尋-首頁 成都全搜尋-新聞頻道 成都全搜尋龍門陣論壇 -
元搜尋
元搜尋引擎又稱多搜尋引擎,通過一個統一的用戶界面幫助用戶在多個搜尋引擎中選擇和利用合適的(甚至是同時利用若干個)搜尋引擎來實現檢索操作,是對分布於網路的...
簡介 起源 組成 原理 相關術語 -
聚合搜尋
聚合搜尋初步定義為個性化“元搜尋”,同時將信息聚合在一起實現網路工具化、個性化的發展需求;提升網路使用效率,讓用戶更快地從繁複的搜尋系統里解放出來,讓上...
概念 中文聚合搜尋 外文聚合搜尋 -
即刻搜尋
“即刻搜尋”是由人民搜尋網路股份公司於2011年6月20日推出的通用搜尋引擎平台,致力於成為大眾探索求知的工具、工作生活的助手和文化交流的平台。 “即刻...
發展歷史 搜尋技術 產品關停 網站優缺 社會評價 -
搜狗搜尋
搜狗搜尋 (sogou.com)是中國領先的中文搜尋引擎,致力於中文網際網路信息的深度挖掘,幫助中國上億網民加快信息獲取速度,為用戶創造價值。 2018年...
基本簡介 特點 特色 發展歷程 管理團隊