全文搜尋引擎

全文搜尋引擎

全文搜尋引擎是廣泛套用的主流搜尋引擎。它的工作原理是計算機索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查找,並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。搜尋引擎面臨大量的用戶檢索需求(幾十~幾千點擊/秒),要求搜尋引擎在檢索程式的設計上要高效,儘可能的將大運算量的工作在索引建立時完成,使檢索時的運算壓力能夠承受,一般的資料庫查詢技術無法實現全文搜尋的時間要求。

定義和分類

定義

全文搜尋引擎是目前廣泛套用的主流搜尋引擎。它的工作原理是計算機索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查找,並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。

分類

全文搜尋引擎全文搜尋引擎

全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢索是指對於文章中的每一個字都建立索引,檢索時將詞分解為字的組合。對於各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時按詞檢索,並且可以處理同義項等。英文等西方文字由於按照空白切分詞,因此實現上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關於這方面的問題,是當前全文檢索技術尤其是中文全文檢索技術中的難點。

採用的技術

技術特點

搜尋引擎面臨大量的用戶檢索需求(幾十~幾千點擊/秒),要求搜尋引擎在檢索程式的設計上要高效,儘可能的將大運算量的工作在索引建立時完成,使檢索時的運算壓力能夠承受,一般的資料庫查詢技術無法實現全文搜尋的時間要求。

倒排技術

目前全文搜尋引擎通常使用倒排索引技術。倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜尋下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。

有兩種不同的反向索引形式:

一條記錄的水平反向索引(或者反向檔案索引)包含每個引用單詞的文檔的列表。 一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。 後者的形式提供了更多的兼容性(比如短語搜尋),但是需要更多的時間和空間來創建。

相關詞條

相關搜尋

熱門詞條

聯絡我們