全文檢索技術

全文檢索是指計算機索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查找,並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢索是指對於文章中的每一個字都建立索引,檢索時將詞分解為字的組合。對於各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時按詞檢索,並且可以處理同義項等。英文等西方文字由於按照空白切分詞,因此實現上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關於這方面的問題,是當前全文檢索技術尤其是中文全文檢索技術中的難點,在此不做詳述。

隨著計算機產業的發展,以計算機存儲設備為載體的電子信息愈來愈多,這些信息大致可分為兩類:結構化數據和非結構化數據,結構化數據指的是諸如企業財務帳目和生產數據、學生的分數數據等等,非結構化數據的則是一些文本數據、圖象聲音等多媒體數據等等。據統計,非結構化數據占有整個信息量的80%以上。
對於結構化數據,用RDBMS(關係資料庫管理系統)技術來管理是目前最好的一種方式。但是由於RDBMS自身底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢。而通過全文檢索技術就能高效地管理這些非結構化數據。
經過幾年的發展,全文檢索從最初的字元串匹配程式已經演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的大型軟體。由於內涵和外延的深刻變化,全文檢索系統已成為新一代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規範。
首先,我們關注的是查全率,即系統在進行某一檢索時,檢索出的相關資料量與系統資料庫中相關資料總量的比率。查準率則是保證我們找到最有用資料的一個關鍵,是系統在進行某一檢索時,檢索出的有用資料數量與檢索出資料總量的比率。檢索速度或者說回響時間是提高工作效率的保障,指的是從提交檢索課題到查出資料結果所需的時間。最基本的檢索速度是應該達?quot;千萬漢字,秒級回響"。還有諸如收錄範圍(所查找的範圍)、用戶負擔(用戶在檢索過程中付出精力的總和)、輸出形式 (輸出信息表現形式)等指標也是衡量全文檢索系統優劣的要素。
搜尋引擎應該是全文檢索技術最主要的一個套用。目前,搜尋引擎的使用已成為排在收發電子郵件之後的第二大網際網路套用技術。搜尋引擎起源於傳統的信息全文檢索理論,即電腦程式通過掃描每一篇文章中的每一個詞,建立以詞為單位的到排檔案,檢索程式根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的機率,對包含這些檢索詞的文章進行排序,最後輸出排序的結果。全文檢索技術是搜尋引擎的核心支撐技術。
一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應是分類目錄導航和全文檢索的完美結合,具體包括以下幾個方面:
分類目錄導航的關鍵是檢索範圍,檢索範圍的限制能使得檢索結果不會太多、太濫;
全文檢索對於站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網頁;
有時利用分類目錄導航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;
必須有相關排序功能,因為當檢索結果太多時,用戶不可能一一瀏覽,大多數用戶只瀏覽前面幾條,沒有相關排序,可能準確的檢索結果排在後面,用戶不能瀏覽到,而排在前面的檢索結果卻相關性很少,造成用戶的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量並發用戶突發訪問、Web站點的動態特性、要求索引維護效率很高等方面。

相關詞條

熱門詞條

聯絡我們