對於結構化數據,用RDBMS(關係資料庫管理系統)技術來管理是目前最好的一種方式。但是由於RDBMS自身底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢。而通過全文檢索技術就能高效地管理這些非結構化數據。
經過幾年的發展,全文檢索從最初的字元串匹配程式已經演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的大型軟體。由於內涵和外延的深刻變化,全文檢索系統已成為新一代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規範。
首先,我們關注的是查全率,即系統在進行某一檢索時,檢索出的相關資料量與系統資料庫中相關資料總量的比率。查準率則是保證我們找到最有用資料的一個關鍵,是系統在進行某一檢索時,檢索出的有用資料數量與檢索出資料總量的比率。檢索速度或者說回響時間是提高工作效率的保障,指的是從提交檢索課題到查出資料結果所需的時間。最基本的檢索速度是應該達?quot;千萬漢字,秒級回響"。還有諸如收錄範圍(所查找的範圍)、用戶負擔(用戶在檢索過程中付出精力的總和)、輸出形式 (輸出信息表現形式)等指標也是衡量全文檢索系統優劣的要素。
搜尋引擎應該是全文檢索技術最主要的一個套用。目前,搜尋引擎的使用已成為排在收發電子郵件之後的第二大網際網路套用技術。搜尋引擎起源於傳統的信息全文檢索理論,即電腦程式通過掃描每一篇文章中的每一個詞,建立以詞為單位的到排檔案,檢索程式根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的機率,對包含這些檢索詞的文章進行排序,最後輸出排序的結果。全文檢索技術是搜尋引擎的核心支撐技術。
一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索,站點檢索應是分類目錄導航和全文檢索的完美結合,具體包括以下幾個方面:
分類目錄導航的關鍵是檢索範圍,檢索範圍的限制能使得檢索結果不會太多、太濫;
全文檢索對於站點檢索是必不可少的,在通常情況下能夠幫助人們很快地找到所要的網頁;
有時利用分類目錄導航和全文檢索還很難定位到所要的信息,這時就要組合檢索輔助;
必須有相關排序功能,因為當檢索結果太多時,用戶不可能一一瀏覽,大多數用戶只瀏覽前面幾條,沒有相關排序,可能準確的檢索結果排在後面,用戶不能瀏覽到,而排在前面的檢索結果卻相關性很少,造成用戶的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量並發用戶突發訪問、Web站點的動態特性、要求索引維護效率很高等方面。
相關詞條
-
全文檢索
全文檢索是一種將檔案中所有文本與檢索項匹配的文字資料檢索方法。全文檢索系統是按照全文檢索理論建立起來的用於提供全文檢索服務的軟體系統。例如,在一個資料夾...
基本介紹 與之相關議題 系統檢索 開放原始碼 議題最佳化 -
全文檢索系統軟體
Goonie全文檢索系統是一個功能強大、高性能、靈活的全文索引和檢索平台,核心功能是實現對結構化、非結構化信息的全文檢索和統一存儲。
產品概述 產品架構 功能特點 產品優勢 運行環境 -
全文檢索產品
起點企業搜尋平台針對企業內部信息系統中,不同的用戶使用許可權不同的這一特點,提供針對用戶、對資源進行許可權分級管理和控制能力,確保企業內部信息系統的安全。 ...
1. “企業級安全”的搜尋引擎 2. 多作業系統、多平台、多資料庫支持 -
信息檢索技術
信息檢索技術,計算機網路術語,指利用計算機檢索資料庫的過程,優點是速度快,缺點是回溯性不好,且有時間限制。
基本介紹 信息檢索的手段 為什麼要進行信息檢索 信息檢索的四個要素 -
XML文檔全文檢索的理論與方法
XML文檔特徵描述 XML文檔的索引方法 XML信息檢索
圖書信息 內容簡介 作者簡介 目錄 -
實用檢索技術
信息檢索基礎 信息檢索概述 檢索實例
內容簡介 目錄 -
中國期刊全文資料庫
《中國期刊全文資料庫(CJFD)》是目前世界上最大的連續動態更新的中國期刊全文資料庫,積累全文文獻800萬篇,題錄1500餘萬條,分九大專輯,126個專...
簡介 特點 套用 相關解答 檢索系統 -
全文搜尋
全文檢索是指計算機索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引...
方法 系統 常用 搜尋引擎分類 -
全文資料庫
全文資料庫集文獻檢索與全文提供於一體。優點是免去了檢索書目資料庫後還得費力去獲取原文的麻煩和提供全文欄位檢索,便於讀者對文獻的查詢。
分類 主要資料庫