全文檢索

全文檢索

全文檢索是一種將檔案中所有文本與檢索項匹配的文字資料檢索方法。全文檢索系統是按照全文檢索理論建立起來的用於提供全文檢索服務的軟體系統。例如,在一個資料夾中,或者一個磁碟中有很多的檔案,記事本、world、Excel、pdf,我們想根據其中的關鍵字搜尋包含的檔案。如果,我們輸入Lucene,所有內容含有Lucene的檔案就會被檢查出來。這就是所謂的全文檢索。

基本信息

基本介紹

全文檢索全文檢索
全文檢索是將存儲於資料庫中整本書、整篇文章中的任意內容信息查找出來的檢索。它可以根據需要獲得全文中有關章、節、段、句、詞等信息,也就是說類似於給整本書的每個字詞添加一個標籤,也可以進行各種統計和分析。例如,它可以很快的回答“《紅樓夢》一書中“林黛玉”一共出現多少次?”的問題。

與之相關議題

語根處理(stemming)
符素解析器(tokenparser)1-gram,2-gram,n-gram
斷詞/分詞wordsegmentation
倒排索引invertedindex
算法、搜尋策略之模型
布林式boolean
統計模型Probabilisticmodel
向量空間模型vectorbasemodel
隱性語義模型Latentsemanticmodel

系統檢索

評量之準則
判斷檢索效果的兩個指標:
查全率=被檢出相關信息量/相關信息總量(%)
查準率=被檢出相關信息量/被檢出信息總量(%)

開放原始碼

ApacheSolr
BaseX
ClusterpointServer(freewarelicenceforasingle-server)
DataparkSearch
Ferret
Ht-//Dig
HyperEstraier
KinoSearch
Lemur/Indri
Lucene
mnoGoSearch
Sphinx
Swish-e
Xapian
ElasticSearch

議題最佳化

和中文有關的議題
斷詞(分詞)
語法解析
古籍議題
多語言混合
最佳化
剔除字(Stopwords)
詞性標註
權威檔(authorityfile)
知識體系,本體論(ontology)
超連結分析(pagerank)技術
歷史及未來之趨勢
自由語句搜尋
基於自然語言的分詞

相關詞條

相關搜尋

熱門詞條

聯絡我們