技術介紹
文本檢索,亦稱為自然語言檢索,指不對文獻進行任何標引,直接通過計算機以自然語言中的語詞匹配查找的系統。文本檢索進行匹配的對象,可以是整個出版的文本,包括文章、報告甚整本圖書,也可以是它的部分,如文摘、摘錄或只是文獻的題名。以整個文獻正文為對象進行的匹配查找,稱為全文檢索。這種方式無需標引,資料庫製作快,可以很快投入運行
典型文本檢索
最早最典型的文本檢索是圖書館的圖書索引,根據書名、作者、出版社、出版時間、書號等信息對館藏圖書進行索引,讀者只需根據索引即可很快的查到所需要的書存放在圖書館的什麼地方。
計算機的出現
隨著計算機的出現,人們藉助計算機可以更加方便的管理更多的文檔,計算機硬碟甚至可以裝下全世界所有圖書館藏書。為了快速查找計算機所管理的文檔,出現了第一代文本檢索技術,即根據關鍵字匹配,將包含關鍵字的文檔挑出來作為檢索結果呈現給用戶。
文檔數量增加
隨著文檔數量的增加,運用第一代文本檢索技術已經很難檢索出精確的檢索結果,於是根據文本內容的第二代文本檢索技術應運而生。即根據系統對文本和檢索語句的理解,計算文本和檢索語句的相似度,根據相似度對檢索結果排序,將相似度最高的檢索結果呈現給用戶。
網際網路發展
隨著網際網路的出現和發展,文本文獻在網際網路上的數量發展更加迅猛,文本的數量級和文本的結構都發生了變化:文本數量大幅度增長、網際網路上的文本成為半結構化的。這給文本檢索技術提出了更大的挑戰和機遇。於是在基於相似度的檢索技術基礎上,出現了結合文本結構信息(如文本的網路地址、大小寫、文本在頁面中所處的位置、所指向的其他文本、指向自己的其他文本等)對檢索結果集進行再排序的第三代文本檢索技術,Google就是最經典的例子。
文本檢索技術
現代的文本檢索技術逐漸向語意理解、特定領域等方向發展。全世界科學家都在不遺餘力的建設“本體庫”,如WordNet、HowNet等本體字典。通過本體庫將文本轉化為語義集合,從提煉文本的語義,以提供語義層次的檢索。此外,對於生物、醫學、法律、新聞、以及新出現的Blog等領域,都出現了轉門針對單個領域的檢索技術,並且得到了迅猛發展。
文本檢索領域的著名國際學術會議有SIGIR、WWW、TREC等。