情報檢索算法
正文
用電子計算機查找情報的方法。同其他的計算機算法一樣,這些方法的描述應具備有窮、確定、可終止等性質。情報檢索算法的構造與選擇直接依賴於情報在計算機中的存儲與提問的表達方法。由於現代的計算機還不能直接有效地處理用自然語言表達的提問,所以,常用布爾邏輯式(以及擴充型布爾邏輯式)、模糊語言 (包括向量語言) 、機率方法和受限的自然語言等來表示提問,這樣就必然產生了各種相應的提問加工方法,以及有關的估算情報與提問匹配程度的相應名稱的算法。因為情報查找匹配方法的選擇在很大程度上還取決於文檔的結構,所以,下述查找算法為人們所常用:
對無序的順排文檔常用順序查找算法。特別在集中處理一批提問時,可用“表展開”加工提問與“一次掃描”算法實現快速查找。對已聚類的順排檔,可用“聚類查找”或“機率查找”等算法。對有序的順排檔,則常用“二分查找”、“估算入口法查找”或“B樹查找”等算法。對用計畫地址方法(如雜湊法)存儲的情報則採用“計算法查找”。
為了實現快速回響與追溯檢索,現代情報資料庫中往往不僅存儲代表原始情報的順排檔,而且還存儲情報的輔關鍵字(如作者、主題次、分類號等)索引,即所謂倒排檔。對倒排檔,通常採用“逆波蘭展開法”處理提問式,並使用對倒排檔進行集合運算的所謂“倒排檢索”算法。在倒排檢索縮小了檢索範圍後,有些情報檢索系統還允許對已粗檢出的內容再進行順序檢索,人們又常稱之為二次檢索算法。
在日本和中國,順序檢索中的表展開法、倒排檢索分別以菊池敏典法和福島方式命名。中國學者對這兩種方法都進行了改進和完善。在對菊池敏典表展開法改進的基礎上發展起來的“廣播技術”與“一次掃描”等檢索算法大大提高了定題情報檢索的效率。根據中文的特點,無標引、按字標引、自動抽詞標引、混合檢索等檢索算法的研究正在中國廣泛展開,並取得了一定的進展。對結合知識庫的情報檢索算法的研究在世界範圍內方興未艾,並代表著未來情報檢索的方向。