XML檢索

如何充分利用XML的新特性,同時借鑑傳統信息檢索的方法與技術,開發基於XML的信息檢索系統,已成為國際信息檢索領域研究的熱點問題之一。 XML檢索的目標與任務與傳統信息檢索系統不同,XML檢索系統返回的結果是元素,而不單是整個文檔。 檢索結果包括元素信息、文檔信息和結構信息,這決定了XML檢索的檢索任務是多樣的。

引言

隨著Internet上信息量的與日俱增,傳統的基於HTML的信息檢索已經無法滿足人們不斷變化的信息需求。為此,專家學者們努力尋求各種新的技術方法和解決手段,XML的出現在很大程度上能緩解這一問題。由於XML具有可擴展性、簡單性、開放性、互操作性等諸多特點,正逐步取代HTML,成為駐留在Web上的主要的信息形式,而其結構化及自描述等特性亦給檢索效果的提高帶來了新的契機。如何充分利用XML的新特性,同時借鑑傳統信息檢索的方法與技術,開發基於XML的信息檢索系統,已成為國際信息檢索領域研究的熱點問題之一。

XML檢索系統概述

XML檢索與傳統信息檢索的區別

XML檢索與傳統信息檢索的最大區別在於:在傳統的信息檢索中,檢索單元是固定的、完整的文檔;而在XML檢索中,文檔中的各個層次的XML元素都是可檢索的單元。這使得XML檢索更加困難,除了相關性外,檢索單元的大小、單元之間的信息重疊問題、同一文檔內各單元信息的相關性等都是需要考慮的問題;此外,傳統的檢索系統只對信息的內容進行索引,提供關鍵字基礎上的自由文本的內容檢索,這些檢索往往忽視了對被搜尋的概念語義的掌握,因而造成檢索結果查全率和查準率不高;而XML信息檢索系統更關注文檔中蘊含著豐富的結構信息和語義信息,它對內容進行索引的同時還對元素進行索引,這樣的好處是不僅能從文檔中找到相關信息,而且通過考慮信息的結構和粒度問題,能實現內容+結構(ContentandStructure,CAS)的檢索。

XML檢索的目標與任務

與傳統信息檢索系統不同,XML檢索系統返回的結果是元素,而不單是整個文檔。檢索結果包括元素信息、文檔信息和結構信息,這決定了XML檢索的檢索任務是多樣的。對於Ad-Hoc檢索,有3個子任務:CO(ContentOnly)子任務,CO+S(ContentOnly+Struc?
ture)子任務以及CAS(ContentandStructure)子任務。其中,CO子任務是面向內容的XML檢索,其不考慮XML結構信息,根據返回信息的類型和方式,該任務分為CO.Focused(檢索結果不含重復元素信息)、CO.Thorough(檢索結果允許重複元素信息)以及CO.FetchBrowse(先檢索文檔然後對文檔內元素信息按相關度進行排序顯示,
該類型是文檔檢索和元素檢索的結合);CO+S子任務關注的是CO查詢加上結構提示後的檢索效果;CAS查詢則適合了解文檔模式的用戶,可包含明確的或含糊的結構要求。其中CAS查詢又分嚴格的結構與內容(StrictContentandStructure,SCAS)查詢和模糊的結構與內容(VagueContentandStructure,VCAS)查詢。SCAS查詢要求包含明確的路徑結構要求,所有滿足目標路徑要求的查詢結果才認為是相關。VCAS查詢可包含鬆散或含糊的路徑結構要求,查詢結果未必準確符合查詢的目標路徑要求。

相關詞條

相關搜尋

熱門詞條

聯絡我們