XML檢索:如何充分利用ＸＭＬ的新特性，同時借鑑傳統信息檢索的方法與技術 -百科知識中文網

引言

隨著Ｉｎｔｅｒｎｅｔ上信息量的與日俱增，傳統的基於ＨＴＭＬ的信息檢索已經無法滿足人們不斷變化的信息需求。為此，專家學者們努力尋求各種新的技術方法和解決手段，ＸＭＬ的出現在很大程度上能緩解這一問題。由於ＸＭＬ具有可擴展性、簡單性、開放性、互操作性等諸多特點，正逐步取代ＨＴＭＬ，成為駐留在Ｗｅｂ上的主要的信息形式，而其結構化及自描述等特性亦給檢索效果的提高帶來了新的契機。如何充分利用ＸＭＬ的新特性，同時借鑑傳統信息檢索的方法與技術，開發基於ＸＭＬ的信息檢索系統，已成為國際信息檢索領域研究的熱點問題之一。

ＸＭＬ檢索系統概述

ＸＭＬ檢索與傳統信息檢索的區別

ＸＭＬ檢索與傳統信息檢索的最大區別在於：在傳統的信息檢索中，檢索單元是固定的、完整的文檔；而在ＸＭＬ檢索中，文檔中的各個層次的ＸＭＬ元素都是可檢索的單元。這使得ＸＭＬ檢索更加困難，除了相關性外，檢索單元的大小、單元之間的信息重疊問題、同一文檔內各單元信息的相關性等都是需要考慮的問題；此外，傳統的檢索系統只對信息的內容進行索引，提供關鍵字基礎上的自由文本的內容檢索，這些檢索往往忽視了對被搜尋的概念語義的掌握，因而造成檢索結果查全率和查準率不高；而ＸＭＬ信息檢索系統更關注文檔中蘊含著豐富的結構信息和語義信息，它對內容進行索引的同時還對元素進行索引，這樣的好處是不僅能從文檔中找到相關信息，而且通過考慮信息的結構和粒度問題，能實現內容+結構（ＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ，ＣＡＳ）的檢索。

ＸＭＬ檢索的目標與任務

與傳統信息檢索系統不同，ＸＭＬ檢索系統返回的結果是元素，而不單是整個文檔。檢索結果包括元素信息、文檔信息和結構信息，這決定了ＸＭＬ檢索的檢索任務是多樣的。對於Ａｄ－Ｈｏｃ檢索，有３個子任務：ＣＯ（ＣｏｎｔｅｎｔＯｎｌｙ）子任務，ＣＯ＋Ｓ（ＣｏｎｔｅｎｔＯｎｌｙ＋Ｓｔｒｕｃ?
ｔｕｒｅ）子任務以及ＣＡＳ（ＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ）子任務。其中，ＣＯ子任務是面向內容的ＸＭＬ檢索，其不考慮ＸＭＬ結構信息，根據返回信息的類型和方式，該任務分為ＣＯ．Ｆｏｃｕｓｅｄ（檢索結果不含重復元素信息）、ＣＯ．Ｔｈｏｒｏｕｇｈ（檢索結果允許重複元素信息）以及ＣＯ．ＦｅｔｃｈＢｒｏｗｓｅ（先檢索文檔然後對文檔內元素信息按相關度進行排序顯示，
該類型是文檔檢索和元素檢索的結合）；ＣＯ＋Ｓ子任務關注的是ＣＯ查詢加上結構提示後的檢索效果；ＣＡＳ查詢則適合了解文檔模式的用戶，可包含明確的或含糊的結構要求。其中ＣＡＳ查詢又分嚴格的結構與內容（ＳｔｒｉｃｔＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ，ＳＣＡＳ）查詢和模糊的結構與內容（ＶａｇｕｅＣｏｎｔｅｎｔａｎｄＳｔｒｕｃｔｕｒｅ，ＶＣＡＳ）查詢。ＳＣＡＳ查詢要求包含明確的路徑結構要求，所有滿足目標路徑要求的查詢結果才認為是相關。ＶＣＡＳ查詢可包含鬆散或含糊的路徑結構要求，查詢結果未必準確符合查詢的目標路徑要求。

XML檢索

引言

ＸＭＬ檢索系統概述

相關詞條

XML文檔全文檢索的理論與方法

xml資料庫

XML語言

XML程式開發

XML挖掘

相關檢索

不完全信息下XML資料庫基礎

XML數據管理：概念與技術

相關搜尋

熱門詞條