檢索測試集

檢索測試集

用於信息檢索評測的測試集一直推動著檢索系統的研究、設計與發展。檢索測試集主要由文檔集、查詢集、相關判斷集三個部分構成。國外比較典型的測試集有TREC(Text RE-trieval Conference)、CACM、ISI等。目前國內尚無建立起標準的可用於中文信息檢索評測的小型測試集。

基本概念

用於信息檢索評測的測試集一直推動著檢索系統的研究、設計與發展。研究者進行信息檢索評測的一般模式,是將需要查詢的問題形成查詢語句,輸入檢索系統,檢索系統在文檔集合內進行檢索,將可能符合要求的文檔提交給研究者,研究者再將得到的文檔和標準答案作對比,以此評價檢索系統的性能。因此,檢索測試集主要由文檔集、查詢集、相關判斷集三個部分構成。

研究現狀

國內外研究現狀

早期測試集最有影響的研究是Cleverdon在20世紀50年代末期開始進行Cranfield實驗,它開創了以測試集及評測指標來評測系統的模式。目前在信息檢索評測領域,國際上比較著名的是TREC(Text RE-trieval Conference)文本檢索會議,它提供了大型(超過百萬文檔)的英文測試集,同時TREC也構建了小型中文測試集,但僅提供給參賽評測單位使用。國外比較小型的測試集則有CACM,ISI等,文檔的語種類型多為英文。國內在構建測試集方面仍處於學習國外的階段,北京大學已經建立了基於Web檢索的大型中文測試集。

用於信息檢索評測的測試集一直推動著檢索系統的研究、設計與發展。由於系統檢索的過程高度依賴於文檔的語言類型,已有的比較成熟的測試集所包含文檔的語言類型多為英文,所以並不適合用以評測中文檢索系統。中文測試集的缺乏,制約了中文檢索系統的研究。目前已構建的大型測試集,都需要耗費大量的時間和人力,難以在短期內完成,並且檢索系統進行測試本身也要耗費大量的時問與精力。對於不願進行這樣大投資的研究者來說,一個可選的方案就是使用能在較短時間內建立和測試的小型測試集。由於小型測試集的規模比較小,它可以靈活地添加一些大型測試集所不具備的特徵,用於檢驗某些特定的搜尋技術。此外,若能運用同一標準測試集對不同中文檢索系統進行評測,則有利於評測結果的比較,其結果也將會更有意義。目前國內尚無建立起標準的可用於中文信息檢索評測的小型測試集。因此,有必要構建一種小型中文測試集,用於信息檢索研究的評測工作。

相關判斷方法

國外測試集一般採用以下兩種方法減少相關判斷人員的工作量:Pooling方法與Interactive Searching and Judging(ISJ)方法。

(1)Pooling方法:針對某一查詢主題,所有參加評測的檢索系統分別給出各自檢索結果的前K個文檔(如K=100),將這些結果文檔匯集起來,得到一個可能相關的文檔“池”(P00l),然後由檢索評價專家進行人工判斷,評判每一文檔的相關性,將最終判定為相關的文檔作為相關判斷集,並按相關程度將其排序。不在相關判斷集中的文檔視為不相關文檔。TREC採用Pooling方法來構建相關文檔集。

(2)ISJ方法:測試集構建者使用一種可靠的搜尋弓l擎來檢索查詢主題,通過人工分析檢索結果,得到最符合查詢主題要求的文檔。在這一過程中,查詢主題中術語的同義詞也可作為查詢條件用來檢索。這個方法比Pooling方法更能節省時間,這些檢索結果的精確度也更高。ISJ方法多用於小型測試集的構建。

檢索測試集的構建

檢索測試集主要由文檔集、查詢集、相關判斷集三個部分構成。

文檔集的構建

基於以下四個方面的考慮,本文將文檔集中的文檔限定在計算機領域:

(1)能夠做到所選用的文檔儘可能地覆蓋該領域的諸多方面,方便模擬真實環境;

(2)能夠保證查詢集在所限定的領域內具有廣泛的主題內容;

(3)參加測試集構建的人員均為計算機專業人員,對計算機類文檔認知度較高,能夠提高判斷的準確度;

(4)可以在較短的時聞內來完成對文檔集的構建。在本文檔集的結構方面,以檢索文字資料為主,以單篇文檔為最小檢索單位。文檔收集完成後,進一步做了一下兩方面處理:

a.規定保存類型;

b.建立索引表。

查詢集的構建

查詢主題的構建流程設計如下:

(1)根據文檔集中文檔內容的分布情況,將文檔集劃分成多個類別,在每個類別中根據文檔的具體內容來創建查詢主題;

(2)篩選由步驟(1)得到的查詢主題。篩選分為三個階段:

第一階段,過濾敘述不清、不夠詳盡或過於主觀的查詢主題,將與文檔集內容不符或變動過大的即時性查詢主題刪除;

第二階段,考慮初步篩選之後剩餘查詢主題的相似性,避免出現相似性較高的查詢主題;

第三階段,對每個查詢主題,預測可能相關文檔的數量,判斷查詢主題的範圍是否過於廣泛或過於狹窄,初步預測查詢需求的難易程度。

相關判斷集的構建

採用ISJ方法輔助構建相關判斷集,主要通過以下幾步來輔助構建相關判斷集:

(1)確定一個可靠的檢索系統。通過分析檢索結果的精確度和使用的難易程度,決定使用谷歌中文檢索系統;

(2)在查詢集的構建過程中已經得到每個查詢主題的關鍵字,格這些關鍵字及其同義詞共同作為查詢條件通過谷歌進行檢索,得到若干文檔的集合;

(3)確定檢索結果中哪些是可以使用的文檔,將最終確定的相關文檔合併到文檔集中;

(4)使用賦值方法,對新加入文檔進行相關程度的賦值,並將結果加入到相關判斷集中。

相關詞條

熱門詞條

聯絡我們