基本概念
用於信息檢索評測的測試集一直推動著檢索系統的研究、設計與發展。研究者進行信息檢索評測的一般模式,是將需要查詢的問題形成查詢語句,輸入檢索系統,檢索系統在文檔集合內進行檢索,將可能符合要求的文檔提交給研究者,研究者再將得到的文檔和標準答案作對比,以此評價檢索系統的性能。因此,檢索測試集主要由文檔集、查詢集、相關判斷集三個部分構成。
研究現狀
國內外研究現狀
早期測試集最有影響的研究是Cleverdon在20世紀50年代末期開始進行Cranfield實驗,它開創了以測試集及評測指標來評測系統的模式。目前在信息檢索評測領域,國際上比較著名的是TREC(Text RE-trieval Conference)文本檢索會議,它提供了大型(超過百萬文檔)的英文測試集,同時TREC也構建了小型中文測試集,但僅提供給參賽評測單位使用。國外比較小型的測試集則有CACM,ISI等,文檔的語種類型多為英文。國內在構建測試集方面仍處於學習國外的階段,北京大學已經建立了基於Web檢索的大型中文測試集。
用於信息檢索評測的測試集一直推動著檢索系統的研究、設計與發展。由於系統檢索的過程高度依賴於文檔的語言類型,已有的比較成熟的測試集所包含文檔的語言類型多為英文,所以並不適合用以評測中文檢索系統。中文測試集的缺乏,制約了中文檢索系統的研究。目前已構建的大型測試集,都需要耗費大量的時間和人力,難以在短期內完成,並且檢索系統進行測試本身也要耗費大量的時問與精力。對於不願進行這樣大投資的研究者來說,一個可選的方案就是使用能在較短時間內建立和測試的小型測試集。由於小型測試集的規模比較小,它可以靈活地添加一些大型測試集所不具備的特徵,用於檢驗某些特定的搜尋技術。此外,若能運用同一標準測試集對不同中文檢索系統進行評測,則有利於評測結果的比較,其結果也將會更有意義。目前國內尚無建立起標準的可用於中文信息檢索評測的小型測試集。因此,有必要構建一種小型中文測試集,用於信息檢索研究的評測工作。
相關判斷方法
國外測試集一般採用以下兩種方法減少相關判斷人員的工作量:Pooling方法與Interactive Searching and Judging(ISJ)方法。
(1)Pooling方法:針對某一查詢主題,所有參加評測的檢索系統分別給出各自檢索結果的前K個文檔(如K=100),將這些結果文檔匯集起來,得到一個可能相關的文檔“池”(P00l),然後由檢索評價專家進行人工判斷,評判每一文檔的相關性,將最終判定為相關的文檔作為相關判斷集,並按相關程度將其排序。不在相關判斷集中的文檔視為不相關文檔。TREC採用Pooling方法來構建相關文檔集。
(2)ISJ方法:測試集構建者使用一種可靠的搜尋弓l擎來檢索查詢主題,通過人工分析檢索結果,得到最符合查詢主題要求的文檔。在這一過程中,查詢主題中術語的同義詞也可作為查詢條件用來檢索。這個方法比Pooling方法更能節省時間,這些檢索結果的精確度也更高。ISJ方法多用於小型測試集的構建。
檢索測試集的構建
檢索測試集主要由文檔集、查詢集、相關判斷集三個部分構成。
文檔集的構建
基於以下四個方面的考慮,本文將文檔集中的文檔限定在計算機領域:
(1)能夠做到所選用的文檔儘可能地覆蓋該領域的諸多方面,方便模擬真實環境;
(2)能夠保證查詢集在所限定的領域內具有廣泛的主題內容;
(3)參加測試集構建的人員均為計算機專業人員,對計算機類文檔認知度較高,能夠提高判斷的準確度;
(4)可以在較短的時聞內來完成對文檔集的構建。在本文檔集的結構方面,以檢索文字資料為主,以單篇文檔為最小檢索單位。文檔收集完成後,進一步做了一下兩方面處理:
a.規定保存類型;
b.建立索引表。
查詢集的構建
查詢主題的構建流程設計如下:
(1)根據文檔集中文檔內容的分布情況,將文檔集劃分成多個類別,在每個類別中根據文檔的具體內容來創建查詢主題;
(2)篩選由步驟(1)得到的查詢主題。篩選分為三個階段:
第一階段,過濾敘述不清、不夠詳盡或過於主觀的查詢主題,將與文檔集內容不符或變動過大的即時性查詢主題刪除;
第二階段,考慮初步篩選之後剩餘查詢主題的相似性,避免出現相似性較高的查詢主題;
第三階段,對每個查詢主題,預測可能相關文檔的數量,判斷查詢主題的範圍是否過於廣泛或過於狹窄,初步預測查詢需求的難易程度。
相關判斷集的構建
採用ISJ方法輔助構建相關判斷集,主要通過以下幾步來輔助構建相關判斷集:
(1)確定一個可靠的檢索系統。通過分析檢索結果的精確度和使用的難易程度,決定使用谷歌中文檢索系統;
(2)在查詢集的構建過程中已經得到每個查詢主題的關鍵字,格這些關鍵字及其同義詞共同作為查詢條件通過谷歌進行檢索,得到若干文檔的集合;
(3)確定檢索結果中哪些是可以使用的文檔,將最終確定的相關文檔合併到文檔集中;
(4)使用賦值方法,對新加入文檔進行相關程度的賦值,並將結果加入到相關判斷集中。