基本概念
檢索測試查詢
檢索測試集主要由文檔集、查詢集、相關判斷集三個部分構成。檢索測試查詢是檢索測試集構建的一部分,由於查詢集中查詢主題的有效性跟文檔集中文檔的內容密切相關,所以通常根據文檔內容的分類來進行查詢主題的構建。每個查詢主題可由四部分組成:查詢標題、查詢問題、主題說明和關鍵字。
檢索測試查詢即根據文檔集中文檔內容的分布情況,將文檔集劃分成多個類別,在每個類別中根據文檔的具體內容來創建查詢主題,然後篩選查詢主題,避免出現敘述不清或相似性較高的查詢主題。
檢索測試集
文檔集是整個測試集的基礎。由於信息檢索的領域很廣泛,如果將文檔集中文檔的類別涉及到諸多領域,在保證內容翔實的前提下,文檔集的構建將耗費大量的時間和精力,後續的相關判斷工作更是龐大,不利於構建小型的測試集。國外小型測試集的文檔集的構建一般採用將文檔集限定在某一領域的方法。如CACM文檔集限定在ACM通信領域,ISI文檔集限定在資訊科學領域。
由於查詢集中查詢主題的有效性跟文檔集中文檔的內容密切相關,所以通常根據文檔內容的分類來進行查詢主題的構建。
相關判斷集是判斷鹼索系統有效性的一個標準,在理想狀態下,相關判斷集合應該是一個完整的列表,包含每個文擋與每個查詢主題的相關程度。當文檔數量很龐大時,達到這樣一種理想的結果耗費的時間和精力會很大。國外測試集一般採用以下兩種方法減少相關判斷人員的工作量:Pooling方法與Interactive Searching and Judging(ISJ)方法:
(1)Pooling方法:針對某一查詢主題,所有參加評測的檢索系統分別給出各自檢索結果的前K個文檔(如K=100),將這些結果文檔匯集起來,得到一個可能相關的文檔“池”(P00l),然後由檢索評價專家進行人工判斷,評判每一文檔的相關性,將最終判定為相關的文檔作為相關判斷集,並按相關程度將其排序。不在相關判斷集中的文檔視為不相關文檔。TREC採用Pooling方法來構建相關文檔集。
(2)ISJ方法:測試集構建者使用一種可靠的搜尋弓l擎來檢索查詢主題,通過人工分析檢索結果,得到最符合查詢主題要求的文檔。在這一過程中,查詢主題中術語的同義詞也可作為查詢條件用來檢索。這個方法比Pooling方法更能節省時間,這些檢索結果的精確度也更高。ISJ方法多用於小型測試集的構建。
查詢集的構建
查詢集的構建流程設計如下:
(1)根據文檔集中文檔內容的分布情況,將文檔集劃分成多個類別,在每個類別中根據文檔的具體內容來創建查詢主題;
(2)篩選由步驟(1)得到的查詢主題。篩選分為三個階段:
第一階段:過濾敘述不清、不夠詳盡或過於主觀的查詢主題,將與文檔集內容不符或變動過大的即時性查詢主題刪除;
第二階段:考慮初步篩選之後剩餘查詢主題的相似性,避免出現相似性較高的查詢主題;
第三階段:對每個查詢主題,預測可能相關文檔的數量,判斷查詢主題的範圍是否過於廣泛或過於狹窄,初步預測查詢需求的難易程度。
每個查詢主題可由四部分組成:查詢標題、查詢問題、主題說明和關鍵字,如下表所示:
查詢集構建成功後進行相關判斷集的構建。
實例分析
隨著WWW的迅速發展,Web信息檢索技術成為研究者廣泛關注的話題,但缺少合適的測試評測機制制約了中文網頁信息檢索技術的發展。參考國外測試集的構建經驗,下面是大規模中文網頁信息檢索測試集CWT的查詢集的構建過程。
SEWM評測每年都會構建一些新主題,包括約70個TD主題和300個HPNP主題,為了使主題的描述方式等方面具有一定程度的一致性,主題集每年由2~3位專門的構建人員來構建。歷年構建的TD主題按順序編號,從1開始,至今已經編號到285。HPNP主題也是從1開始編號,至今已經編號到1,185,其中NP、HP主題約各占一半。
通過四年組織SEWM評測的實踐經驗,形成了構建主題的一般流程,介紹如下:
(1)分工。首先確定計畫構建主題數,將其平均分配給兩個或三個人來構建。將主題劃分成多個領域類別,每人負責其中若干類別的主題。
(2)統一工作進度,確定主題選取尺度及主題格式。
(3)各構建人員構建主題。根據自己認為的主題好壞程度排序主題,較好的主題排在前面。
(4)集中統一主題。構建人員一起整理由步驟3得到的主題,得到最終的主題集。