概述
結果池過濾技術是文本信息檢索會議(Text Retrieval Conference,TREC) 針對全球資訊網大規模語料庫集合中正確答案的標註問題,總結出的一整套解決方案和評價體系。其核心實稱為“結果池過濾技術”(poolingtechnology)。結果池過濾技術的主要思想可以歸結成:在面臨大規模文檔集合時只能藉助有一定檢索精度的檢索工具進行信息獲取,因此候選答案集合只可能通過檢索工具進行定位。這在一定程度上是出於無法手工篩選整個文檔集合時的權宜之舉,但在處理類似網路數據集合這樣規模文檔集時卻又是必要與合理的。
實施方法
a)根據數據規模的大小,選擇適當的查詢結果集合規模N。
b)對於某個查詢樣例Q,使用不同的待評測系統(T1,T2,……,Ti)對大規模文檔集合進行檢索,並分別得出各自的查詢結果集合(RC1,RC2,……rcn),其中|RCi|=N,(i=1,2,……,n)。
c)構建結果池,pool=RC1 ∪ RC2 ∪ ……∪ RCn.
d)對上述結果池中的結果進行標註,其中符合查詢樣例Q的信息需求的集合即為Q的正確答案集合。