機率模型

機率模型

給定一個用戶的查詢串,相對於該串存在一個包含所有相關文檔的集合。我們把這樣的集合看作是一個理想的結果文檔集,在給出理想結果集後,我們能很容易得到結果文檔。這樣我們可以把查詢處理看作是對理想結果文檔集屬性的處理。問題是我們並不能確切地知道這些屬性,我們所知道的是存在索引術語來表示這些屬性。由於在查詢期間這些屬性都是不可見的,這就需要在初始階段來估計這些屬性。這種初始階段的估計允許我們對首次檢索的文檔集合返回理想的結果集,並產生一個初步的機率描述。

機率模型

給定一個用戶的查詢串,相對於該串存在一個包含所有相關文檔的集合。我們把這樣的集合看作是一個理想的結果文檔集,在給出理想結果集後,我們能很容易得到結果文檔。這樣我們可以把查詢處理看作是對理想結果文檔集屬性的處理。問題是我們並不能確切地知道這些屬性,我們所知道的是存在索引術語來表示這些屬性。由於在查詢期間這些屬性都是不可見的,這就需要在初始階段來估計這些屬性。這種初始階段的估計允許我們對首次檢索的文檔集合返回理想的結果集,並產生一個初步的機率描述。為了提高理想結果集的描述機率,系統需要與用戶進行互動式(feedback)操作。具體處理過程如下:用戶大致瀏覽一下結果文檔,決定哪些是相關的,哪些是不相關的;然後系統利用該信息重新定義理想結果集的機率描述;重複以上操作,就會越來越接近真正的結果文檔集。

機率模型是基於以下理論:

給定一個用戶的查詢串 和集合中的文檔 機率模型來估計用戶查詢串與文檔 相關的機率。機率模型假設這種機率只決定於查詢串和文檔。更進一步說,該模型假定存在一個所有文檔的集合,即相對於查詢串 的結果文檔子集,這種理想的集合用R表示,集合中的文檔是被預料與查詢串相關的。這種假設存在著缺點,因為他沒有明確定義計算相關度的機率,下面將給出這種機率的定義。
在機率模型中索引術語的權重都是二元的,例如: 。查詢串 是索引術語集合的子集。設R是相關文檔集合(初始的猜測集合), 是R的補集(非相關文檔的集合)。 表示文檔 與查詢串 相關的機率, 表示文檔 與查詢串 不相關的機率。文檔 對於查詢串 的相關度值定義為: ,根據Bayesian定律代表從相關文檔集合R中隨機選取文檔 的機率。 表示從整個集合中隨機選取一篇文檔作為相關文檔的機率。類似定義 , 。因為對於集合中所有的文檔 和 是相同的,所表示集合R中隨機選取的文檔中出現索引術語 的機率, 表示集合R中隨機選取的文檔中不出現索引術語 的機率,類似定義了 , 。取對數,根據 ,我們最後可以得到:這是在機率模型中計算相關度的一個關鍵的表達式。
由於我們在開始時並不知道集合R,因此必須設計一個初始化計算 和 的算法。有許多方法可以計算它們的值,下面將具體討論一種簡單的算法。
在查詢的開始間段只定義了查詢串,還沒有得到結果文檔集。我們不得不作一些簡單的假設,例如:(a)假定 對所有的索引術語 來說是常數(一般等於0.5);(b)假定索引術語在非相關文檔中的分布可以由索引術語在集合中所有文檔中的分布來近似表示。

這兩種假設用公式表示如下:

表示出現索引術語 的文檔的數目,N是集合中總的文檔的數目。在上面的假設下,我們可以得到部分包含查詢串的文檔,並為他們提供一個初始的相關機率
機率模型的優點在於,文檔可以按照他們相關機率遞減的順序來計算秩(rank)。他的缺點在於:開始時需要猜想把文檔分為相關和不相關的兩個集合,實際上這種模型沒有考慮索引術語在文檔中的頻率(因為所有的權重都是二元的),而索引術語都是相互獨立的。

相關搜尋

熱門詞條

聯絡我們