pLSA主題模型

pLSA主題模型是處理自然語言和文本處理這類問題的著名統計學技術。

背景

自然語言和文本處理是人工智慧和機器學習方面的一個重大的挑戰。在這個領域中的任何巨大進步都會對信息檢索,信息過濾,智慧型接口,語言識別,自然語言處理,機器學習產生重大的影響。機器學習的主要難點在於“被闡述”的詞法和“真正要表達”的語義的區別。產生這個問題的原因主要是:1.一個單詞可能有多個意思和多個用法。2.同義詞和近義詞,而且根據不同的語境或其他因素,不同的單詞也有可能表示相同的意思。

LSA是處理這類問題的著名技術。其主要思想就是映射高維向量到潛在語義空間,使其降維。LSA的目標就是要尋找到能夠很好解決實體間詞法和語義關係的數據映射。正是由於這些特性,使得LSA成為相當有價值並被廣泛套用的分析工具。PLSA是以統計學的角度來看待LSA,相比於標準的LSA,他的機率學變種有著更巨大的影響。

概念

機率潛在語義分析(pLSA)   基於雙模式和共現的數據分析方法延伸的經典的統計學方法。

機率潛在語義分析套用於信息檢索,過濾,自然語言處理,文本的機器學習或者其他相關領域。機率潛在語義分析與標準潛在語義分析的不同是,標準潛在語義分析是以共現表(就是共現的矩陣)的奇異值分解的形式表現的,而機率潛在語義分析卻是基於派生自LCM的混合矩陣分解。考慮到word和doc共現形式,機率潛在語義分析基於多項式分布和條件分布的混合來建模共現的機率。所謂共現其實就是W和D的一個矩陣,所謂雙模式就是在W和D上同時進行考慮。

優缺點

PLSA有時會出現過擬合的現象。所謂過擬合(Overfit),是這樣一種現象:一個假設在訓練數據上能夠獲得比其他假設更好的擬合,但是在訓練數據外的數據集上卻不能很好的擬合數據。此時我們就叫這個假設出現了overfit的現象。出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。

解決辦法,要避免過擬合的問題,PLSA使用了一種廣泛套用的最大似然估計的方法,期望最大化。PLSA中訓練參數的值會隨著文檔的數目線性遞增。PLSA可以生成其所在數據集的的文檔的模型,但卻不能生成新文檔的模型。

相關詞條

相關搜尋

熱門詞條

聯絡我們