簡介
向量空間模型(VSM:Vector Space Model)由Salton等人於20世紀70年代提出,並成功地套用於著名的SMART文本檢索系統。
概念
VSM概念簡單,把對文本內容的處理簡化為向量空間中的向量運算,並且它以空間上的相似度表達語義的相似度,直觀易懂。當文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。文本處理中最常用的相似性度量方式是餘弦距離。
M個無序特徵項ti,詞根/詞/短語/其他每個文檔dj可以用特徵項向量來表示(a1j,a2j,…,aMj)權重計算,N個訓練文檔AM*N= (aij) 文檔相似度比較1)Cosine計算,餘弦計算的好處是,正好是一個介於0到1的數,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,餘弦的計算方法為,向量內積/各個向量的模的乘積.2)內積計算,直接計算內積,計算強度低,但是誤差大。
向量空間模型 (或詞組向量模型) 是一個套用於信息過濾,信息擷取,索引 以及評估相關性的代數模型。SMART是首個使用這個模型的信息檢索系統。
檔案(語料)被視為索引詞(關鍵字)形成的多次元向量空間, 索引詞的集合通常為檔案中至少出現過一次的詞組。
搜尋時,輸入的檢索詞也被轉換成類似於檔案的向量,這個模型假設,檔案和搜尋詞的相關程度,可以經由比較每個檔案(向量)和檢索詞(向量)的夾角偏差程度而得知。
實際上,計算夾角向量之間的餘弦比直接計算夾角容易:
餘弦為零表示檢索詞向量垂直於檔案向量,即沒有符合,也就是說該檔案不含此檢索詞。
通過上述的向量空間模型,文本數據就轉換成了計算機可以處理的結構化數據,兩個文檔之間的相似性問題轉變成了兩個向量之間的相似性問題。