簡介
潛在語義學的觀念也被套用在資訊檢索上,所以有時潛在語義學也被稱為 隱含語義索引(Latent Semantic Indexing,LSI)。
傳統的語義學通常研究字、詞的含義以及詞與詞之間的關係,如同義,近義,反義等等。潛在語義學探討的是隱藏在字詞背後的某種關係,這種關係不是以詞典上的定義為基礎,而是以字詞的使用環境作為最基本的參考。這種思想來自於心理語言學家。他們認為,世界上數以百計的語言都應該有一種共同的簡單的機制,使得任何人只要是在某種特定的語言環境下長大都能掌握那種語言。在這種思想的指導下,人們找到了一種簡單的數學模型,這種模型的輸入是由任何一種語言書寫的文獻構成的文庫,輸出是該語言的字、詞的一種數學表達(向量)。字、詞之間的關係乃至任何文章片斷之間的含義的比較就由這種向量之間的運算產生。
概述
隱含語義索引是一種以向量空間模型為基底的資訊檢索技術,常以字詞-檔案矩陣表示字詞與檔案之間的關聯;而其多以列代表字詞〈term〉,行代表檔案〈document〉。
而在矩陣中每個元素的權重值以TF-IDF計算後得到。該字詞在檔案中的重要性與否,以字詞在檔案出現的次數以及字詞在所有檔案中出現的次數相關。
而這個字詞-檔案矩陣本身也代表著一個標準的語義模組,因為數學矩陣的格式並不是經常的被使用,所以不會太特別的註明其為一個矩陣的型態。