技術的發展
在語言學中,在分布語義學的研究領域中討論了詞嵌入。它旨在基於語言數據的大樣本中的分布屬性來量化和分類語言項之間的語義相似性。 Firth普及了“一個詞以其所保持的特徵為特徵”的基本觀點。
將詞語表示為向量的技術起源於20世紀60年代隨著用於信息檢索的向量空間模型的發展。使用奇異值分解減少維數,然後導致在20世紀80年代後期引入潛在語義分析。2000年Bengio等人。在一系列論文中提供了“神經機率語言模型”,通過“學習單詞的分散式表示”來減少語境中單詞表示的高維度。 (Bengio等,2003)。單詞嵌入有兩種不同的風格,一種是將單詞表示為共同出現的單詞的向量,另一種是將單詞表示為單詞出現的語言上下文的向量;研究了這些不同的風格(Lavelli等,2004)。Roweis和Saul在“科學”雜誌上發表了如何使用“局部線性嵌入”(LLE)來發現高維數據結構的表示。該區域在2010年後逐漸發展並真正起飛,部分原因是此後在向量質量和模型訓練速度方面取得了重要進展。
有許多分支機構和許多研究小組從事字嵌入工作。 2013年,由Tomas Mikolov領導的Google團隊創建了word2vec,這是一個嵌入式工具包,可以比以前的方法更快地訓練向量空間模型。大多數新詞嵌入技術依賴於神經網路架構而不是更傳統的n-gram模型和無監督學習。
限制
單詞嵌入(一般的單詞向量空間模型)的主要限制之一是單詞的可能含義被混合成單個表示(語義空間中的單個向量)。 Sense embeddings 是這個問題的解決方案:單詞的個體含義在空間中表示為不同的向量 。
對於生物序列:BioVectors
Asgari和Mofrad已經提出了用於生物信息學套用的生物序列(例如DNA,RNA和蛋白質)中n-gram的詞嵌入。命名生物載體(BioVec)通常指蛋白質載體(ProtVec)用於蛋白質(胺基酸序列)和基因載體(GeneVec)用於基因序列的生物序列,這種表示可廣泛用於深層套用學習蛋白質組學和基因組學。 Asgari和Mofrad 提出的結果表明,BioVectors可以根據對潛在模式的生物化學和生物物理學解釋來描述生物序列。
思想向量
思想向量是單詞嵌入到整個句子甚至文檔的擴展。一些研究人員希望這些可以提高機器翻譯的質量。
軟體
用於培訓和使用文字嵌入的軟體包括Tomas Mikolov的Word2vec,史丹福大學GloVe,fastText,Gensim, Indra和Deeplearning4j。主成分分析(PCA)和T分散式隨機鄰居嵌入(t-SNE)都用於減少單詞向量空間的維度,並可視化單詞嵌入和集群。