詞向量

詞向量(Word embedding),又叫Word嵌入式自然語言處理(NLP)中的一組語言建模和特徵學習技術的統稱,其中來自辭彙表的單詞或短語被映射到實數的向量。 從概念上講,它涉及從每個單詞一維的空間到具有更低維度的連續向量空間的數學嵌入。 生成這種映射的方法包括神經網路,單詞共生矩陣的降維,機率模型,可解釋的知識庫方法,和術語的顯式表示 單詞出現的背景。 當用作底層輸入表示時,單詞和短語嵌入已經被證明可以提高NLP任務的性能,例如語法分析和情感分析。

技術的發展

在語言學中,在分布語義學的研究領域中討論了詞嵌入。它旨在基於語言數據的大樣本中的分布屬性來量化和分類語言項之間的語義相似性。 Firth普及了“一個詞以其所保持的特徵為特徵”的基本觀點。

將詞語表示為向量的技術起源於20世紀60年代隨著用於信息檢索的向量空間模型的發展。使用奇異值分解減少維數,然後導致在20世紀80年代後期引入潛在語義分析。2000年Bengio等人。在一系列論文中提供了“神經機率語言模型”,通過“學習單詞的分散式表示”來減少語境中單詞表示的高維度。 (Bengio等,2003)。單詞嵌入有兩種不同的風格,一種是將單詞表示為共同出現的單詞的向量,另一種是將單詞表示為單詞出現的語言上下文的向量;研究了這些不同的風格(Lavelli等,2004)。Roweis和Saul在“科學”雜誌上發表了如何使用“局部線性嵌入”(LLE)來發現高維數據結構的表示。該區域在2010年後逐漸發展並真正起飛,部分原因是此後在向量質量和模型訓練速度方面取得了重要進展。

有許多分支機構和許多研究小組從事字嵌入工作。 2013年,由Tomas Mikolov領導的Google團隊創建了word2vec,這是一個嵌入式工具包,可以比以前的方法更快地訓練向量空間模型。大多數新詞嵌入技術依賴於神經網路架構而不是更傳統的n-gram模型和無監督學習。

限制

單詞嵌入(一般的單詞向量空間模型)的主要限制之一是單詞的可能含義被混合成單個表示(語義空間中的單個向量)。 Sense embeddings 是這個問題的解決方案:單詞的個體含義在空間中表示為不同的向量 。

對於生物序列:BioVectors

Asgari和Mofrad已經提出了用於生物信息學套用的生物序列(例如DNA,RNA和蛋白質)中n-gram的詞嵌入。命名生物載體(BioVec)通常指蛋白質載體(ProtVec)用於蛋白質(胺基酸序列)和基因載體(GeneVec)用於基因序列的生物序列,這種表示可廣泛用於深層套用學習蛋白質組學和基因組學。 Asgari和Mofrad 提出的結果表明,BioVectors可以根據對潛在模式的生物化學和生物物理學解釋來描述生物序列。

思想向量

思想向量是單詞嵌入到整個句子甚至文檔的擴展。一些研究人員希望這些可以提高機器翻譯的質量。

軟體

用於培訓和使用文字嵌入的軟體包括Tomas Mikolov的Word2vec,史丹福大學GloVe,fastText,Gensim, Indra和Deeplearning4j。主成分分析(PCA)和T分散式隨機鄰居嵌入(t-SNE)都用於減少單詞向量空間的維度,並可視化單詞嵌入和集群。

相關詞條

熱門詞條

聯絡我們