神經語言模型

神經語言模型

神經語言模型(Neural Language Model,NLM)是一類用來克服維數災難的語言模型,它使用詞的分散式表示對自然語言序列建模。不同於基於類的n-gram模型,神經語言模型在能夠識別兩個相似的詞,並且不喪失將每個詞編碼為彼此不同的能力。神經語言模型共享一個詞(及其上下文)和其他類似詞。

基本信息

簡介

語言模型(language model)定義了自然語言中標記序列的機率分布。根據模型的設計,標記可以是詞、字元、甚至是位元組。標記總是離散的實體。最早成功的語言模型基於固定長度序列的標記模型,稱為n-gram。一個n-gram 是一個包含n個標記的序列。基於n-gram 的模型定義一個條件機率——給定前n−1個標記後的第n個標記的條件機率。神經語言模型是由Bengio等人在2003年提出的,共享一個詞(及其上下文)和其他類似詞和上下文之間的統計強度。模型為每個詞學習的分散式表示,允許模型處理具有類似共同特徵的詞來實現這種共享。例如,如果詞dog和詞cat映射到具有許多屬性的表示,則包含詞cat的句子可以告知模型對包含詞 dog的句子做出預測,反之亦然。因為這樣的屬性很多,所以存在許多泛化的方式,可以將信息從每個訓練語句傳遞到指數數量的語義相關語句。維數災難需要模型泛化到指數多的句子(指數相對句子長度而言) 。該模型通過將每個訓練句子與指數數量的類似句子相關聯克服這個問題。

詞向量與詞嵌入

詞向量通常指通過語言模型學習得到的詞的分散式特徵表示,也被稱為詞編碼,可以非稀疏的表示大規模語料中複雜的上下文信息。分散式詞向量可以表示為多維空間中的一個點,而具有多個詞向量的單詞在空間上表示為數個點的集合,也可以看作在一個橢球分布上採集的數個樣本 。

詞嵌入是自然語言處理(NLP)中語言模型與表征學習技術的統稱。概念上而言,它是指把一個維數為所有詞的數量的高維空間嵌入到一個維數低得多的連續向量空間中,每個單詞或詞組被映射為實數域上的向量。詞嵌入的方法包括人工神經網路、對詞語同現矩陣降維、機率模型以及單詞所在上下文的顯式表示等。在底層輸入中,使用詞嵌入來表示詞組的方法極大提升了NLP中語法分析器和文本情感分析等的效果。

維數災難

維數災難最早是由理察·貝爾曼(Richard E. Bellman)在考慮最佳化問題時提出來的,它用來描述當(數學)空間維度增加時,分析和組織高維空間(通常有成百上千維)中的數據,因體積指數增加而遇到各種問題場景。

該名詞涉及數字分析、抽樣、組合、機器學習、數據挖掘和資料庫等諸多領域。 在這些領域中,該名詞代表的共同特點是:當維度增加時,空間的體積增加得很快,使得可用的數據變得稀疏。稀疏性對於任何要求有統計學意義的方法而言都是一個問題,為了獲得在統計學上正確並且有可靠的結果,用來支撐這一結果所需要的數據量通常隨著維數的提高而呈指數級增長。而且,在組織和搜尋數據時也有賴於檢測對象區域,這些區域中的對象通過相似度屬性而形成分組。然而在高維空間中,所有的數據都很稀疏,從很多角度看都不相似,因而平常使用的數據組織策略變得極其低效。

“維數災難”通常是用來作為不要處理高維數據的無力藉口。然而,學術界一直都對其有興趣,而且在繼續研究。另一方面,也由於本徵維度的存在,其概念是指任意低維數據空間可簡單地通過增加空餘或隨機維將其轉換至更高維空間中,相反地,許多高維空間中的數據集也可降維至低維空間數據,而不必丟失重要信息。當前的研究也表明除非其中存在太多不相關的維度,帶有維數災難特色的數據集依然可以處理,因為相關維度實際上可使得許多問題(如聚類分析)變得更加容易。

相關詞條

熱門詞條

聯絡我們