詞義消歧:在計算機語言學，詞義消歧(WSD) 是一個自然語言處理和本 -百科知識中文網

簡介

語義消歧/詞義消歧是自然語言處理任務的一個核心與難點，影響了幾乎所有任務的性能，比如搜尋引擎、意見挖掘、文本理解與產生、推理等。

在語言學長期發展的過程中，語言本身積累了許多一詞多義的用法。語言的產生是多方面共同作用的結果。語言的使用是不斷變化的，一個詞在發展中有許多具體的意思，現在通用的還有一些意思。不同地區可能對一個詞有不同的用法，不同的行業對一個詞也會不同，甚至不同群體、不同個人、不同語氣都會有自己的特殊的解讀意思。語義消歧是一種語言理解的方式，一方面我們要理解通用詞語一詞多義的含義及套用，另一方面，還要考慮到具體場景，運用相關知識庫、語料訓練來增加一詞多義的性能。

迄今為止，豐富多樣的技術已經被研究，以詞典為基礎的方法，使用知識庫與知識圖譜技術的，監督學習的，無監督的，半監督的，基於詞或者詞向量的。基於各種資源的、半監督的、同時基於詞與詞向量的應該是發展的方向。

困難

詞典

基於詞典的語義消歧依賴於詞典對語義的區分。粗粒度的一詞多義指區分較大的語義，比如水，可能表示自然水，也能指水貨；細粒度的一詞多義指能區分較小不同的語義。如果詞典缺少某一層次/某一些語義的描述，以詞典作為詞語義的完全描述就會導致問題。這個特點對WSD(詞義消歧)與EL(entity linking)同樣適用。解決這個問題的辦法是，對描述較少的語義聚集自動增量增加聚類。

英文裡常用的字典包括WordNet, Roget'Thesaurus, BabelNet. 任意語言都可以把常用的字典、詞典、網路百科、專業知識庫/資料庫作為消歧的詞典wenjian

詞性標註

詞性標註與詞義消歧是相互關聯的2個問題，在人的系統他們同時能到滿足。但是目前系統一般並不能讓2者公用參數，同時輸出。語義理解，包括分詞、詞性標註、詞義消歧、句法解析、語義解析並不是前饋的，是相互依賴的存在反饋的。

詞性標註與語義消歧都要依賴上下文來標註，但是詞性標註比語義消歧要簡單以及成功。原因主要是詞性標註的標註集合是確定的，而語義消歧並沒有，並且量級要大的多；詞性標註的上下文依賴比語義消歧要短。

judge依賴

有時候人也不能很地判斷一個詞屬於哪個意思。對於粗粒度的區分肯定比細粒度的高。所以一般選擇粗粒度的任務，因為需要使用人的判斷作為黃金biaoz 。

語言學

許多研究者認為要做到詞義消歧，需要理解語用學、一些常識。語言學本身就是與知識緊密結合的，肯定需要語言相關的常識幫助解析，就像實體消歧需要實體的相關的知識一樣。

不同任務使用詞義消歧的區別

不同的任務具體詞義消歧會不同。比如翻譯，不必須顯式地輸出詞義消歧中間結果，他需要最後的句子的同義即可。

多義的定義

人們一般能在粗粒度的定義上獲得一致的看法，當他到更細的粒度，則很難統一。並且即便同個語義，在不同的環境裡，也許還會有不同，因為語言表達有無限的可能性，導致語義在細粒度可能會遷移。

詞義消歧

簡介

困難

詞典

詞性標註

judge依賴

語言學

不同任務使用詞義消歧的區別

多義的定義

相關詞條

詞義消歧---算法與套用（英文影印版）

哈爾濱工業大學信息檢索研究中心

詩詞律韻探微

跨語言檢索

曲維光

《中文文本信息處理的原理與套用》

中文文本信息處理的原理與套用

劉挺

劉挺[博士]

熱門詞條