簡介
語義消歧/詞義消歧是自然語言處理任務的一個核心與難點,影響了幾乎所有任務的性能,比如搜尋引擎、意見挖掘、文本理解與產生、推理等。
在語言學長期發展的過程中,語言本身積累了許多一詞多義的用法。語言的產生是多方面共同作用的結果。語言的使用是不斷變化的,一個詞在發展中有許多具體的意思,現在通用的還有一些意思。不同地區可能對一個詞有不同 的用法,不同的行業對一個詞也會不同,甚至不同群體、不同個人、不同語氣都會有自己的特殊的解讀意思。語義消歧是一種語言理解的方式,一方面我們要理解通用詞語一詞多義的含義及套用,另一方面,還要考慮到具體場景,運用相關知識庫、語料訓練來增加一詞多義的性能。
迄今為止,豐富多樣的技術已經被研究,以詞典為基礎的方法,使用知識庫與知識圖譜技術的,監督學習的,無監督的,半監督的,基於詞或者詞向量的。基於各種資源的、半監督的、同時基於詞與詞向量的應該是發展的方向。
困難
詞典
基於詞典的語義消歧依賴於詞典對語義的區分。粗粒度的一詞多義指區分較大的語義,比如水,可能表示自然水,也能指水貨;細粒度的一詞多義指能區分較小不同的語義。如果詞典缺少某一層次/某一些語義的描述,以詞典作為詞語義的完全描述就會導致問題。這個特點對WSD(詞義消歧)與EL(entity linking)同樣適用。解決這個問題的辦法是,對描述較少的語義聚集自動增量增加聚類。
英文裡常用的字典包括WordNet, Roget'Thesaurus, BabelNet. 任意語言都可以把常用的字典、詞典、網路百科、專業知識庫/資料庫 作為消歧的詞典wenjian
詞性標註
詞性標註與詞義消歧是相互關聯的2個問題,在人的系統他們同時能到滿足。但是目前系統一般並不能讓2者公用參數,同時輸出。語義理解,包括分詞、詞性標註、詞義消歧、句法解析、語義解析 並不是前饋的,是相互依賴的存在反饋的。
詞性標註與語義消歧都要依賴上下文來標註,但是詞性標註比語義消歧要簡單以及成功。原因主要是詞性標註的標註集合是確定的,而語義消歧並沒有,並且量級要大的多;詞性標註的上下文依賴比語義消歧要短。
judge依賴
有時候人也不能很地判斷一個詞屬於哪個意思。對於粗粒度的區分肯定比細粒度的高。所以一般選擇粗粒度的任務,因為需要使用人的判斷作為黃金biaoz 。
語言學
許多研究者認為要做到詞義消歧,需要理解語用學、一些常識。語言學本身就是與知識緊密結合的,肯定需要語言相關的常識幫助解析,就像實體消歧需要實體的相關的知識一樣。
不同任務使用詞義消歧的區別
不同的任務具體詞義消歧會不同。比如翻譯,不必須顯式地輸出詞義消歧中間結果,他需要最後的句子的同義即可。
多義的定義
人們一般能在粗粒度的定義上獲得一致的看法,當他到更細的粒度,則很難統一。並且即便同個語義,在不同的環境裡,也許還會有不同,因為語言表達有無限的可能性,導致語義在細粒度可能會遷移。