簡介
眾所周知,人們為了避免重複,習慣用代詞、稱謂和縮略語來指代前面提到的實體全稱。例如,在文章開始處會寫“哈爾濱工業大學”,後面可能會說“哈工大”、“工大”等,還會提到“這所大學”、“她”等。這種現象稱為共指現象。雖然人們可以毫無困難的區分文章中實體的不同稱謂,但是對於計算機來說,這仍舊是一項非常困難的問題。所謂共指消解就是將現實世界中同一實體的不同描述合併到一起的過程。如上幾個描述都是現實世界中“哈爾濱工業大學”的不同體現。在某種意義上說,共指在自然語言中起到了超連結的作用。一方面,它使得文章作者在撰寫文章時體現了一定的風格和篇章的連貫性。另一方面,共指使得自然語言理解機制中增加了一種新的模糊成分。
共指消解是傳統的研究方向,見著於二十世紀三十年代,是自然語言處理、機器翻譯、信息抽取、信息檢索等領域的關鍵技術之一。經過起初的蓬勃發展,於七十年代達到高潮,經歷八十年代的低谷後,重新在九十年代初復興。
近20年來,這方面的研究受到了格外的關注,許多重要的會議都設立了共指消解的專題會議,2001年Computational Linguistics學報還出版了指代消解的專輯,在1996、1997年的MUC(Message Understanding Conference)評測會議上被列為評測內容之一。DAARC從96年到2006年共舉行了五次,專門討論指代消解。2000年開始的ACE(Automatic Cotent Extraction)評測中共指消解也是重要內容之一。2006年11月到2007年3月,英國伍爾佛漢普敦大學發起了一個名為指代消解練習ARE(Anaphora Resolution Exercise)的共指消解評測。
中文的共指消解研究開始於二十世紀末。中文共指消解的評測開始於2003年10月的ACE Phase3 。
定義
•實體(entity):知識庫中完整定義的,唯一存在的條目,在coreference resolution這個任務中,每一個實體都可以看作是指代它的名詞短語或代詞構成的集合(巴拉克-歐巴馬={美國總統,歐巴馬,第44任美國總統,他})。
•指稱(mention):實體在自然語言文本中的別名或另一種指代形式,美國總統,歐巴馬,第44任美國總統,他等都是mention。mention的類型一般有3類:專有名詞(proper noun,巴拉克-歐巴馬),名詞性詞(nominal, 第44任美國總統),代詞(pronominal, 他)
•共指(corefer):如果文本或句子中的兩個mention指代的是同一個entity,那么它們之間存在著一種共指(corefer)關係。美國總統與第44任美國總統即是共指的兩個mention
特徵分析
共指消解的特徵分為兩類:
1.優先性特徵(Preferences)——字元串匹配優先、近距離優先、句法平行優先
2.約束性特徵(Constraints)——性別一致性約束、單複數一致性約束、語義類別一致性約束
這種區分依據主要根據是共指特徵的指示性強弱。
也可按照語言學角度出發,分為詞法特徵、語法特徵、距離和位置特徵、語義特徵。
評測
1.MUC——主要包括信息抽取相關的評測業務。
2.ACE——實體檢測與跟蹤。將篇章中出現的各種表述指向其對應的實體。2003年起,ACE提供了中文語料的共指消解任務。延續到2008年。
3.TAC——共指消解任務過渡到基於維基百科的實體連結的任務。
4.OntoNotes——2010年。不包含單表述實體(單一表述的實體聚類,SingletonEntity),僅標註發生共指關係的表述。
5.CoNLL——2011年。英文的共指消解評測,採用OntoNote4.0 。
Lee[Stanford]——採用基於規則並層層篩選的方法取得了第一名的好成績,以準確率由高到低構建了一系列篩子疊代地為不同的表述選取先行語,分別基於MUC、B-cubed和CEAF-E評測 。
套用領域
信息抽取(information extraction, IE);信息抽取是一項從文本中發現實體(entity)以及實體之間的關係(relation)的技術,coreference resolution可以幫助IE系統對文中出現的指稱(mention)進行歸類,避免提取冗餘的信息
文本摘要(text summarization);文本摘要,字如其名,是一項從文擋中識別關鍵信息(可以理解為中心思想),並生成一份剪短的摘要(summary)的技術。coference resolution可以向文本摘要系統提供文檔中所有的共指關係(coreference),將所有指向同一個實體的指稱(mention)根據它們在文中出現的先後順序構成一條共指鏈(coreference chain),這條共指鏈可以有助與摘要系統提取關鍵信息(最基本的idea:如果文本中主要講述的是一個事物或者人,他肯定會在文中多次出現,也就是說,coreference chain越長,對應的實體越有可能是目標實體)。另外,加入coreference resolution之後,系統生成的摘要會更自然(例如:根據前面的前文合適的使用代詞)
自動問答(question answer,Q&A); Q&A是一項根據輸入的問題或者查詢,從知識庫或者已有的文本中檢索並返回合適結果的技術。coreference resolution能夠在問題和答案上最佳化Q&A系統,首先,它能夠通過分析問題中的共指關係,找到問題的核心實體;其次,coreference resolution能夠幫助判斷候選答案與問題中核心實體的相關性,從而輔助對候選答案的排序
機器翻譯(machine translation);機器翻譯是一項利用計算機將自然語言文本從源語言(souce language)轉換到目標語言(target language)的任務。由於文本中常常會出現你,我,他等代詞,使得計算機無法理解代詞的具體含義,所以這類代詞的翻譯往往不準確。coreference resolution可以識別這類代詞,然後把它們歸類到相應的實體中,機器翻譯系統翻譯文本時,就可以結合代詞和實體名稱來進行合理的翻譯 。
1.信息抽取(information extraction, IE);信息抽取是一項從文本中發現實體(entity)以及實體之間的關係(relation)的技術,coreference resolution可以幫助IE系統對文中出現的指稱(mention)進行歸類,避免提取冗餘的信息
2.文本摘要(text summarization);文本摘要,字如其名,是一項從文擋中識別關鍵信息(可以理解為中心思想),並生成一份剪短的摘要(summary)的技術。coference resolution可以向文本摘要系統提供文檔中所有的共指關係(coreference),將所有指向同一個實體的指稱(mention)根據它們在文中出現的先後順序構成一條共指鏈(coreference chain),這條共指鏈可以有助與摘要系統提取關鍵信息(最基本的idea:如果文本中主要講述的是一個事物或者人,他肯定會在文中多次出現,也就是說,coreference chain越長,對應的實體越有可能是目標實體)。另外,加入coreference resolution之後,系統生成的摘要會更自然(例如:根據前面的前文合適的使用代詞)
3.自動問答(question answer,Q&A); Q&A是一項根據輸入的問題或者查詢,從知識庫或者已有的文本中檢索並返回合適結果的技術。coreference resolution能夠在問題和答案上最佳化Q&A系統,首先,它能夠通過分析問題中的共指關係,找到問題的核心實體;其次,coreference resolution能夠幫助判斷候選答案與問題中核心實體的相關性,從而輔助對候選答案的排序
4.機器翻譯(machine translation);機器翻譯是一項利用計算機將自然語言文本從源語言(souce language)轉換到目標語言(target language)的任務。由於文本中常常會出現你,我,他等代詞,使得計算機無法理解代詞的具體含義,所以這類代詞的翻譯往往不準確。coreference resolution可以識別這類代詞,然後把它們歸類到相應的實體中,機器翻譯系統翻譯文本時,就可以結合代詞和實體名稱來進行合理的翻譯 。