簡介
廣義上說,就是在篇章中確定代詞指向哪個名詞短語的問題。按照指向,可以分為回指和預指。回指就是代詞的先行語在代詞前面,預指就是代詞的先行語在代詞後面。按照指代的類型可以分為三類:人稱代詞、指示代詞、有定描述、省略、部分-整體指代、普通名詞短語。這些類別中前四個都是和語言學息息相關的,目前國內外的研究人員主要是偏向語言學領域的,對於不同的語言需要深入了解這種語言的機制,很難實現語言無關的方法和算法。對於我(這是?,下同)曾經嘗試過的人稱代詞消解,感覺需要藉助一些高級而且準確的語言分析工具,同時還需要多向中文系的師生請教。這個問題的研究讓我感覺很難深入的完成創造性的工作。部分-整體指代在英文中成為Bridge-anaphora,主要消解一些整體-部分關係的指代,例如門和房間。這是一種上下位關係的指代。這個問題在英文中大有研究人員,但是對於中文卻很少有從指代消解的角度來進行研究。因為,這個更像實體關係抽取。而實體關係抽取現在是信息抽取領域研究的一個熱點問題。剩下的普通名詞短語的消解。這個問題仔細閱讀論文發現,就是coreference resolution(共指消解)問題。
處理階段
指代消解首先要構造先行候選錄,然後再從候選中作多選一選擇。基於句法的指代消解是較早採用的方法,這種方法試圖充分利用句法層面的知識,並以啟發式的方式運用到指代消解中。
另一種指代消解的方法是基於語料庫的方法。主要有統計方法,統計機器學習方法等。