文本知識獲取

文本知識獲取是指從文本中自動獲取實體、事件和相關屬性等知識,並對這些知識進行結構化組織,為網路空間大搜尋知識的查找與推理提供基礎。知識獲取是指從泛在網路空間數據中獲取本體知識的過程,其被首先定義在專家系統中。

文本知識獲取從所抽取的內容上分主要包括實體知識抽取、事件抽取、屬性抽取,下面分別從這三個方面進行介紹。

在實體知識抽取方面。實體知識抽取是面向信息提取、問答系統、句法分析、機器翻譯、語義網路(Semantic Web)元數據標註等套用領域的重要基礎研究。通常而言,早期實體的任務旨在識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)實體。在實體知識抽取研究發展初期,針對西方語言的實體知識抽取一般都是基於手工編制規則而構建規則系統的人工方法。其中具有代表性的工作包括20世紀90年代紐約大學的Grishman等人開發的參與MUC-6評測的Proteus系統和IsoQuest公司的Krupka等開發的參與MUC-6評測的Proteus系統[2]。針對傳統方法需要人工設計模板的不足,2006年加拿大信息科技大學的Nadeau等人提出了基於半監督的機器學習方法[3]。隨著近幾年深度神經網路在人工智慧相關領域套用的不斷深入,自然語言處理中的很多任務利用深度學習都得到了不錯的結果。2016年卡耐基梅隆大學的Lample等人在此基礎上提出了語言無關的實體抽取模型,在英語、德語、荷蘭語和西班牙語這四種語言上都取得了不錯的成績[4]。

在事件抽取方面。事件抽取技術是從非結構化的信息中抽取出用戶感興趣的事件,並以結構化的形式呈現給用戶。根據事件的相關定義,事件抽取任務可分為元事件抽取及主題事件抽取。當前的事件抽取研究主要面向元事件,而主題事件抽取的研究成果較少。元事件表示一個動作的發生或狀態的變化。針對事件抽取任務,主要包括事件類別的識別與分類以及事件元素識別兩大核心任務,傳統研究工作的重點在於預先規定好事件類型並定義事件模板。

在屬性抽取方面。屬性抽取是指抽取事物本身所固有的性質和事物的一些基本特性。事物的屬性通常是從多個方面和多個層次來表現的,因此事物的屬性是多樣性的。研究事物需要識別出這些事物的屬性特徵,可以深入了解這些事物的特徵和內涵。屬性抽取與套用的聯繫十分緊密,目前的研究熱點在人物屬性抽取、企業屬性抽取和概念屬性抽取上。2002年,英國南安普敦大學的Alani等人把屬性抽取和本體結合起來,開展了ArtEquAKT項目實現自動從網頁中抽取藝術家的信息,並生成人物傳記[5]。2004年,中科院計算所的Zhang等克服了傳統抽取方法無法對動態內容進行抽取的缺點,提出了CAIES系統,實現對企業相關信息的跟蹤抽取[6]。

相關詞條

熱門詞條

聯絡我們