形成過程
自然語言處理作為人工智慧的一個分支,已有 40 年的發 展歷程,形成了計算語言學這一跨接語言、信息、認知科學和計算機技術的邊緣學科。 它的發展主要圍繞以下三個方面:(1)自然語言的表述和處理模式 ;2)自然語言知識的表示、獲取和學習;(3)研製開發自然語言的套用系統。
在自然語言的表述和處理模式方面,源於印歐語系的語法學和句法分析一直居 於主導地位。八大詞類、六種句子成分、短語結構和句法樹成為語言分析的基本概念和依託。對於這一傳統分析模式,僅在 20世紀70年代,曾一度受到菲爾墨 ( Fillmore) 和山克 ( Schank ) 的質疑和挑戰。 80 年代以來,語料庫語言學的興起使人們對統計 模式產生了過高的期望,以致忽視了菲-山挑戰的實質意義。
面對語音流的五重模糊(發音模糊、音詞轉換模糊、詞的多義模糊、語義塊構成的分合模糊、指代冗缺模糊) , 面對文字流的後三重模糊,大腦的語言感知應付裕如,表現了強大的解模糊能力,自然語言處理技術當前無從望其項背。
近20年來,自然語言處理囿於傳統模式,不圖突破。 但是,它所面臨的所有重大課題,從音詞轉換到機器翻譯,從全文檢索、信息抽取到智慧型閱讀助手,都在呼喚語言表述及處理新模式的誕生;呼喚上下文聯想處理向“知其所以然”的語義理解前進;呼喚向語言感知的方向靠攏。隨著網路時代的來臨,這一呼喚的迫切性和嚴峻性在與日俱增。
HNC理論進行了近8年的探索,得到的結論要點是:
1.要把自然語言所表述的知識劃分為概念、語言和常識三個獨立的層面,對不同層面採取不同的知識表示策略和學習方式,形成各自的知識庫系統。
2.建立網路式概念基元符號體系,即概念表述的數學表示式。這個符號體系或表示式應具有語義完備性,能夠與自然語言的詞語建立起語義映射關係,同時,它必須是高度數位化的,每一個符號基元(每個字母或數字)都具有確定的意義,可充當概念聯想的激活因子。這個符號體系就是下文將要詳細介紹的三大語義網路及五元組等,它是計算機把握並理解語言概念的基本前提。
3.建立語句的語義表述模式,即語句表述的數學表示式。這一模式的完備性應表現為可表述自然語言任何語句的語義結構,即喬姆斯基所提出的語言深層結構。這個深層結構就是下文將要簡要介紹的句類格式。以句類格式為基點的語句分析叫做句類分析,是對大腦語言感知過程的初步模擬,在上述五重模糊或三重模糊的消解方面,理論上,句類分析應能接近甚至超過常人的水準。
基本內容
人對語言的理解本質上是一種認知行為,如果能描述大腦認知結構的具體模式,計算機就可以運用這些模式對自然語言進行理解處理。我們把認知結構分為局部和全局兩類聯想脈絡,認為對聯想脈絡的表述是語言深層(即語言的語義層面)的根本問題。什麼是局部聯想和全局聯想呢?簡單地說,局部聯想是指辭彙層面的聯想,全局聯想是指語句及篇章層面的聯想。更簡單地說,理解句子有兩種思路:一是從組成句子的詞語入手,一是從句子的整體結構和上下文語境入手,前者就是局部聯想,後者就是全局聯想。當然,人在理解句子的時候,這兩種聯想不是截然分開的,而是並存的、相互作用的,計算機理解語言也應該綜合運用這兩類聯想脈絡。
HNC的出發點就是通過建立兩類聯想脈絡來“幫助”計算機理解自然語言。下面將分別介紹HNC建立的兩類聯想脈絡。
局部聯想脈絡
局部聯想是辭彙層面的聯想,自然語言的辭彙是用來表達概念的,因此,HNC建立的局部聯想脈絡體現為一個概念表述體系,這個概念表述體系可以簡單概括如下:把概念分為抽象概念和具體概念,對抽象概念用五元組和語義網路來表達,對具體概念採取掛靠展開近似表達方法。
概念
概念有抽象與具體之分。在一般人看來,抽象概念總是比具體概念難於把握,中文信息處理界已有的漢語語義分類系統,其內容主要是對比較容易把握的具體概念的分類,這樣的語義分類系統沒有擺脫對客觀事物進行科學分類的束縛,對抽象概念則幾乎束手無策。實際上,從深層來講,抽象概念比具體概念更具有基元性、系統性,更容易表達;具體概念是客觀存在物在人的思維中的一種直接反映,它裡面包含了許多世界知識,而對世界知識是很難進行詳盡表達的。所幸的是,人對具體概念理解和認識的深度可以比抽象概念淺,所以可以採取實用原則“,不求甚解”。HNC理論側重於抽象概念的表達。
HNC理論通過五元組和語義網路層次符號來完整地表達抽象概念,前者表達抽象概念的外在表現,後者表達抽象概念的內涵。
任何一個概念都需要從不同側面予以表達,這種現象叫做概念的多元性表現。具體概念的多元性表現十分複雜,難以給出規範化的表達,抽象概念則有所不同,它的多元性表現在自然語言中有明顯的跡象,這就是詞性現象。印歐語系的詞根或具有詞根特色的詞,可以加上不同的後綴分別構成動詞、名詞、形容詞和副詞,這種詞性的轉換就是抽象概念多元性的生動表現,也就是說,詞根相同詞性不同的詞是對同一概念不同側面的表達。漢語對抽象概念的多元性表現則沒有相應的形式標誌,而往往是同一個詞兼有名詞、動詞、形容詞、副詞中的幾個屬性。漢語的詞性模糊現象(即無形態變化)和西語以形態變化表現不同詞性的現象都是抽象概念多元性的生動表現,形態變化的有無只是一種形式,本質在於抽象概念本身具有這種多元性表現的固有特徵。
五元組
那么,抽象概念多元性表現的“多”是一個模糊的“多”,還是一個確定的“多”?或者說,能否給以規範化的表達?或者再換一個說法,這個多元性表現的“多”是否存在某些基元(primitive)呢?答案是肯定的。抽象概念需要從動態、靜態、屬性、值和效應五個側面加以表達,這就是抽象概念的五元組特性,簡記為: 特性,它們是抽象概念多元性表現的基元。任何抽象概念都具有五元組特性,即都需要從五個側面加以表達,不過,對某個抽象概念各個側面的表達,自然語言中未必都有相應的詞語,而且不同語種間存在著差別。反過來,自然語言中的一個表達抽象概念的詞語必定是從五元組中的某個或某幾個側面來表達某個抽象概念。例如“,思考、思維、想法”就是分別從五元組的 側面對同一概念內涵的表達。五元組是詞性的本質內容,是詞性的基元。所以,不必為漢語辭彙的大量兼類現象感到困惑。
語義網路
為表達抽象概念的內涵,HNC 設計了三大語義網路:基元概念語義網路、基本概念語義網路和邏輯概念語義網路。 語義網路是樹狀的分 層結構,每一層的若干節點分別用數字來表示,網路中的任一個節點都可以通過 從最 高層開 始、到該節點結束的一串數字唯一地確定,這個數字串叫做層次符號。三大語義網路是抽象概念的三大聚類。
三大語義網路為表達抽象概念的內涵而設計,最終將用它來描寫自然語言辭彙的語義,但網路本身卻不是直接面向語言辭彙的,而是面向構成辭彙語義的概念基元的,適用於任何語種。 網路上的任何節點本身都是概念,但這些概念只是龐大的概念海洋里的“元素”,即它們是概念基元,它們通過不同方式的組合而構成各種各樣的、無數的概念,HNC 定義了 8 種組合結構,用以表達複合概念。
全局聯想脈絡
全局聯想脈絡是語句及篇章層面的聯想,語義塊和句類理論是在語句層面設計的全局聯想脈絡,語義塊是句類的函式。
語義塊
簡單地說,語義塊是句子的語義構成單位,形式上可以是一個詞、一個短語或者一個句子。 語義塊類似於傳統語言學中的短語,但是,兩者具有本質的區 別,表現在:第一,從內涵上來看,語義塊是語義,即語言深層的定義,短語則是語法,即語言表層的定義;第二 ,從形式上來看,語義塊可包含或嵌套另外的一個甚至多個語句 ,而短語不能。另外,傳統的短語更多的是被看作詞的組合結構,而不是句子的直接構成單位。
語義塊這一概念的提出是為了便於從語言深層(即語義層面) 描述一個句子。 用詞或短語描述句子,無法清楚地界定一個句子是否備,如果問一個句子應該或者可能有多少個詞或短語,便難以回答。 但有了語義塊的概念 , 就可以明確回答一個句子有多少語義塊以及每個語義塊的類型等問題。
語義塊分為主語義塊和輔語義塊兩大類。主和輔是從句義表達的角度劃分的,主語義塊是句義的“必不可少”的成分,輔語義塊是句義的“可有可無”的成分。主語義塊有 4 種:特徵E、作用者A、對象B 和內容C。輔語義塊有 7 種:條件、手段、工具、途徑、參照、因、果。
句類
由於判斷是人類思維活動的基本內容,也是語言表達的基本內容之一,我們據此又定義了一個句類:判斷句。根據作用效應鏈定義的 6 個句類加上判斷句,構成HNC的7個基本句類。每一個基本句類又分為若干個子類,子類的定義與相應基元概念網路的二級節點相對應。 子類之下還可以再分子類。
基本句類可以構成混合句類。所謂混合句類,是指兩個以上的基本句類在一個 句子中共現,諸如作用效應句、過程轉移句、狀態判 斷句等。 自然語言的句子是豐富的、複雜的,但它們表達的信息總是由7個基本句類組成的,這正是基本句類之所以稱為“基本”的原因。在自然語言中,基本句類的混合往往(或者說主要)是兩兩混合,因此,混合句類理論上應 有6×5 + 6 = 36個。“6×5”是與作用效應鏈相對應的 6個基本句類的兩兩混合,“+ 6”是它 們與判斷句的混合。
實現
HNC 理論走向套用的第一步是語義塊感知和句類 辨識。語義塊感知就是找出一個句子中的各個語義塊,句類辨識就是通過感知得到一個句子的 E 語義塊,進而確定這個句子所屬的句類。感知到語義塊、辨識出句類以後,就可以運用句類知識對句子進行理解處理,這稱為句類分析。在句類分析過程中,句類知識起著全局性的指導作用,主要有四方面的知識:一是句類格式知識,二是語義塊構成知識,三是語義塊之間的概念關聯知識,四是語義塊和句類的轉換知識。 語義塊感知和句類辨識主要運用局部聯想脈絡,句類分析主要運用全局聯想脈絡,當 然,處理過程中對這兩個聯想脈絡的運用不是截然分開的。
自然語言處理系統
以句類分析為 基礎,HNC 設計了自然語言處理系統的基本框架,這個框架由 9個模組組成:
(1)單音詞感知模 塊;
(2)語義塊感知模組;
(3)句 類 分 析模 塊;
(4)合理性分析模組;
(5)短時記憶知識模組;
(6)語境生成模組;
(7)隱藏知識揭示模組;
(8)要點主題分析模組;
(9)短時記憶向長時間記憶擴展的模組。
目前,部分模組已在計算機上得到實現。
知識庫
自然語言處理離不開知識庫,對知識庫的設計和建立也是HNC理論的重要組成部分。人工智慧早期一系列的挫折,使人們認識到知識的重要性。要使計算機表現出智慧型,唯一的辦法就是使它擁有並運用知識。 正是這一認識促成了20世紀70年代到80 年代的“專家系統熱”,並取得了引人注目的成就。但這些專家系統的知識,都是局限於特定的領域,而一般自然語言理解(不包括特定領域的簡單語言套用系統)所需要的知識則完全不同於通常的專家系統。它需要各種各樣的知識,但可分為三 大類:概念知識、語言知識、常識及專業知識。前兩類知識的本質區別在於:語言知識與具體語種有關,而概念知識與語種無關。把概念知識從語言知識中獨立出來是勢在必然的發展。把常識及專業知識獨立出來對知識庫的建立是非常方便和有利的,這一點不言而喻。