樹形分析法
正文
自然語言自動處理中的一種分析方法,藉助於樹形圖來說明句子中詞與詞、詞組與詞組之間的句法、語義和邏輯關係。語言中的任何一個句子都隱藏著一個樹形圖。例如,句子“鋁是一種重要的金屬”中隱藏著的樹形圖如下: 這個樹形圖中, S表示句子,NP表示名詞詞組,VP表示動詞詞組,AP表示形容詞詞組, NUMER表示數量詞組,N 表示名詞,V表示動詞,CARD表示基數詞,QTF表示量詞,ADJ表示形容詞,PART表示助詞,它們都是標記。
樹形圖由結和連線結的枝組成,每一個結至少有一個標記,也可以有多個標記,其中,有的標記是表示詞組類型或詞類的,如 S、NP、VP、V、N、PART等,它們不出現在具體的句子中,稱為非終極標記。有的標記是表示語言中具體的詞,如 “鋁”、 “是”、“一”等,它們出現在具體的句子中,稱為終極標記。如果一個結點上有多個標記,那么,除了上述標記之外,其他標記還可以表示詞和詞組的句法功能信息(如主語、謂語、定語、賓語、狀語、補語等),詞和詞或者詞組和詞組之間的邏輯關係信息(如施事者、受事者、與事者等)和語義關係信息(如並列、原因、結果、讓步、比較、工具、時間、空間等)以及其他的語法信息。
樹形圖中各個結點之間,有兩種關係值得注意:一種是支配關係,一種是前於關係。
如果在樹形圖中從結x到結y有一系列的枝把它們連線起來,而且所有的枝順著同一方向,這即表示結 x支配結 y。例如,上面的樹形圖中,標有VP的結支配著標有 NUMER的結, 因為連線結VP與結NUMER的枝都一律從較高的結 VP 降到較低的結NUMER;當x支配y時,y就叫做x 的後裔。
如果結x與結y是相異的,x支配y,而且x與y之間沒有另一個相異的結,這叫做直接支配。結y就叫做結x的直接後裔。在上面的樹形圖中,標有VP的結有兩個直接後裔,即標有V的結和右邊的標有NP的結,V和NP這兩個結稱為姐妹。支配關係中不被任何其他的結支配的結叫做根。圖中,標有 S的結就是根;被其他結支配而不支配任何其他結的結,叫做葉。一般說來,樹形圖是從上到下畫出的,所以,根總是在頂部,葉總是在底部。
樹形圖中的兩個結,只有當它們之間沒有支配關係的時候,才能在從左到右的方向上排序,這時,這兩個結之間,就存在前於關係,左邊的結前於右邊的結。在上面的樹形圖中,標有“鋁”的結前於標有VP的結及VP所支配的結,因為結VP與結“鋁”之間不存在支配關係;但是,標有“鋁”的結不能前於支配它的NP及 N等結。可見,支配關係同從左到右的前於關係是相互排斥的,也就是說,在樹形圖中,如果兩個結x與y之間存在前於關係,那么,x與y之間必定不能存在支配關係。並且,如果 x前於y.則由x支配的所有的結都前於由y支配的所有的結。
根據這些基本性質,一幅樹形圖可以提供如下 3個方面的語法信息:
①句子中的詞序:樹形圖中的各個葉按從左到右的前於關係排列起來,就是它所表示的句子的詞序。這些葉之間是不存在支配關係的。
②句子的層次:一個結的直接後裔就是這個結的直接成分,根據結之間的直接支配關係,便可看出句子的層次關係。
③詞類信息、詞組類型信息、句法功能信息、詞與詞或者詞組與詞組之間的邏輯關係信息和語義關係信息等。
樹形圖中的一個結可以與多個標記相對應,用多值標記函式 L表示如下: y1,y2,…,yn就是在一個結點x上可以標記的各種信息。
因而樹形圖既能提供句中詞序和層次的幾何值,又能提供詞類、詞組類型、句法功能、邏輯關係、語義關係的代數值。
參考書目
馮志偉:《漢語句子的多標記多叉樹形圖分析法》,載《人工智慧學報》,長沙,1983。
R.Rustin, (ed.), Nɑturɑl Lɑnɡuɑɡe Processinɡ,Algorithmic Press,New York,1973.