介紹
我國的自然語言處理有了很大的進步,取得了令人矚目的成績,有力地促進了我國計算機產業的民族化,促進了計算機在我國人民當代語言文字生活中的普及和推廣。但是,我國自然語言處理的發展水平,與已開發國家相比,還有著相當大的差距,為了進一步提高我國自然語言處理的研究水平,我們應該注意我國自然語言處理研究的世界化問題。我國自然語言處理的世界化包括兩方面的內容:一方面,我們應該努力學習國外的先進的理論和方法,縮短與世界的差距,另一方面,我們應該結合漢語漢字的特點,創造出獨具中國特色的理論和方法,為世界自然語言處理的發展作出貢獻。首先談第一個方面的問題。我國的自然語言處理研究過去沒有花足夠的力量來了解國外自然語言處理的最新成就。我國的傳統語言學有一個不足的地方,就是許多研究人員沒有閱讀外國文獻的習慣,他們寫的文章,很少引用國外的研究成果,好像他們的研究完全是他們自己獨出心裁的創造,既不必向國內的同行學習任何東西,也不必向外國學習任何東西。由於不閱讀國外的文獻,許多研究常常是重複在國外早已進行過的工作,往往事倍而功半,以至我國的語言學研究同國際語言學的潮流嚴重脫節。
這種不良的習慣也帶到了自然語言處理的研究中來,我們有些自然語言處理研究人員,也不重視國外自然語言處理的新理論新方法。近年來,國外自然語言處理的理論和實踐都有了很大的發展。在理論方面,馬丁.凱依(M.Kay)提出了“功能合一語法”,卡普蘭(P.Kaplan)和布列斯南(J.W.Bresnan)提出了“辭彙功能語法”,蓋茲達(G.Gazdar)提出了“廣義短語結構語法”,還有喬姆斯基(N.Chomsky)的“管轄約束理論”。這些理論研究,突破了傳統的框架,更加重視辭彙對句法的作用,更加重視語義的作用,把語言的形式研究逐漸地從形態和句法轉到了辭彙和語義方面,在辭彙平面上,探索語言的辭彙個性,在語義平面上,探索語言的語義共性,從而把個性規則的研究和共性規則的研究在新的基礎上結合起來;這些理論不僅注意研究印歐語言,也力圖研究世界的各種語言,有些自然語言處理的專家,實際上就是語言上的多面手,他們不僅僅會講自己的母語和方言,還會講外語,能夠運用多種語言,因而這些理論具有一般性,既適用於印歐語言,也適用與漢語。這些理論與傳統的理論還有一個重要的區別:傳統理論一般只講原理,而這些理論則著重於講方法,帶有強烈的方法論色彩,非常便於在計算機上實現,具有可操作性,方法是不會帶有個別語言特性的偏向的,而常常是一般性的,因而這些帶有方法論色彩的理論,也可適用於漢語。
那種認為國外的自然語言處理的理論只適用於印歐語言而不適用於漢語的說法,是不符合事實的,也是片面的。我們在漢語的研究中固然有必要注意漢語不同於其他語言的特點,但如果我們過分強調地漢語的特殊性,而不重視漢語與其他語言所共同具有的許許多多的一般性的語言理論和方法,強調得過了頭,就會走向反面,把漢語的研究與世界的語言學研究隔離起來,阻礙漢語研究的發展。目前,國外學者對於辭彙功能語法、廣義短語結構語法、管轄約束理論的計算複雜性,已經進行了嚴格的精密的分析和論證,使得這些理論更加緊密地與計算機技術結合在一起。至於功能合一語法理論,“合一”的概念本身就是從現代數理邏輯中借來的,它有著十分嚴格的運算法則。