發展
自然語言是人類智慧的結晶,自然語言處理是人工智慧中最為困難的問題之一,而對自然語言處理的研究也是充滿魅力和挑戰的。隨著計算機和網際網路的廣泛套用,計算機可處理的自然語言文本數量空前增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機互動等套用需求急速增長,自然語言處理研究必將對我們的生活產生深遠的影響。
自然語言處理是人工智慧中最為困難的問題之一,而對自然語言處理的研究也是充滿魅力和挑戰的。隨著計算機和網際網路的廣泛套用,,也隨之衍生出了一系列的產品。相對而言,截止到2012年,國外在該領域的研究投入和成果都相對領先於國內,尤其漢語天然就相對於其他語種更為複雜,更為難以分析。
當前國內在該領域的優秀企業:
1.科大訊飛
雖然科大以語音技術作為自己的核心競爭力,但是在自然語言處理也具有了一定的水
平,相對來說還欠缺了長期的努力和發展。2. 中微通信息技術公司
該公司聚焦於自然語言處理技術,通過長期的研發努力,推出了易手邦自然語言智慧型文本雲服務,實現了中文自然語言的智慧型處理。其核心技術包括“自然語言處理及語義雲解析引擎”和“微數據精準雲撮合引擎”。
缺陷
與自然語言相對的是邏輯語言。自然語言是人腦與人腦的交際工具 ,邏輯語言是人腦與電腦的交際工具。認知科學認為,思維和認知是知識的邏輯運算,任何計算化的自然語言分析都主要依賴邏輯語言對這種分析的表述。研究心智表現及其運算的認知科學理論追求的是心智研究的物質體現,這最終將導致語言學研究進入自然科學研究。自然語言的高度形式化描寫對電腦程式的機械模仿至關重要,但理解力模仿不同於機械模仿,它們之間的區別非常類似自然語言中形式操作與意義操作之間的不同。機械模仿涉及的是形式性質,而理解力模仿涉及的卻是準語義性質。現階段計算機以機械模仿為主並通過邏輯語言與人類的自然語言對話。
現代邏輯作為分析自然語言的工具,認為自然語言的缺陷有:
(1)表達式的層次結構不夠清晰;
(2)個體化認知模式體現不夠明確;
(3)量詞管轄的範圍不太確切;
(4)句子成分的語序不固定;
(5)語形和語義不對應。
從自然語言的視角衡量邏輯語言,其不足有:
(1)初始詞項的種類不夠多樣;
(2)量詞的種類比較貧乏
;(3)存在量詞的轄域在公式系列中不能動態的延伸;
(4)由於語境的缺失而使語言傳達信息的效率不高。
統計自然語言處理
統計自然語言處理運用了推測學、機率、統計的方法來解決上述,尤其是針對容易高度模糊的長串句子,當套用實際文法進行分析產生出成千上萬筆可能性時所引發之難題。處理這些高度模糊句子所採用消歧的方法通常運用到語料庫以及馬可夫模型(Markov models)。統計自然語言處理的技術主要由同樣自人工智慧下與學習行為相關的子領域:機器學習及資料採掘所演進而成。