自然語言信息系統

自然語言信息系統

自然語言是人們日常使用的口頭 語言和書面語言。相對於計算機應 用的人工語言(程式設計語言、機器 語言、受控檢索語言等)而言。自然語言信息系統是對自然語言進行處理和理解的系統。自然語言信息系統的主要功能是機器對人們輸入的自然語言進行處理和理解,並返迴響應的結果。

簡介

自然語言信息系統是對自然語言進行處理和理解的系統,是人工智慧是計算機科學領域與人工智慧領域中的一個重要方向。自然語言信息系統中最重要的兩個技術是自然語言處理和自然語言理解。

自然語言處理

自然語言處理是計算機科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。

現代NLP算法是基於機器學習,特別是統計機器學習。機器學習範式是不同於一般之前的嘗試語言處理。語言處理任務的實現,通常涉及直接用手的大套規則編碼。

許多不同類的機器學習算法已套用於自然語言處理任務。這些算法的輸入是一大組從輸入數據生成的“特徵”。一些最早使用的算法,如決策樹,產生硬的if-then規則類似於手寫的規則,是再普通的系統體系。然而,越來越多的研究集中於統計模型,這使得基於附加實數值的權重,每個輸入要素柔軟,機率的決策。此類模型具有能夠表達許多不同的可能的答案,而不是只有一個相對的確定性,產生更可靠的結果時,這種模型被包括作為較大系統的一個組成部分的優點。

自然語言處理研究逐漸從辭彙語義成分的語義轉移,進一步的,敘事的理解。然而人類水平的自然語言處理,是一個人工智慧完全問題。它是相當於解決中央的人工智慧問題使計算機和人一樣聰明,或強大的AI。自然語言處理的未來一般也因此密切結合人工智慧發展。

自然語言理解

自然語言理解(Natural Language Understanding )俗稱人機對話。人工智慧的分支學科。研究用電子計算機模擬人的語言交際過程,使計算機能理解和運用人類社會的自然語言如漢語、英語等,實現人機之間的自然語言通信,以代替人的部分腦力勞動,包括查詢資料、解答問題、摘錄文獻、彙編資料以及一切有關自然語言信息的加工處理。這在當前新技術革命的浪潮中占有十分重要的地位。研製第 5代計算機的主要目標之一,就是要使計算機具有理解和運用自然語言的功能。

自然語言理解是一門新興的邊緣學科,內容涉及語言學、心理學、邏輯學、聲學、數學和計算機科學,而以語言學為基礎。自然語言理解的研究,綜合套用了現代語音學、音系學語法學、語義學、語用學的知識,同時也向現代語言學提出了一系列的問題和要求。本學科需要解決的中心問題是:語言究竟是怎樣組織起來傳輸信息的?人又是怎樣從一連串的語言符號中獲取信息的?

這一領域的研究將涉及自然語言,即人們日常使用的語言,包括中文、英文、俄文、日文、德文、法文等等,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。

目前存在的問題有兩個方面:一方面,迄今為止的語法都限於分析一個孤立的句子,上下文關係和談話環境對本句的約束和影響還缺乏系統的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規律可循,需要加強語用學的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統只能建立在有限的辭彙、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大提高之後,才有可能適當擴大範圍.

以上存在的問題成為自然語言理解在機器翻譯套用中的主要難題,這也就是當今機器翻譯系統的譯文質量離理想目標仍相差甚遠的原因之一;而譯文質量是機譯系統成敗的關鍵。中國數學家、語言學家周海中教授曾在經典論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程式設計問題;單靠若干程式來做機譯系統,肯定是無法提高機譯質量的;另外在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。

信息系統

信息系統(Information system)是由計算機硬體、網路和通訊設備、計算機軟體、信息資源、信息用戶和規章制度組成的以處理信息流為目的的人機一體化系統。

功能

信息系統的五個基本功能:輸入、存儲、處理、輸出和控制。

輸入功能:信息系統的輸入功能決定於系統所要達到的目的及系統的能力和信息環境的許可。

存儲功能:存儲功能指的是系統存儲各種信息資料和數據的能力。

處理功能:基於數據倉庫技術的在線上分析處理(OLAP)和數據挖掘(DM)技術。

輸出功能:信息系統的各種功能都是為了保證最終實現最佳的輸出功能。

控制功能:對構成系統的各種信息處理設備進行控制和管理,對整個信息加工、處理、傳輸、輸出等環節通過各種程式進行控制。

結構

1 基礎設施層 由支持計算機信息系統運行的硬體、系統軟體和網路組成。

2 資源管理層 包括各類結構化、半結構化和非結構化的數據信息,以及實現信息採集、存儲、傳輸、存取和管理的各種資源管理系統,主要有資料庫管理系統、目錄服務系統、內容管理系統等。

3 業務邏輯層 由實現各種業務功能、流程、規則、策略等套用業務的一組信息處理代碼構成。

4 套用表現層 是通過人機互動等方式,將業務邏輯和資源緊密結合在一起,並以多媒體等豐富的形式向用戶展現信息處理的結果 。

漢字信息處理系統

指能處理漢字的計算機系統,由硬體和軟體兩部分組成,能輸入輸出漢字及進行漢字處理。硬體除有一般的計算機設備外,還應有漢字輸入設備,漢字輸出設備以及漢字字型檔或漢字發生器等。軟體主要有漢字處理程式(對漢字的輸入、檢索、加工及輸出格式等進行處理的程式)、漢字型檔調用程式、漢字檔案編輯程式和其他有關的應用程式等。

漢字的輸入設備決定於系統採用的漢字輸入方法。漢字的輸入方法很多,主要有以下幾種:(1)把漢字分類定義在鍵盤的各個鍵上,一般是一個鍵上定義4個漢字,先按某個功能鍵,再按某個鍵,便輸入某個漢字。因為漢字很多,這樣漢字輸入的鍵盤就很大,叫大鍵盤輸入方法。(當然有的專用系統,用的漢字少,也有用小鍵盤的)。(2)按照某種計算機漢字編碼法,用標準鍵盤便可輸入漢字。漢字編碼方法很多,全國有幾百種,現在用得較多的有:區位碼輸入法、拼音輸入法、筆形編碼法、五筆輸入法、聯想輸入法等。(3)把漢字的偏旁部首定義在鍵盤的各個鍵上,按鍵即輸入用偏旁部首組成的漢字。不管哪一種輸入方法,都要有軟體支持,都是輸入一個代碼,然後經過程式處理,存入計算機一個漢字機內代碼。

漢字輸出設備有顯示器和印表機等。一般的字元顯示器在軟體的支持下,都可把漢字點陣顯示出來;印表機一般採用針式印表機,16針、24針、32針的印表機,採用點陣印刷方式,列印出漢字點陣,字形都比較好看;也有採用雷射印表機的,速度更快些。無論是顯示或列印輸出,都是在軟體支持下,把漢字點陣送到輸出設備上,驅動輸出點陣組成漢字的。漢字點陣碼事先存在漢字點陣字型檔里,由漢字處理軟體按漢字機內碼,取出該漢字的點陣碼送給輸出設備。

漢字信息處理系統除有專用的漢字輸入輸出設備和漢字處理程式外,還應有漢字處理應用程式,如漢字情報處理程式和辦公事務處理程式等。當然,一般微型機配上了漢字作業系統(CCDOS)以及相應的應用程式,如Wordstar字處理程式、dBASE資料庫程式等,也可看作是一個小漢字處理系統 。

相關詞條

熱門詞條

聯絡我們