簡介
廣義上,資料庫自然語言接口應當包括資料庫設計、資料庫定義、操縱(查詢、更新 )等方面,它旨在為有關資料庫的各種操作提供一 個自然語言界面。狹義上,資料庫自然語言接口 僅僅指資料庫自然語言查詢接口。因 為對普通用戶而言,查詢接口是最為重要的。自然語言查詢接口可以使用戶直接以日常生活中使用的自然語言提出查詢請求,獲取資料庫中的信息。
資料庫自然語言接口優缺點
優勢
通過資料庫 自然語言接口可以使用戶直接以日常生活中使用的自然語言提出查詢請求,獲取資料庫中的信息,俞必記住複雜的資料庫標準查詢語言的語法定義。從而充分體現了它的優勢所在:
用戶直接以套用領域的概念而不是資料庫的概念模式進行訪問,這意味著用戶無需了解資料庫內部結構。
用戶不再需要熟悉資料庫本身的查詢語言,從而大大減輕了用戶的培訓負擔。
用戶可以簡潔明了地提出查詢請求。
缺點
系統的可移植性問題,如套用領域可移植性、可移植性和自然語言可移植性目前語言的移植尚難以實現因此我們所關心的是前兩類可移植性
系統的可用性問題,如語言範疇和系統的概念範疇的在語言處理中的失配現象、歧義現象以及語言表述中的指代、省略等現象。
在資料庫漢語查詢接口中自然語言的受限問題有個①受限方式②受限程度③如何讓用戶理解這種受限。受限問題解決的好壞直接影響系統的範圍失配問題受限程度過強,使得系統的語言範圍道窄,容易出現範圍失配受限程度過弱,系統實現難度加大,系統可用性同樣難以提高。
要求
資料庫中的內容一定是明確的、有限的,而用戶的提問又總是圍繞著資料庫進行的。因此提問中的名詞必為資料庫概念模式中定義的詞或其同義詞、或可由它們定義的詞。提問中的動詞一般為資料庫操作命令詞或與資料庫關係名、屬性名有關的領域性動詞。
由於是向資料庫提問,不可能出現帶有感情色彩的辭彙,也杜絕了成語理語的出現。
句型有所限制,句法有所簡化,例如只支持祈使句、疑問句、簡單的主謂句以及省略句等。
歧義性和上下文相關現象大量減少,且有一定的規則可循。
更重要的一點是,由於接口的最終目的是把自然語言轉換成資料庫標準查詢語言,所以它並不要求完全徹底地去理解語言的深層含義。只要我們從語言的功能結構和語義的某些特徵上去分析處理它,達到轉換的目的就行了。
自然語言理解
自然語言處理(Natural Language Understanding )俗稱人機對話。人工智慧的分支學科。研究用電子計算機模擬人的語言交際過程,使計算機能理解和運用人類社會的自然語言如漢語、英語等,實現人機之間的自然語言通信,以代替人的部分腦力勞動,包括查詢資料、解答問題、摘錄文獻、彙編資料以及一切有關自然語言信息的加工處理。這在當前新技術革命的浪潮中占有十分重要的地位。研製第 5代計算機的主要目標之一,就是要使計算機具有理解和運用自然語言的功能。
自然語言理解是一門新興的邊緣學科,內容涉及語言學、心理學、邏輯學、聲學、數學和計算機科學,而以語言學為基礎。自然語言理解的研究,綜合套用了現代語音學、音系學語法學、語義學、語用學的知識,同時也向現代語言學提出了一系列的問題和要求。本學科需要解決的中心問題是:語言究竟是怎樣組織起來傳輸信息的?人又是怎樣從一連串的語言符號中獲取信息的?
這一領域的研究將涉及自然語言,即人們日常使用的語言,包括中文、英文、俄文、日文、德文、法文等等,所以它與語言學的研究有著密切的聯繫,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通信的計算機系統,特別是其中的軟體系統。因而它是計算機科學的一部分。
資料庫
概述
資料庫是指長期存儲在計算機內有組織的、可共享的數據集合。資料庫中的數據按一定的數據模型組織、描述和存儲,具有較小的冗餘度、較高的數據獨立性和易擴展性,並可為各種用戶共享。
資料庫是被長期存放在計算機內、有組織的、可以表現為多種形式的可共享的數據集合。這裡“共享”是指資料庫中的數據,可為多個不同的用戶、使用多種不同的語言、為了不同的目的而同時存取資料庫,甚至同一塊數據也可以同時存取;“集合”是指某特定套用環境中的各種套用的數據及其數據之間的聯繫(聯繫也是一種數據)全部集中地按照一定的結構形式進行存儲。
資料庫研究的範圍
當前,資料庫研究的範圍有以下三個領域。
1.資料庫管理系統軟體的研製
資料庫管理系統(DBMS)是資料庫系統的基礎。DBMS的研製包括研製DBMS本身及以DBMS為核心的一組相互聯繫的軟體系統。研製的目標是擴大功能、提高性能和提高用戶的生產率。
2.資料庫設計
資料庫設計的主要任務是在DBMS的支持下,按照套用的要求,為某一部門或組織設計一個結構合理、使用方便、效率較高的資料庫及其套用系統。其中主要的研究方向包括資料庫設計方法、設計工具和設計理論的研究,數據模型和數據建模的研究,計算機輔助資料庫設計方法及其軟體系統的研究,資料庫設計規範和標準的研究等。
3.資料庫理論
資料庫理論的研究主要集中於關係的規範化理論、關係數據理論等。近年來,隨著人工智慧與資料庫理論的結合及並行計算機的發展,資料庫邏輯演繹和知識推理、並行算法等理論研究,以及演繹資料庫系統、知識庫系統和數據倉庫的研製都已成為新的研究方向。
基於複述的中文自然語言接口
概述
隨著現代信息技術的發展以及數據的海量式增長,人們希望以更自然、便捷的方式從資料庫中獲取信息,資料庫自然語言接口(Natural Language Interface of DataBase,NLIDB)應運而生, 旨在幫助用戶使用熟悉的自然語言(如中文)從結構化存儲系統中獲取信息,消除計算機與人之間的 “隔閡”。Rodolfo等人從不同角度分析、總結了目前主流的 NLIDB系統,大體分為兩類:一類是以規則匹配、句法分析或語義規則等為主要技術手段,分析用戶查詢語義然後轉換為結構化查詢語言(Structured Query Language,SQL),即自然語言到SQL的直接映射;另一類是首先將自然語言翻譯成一種中間層表示的邏輯查詢語言,再轉換為SQL,這種方法由於具有資料庫無關、領域適應性等特點,成為近年來該領域研究的熱點。然而,以上方法的難點在於需要直接處理用戶靈活多變的查詢語義, 由於目前詞法分析、句法分析技術尚未達到足夠高的正確率,語義分析階段的錯誤將導致最後生成的SQL不符合用戶查詢意圖。
近來,一些學者將 NLIDB 轉換為最優結構篩選問題, 即對用戶輸入首先生成可能的候選結構集,再借用規則或統計學方法對其排序,最後取分數最高的候選結構轉換SQL。目前上述方法主要依賴人工編寫規則以及標註語料,不便於跨領域使用。
方法
綜合以上問題, 本文提出了一種基於複述的中文自然語言接口(Paraphrase Natural Language Interface,PaNLI)實現方法。PaNLI 使用網路問答平台提供的大量 “類似問題 ” “相關知識” 作為複述(paraphrases)訓練語料, 這些語料涉及領域廣泛且來自用戶的真實提問, 訓練得到的複述分類器能更好地解決 NLIDB 語義鴻溝問題。PaNLI 首先提取出句子中可映射到資料庫元素的實體詞, 並通過子樹遍歷等操作得到候選樹集與初始排序;其次根據候選結構匹配的屬性句法類別結合規則模板生成若干個形式化的自然語言表達;最後利用訓練得到的支持向量機模型(Support Vector Machine,SVM)分類器計算輸入語句與形式化自然語言表達的語義相關度, 重新排序候選樹集, 將得到的最優候選樹轉換為 SQL。使用機器學習方法處理分類問題時, 關鍵點在於對問題抽取合適的特徵表示, 以往句子表示通常使用詞袋模型, 即不考慮詞語順序以及關聯信息。本文提出一種富語義的句子級特徵表示方法, 使用 Word2Vec 工具在大量未標註文本上訓練得到詞語的低維向量表示,結合依存句法分析結果,得到句子的多維語義特徵表示。實驗表明該特徵表示方法能有效提高複述分類精度。