簡介
請求問答系統是一種問答系統,即根據用戶請求,返回一個用戶一個答案。一般分為3個部分:問題理解,知識檢索以及答案生成。問題理解是指對於自然語言輸入的問題,首先需要理解問題問的是什麼:是在問一個詞語的定義,是在查詢某項智力知識,等等,只有準確地理解問題,才有可能到正確的知識庫檢索答案。
問答系統
問答系統(Question answering),是未來自然語言處理的明日之星。問答系統外部的行為上來看,其與目前主流資訊檢索技術有兩點不同:首先是查詢方式為完整而口語化的問句,再來則是其回傳的為高精準度網頁結果或明確的答案字串。以Ask Jeeves為例,使用者不需要思考該使用什麼樣的問法才能夠得到理想的答案,只需要用口語化的方式直接提問如“請問誰是美國總統?”即可。而系統在了解使用者問句後,會非常清楚地回答“歐巴馬是美國總統”。面對這種系統,使用者不需要費心去一一檢視搜尋引擎回傳的網頁,對於資訊檢索的效率與資訊的普及都有很大幫助。從系統內部來看,問答系統使用了大量有別於傳統資訊檢索系統自然語言處理技術,如自然語言剖析(Natural Language Parsing)、問題分類(Question Classification)、專名辨識(Named Entity Recognition)等等。少數系統甚至會使用複雜的邏輯推理機制,來區隔出需要推理機制才能夠區隔出來的答案。在系統所使用的資料上,除了傳統資訊檢索會使用到的資料外(如字典),問答系統還會使用本體論等語義資料,或者利用網頁來增加資料的豐富性。
截至目前為止,最著名的問答系統應屬IBM的沃森系統。該系統在2011年於Jeopardy節目中,與人類同場較勁,並獲得最後的勝利。
分類
我們可以從知識領域、答案來源等角度來替問答系統做分類。從知識領域來看,可分為“封閉領域”以及“開放領域”兩類系統。封閉領域系統專注於回答特定領域的問題,如醫藥或特定公司等。由於問題領域受限,系統有比較大的發揮空間,可以導入如專屬本體論等知識,或將答案來源全部轉換成結構性資料,來有效提升系統的表現。開放領域系統則希望不設限問題的內容範圍,天文地理無所不問。系統中所有知識與元件都必須儘量做到與領域不相關,當然難度也相對地提高。
若根據答案來源來區分,可分為“資料庫問答”、“常問問題問答”、“新聞問答”、“網際網路問答”等系統。資料庫是最常見的結構化資料儲存媒介。雖然透過操控SQL語言便能夠有效率地存取資料,但有些系統試圖提供更直覺的自然語言查詢界面,希望能進一步降低學習門檻。1970年代的LUNAR系統算是早期成功的案例,其正確答題率可以達到百分之七十,可回答月球隕石相關資料。微軟的English Query則是近期的一個商業產品。English Query在剖析完英文問句後,會根據底層資料庫結構,自動產生出相對應的SQL查詢。雖然有這些成功系統案例,但資料庫問答系統似乎很難被大眾所接受,其中一個因素可能是因為對於結構化資料來說,結構化的查詢界面在查詢上更為方便。常問問題(Frequently Asked Questions, FAQs)是公司或者長期經營領域中常見的重要資源。一份FAQ資料包含了一個問句以及相對應的答案描述。FAQ問答系統的主要責任在比對使用者問句與現有FAQ問句的相似度,此與其他問答系統著重在答案語料中擷取答案的作法不同。另一種重要的系統為新聞問答系統。今日新聞媒體都已經數位化了,每日累積所產生的新聞資訊量是相當可觀的,加上新聞的內容廣泛豐富,作為開放領域問答系統的答案來源是最適合不過的。這樣的特性使得此類系統的評估較為容易,因此稍後會提到的國際評估會議都是採用此類系統作為評估對象。最後一類的是網際網路問答系統,這些系統利用搜尋引擎回傳的結果網頁,從中擷取答案。主要挑戰在於如何處理網路多異質性的資料,以及高噪聲網頁過濾等問題。
知識檢索
概述
關於知識檢索的概念迄今為止還沒有形成一個統一的定義,常見的關於知識檢索概念的表述有以下幾種:
① 知識檢索,就是綜合套用信息管理科學、人工智慧、認知科學及語言學等多學科的先進理論與技術,基於知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術,充分表達和最佳化用戶需求,能高效存取所有媒體類型的知洪源(文本、圖像、視頻、聲音等),並能準確精選用戶需要的結果。
② 知識檢索是指在知識組織的基礎上,從知識庫中檢索出知識的過程,是一種基於知識組織體系,能夠實現知識關聯和概念語義檢索的智慧型化的檢索方式。
③ 知識檢索是針對信息檢索中存在的語義性較差、智慧型性低、知識性較弱等現狀提出的一種基於語義和知識關聯 運用知識處理技術和知識組織技術,實現信息查詢語義化、智慧型化的一種高級信息檢索方式。
特徵
知識、建立知識系統的方法和手段。知識檢索是通過對文檔原文信息進行語義上的自然語言處理,析出各種概念信息,形成知識庫,從概念層次上處理用戶的檢索提問式。利用知識檢索不僅能檢索出包含有提問式中的關鍵字的結果。還能檢索出那些與該詞同屬一類概念的辭彙的結果。知識檢索有以下幾個特點:
(1)利用特定領域可控的概念語義體系,建立層次結構的概念語義體系,具有分析和理解自然語言的能力。知識檢索模型對文檔內容和用戶檢索提問式運用自然語言處理技術進行語義層次上的分析和理解,從中吸取出概念信息和範疇信息。
(2)擁有知識庫。在知識檢索中,文檔內容和提問式都以概念和範疇等知識形式存儲在知識庫中,用來匹配用戶的提問式和推理出滿足用戶需求的新信息。
(3)具有記憶能力。知漢檢索通過記憶機制,將析出的概念信息和範疇信息存儲到知識庫中.並能自動補充與更新,還能進行必要的邏輯推理。
(4)人機接口。知識檢索能根據文檔內容和用戶提問式構造檢索要點並輸入系統,其輸出的是按用戶要求進行加工的結果,並可以自然語言的形式提供給用戶。
知識檢索的理論基礎
知識檢索的提出和發展藉助於人工智慧、語言學、信息科學和認知科學等多學科的先進理論與方法,它們為知識檢索的實現,包括知識發現、獲取、組織、呈現以及向用戶個人知識的轉變等各個方面提供了理論指導。國外對此進行了大量研究,並取得了相應的研究成果。
1.人工智慧
人工智慧(Artificial Intelligence)是有關智慧型代理的設計與執行的科學,關注人腦智慧型任務如定理證明、外貌識別、疾病診斷等的自動化。“人工智慧依據人類的感知、推理、學習、語言和其他創造性思維活動,為科學、工業、文化領域有效的新研究工具的設計、構造提供有益的幫助。”“人工智慧為自動信息搜尋、知識表示、自適應、自主學習以解決問題、設計規劃、自主分析、知識檢索及發現等提供了理論指導。”JVasant Honavar明確提出人工智慧是知識檢索智慧型化、自動化及其他相關知識活動的理論基礎。
2.語言學
知識與語言之間存在著同構關係,知識是語言所表達的思想內容,語言是知識的表達工具。知識的表現有其特定的語言邏輯,相應的知識檢索也必須遵循這些語言邏輯,語言學(Linguistics)為知識檢索的過程和方法提供了必需的理論依據。InventionMachine Corporation(IMC) 根據語言學規律開發的語言資料庫包括大量的基本詞典與基於算法的複雜規則,對資料庫中所有信息進行預格式處理(Pre— format)、辭彙分析(Lexical Analysis)、語法分析(Syntactical Analysis)、語義分析(Semantic Analysis)和語用分析(Pragmatic Analysis),實現了機器自動閱讀並理解文檔內容,抽取檢索提問的相關知識返回給用戶,有助於提高知識檢索的速度及準確度。
3.信息科學
信息科學(Information Science)研究人如何生產、搜尋、檢索和使用信息,特別是人與信息系統的相互作用。信息科學著重於許多不同性質的過程,包括人所面臨的信息難題,如解決問題的水平、認識水平和知識水平,套用信息檢索系統的查找行為,以及諸如反饋、相關性等互動性問題。Brookes提出的信息科學的基本方程—— △I+(s)=(S+△S)在信息處理和信息改變代理兩個概念之間架起了一座橋樑,提出了信息與知識關係的框架,對研究信息的利用及信息向個體知識的轉化指明了方向。
4.認知科學
認知科學(Cognitive Science)以認知過程及其規律為研究對象,研究領域包括:語言習得、閱讀、話語、心理模型、概念和歸納、認知技藝獲得、視覺注意、記憶、行為、計算機及其科學理論等。Belkin的“知識非常態”理論、Dervin的意義建構理論等都注重知識獲取過程中人的認知能力在構建概念體系方面的作用,特別關注在此過程中以用戶知識需求為導向以及雙方的互動作用。因而在構建知識檢索系統時應考慮支持檢索的認知過程和檢索本身的認知過程的最最佳化方法。