簡介
“跨語檢索”,或稱“跨語言檢索”(Cross-Language Information Retrieval,CLIR),其定義採用Oard, D. W.,在1997年發表的文章:Cross-Language Information Retrieval Defined。跨語檢索意指使用者自然地使用某種語言(natural language)的檢索辭彙(query)檢索由另一種語言表達的檔案。
CLIR是這樣一類技術,它允許用戶以他們熟悉的語言構造檢索提問式,然後使用該提問式檢索以系統支持的任一種語言寫成的文獻。它可用於回溯檢索、定題服務系統以及自適應過濾系統中。
舉例來說,使用者使用(自己熟悉的)中文產生一組檢索辭彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的檔案。
起源與發展
1969年,SALTON,G.發表Automatic processing of foreign language documents文章。Salton以 SMART 檔案檢索系統 (SMART document retrieval system)當作實驗對象,SMART檔案檢索系統背後有多國語言語料庫的支援,藉由該系統,Salton使用英文為主要檢索辭彙 (query) 的語言,檢索德文的檔案和資料,反之亦然。實驗結果發現,採用全自動檔案處理方法(fully automatic text processing methods)的 SMART 檔案檢索系統可以用相對簡單而有效率的方式,進行文獻索引(document indexing)、分類 (classification)、搜尋 (search),和檢索 (retrieval)等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。
1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱DARDA) 合作舉辦“文字檢索會議”( The Text REtrieval Conference, 簡稱TREC),一開始是附屬於TIPSTER Text program底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援資訊檢索相關研究,提供標準測試集協助研究者進行測試等。
1996年,美國計算機協會(Association of Computing Machinery, 簡稱ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現以跨語檢索為研究主題的研討會(Workshop),與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval 》找到。
1998年,召開第一次 NII Test Collection for IR Systems program, 簡稱NTCIR會議。NTCIR會議主要是由日本學術振興會(Japan Society for Promotion of Science, 簡稱JSPS)、日本國家科學資訊系統中心 (National Center for Science Information Systems, 簡稱NACSIS),以及日本國立情報學研究所(Institute of Informatics National Institute of Informatics, 簡稱NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以日文為主的標準測試集。至今,已發展出NTCIR1~6的檔案集。
2000年,歐盟成立“跨語言資訊檢索論壇” (Cross Language Evaluation Forum , 簡稱CLEF) ,每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱文字檢索(text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖片檢索(Cross-Language Image Retrieval )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語係為主的單語資訊檢索系統(monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的數點陣圖書館 (digital library)計畫中。
跨語檢索的特徵
根據陳信希教授在2002年的《跨語檢資訊檢索:理論、技術與套用》這篇文章指出,共具有六項特徵,將內容統整如下:
檢索辭彙的歧義性(ambiguity):翻譯檢索辭彙的過程,不只會遇到檢索辭彙一詞多義的情形,翻譯後的目標檢索辭彙(target query)的多義性(polysemy)也是需要解決的問題之一。
檢索辭彙(query)和檔案(document)分屬不同語言:其為跨語檢索最主要的特徵。檢索辭彙和檔案間必須要有特定的對應關係,翻譯技術是建立其關係的重要運算之一。
檢索詞太短:跨語檢索者所輸入的檢索辭彙往往太簡短,因而造成翻譯和歧義性的困難度。
語言識別(language identification)困難:如果跨語檢索系統無法辨識該檢索辭彙是何種語言,如中文、英文、拉丁文和俄文等,就無法檢索出使用者所需要的資料。
斷詞和書寫符號的問題:因為中文的詞與詞之間沒有明顯的分隔設定號,因此會有斷詞(segmentation)的問題。而俄文、西班牙文等語文,電腦沒有自動產生文字的功能,如當使用者欲於搜尋引擎或檔案中,輸入俄文,必須利用其他的套用軟體,才能產生俄文,而不像英文或中文可直接從輸入法中選擇。
輸出結果的呈現(visualization):包含檢索結果得到的多語言檔案要如何合併,接口該如何呈現,才能使檢索者一目了然等問題。
使用技術
整理陳信希老師和陳光華老師們的文章,目前跨語檢索相關技術,可分成三大類,分述如下:
翻譯檢索辭彙此法視處理檢索辭彙的方式,又區分成兩種方法,一種是控制辭彙,另一種是自由辭彙。
控制辭彙使用控制辭彙進行檢索時,由於為系統內定的辭彙,所以,雖然使得檢索的過程比較順利,可是能找到的資料有限。
自由辭彙可分成三種策略,分別是知識庫策略、語料庫策略和混合式策略。
知識庫策略:一種是採用辭典的方法,另一種則是採用索引典策略的知識架構。
語料庫策略:此法比較複雜,包含了四種方法,分別是“辭彙對列方式”、“文句對列方式”、“檔案對列”和“不採用對列方式”。
此法可分成兩種,一種為文本的翻譯,另一種為特徵向量的翻譯。
不翻譯。