跨語言信息檢索

跨語言信息檢索,可用一種提問語言檢索出用另一種語言書寫的信息,也就是一種跨越語言界限進行檢索的問題。

跨語言檢索(Cross Language Information Retrieval, CLIR)即可用一種提問語言檢索出用另一種語言書寫的信息,也就是一種跨越語言界限進行檢索的問題。
跨語言信息檢索研究涉及了語言學、情報學、計算機科學等多門學科知識,是一個綜合性強、富有挑戰性的研究領域。跨語言檢索技術的實現套用了信息檢索、文字處理、和機器翻譯等技術,如文字切分技術、辭彙翻譯、詞頻技術、索引技術等。
跨語言信息檢索研究最早可追溯到1973年G. SALTON先生Experiments in multilingual information retrieval一文的發表。 當時的研究主要針對國際在線上檢索進行的,由於檢索系統不普及,因而人們對網路信息的需求並不強烈。跨語言信息檢索研究真正成為熱點,是在Internet迅猛發展的90年代後期,在很大程度上,Internet的全球化信息結構引發了對跨語言信息檢索的迫切需要。這就促使越來越多的研究團體深入研究跨語言信息檢索問題,並研製開發跨語言信息檢索的不同方法。這一時期國際上先後有許多相關論文發表,一些實驗性跨語言信息檢索技術相繼問世。
國內對於跨語言信息檢索的研究很少,所查找到的一些資料基本都在2001年以後。國際上,從跨語言信息檢索研究領域定期召開的一些會議,也反映了當今跨語言信息檢索的研究熱點和趨勢。這些重要會議分別是文本檢索會議(TREC)、跨語言評價論壇(CLEF)、日本國家科學信息系統中心信息檢索系統測試集會議(NTCIR)、美國計算機協會信息檢索特殊興趣小組會議(ACM SIGIR)。
其中TREC是由美國國家技術標準局組織召開的國際會議,其旨在促進大規模文本檢索領域的研究,加速研究成果向商業套用的轉化,促進學術研究機構、商業團體和政府部門之間的交流與合作。TREC-6,7,8,9,10五次會議對於跨語言信息檢索問題給予了極大的關注,每次的側重點不同。TREC-6,7,8這三次會議主要對歐洲語言(英語、法語、德語以及義大利語)的跨語言檢索問題進行了研究;在TREC-9會議上,對中英文的跨語言檢索問題進行了研究;在TREC-10會議上,對於阿拉伯語和英語、法語之間的跨語言檢索問題進行了研究。
跨語言信息檢索需要解決如下幾個主要的問題:
(1)查詢詞與檢索到的文獻分屬不同語言。這是跨語言信息檢索的最主要特徵,由於提問與文獻分屬不同的語言,因此在兩者之間需要通過詞典、語料庫(平行語料、可比語料)或者機器翻譯系統等方式建立不同語言的語義關聯,進行跨語言的翻譯,將查詢詞語和檢索文獻統一映射為一種語言。
(2)詞的歧義和多義性。由於原始提問中有些詞義的不確定性,系統中需要藉助歧義性、多義性分析機制,將原始提問排歧後轉換成最終提問。
(3)查詢詞的切分。一些語言(如中文、日文、韓文等)由於詞與詞之間沒有明顯的分隔設定號,因此詞的切分問題成為此類語言的跨語言檢索研究要點之一。
(4)文獻的多語言性。在跨語言檢索系統中,由於原始文獻是用不同的語言書寫的,因此語種識別是檢索的基本工作,此類情況常出現在自動標引的系統中。
(5)輸出結果的排序方式。檢索結果中,不同語種的文獻如何排序,如何對不同語種的文獻進行相關度的計算,也是跨語言資訊檢索系統必須研究的問題。
(6)對多語言資源的依賴。由於跨語言檢索需要藉助多語言資源如雙語詞典、語料庫等進行跨語言的翻譯轉換,所以跨語言信息檢索的性能受到多語言資源的質量和數量的約束,因此構建高質量的多語言資源是跨語言信息檢索中亟待解決的難題。

相關詞條

相關搜尋

熱門詞條

聯絡我們