概述
情報檢索語言可以是從自然語言中精選出來並加以規範化的一套辭彙,可以是代表某種分類體系的一套分類號碼,也可以是代表某一類事物的某一方面特徵的一套代碼,用以對文獻內容和情報需要進行主題標引、邏輯分類或特徵描述。
基本功能
①對文獻的情報內容(及某些外部特徵)加以標引;
②對內容相同及相關的情報加以集中或揭示其相關性;
③對大量情報加以系統化或組織化;
④便於將標引用語和檢索用語進行相符性比較 。
組成
情報檢索語言由辭彙和語法組成。辭彙是指登錄在分類表、詞表、代碼表中的全部標識,一個標識 (分類號、檢索詞、代碼)就是它的一個語詞,而分類表、詞表、代碼表則是它的詞典。
語法是指如何創造和運用那些標識來正確表達文獻內容和情報需要,以有效地實現情報檢索的一整套規則,分為詞法(主要用於分類表、詞表、代碼表編制過程)和句法(主要用於文獻標引和情報檢索過程)兩部分。
情報檢索語言由辭彙和語法組成。辭彙是指登錄在分類表、詞表、代碼表中的全部標識,一個標識 (分類號、檢索詞、代碼)就是它的一個語詞,而分類表、詞表、代碼表則是它的詞典。語法是指如何創造和運用那些標識來正確表達文獻內容和情報需要,以有效地實現情報檢索的一整套規則,分為詞法(主要用於分類表、詞表、代碼表編制過程)和句法(主要用於文獻標引和情報檢索過程)兩部分。
情報檢索語言主要以書面形式使用,其標識必須符合唯一性、規律性、定型性、通用性、準確性和政治思想上的正確性等質量要求,必須排除自然語言中的多詞一義、一詞多義和詞義含糊現象,並要有適當的專指度。
採用等級結構、參照系統、輪排聚類法、範疇聚類法和圖示法等各種顯示概念之間關係的方法,來實現對內容相同及相關的情報加以集中或揭示其相關性這項功能,是情報檢索語言優於自然語言的最主要之點。概念邏輯和知識分類(事物和學科的系統分類)是顯示概念關係的基本依據。
情報檢索語言選取概念(選詞和列類)是否符合文獻主題的實際情況和情報檢索的實際需要,標識的種類、 結構、專指度、規範化程度和使用方式,在顯示概念關係方面的質量、分類表、詞表、代碼表的結構體系,以及檢索設備是否與其匹配,標引是否正確等,對情報檢索效率都有影響。
分類
情報檢索語言按其結構原理,可分為分類檢索語言(分類法)、主題檢索語言(主題法)和代碼檢索語言;按其標識的組合使用方法,可分為先組式語言(文獻標識在編表時就固定組合好,也稱列舉式語言) 和後組式語言(文獻標識在檢索時才組合起來,也稱組配式語言)。後組式語言也可充當先組式語言使用 (文獻標識在標引時組合成固定的標識串,稱先組散組式)。此外,還可按其包括的學科或專業範圍、適用範圍等劃分類型。
分類檢索語言
分類檢索語言是將表示各種知識領域(學科及其研究問題)的類目按知識分類原理進行系統排列並以代表類目的數字、字母符號(分類號)作為文獻主題標識的一類情報檢索語言,亦稱分類法。
主題檢索語言(主題法)
使用語詞標識的一類情報檢索語言,亦稱主題法。其基本的、共同的特點是:①用自然語言中的名詞術語經過規範化後直接作為文獻主題標識,直觀性好;②按字順序列排列標識,檢索者較易使用;③具有按文獻主題(文獻所論述的事物)集中文獻情報的功能,對有關某一事物的檢索效率較高;④用參照系統及其他方法間接顯示文獻主題概念之間的關係;其系統性不及分類檢索語言,對一學科或一專業文獻作全面、系統的檢索比較 困難;⑤較接近自然語言,所以較易與自然語言結合使用 。
優勢
分類法的優勢
傳統分類法在網路信息組織方面具有獨特的優勢,將會在網路信息組織中發揮著重要的作用:
①分類法具有強大的瀏覽功能,類目顯示能夠使人們觸類旁通,鳥瞰全貌;
②類目的展開與收縮能夠方便人們進行擴檢與縮檢;
③給出上下文語境,使類目名稱的含義明確;
④提供多語種交流,擴大用戶交流範圍;
⑤完善的系統的分類體系,有專門的機構維護更新,具有廣泛的用戶基礎;
⑥傳統分類法的聚類功能及其標識能用於組織非文本信息;
⑦使用傳統的分類法,即使不知道詞形也可以檢索;
⑧有機讀形式,便於對網路信息資源的利。
總之,傳統分類法能夠實現概念檢索,因而具有廣泛的使用基礎,是一種經過時間歷練的具有完善體系的知識組織方法。當然,傳統分類法在網路環境中也有其明顯的弱點。因此20世紀90年代以來陸續產生了一批網路自建的分類體系或稱分類法,用作網路信息的檢索工具。他們在通用性、直接性和動態性方面以及在及時反應熱點信息和用戶要求方面,都表現出一定的優勢。必須指出的是,這些網路分類法仍然是在傳統分類法基礎上發展起來的一個新的變種,被業界稱為網路大眾分類法。這種分類法的流行,從另一個角度也說明了分類檢索語言頑強的生命力。
主題法的優勢
目前關於檢索語言存廢與否的爭論,在很大程度上是對自然語言和受控語言的比較和取捨。很多人認為自然語言將會取代受控語言,占領整個信息檢索的舞台。誠然,我們不能否認自然語言在網路環境下表現出的強大的適應能力。但目前自然語言檢索還處在發展的初級階段,存在不可避免的局限性:如無法排除同義詞、無法控制詞間關係,因而影響檢全率;選詞沒有嚴格限制,導致詞量過多過雜,分散主題,影響檢準率;一個概念可以用不同的辭彙來表達,容易漏檢,等等。而受控語言經過事先規範化的人工處理之後,具有以下優點:語詞與概念一一對應,能控制同義詞、多義詞和其他一些在語義上的相關的詞,排除多詞一義和一詞多義及詞義含糊等現象,能顯示概念間的相互關係,具有較高的檢全檢準率。這也正是網路上仍然廣泛使用主題語言的主要原因。由此可見,受控語言和自然語言在功能上具有互補性,兩者的結合才是其發展方向 。
情報檢索計算機化
50年代開始的情報檢索計算機化,對情報檢索語言的發展產生了深刻的影響,推動了情報檢索語言的創新和改造,使詞表、分類表向機讀化和機編化發展,使多種語言結合使用成為可能,促進了文獻標引過程和索引編制過程的自動化,促使許多新檢索方法的產生,擴大了情報檢索語言的套用範圍,特別是使自然語言在情報檢索中的套用成為可能。自然語言檢索系統並不是與情報檢索語言檢索系統絕然對立的,它們或採用情報檢索語言作為輔助手段,或與情報檢索語言結合使用,或利用情報檢索語言的某些原理和方法,以保證較高的檢索效率。當前,情報檢索語言仍是情報檢索中的主要語言工具。對情報檢索中的語言保證問題的研究,已成為情報學的重要領域,因而逐步形成情報語言學。情報語言學的主要研究對象就是情報檢索語言,同時也研究自然語言在情報檢索中的套用問題。