後規範化情報檢索語言
正文
標引時從正文中抽出自由詞(也稱關鍵字)作為檢索詞,然後對這些自由詞進行標準化處理的一種情報檢索語言。它由標引規則和自由詞表組成。標引規則 是從正文中抽取自由詞的原則規定。包括:①選詞原則,指要選擇具有檢索意義、概念完整的自由詞作為檢索詞。 ② 詞組拆開組配與保留詞組原則,即當一個詞組是由概念上為整體-局部關係、 概念交叉關係和事物及其行動、過程、工藝、性能等關係的兩個詞組成時,應拆開作為單獨的自由詞標引,其他情況則作為一個自由詞標引。③最大專指度標引原則,即按作者所述主題中的專指詞組選擇自由詞。④上位詞標引原則,是指按最大專指度原則標引後,如果已標引的自由詞中能抽出概念內涵較淺且具有獨立檢索意義的詞,也應作為自由詞標引。例如,已標引“快速數字濾波器”一詞時,還要求標引“數字濾波器”和“濾波器”二詞。⑤同義詞標引原則,是指同一概念在正文中出現的所有同義詞都可選為自由詞。
自由詞表 對已標引的自由詞進行規範化處理後編成的控制詞表。一般由同義詞族和宏詞族兩部分組成。也有一部分自由詞表只包括同義詞族。同義詞族指將一個資料庫中標引的同一概念的兩個以上同義詞之間建立起相互參照關係。宏詞族指將概念內涵相同但字面不同的一組詞,選概念最淺的自由詞作為族首詞,其餘詞作為其下位詞構成的二級詞族。如家禽、鵪鶉、鵝、鴿、火雞、雞、鴨和珠雞一組詞中,選“家禽”作為族首詞,其他詞作為下位詞構成的二級詞族就是“宏詞族”。宏詞族是指其下位詞之下還可能有許多下位詞,如“雞”,其下位詞有蛋雞、肉雞等,蛋雞下位詞有產蛋雞、高產蛋雞、來航蛋雞、卵用雞、羅斯蛋雞等,肉雞下位詞有愛拔益加肉雞、安納克肉雞、海佩科肉雞、紅羽肉雞、羅曼肉雞和肉用種雞等,肉用種雞下又有紅河谷肉種雞。所有這些詞都不收入“宏詞族表”,因為按上位詞標引原則,“雞”以下的詞族關係,都隱含在標引的自由詞中了。當然,有的自由詞表比較簡單,只處理詞間的同義關係,不處理種-屬關係。
後規範化情報檢索語言是計算機情報檢索的產物,目前在利用關鍵字或自由詞檢索系統中,越來越多地被採用。隨著自然語言情報檢索系統的發展,這種語言的研究和套用會更廣泛地受到重視。