作用
由於關鍵字是表達檔案主題意義的最小單位,因此大部分對非結構化檔案的自動處理,如自動標引、自動文摘、自動分類、自動聚類、相關反饋、自動過濾、事件檢測與跟蹤、知識挖掘、信息可視化、概念檢索、檢索提示、關聯知識分析、自動問答等,都必須先進行關鍵字提取的動作,再進行其他的處理。可以說,關鍵字提取是所有檔案自動處理的基礎與核心技術。目前大多文檔都不具有關鍵字,同時手工標引費力費時且主觀性較強, 因此關鍵字自動標引是一項值得研究的技術。
發展過程
自動標引研究可以分為三個階段: 從Luhn於1957年開始進行自動標引後開始,到目前為止,自動標引研究經歷了50年的發展歷程。一直到20世紀90年代初,關於關鍵字自動提取的研究一直就沒有停止過。 20世紀90年代初到90年代末, 自動標引研究漸漸冷卻,原因主要包括:全文索引逐漸被人採用,並且基本上能滿足用戶需要;傳統的自動標引方法的效率到了極限;網路興起之初的衝擊與信息需求環境的改變。20世紀90年代末一直到現在,關鍵字自動提取的研究逐漸升溫,尤其是最近幾年,關鍵字自動提取研究進行的如火如荼,產生該現象的主要原因為:全文索引的功能越來越難以滿足實際需求,用戶需要更加精確的結果;另外網際網路的很多服務,例如自動摘要,文檔分類與聚類,文本分析,主題檢索等都要依賴於關鍵字自動提取的結果,只有這樣才能有希望從根本上提高信息服務質量。
代表方法
根據見諸於報導的自動標引研究情況,結合自動標引研究領域的影響程度和自動標引方法的創新程度,歸納出1957~2007年五十年時間裡比較有代表性的自動標引方法。
•1957年,Luhn開始自動標引研究,首次將計算機技術引入文獻標引領域,開創了以詞頻為特徵的統計標引方法,其理論基礎是Zipf定律,該方法具有一定的客觀性和合理性,並且簡單易行,在自動標引中占有重要地位
•1958年,Luhn提出基於絕對頻率加權法的自動標引方法; P.B.Baxendale提出從論題句和介詞短語中自動提取關鍵字
•1959年,Edmundson與Oswald提出基於相對頻率加權法的自動標引方法
•1960年,Maron & Kuhns提出基於相關機率的賦詞標引方法
•1969年,H.P.Edmundson提出了一些新的加權方法,如提示詞(預示詞)加權法、題名加權法、位置加權法,並探討了不同加權法的最優組合問題
•1970年,Lois L. Earl利用句法分析等語言學方法與詞頻統計方法相結合的方法來提取關鍵字
•1973年,Salton等提出基於詞區分值的自動標引方法
•1975年,Salton等將VSM模型用於自動標引中
•1983年,Dillon等提出一種基於概念的自動標引方法,研製了FASIT系統
•1985年,Devadason提出基於深層結構標引方法
•1990年,Deerwester & Dumais等提出潛在語義分析標引法
•1993年,Silva & Milidiu提出基於相信函式模型的賦詞標引方法
•1995年,Cohen提出N-Gram分析法的自動標引方法
•1997年,簡立峰提出基於PAT樹的關鍵字提取方法
•1999年,Frank等人提出基於樸素貝葉斯(Naive Bayes,NB)的關鍵字提取方法;Turney 利用遺傳算法和C4.5決策樹算法等機器學習方法進行關鍵短語提取的研究
•2001年,Anjewierden & Kabel提出基於本體的自動標引方法
•2003年,Tomokiyo & Hurst提出了基於語言模型的關鍵字提取方法;Hulth利用Bagging算法進行了基於集成學習的關鍵字抽取
•2004年,李素建提出基於最大熵模型的關鍵字提取方法
•2006年,張闊提出基於支持向量機自動標引模型
•2007年,Ercan, G. & Cicekli, I提出基於辭彙鏈的自動標引方法
典型套用
漢語自動標引加權方法試驗研究 1994年 史繼紅、賴茂生 北京大學信息管理系
自動標引“匹配標引法”原理 1994年 袁慶華 總後檔案館
語義矢量空間模式 (SVSM)及其試驗評價——自然語言處理與文獻自動標引 1996年 Geoffrey Z. Liu 美國加利福尼亞州聖何塞州立大學圖書情報學院
文書檔案主題自動標引系統的設計與實踐 1996年 蘭生柱、尹秀蘭等 解放軍檔案館
統計方法結合受限自然語言理解技術用模糊方法抽取關鍵字 1998年 何新貴、彭甫陽 北京系統工程研究所
主題轉譯標引技術 1998年 陳光華 台灣大學圖書館和信息科學系
對規範文本篇章結構 1998年 單永明 山西大學計算機系
科技文獻主題詞的自動標引法 1998年 石國華 杭州大學
中文科技文獻題內自動抽詞標引系統 1998年 邵艷秋、劉挺等 黑龍江交通高等專科學校計算中心、哈爾濱工業大學計算機系
針對生物學文獻 1999年 王永成、韓客松等 上海交通大學
單漢字標引技術 1999年 胡盈盈 南京大學
基於《中國分類主題詞表》的WWW科技信息資源自動標引設計方案 1999年 肖明 北京師範大學信息技術與管理學系
網路環境下檔案主題自動標引的實現方法 1999年 熊志雲 湖北大學人文學院檔案系
公安文獻全文著錄、機助標引及檢索系統(PWDBC) 2000年 江蘇公安專科學校
計算機模糊檢索在圖書自動標引中的套用 2000年 許玲 曲阜師範大學圖書館
基於中國檔案主題詞表的自動標引控制研究 2002年 王蘭成等 南京政治學院上海分院信息管理系
基於多詞表的自動標引技術研究——新華社新聞稿自動標引的實驗 2002年 查貴庭、侯漢清 南京農業大學信息管理系
字面相似聚類法輔助構造詞族表、分面類表和自動標引 2002年 張琪玉 南京政治學院上海分院信息管理系
網頁自動標引方案的優選及標引性能的測評 2002年 仲云云、侯漢清等 南京農業大學信息管理系
1.漢語自動標引加權方法試驗研究 1994年 史繼紅、賴茂生 北京大學信息管理系
2.自動標引“匹配標引法”原理 1994年 袁慶華 總後檔案館
3.語義矢量空間模式 (SVSM)及其試驗評價——自然語言處理與文獻自動標引 1996年 Geoffrey Z. Liu 美國加利福尼亞州聖何塞州立大學圖書情報學院
4.文書檔案主題自動標引系統的設計與實踐 1996年 蘭生柱、尹秀蘭等 解放軍檔案館
5.統計方法結合受限自然語言理解技術用模糊方法抽取關鍵字 1998年 何新貴、彭甫陽 北京系統工程研究所
6.主題轉譯標引技術 1998年 陳光華 台灣大學圖書館和信息科學系
7.對規範文本篇章結構 1998年 單永明 山西大學計算機系
8.科技文獻主題詞的自動標引法 1998年 石國華 杭州大學
9.中文科技文獻題內自動抽詞標引系統 1998年 邵艷秋、劉挺等 黑龍江交通高等專科學校計算中心、哈爾濱工業大學計算機系
10.針對生物學文獻 1999年 王永成、韓客松等 上海交通大學
11.單漢字標引技術 1999年 胡盈盈 南京大學
12.基於《中國分類主題詞表》的WWW科技信息資源自動標引設計方案 1999年 肖明 北京師範大學信息技術與管理學系
13.網路環境下檔案主題自動標引的實現方法 1999年 熊志雲 湖北大學人文學院檔案系
14.公安文獻全文著錄、機助標引及檢索系統(PWDBC) 2000年 江蘇公安專科學校
15.計算機模糊檢索在圖書自動標引中的套用 2000年 許玲 曲阜師範大學圖書館
16.基於中國檔案主題詞表的自動標引控制研究 2002年 王蘭成等 南京政治學院上海分院信息管理系
17.基於多詞表的自動標引技術研究——新華社新聞稿自動標引的實驗 2002年 查貴庭、侯漢清 南京農業大學信息管理系
18.字面相似聚類法輔助構造詞族表、分面類表和自動標引 2002年 張琪玉 南京政治學院上海分院信息管理系
19.網頁自動標引方案的優選及標引性能的測評 2002年 仲云云、侯漢清等 南京農業大學信息管理系