概念
標準信息挖掘(Standard Information Mining,SIM)是指標準文獻經過數位化和結構化的信息加工,實現多途徑和多維度的信息檢索,以及全方位和細粒度的信息抽取的過程。
特點
標準信息挖掘屬於信息檢索的範疇,但標準信息挖掘不同於一般的信息檢索,是信息檢索在標準信息領域的深入套用,是信息檢索的創新發展。如圖1所示。
在信息組織方面,信息採集的對象有紙質文獻、電子文獻以及網頁和資料庫數據。除了進行題錄數據著錄、全文電子掃描外,還要進行OCR識別和結構化的深度信息加工。在信息存儲上,除了標準題錄數據和全文數據外,也包括了結構化數據。
在功能上,對於用戶來說,一般是通過標準信息檢索系統,以檢索和瀏覽兩種方式進行查詢,查詢的結果是相關文獻的題錄信息以及獲取文獻線索,這種模式屬於“文獻傳遞”技術範式。而標準信息挖掘實現了對標準內容信息直接檢索和數據抽取,例如可在標準的前言、引言、範圍、規範性引用檔案、術語等限定範圍內進行關鍵字檢索和結果數據抽取,以及對標準文本中的圖和表進行檢索和結果數據抽取,不但省去了獲取和瀏覽原文及查找目標信息的環節,而且進一步可對抽取的結果數據在數據挖掘系統平台上進行分類、聚類、模式識別、趨勢分析等知識挖掘,實現知識發現。
在套用上,由於採用了網路搜尋引擎的檢索方法,符合當前具有網際網路用戶體驗的使用習慣,無需專業培訓即可使用。另外,由於標準信息挖掘以XML的格式作為全文數據格式,在Web服務技術架構下,以SOA的設計原則,在雲計算的網際網路分散式計算環境下,即可實現以網際網路為標準資源存儲載體,實現“按需使用”的服務模式。
過程模型
信息傳遞是由信息源——信源,產生信息,通過中介等途徑——信道,信息到達信息用戶——信宿。
標準信息是有關標準的信息,同樣標準信息傳遞也可分為信源、信道和信宿三個過程。如圖2所示,標準信息發布機構為標準信息傳遞的信源,標準信息加工機構採集標準信息、加工標準信息並進行存儲,形成標準信息資源庫,作為信宿。
標準信息發布機構發布標準信息,主要有正式的標準文本,標準公告,定期出版的標準目錄,以及以資料庫形式發布的標準數據。例如,中國國家標準化管理委員會定期發布中華人民共和國國家標準公告,目前發布的類型如表1所示。這些信息發布在國家標準化管理委員會網站上,同時也刊登在《中華人民共和國國家質量監督檢驗檢疫總局公告》和《中國標準化》等期刊上。中國標準出版社出版正式國家標準文本,定期出版國家標準目錄。國際標準化組織在網站上以網路資料庫的形式發布標準信息,通過查詢可檢索到新標準的狀態及相關研製情況,也可檢索已有標準的修訂情況。另外ISO也定期出版標準目錄。這些機構以官方公開的方式發布標準信息,可看作是標準信息傳遞的信息源。
表1 中國國家標準化管理委員會發布的標準公告類型
標準信息加工機構通過採集環節,對採集來的標準信息進行數據加工,然後把加工的標準數據存儲到資料庫,實現了標準信息資源的電子存儲,建立標準信息資源庫。
標準信息資源庫中有兩類資源:紙質標準文獻資源和電子標準文獻資源。電子標準文獻資源有兩類標準數據:標準題錄數據和標準全文數據。存儲標準題錄數據的資料庫稱為標準題錄資料庫,存儲標準全文數據的資料庫稱為標準全文資料庫。
標準信息使用人員通過標準信息檢索系統檢索標準信息資源庫,獲得標準信息。信息檢索通用的模型如圖2‑3所示,用戶想查找滿足特定條件的信息的需求稱為信息需求,滿足用戶特定條件的信息稱為目標信息。目標信息滿足的特定條件稱為檢索條件,檢索條件之間有邏輯或、邏輯與和邏輯非三種關係,描述檢索條件的表達式為檢索式。
檢索工具是在對信息資源進行加工整理的基礎上開發的,信息資源和用戶的信息需求促使人們開發檢索工具。用戶為滿足信息需求而設定檢索條件、選擇合適的檢索工具和適當的方式操作檢索工具、識別檢索工具給出的信息線索及依據信息線索找到信息是否滿足信息需求的方法等統稱為檢索策略。檢索效果是衡量檢索是否成功的重要指標,主要有查全率和查準率。