系統簡述
該系統有二大技術特點,一是在國內率先提出圖文相關聯的理念並成功實現了“圖文資料庫”技術,解決了圖像文獻不能進行內容檢索的難題;二是採用了支持基於PDF格式文檔的全息資料庫,做到檢索直接命中到頁,並對檢索結果進行標註顯示。
作為基礎平台軟體,系統的信息發布做到了數據與界面分離、信息處理做到了內容與管理數據分離;系統技術實現做到了三個開放、三個標準:數據結構開放、程式接口開放、資源加工處理開放;數據格式符合國際標準、數據描述符合國際國家元數據標準、數據傳輸數據安全控制符合國家安全標準。
使用DIPS及其相應的輔助工具,可以將圖書館及文獻機構中已有的各種海量信息資源,通過專業化的加工、轉換、聚類、去重、整合等等,快速構建起基於網際網路的專業文獻信息資源庫,並對這些資源進行統一管理和維護;利用DIPS提供的強大的全文檢索技術,為使用者提供簡便、快捷、準確、個性化的信息服務;同時,可以利用DIPS提供的收費管理功能和DIPS的網路發布系統,向社會提供有償的特色信息服務,讓信息資源發揮出更大的套用價值。
DIPS目前已成功擁有國家圖書館、國防科工委、機械工業信息研究院、中國化工信息中心、中國電子科技集團等高端用戶,以及國防大學、中國科技大學、南京大學、合肥市圖書館等100百多家高校圖書館和省市級公共圖書館等用戶。該系統同樣適用於情報、檔案、司法、政府機構、專利和標準等部門,以及企業信息化的需要。
系統組成
DIPS由DIPS數據加工、DIPS內容管理和DIPS網路發布三個子系統組成。它們既相對獨立又相互關聯,分別形成了數據加工、數據管理、數據發布三個不同的套用面。
DIPS數據加工系統 是C/S結構的網路系統,一個或多個客戶端用戶能夠獨立或協同完成紙質資源的數位化加工,可以對各種已有的電子資源(如:TXT純文本,PDF、HTML、DOC等格式化文本,marc數據,ODBC關係型數據,JPEG、TIF、BMP等圖像數據,MP3、MPEG等多媒體數據,各種資料光碟數據及其它國內自定義主流格式數據等)進行的批量處理、轉換、導入等獲取系統原始數據,再經過對數據進行(識別、壓縮、)裝訂、標引、校對、審核等深加工處理,形成DIPS資料庫的源數據(入庫檔案)。DIPS數據加工系統具有流程清晰、責權分工控制明確、可加工資源類型豐富以及允許大量批處理環境靈活設定等特點。
DIPS內容管理系統 是C/S結構的網路系統,一個或多個客戶端用戶能夠獨立或分別完成系統的資料庫、庫模板、入庫檔案、詞表、詞典和用戶六類對象的數據維護、管理及套用。(例如新建資料庫、動態載入DIPS資料庫數據、資料庫數據的維護、記錄的導出轉換、記錄下載控制、索引建立、庫體操作、入庫檔案的刷新追加、發布管理設定、模板創建使用、分類導航或關聯信息的設定、聯想檢索詞典的創建維護、密級安全控制、用戶註冊、許可權分配等等)所有關於DIPS資料庫的管理都在這裡完成。系統具有結構設計先進、安全控制嚴密、管理靈活、維護方便及操作簡單等特點。
DIPS網路發布系統 採用B/S結構和標準IE瀏覽器,完成DIPS資料庫的網上檢索和套用服務。DIPS的網路發布系統提供圖片類資源、文獻類資源、多媒體類資源、綜合類資源等多套顯示模板,根據用戶所建資料庫的特性自動生成發布界面。系統允許用戶或按用戶的要求對所生成的網頁進行個性化修改,允許用戶按自己的需求自建新的發布模板;利用系統提供的個性化設定和信息推送功能,動態生成用戶所關心的信息,滿足用戶的個性化需求,從而進一步提高文獻資源的利用率。系統具有發布自動化、界面個性化等特點,充分展現DIPS的檢索和套用優勢。
核心技術
1、圖文資料庫讓圖文自動關聯,以文本作為檢索依傍,圖像作為檢索結果。以經濟便捷的手段獲取正確率不低於 95% 的文本並與原稿圖像相關聯構建資料庫建立索引,讀者通過檢索文本獲取雙層 PDF 原稿,從而達到加工高效、檢索便捷、所得結果精確的目的。
2 、數位化加工和數據處理百頁紙質圖書 20 分鐘輕鬆完成從紙張到網上動態發布,雙層 PDF 技術實現全文檢索和檢索結果反顯標註;百萬級二次文獻信息自動轉換導入;格式化電子文檔批量轉換,自動生成目錄結構;多媒體資源加工實現導航提示,自動標引插入。
3、資源的深層揭示與檢索DIPS 系統採用核心欄位列表瀏覽、二次文獻視窗顯示和全文資源閱讀器管理等多層揭示。所有信息不僅實現高效的全文檢索,而且提供目錄導航、直接命中到頁和檢索點反顯。此技術對大部著作、系列叢書等海量數據尤為重要,是本公司率先開啟對內容深層揭示的先河,直到目前依然獨家擁有。
4、個性化桌面服務個性化是專業版 DIPS 系統的重點。讀者根據訪問許可權,自行配置檢索界面、信息欄目、信息頻道等;自定義“個人喜好”(“關鍵字”、“分類”、“資源庫”等);自行設定“我的訂閱”、“我的資料”、“系統推送”等資料夾。
5、個人圖書館專業版 DIPS 系統的 My Library 技術,實現了動態信息推送、主動服務等個性化功能,個人圖書館不受機器、地域限制,一旦登錄、即刻擁有。個人圖書館由“我的訂閱”、“我的資料”、“系統推送”等資料夾組成。 “我的資料”——對系統中感興趣的信息資源實現一鍵收藏;“我的訂閱”——根據讀者設定的“關鍵字”、“分類”和時間範圍,自動更新內容;“系統推送”——以讀者和資源自身靜態信息為基礎,結合讀者每次實際套用軌跡,進行統計和分析,形成搜尋決策獲取信息,自動更新資料夾。
其他主要技術
資料庫內容與文獻格式無關傳統的全文檢索系統只處理文本信息,對於象PDF格式的文檔,只對元數據做索引,文獻信息按對象數據處理,不能對其進行全文檢索。個別系統即使對該PDF文檔吸取文本信息做索引,也只能做到對該文獻檢索命中,但並不能表示命中點的所在。
DIPS系統採用的圖文關聯技術,不但對文本型、圖文關聯型和PDF等全息型文獻做到檢索記錄直接命中到位(頁),結果反顯,而且在同一個資料庫允許每條記錄有各自不同格式的文獻,這是全文檢索用於內容管理的重大突破。
DIPS的數據符合國際通用標準和規範,能夠解析導入國內外主流數據格式,可以按用戶和讀者指定的標準格式導出系統的數據,提供參考諮詢和信息傳送服務。
檢索手段和技術指標檢索手段:主題詞關鍵字檢索、分類導航檢索、內容關聯檢索、單欄位邏輯運算檢索、多欄位邏輯組合檢索、二次漸進檢索、模糊匹配檢索、跨庫跨平台(聯邦)檢索以及基於開放詞典的聯想檢索等等,檢索結果可按要求自動進行相關度排序。
相關技術指標:
① 檢索速度: 10 億漢字平均回響時間為 0.30 秒左右;
② 索引膨脹率:空間膨脹率為 -0.1 至 0.3 ;
③ 容量指標:支持 65536 個庫,單庫 1024 個欄位,單庫 10 億條記錄,單欄位 64M 位元組。
① 數據存儲格式( TIF 、JPG 、TXT 、PDF 、MP3 、WMA 、MPG 、WMV 、RM 、SWF 等);
② 數據交換標準( DC 、 XML 、 MARC 、 ODBC 等);
③ 數據傳輸協定及安全( Http1.1 、 TCP/IP 、 SSL 等)。
系統提供開放的 API 接口,對需要進行導入或導出的新格式數據,用戶可以進行二次開發或者合作開發以實現其功能。
基於IP位址的訪問許可權控制除了密級管理和許可權控制以外,系統可通過對 IP 地址的有效控制,設定不同區域(如校內校外、圖書館內館外)之間的用戶訪問許可權(免登錄、限制登錄、限制訪問)。
資料庫模板功能系統提供豐富的資料庫建庫模板,用戶可以直接使用資料庫模板或在此基礎上進行修改,方便快捷地完成自己理想的資料庫結構。系統允許用戶自己新建庫模板來擴充模板庫,進一步滿足用戶個性化需求。
開放的詞表和詞典管理詞表是分類和分類導航檢索的基礎,詞典是系統聯想檢索的依據。系統為詞表和詞典對象提供一整套管理和維護功能。
資料庫異地存儲、備份、恢復功能系統提供安全實用的資料庫異地存儲、數據備份和數據恢復等功能,保證數據安全、緩解伺服器壓力,滿足用戶對海量數據進行分散式存儲和管理的要求。