企業搜尋

企業搜尋是提供專業的中文企業和產品搜尋服務,是專業的中文企業搜尋引擎。

引言

當今信息爆炸的時代,信息每天都在以驚人的速度增長。據世界權威機構統計表明,全球來自交易中的數據信息每年增長的速度是61%,而其他各種相關信息的每年增長率超過了92%。研究部門把由傳統關係資料庫管理系統處理的數據信息稱為結構化數據,把包括紙質檔案、電子文檔傳真、報告、表格、圖片、音頻和視頻檔案等在內的信息稱為非結構化數據或內容(content)。通過調查發現,在企業存儲的海量信息中,結構化數據僅占數據信息總量的15%,而非結構化數據卻占數據信息總量的85%。有序地存儲、管理並挖掘非結構化數據的利用價值是目前全球一切成功企業提高競爭力和生產力的主要手段。
隨著中國經濟的高速發展,中國市場的競爭日益激烈,競爭的方式將從企業的外延比如統一、高效的營業服務系統,向企業的內涵比如管理決策方面轉移。國內各個機構近幾十年投入巨資大力發展IT套用,已經初步建成了各自統一的營業服務系統和企業內部信息傳遞管理系統,經過多年的運行積累,存儲了海量的信息資源。由於歷史的原因,這些海量的信息資源管理分散、共享困難,形成彼此隔離的信息孤島。科學管理和合理開發這些信息資源尤其是大量的、非結構化數據信息,是國內企業界面臨的巨大挑戰。
推動業務發展的是信息,即存入傳統資料庫中的“結構化”數據和包括可用信息庫中內容的“非結構化”數據。顧名思義,非結構化數據的管理也就是我們在本方案中所提及的內容管理。
對企業搜尋形式和內容進行了深刻思考,並經歷了企業搜尋在企業的套用研究與實踐,形成了一套完整的企業搜尋平台(Enterprise Search Platform,簡稱ESP)。通過管理實施和內容整合兩個方面來提升客戶企業提升核心競爭力和業務支撐能力。在管理實施方面,通過對企業內容的管理規劃和實施諮詢,實現企業管理水平的快速提升。在內容整合上面,專注於“企業搜尋平台”產品的研發和實施,實現內容為企業價值服務的目標。
產品,是基於企業搜尋理論基礎之上,通過對企業內容整合,配置超過50種文檔類型,搭配各種數據索引方式,輔之以可靠的安全策略,構建一套完整的企業搜尋平台,為客戶提供完整的、智慧型的、安全的、強大的企搜尋服務。

企業信息化的挑戰

在全球經濟危機的影響下,企業 IT投資預算將會大大降低,套用系統集中化、數據管理集中化、IT 管控集中化等越來越受到企業的關注,在通過 ERP 整體解決方案的實施解決業務支撐一體化的同時,企業也迫切需要一個可以實現內外資源整合的高效 IT 工作平台,以提升管理支撐的能力。具體表現在:
1) 需要一個統一接入和訪問的 IT平台
多年的信息化建設導致企業的套用系統往往比較多,訪問方式多樣,越來越多企業和員工希望有一個統一的訪問方式,只需要輸入一次帳號就可以根據自己的許可權訪問各種套用系統,更進一步則希望能夠根據自己的需求組織套用功能和操作界面,方便使用。
2) 高效的業務協同管理工作平台
企業各個業務線、部門都存在大量的流程,一方面希望實現業務線內、部門內流程的固化,提高內部協作的效率,另一方面迫於市場和競爭的壓力,更希望能夠實現跨業務、跨部門、跨系統的流程管理,從而提高企業整體運作效率。
3)需要加強各種文檔類資料的統一管理
過去在信息化建設過程往往重視人、財、物這些有形的物質資產的數位化管理,忽視了業務活動過程中產生的大量文檔類資料的管理,容易引起類似員工流失帶走知識、急需某文檔卻找不到的現象,無形中增加企業成本,因此需要實現對企業內外的文檔資料、專家經驗進行有效的獲取、沉澱、共享、套用、學習和創新,從而提高員工的素質和技能、執行力。
4)需要一個集中的數據和信息整合平台
隨著企業各類套用系統積累的數據越來越多,數據的準確性、統一性、及時性問題越來越突出,需要一個平台能夠實現對數據的統一管理, 向業務人員和管理人員提供及時、 準確、多維度的各種業務數據,通過數據集中展現與分析發現生產、 經營中的問題, 便於領導決策。
5)如何提高IT的投資回報(ROI)
經濟危機、激烈的市場競爭給企業帶來巨大壓力,提高 IT 基礎設施、套用系統採購的性價比,減少系統維護及維護人員成本,降低業務人員掌握 IT 的學習成本,將有助提升企業IT建設的投資回報,使IT建設和價值更好地得到企業的認可。

企業搜尋平台的價值

企業信息源的日益多元化令管理者和員工查找信息的成本越來越高;而網際網路搜尋的模式是如此簡單,使用者只要輸入一個關鍵字並按下 Enter 鍵,系統就會自動地將符合的結果列出,即使面對的是數千萬的網頁,入口網站依然在一秒內就完成查詢。通用的網際網路搜尋引擎對人們使用習慣的巨大影響力使Google化的企業搜尋成為企業用戶的夢想。
但是當公司真要導入時,卻發現系統的複雜度遠超過先前的想像,常會因為評估期過程太長而導致項目無疾而終。雖然企業信息搜尋複雜,但信息利用的成本/收益分析證明企業搜尋不僅必要而且重要。Web 2.0的模式不斷滲透企業日常行為,大量數據、信息和知識的電子化,其帶來的知識共享訴求要求企業搜尋深入參與企業知識建設。
圖一、問題與挑戰
對多數的企業來說,在購買企業搜尋引擎時的出發點都很簡單,往往只是要解決幾個典型的問題,比如:
1. 在企業網站中提供搜尋功能。
2. 公司內數據越來越多難以管理,且儲存在不同計算機內。
3. 離職員工的檔案數據已完成備份,但想使用時卻難以發現。
4. 同一份檔案需要重複的提供給不同的人。
5. 不同部門對內部檔案都有自己的管理方式,難以整合。
企業內容檢索的套用,能夠通過對企業內容的有效整合,搭建一套安全的基於角色的、統一可靠的的檢索入口訪問企業內容。產品專注於提高企業內容利用效率,提升企業產能和效益,以企業內容管理為基礎,以套用開發為平台,全面幫助企業實現價值最大化。
圖二、企業搜尋套用
經過多年的行業套用和演變,提出四大核心競爭優勢:企業級安全(靈活可擴展的用戶體系、基於角色的訪問控制、文檔級/記錄級的許可權級別),更高的準確性和智慧型化(概念檢索、基於統計的中文語言處理、主題抽取算法),穩定強大全文檢索功能(優異的性能、T級數據支撐能力、亞秒級回響速度,7*24全年穩定運行),低成本高靈活度的按需定製(強大的接口擴展能力、集群、分散式按需擴展)

企業搜尋平台的定位與目標

專注於為企業提供一套完整的企業搜尋平台,包括企業內容採集、內容存儲、文檔管理、語言處理、安全管理、統一檢索門戶、套用開發平台等。
圖三、ESP 系統結構
其中:
統一檢索:以多個分散式異構數據源為對象,向用戶提供統一的檢索接口,將用戶的檢索要求轉化為不同數據源的檢索表達式,並發地檢索本地、區域網路和廣域網上的多個分散式異構數據源,並對檢索結果加以整合,在經過消重和排序等操作後,以統一的格式將結果呈現給用戶的檢索。更能夠為不同用戶提供不同的界面展現方式,即滿足通用檢索需求,又能夠實現個性化需要。
語言處理:中文分詞是企業搜尋必須具備的技術之一,套用中文分詞技術才能使搜尋結果更加符合用戶習慣,更加接近用戶的期望結果,產品集成了中文分詞技術,並有著40萬詞庫的支持,用戶也可以根據自己的需要和行業特色來添加和維護詞庫。中文分詞技術的準確率達到96%以上。
安全系統實現了各類文檔、資料、數據等信息的訪問安全,採用獨創的分級安全體系來保障不同安全級別的信息必須經過授權才能夠訪問;通過對檢索結果進行文檔級安全和集合級安全的分類來實現授權體系的靈活與強大功能。更能夠與絕大部分業務系統的用戶體系整合,並可以繼承原有的許可權系統,支持LDAP、資料庫、Domino等。
內容存儲:實現各類文檔、資料、數據等信息的分散式存儲,是能夠最大限度地提高部署靈活性和可擴展性,所有的元數據和全文索引分別存儲在不同的單元上。支持主流資料庫平台、作業系統、瀏覽器、門戶、應用程式伺服器和開發標準,從而提供了一個不受供應商限制的體系結構。 這一靈活性可保護您在現有 IT 基礎架構中的投資, 進而可降低總體擁有成本。
文檔管理超過50種文檔類型的支持,通過將文檔元數據和索引信息進行分開存儲實現了強大的元數據管理功能,輔以基於文檔安全級別的控制體系,對文檔的整個生命周期進行全面管理。能夠通過創新的回溯功能查看文檔的歷史版本,嚴格的法規遵從策略,全面提升企業文檔到知識的轉換能力。
內容採集:除了支持所有主流資料庫和檔案系統的採集以外,還支持內容倉庫的採集,支持Domino、Documentum等企業內容管理中的數據,能夠針對指定檔案所在目錄進行高效檢索,並內置檔案解析器,可對PDF、OFFICE、HTML、TXT、音頻、視頻等多種檔案格式自動解析。同時根據需要能夠定製從其它各類數據源獲取要檢索的數據內容,例如:XML檔案、其它數據池等等。即使在同一個套用中,也可以通過配置同時從多個數據源獲取數據並提供檢索服務
套用開發平台:是一個完整的企業搜尋平台,能夠完成企業內容整合過程的絕大部分功能,將功能強大的作為整個解決方案的套用基礎,充分利用其底層套用功能,並封裝為更易於使用的服務來提高套用開發的效率,更好地滿足不斷變化的業務需求。

套用架構

堅持以人為導向的設計原則, 以滿足不同使用者套用需求的企業搜尋入口為統一展現手段,以開放的套用開發平台為套用支撐,提供經過安全級別控制與過濾的安全檢索、管理企業內容和知識,根據企業實際需求拓展內容管理、知識管理、協同套用等大量功能,通過內容整合技術實現對企業 ERP、PDM、CRM等業務系統數據和流程。以靈活、方便、快捷地方式組合套用,滿足企業管理支撐的各種業務需要。
功能架構如下圖所示:
圖四、套用架構
圖五、非結構化內容處理

部分功能列表

企業提供全面的管理支撐套用,具有豐富的套用功能模組,以滿足不同企業在不同時期的業務需求,企業根據需求靈活地組合各種套用模組構建適合自己的套用解決方案。下表是部分功能清單及簡單功能描述。
編號名稱功能說明
-F01-0內容採集實現企業環境中的各種數據源的數據採集功能
-F01-1本地檔案採集對本地檔案系統中的檔案進行採集和文本處理
- F01-2網路檔案採集對網路環境中的檔案系統進行採集和文本處理
-F01-3FTP採集擴展網路採集類型,支持對FTP環境存儲的檔案進行採集和文本處理
-F01-4POP3採集擴展網路採集類型,能夠對支持POP3協定的郵件系統中的郵件進行採集,支持SSL方式的連結協定
-F01-5Domino採集採集BM Domino系統中的內容
-F01-6Documentum採集採集EMC Documentum系統中的內容
-F01-7Mysql採集採集Mysql數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F01-8Oracle採集採集ORACLE數據,支持按主鍵採集和按更新時間戳採集,支持ORACLE的各個版本,自動採集,支持任務調度模式。
-F01-9SQL Server採集採集SQL Server數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F01-10DB2採集採集DB2數據,支持按主鍵採集和按更新時間戳採集,自動採集,支持任務調度模式。
-F02內容檢索
-F02-1關鍵字檢索標準的關鍵字檢索功能,支持任意欄位的檢索,支持日期和數字類型的關鍵字檢索,支持範圍檢索
-F02-2全文搜尋企業內容的全文檢索,支持千萬級的數據量,簡單檢索回響時間為亞秒級,海量數據,瞬間展現
-F02-3檢索統計檢索結果分組統計,支持多種數據類型的分組統計功能,無數據量限制。
-F02-4分類檢索人工堆數據內容分類,檢索能夠在分類下進行,能夠對分類授權。只有具有分類授權訪問的用戶才能夠使用分類檢索功能
-F02-5檢索安全分級嚴格控制檢索結果記錄的安全性,默認分為5個級別,第五級為最低級別,所有用戶都可以訪問,最高位第一級,只有用戶的安全級別為第一級採集可以訪問。
-F02-6檢索過濾安全訪問功能,檢索結果能夠被授權用戶訪問,通過與第三方用戶體系和角色系統集成,實現信息的訪問安全
-F02-7檢索結果反顯檢索結果按用戶自定義方式進行反顯
-F02-8任意欄位排序檢索結果排序功能,支持任意數據類型
-F02-9日期分組統計檢索結果按照日期進行分組統計,例如:年度分組統計
-F02-10數字分組統計檢索結果按照數字範圍進行分組統計,例如:年齡段分組統計
-F02-11主題分組統計檢索結果按照主題進行分組統計,例如:公司新聞訊息中關於市場推廣活動的統計
-F02-12跨庫檢索支持對異構數據系統的統一檢索,例如:對萬方、維普等第三方檢索系統的異構數據集成
-F02-13分散式檢索支撐海量數據,能夠通過多級分布方式提升系統的數據處理能力,能夠以低成本的方式按需擴展系統
-F02-14個性化搜尋獨有的功能,不同用戶或不同角色可以定義不同的檢索結果展現方式。
-F02-15快速預覽快速預覽檢索結果,即快照功能
-F02-16授權原文下載獲得授權的用戶,能夠對原文進行下載
-F03系統管理
-F03-1角色管理系統登錄用戶角色管理,也可以和外部系統整合作為映射參數
-F03-2用戶管理系統用戶管理
-F03-3用戶級別管理系統安全級別,用戶安全級別,系統信息訪問分級參數
-F03-4用戶界面定義自定義用戶檢索前台,系統支持不同用戶訪問不同前台檢索界面
-F03-5角色界面定義為角色定義安全級別、默認角色使用的檢索界面
-F03-6採集策略定義定義採集執行緒數、採集記憶體使用量、記憶體使用總量等參數
-F03-7系統郵件設定系統傳送郵件時使用的 SMTP賬號、密碼、發件人郵件地址等信息
-F04核心擴展
-F04-1檢索模板定義
-F04-2文檔格式定義
-F04-3元數據定義
-F04-5語言處理接口
-F04-7資料庫驅動
-F04-8數據採集器
-F04-9語言分析
-F04-10檔案解析
-F04-11數據處理
-F04-12文本處理
-F04-13身份驗證

相關詞條

相關搜尋

熱門詞條

聯絡我們