海量數據處理能力
企業搜尋套用源自當前信息規模的爆炸式膨脹和信息資源共享的普遍需求,特別是對占信息資源總量80%以上的非結構化數據而言,檢索要應對兩方面的挑戰:
第一:當數據規模達到T級時,單台伺服器已經遠遠不能滿足數據存儲和管理需要,因此需要部署多台伺服器進行分散式存儲,但必須實現統一檢索;
第二:在多用戶高並發訪問的情況下,海量數據規模使檢索性能急劇降低,必須採用多台伺服器分擔檢索回響,保證檢索效率。
企業搜尋需要實現海量數據分布存儲和高並發訪問負載均衡,並支持兩種手段的組合運用,可保證用戶系統在海量數據和高並發環境下的分散式檢索的高性能。同時,通過集群也能輕鬆實現消除單點故障的高可用系統,滿足用戶的可靠性要求。
企業搜尋需要採用最新最佳化算法,改良了快取(CACHE)機制,並針對近年軟硬體平台發展,比如64位處理器和作業系統、多處理器(SMP)體系結構等實現了相應支持和最佳化,淋漓盡致地發揮出最新軟硬體平台的優勢,令單機環境系統性能較上一版本取得了成倍的提升。
可靠有效的高查全率和查準率
用戶在使用Google等網際網路搜尋引擎時,經常可以發現搜尋引擎顯示的搜尋數目並不準確:搜尋引擎顯示搜尋到幾十萬條信息,實際通過翻頁可以看到展示出來的信息也就幾百條。而且,有些明明符合條件的信息可能就是搜不出來。這與網際網路搜尋引擎面對網頁數據特性所採取的PageRank、TOP N、結果預估等算法或策略相關。相應的,統計表明,搜尋用戶絕大部分的訪問限於搜尋結果的前幾個頁面。然而,企業搜尋的套用環境、用戶需求和網際網路搜尋有很大不同,企業搜尋是為組織業務決策和運轉而服務的,要做到精準,需要全面獲取搜尋結果並且不能有任何疏漏,因而需要保證高查全率和查準率。
企業搜尋需要支持多種索引策略、全方位檢索手段、智慧型檢索輔助、內容相關度排序等功能,在保證用戶查準的同時,提供100%查全手段,滿足企業搜尋引擎對查全和查準的雙重要求。
結構化和非結構化統一搜尋
除強調信息檢索的全面和準確之外,企業級搜尋面對的另一個難題就是複雜的數據異構性,即組織中各種類型的數據存放在不同的系統中,既有非結構化數據也有結構化數據,既有關係資料庫系統,也有OA系統、網站內容管理系統、檔案系統、以及郵件系統等。因此,結構化數據和非結構化數據統一搜尋和管理是重中之重。
線點科技企業搜尋在數據存儲方面提供多種結構化數據類型,檢索方面實現結構化數據和非結構化數據的聯合檢索,並可以對檢索結果進行分類統計,這些都是傳統全文檢索系統或者搜尋引擎所不能提供的領先和創新的功能。在異構數據集成方面,需要提供了多種接口工具實現與不同系統的數據同步。
線點科技企業搜尋也能夠實現動態索引以及多級訪問安全機制,保證企業搜尋所必備的即時性和安全性,為搭建基於企業搜尋的各類套用,如信息服務、知識管理、決策支持,應急預警等提供了功能強大、完備和可靠的核心支撐平台。
線點科技企業搜尋平台
線點科技企業搜尋引擎 | Google、百度等 | |
信息內容 | 防火牆內的信息 (區域網路信息),異構系統中的信息(如郵件、辦公、資料庫、ERP、CRM等,Domino) | 網際網路信息 |
核心技術 | 基於內容本身的相關排序更高的查全率和查準率要求 安全性 實時性 | 基於網頁連結數的重要性排序(PageRank), 預估最相關的N個結果(Top N) |
商業模式 | 軟體+服務(License、SaaS、定製開發、收費服務等) | 廣告 |
終端客戶 | 企業客戶 | 個人用戶 |