KBase是清華同方在承建中國國家知識基礎設施(CNKI)這一國家級大規模信息化工程的過程中,依託清華大學科技和人才優勢,厚積薄發自主研發而成的。KBase作為CNKI工程的運營支撐平台,管理著目前全球最大的中文知識信息資源資料庫,每天提供千萬人次的信息檢索服務。同時,KBase 已成功套用於包括歐美已開發國家在內的全球5000多家機構用戶,其優異的性能和穩定性,受到用戶的一致好評。
KBase 解決了非結構化信息處理的基本問題,可用於任何處理非結構化信息的行業套用,如數字圖書館、數字檔案館、電子政務、企業搜尋、知識管理、內容管理、情報分析、網際網路不良信息監控、信息資源開發利用、門戶建設等等。
主要特點
高效、準確的全文檢索
KBase全文檢索速度高達500G/S,處於業界領先地位。同時,KBase基於先進的高維索引技術在國際上首次將相似檢索功能真正做到了實用化水平: 速度高達百萬級文獻量毫秒級回響。
KBase集成先進的全切分切詞算法,很好地解決了歧義切分問題,可將“原子結合成分子”正確地切分成“原子/結合/成/分子”而不是“原子/結合/成分/子”,從而使KBase與同類產品相比具有更高的查準率、查全率。
海量非結構化數據管理
KBase具有強大的海量非結構化數據存儲管理能力,單表管理的記錄數可達40億,單表管理的數據容量可達TB級(分區表可達PB級)。KBase 同時支持多機群集,實現數據的分散式存儲。KBase作為CNKI工程的運營支撐平台,目前管理著全球最大的中文知識信息資源資料庫,每天提供千萬人次的信息檢索服務,其優異的性能和穩定性,受到廣大CNKI用戶的廣泛讚譽。
功能強大的關係資料庫全文檢索網關
KBase提供了對Oracle、DB2、SQL Server、Sybase、Informix等主流關係資料庫管理系統(統稱RDBMS)的全文檢索網關,實現了RDBMS和KBase 伺服器之間的數據共享和實時同步,使用戶在享有RDBMS卓越的數據處理功能的同時,擁有KBase優秀的全文檢索功能。基於KBase 關係資料庫全文檢索網關,可以整合多種異構數據源,實現企業級信息資源的統一搜尋。
大規模並發處理能力
KBase支持多伺服器群集,可將多個獨立的KBase伺服器虛擬整合成一個整體,實現高效的分散式計算,大大提高系統的並發處理能力。
先進的中文智慧型信息處理能力
KBase擁有超過500萬辭彙量的、大百科式的概念關係詞典,集成Smart TextMiner文本挖掘引擎和NLP自然語言處理引擎,可提供自動分類、自動聚類、關鍵字自動標引、自動文摘、信息過濾、關聯規則挖掘等多種實用功能。
易用的檢索語言
KBase充分考慮用戶使用習慣,提供類似SQL的查詢語言—KSQL,設計更加人性化。
完整的套用開發接口
KBase提供.Net組件、COM組件、Java組件、ODBC、ADO等資料庫訪問接口,並且針對有較高底層開發要求的用戶提供完整的二次開發接口。KBase 同時支持Z39.50、OAI、OpenURL等訪問接口。
支持多種編碼
KBase提供對 GB2312、BIG5、GBK、GK18030、UNICODE等多種編碼的直接支持。
性能指標
KBase各項性能指標均達到國際先進水平:
· 全文檢索速度: 500GB /秒
· 相似檢索速度: 100萬文獻量/20毫秒
· 單表支持最大記錄個數:40億
· 單表支持最大容量:8 TB(分區表最大容量 2PB)
· 可同時跨庫檢索最大數:255個
· 擁有200萬數量級的概念關係詞典