公司簡介
中科天璣數據科技股份有限公司,成立於2010年,是中科院計算所為加速大數據技術成果轉化而孵化的高新技術企業,是國內領先的大數據產品與解決方案服務商。
公司專注於大數據引擎,數據分析、數據服務,安全與管理等四大業務,堅持創新、開放、發展的合作理念,致力於為政務、網信、軍工、安全、金融、行銷、智慧城市等領域的客戶提供行業產品和個性化解決方案,滿足不同行業客戶的數據獲取、存儲管理、檢索計算、分析挖掘、安全管理等需求,幫助客戶實現智慧決策。
中科天璣是目前國內少數自主可控的大數據引擎系列產品開發商,在BDA大數據分析框架與算法,BDE大數據存儲、管理、查詢等方面擁有核心智慧財產權。
公司核心研發團隊由中國科學院網路數據科學與技術重點實驗室專家組成,員工50%以上為研發人員,碩士以上學歷占比30%以上。高效協作的研發團隊為公司創新技術提供了源源不斷的動力。
未來中科天璣將繼續踐行大數據“深挖價值、服務國家、惠及大眾”的價值觀,堅持“引擎驅動創新,數據創造價值”的發展戰略,將內部創新與外部賦能相結合,立足於客戶的核心需求,不斷創新,同時將核心智慧財產權進行輸出,加大與資本市場的深度融合,與行業用戶和合作夥伴共同打造一個互惠互利、合作共贏的大數據生態系統。
發展歷史
2010年1月,北京中科天璣科技有限公司成立,主要從事網際網路信息挖掘、輿情熱點分析業務。
2010年5月,天璣輿情熱點分析平台上線
2011年4月,中科天璣提出分散式數據存儲結構RCFile。該技術被Facebook率先採用,並形成事實上的工業級別標準。
2013年8月,中科天璣開發出大數據引擎產品GolaxyBDE,為各行業提供高效、可擴展的結構化、半結構化的數據處理基礎平台。
2014年10月,中科天璣開發安全虛擬化產品GolaxyMinato,以獨特的內省方式為行業企業提供雲安全解決方案。
2015年12月,中科天璣承辦BDTC2015中國大數據技術大會。
2016年1月,完成股份制改造,正式更名為中科天璣數據科技股份有限公司。
2016年2月,中科天璣與曙光星雲、濤略廣告成立合資公司,專注於網際網路廣告精準行銷業務。
業務部門介紹
研發中心
研發中心對中科天璣產品業務中涉及的核心技術不斷進行積累最佳化,包括數據獲取、匯聚、存儲、查詢、分析等各個階段,形成分散式數據採集平台BDC,大數據存儲查詢平台BDE,大數據分析平台BDA等各類基礎組件,進行大數據項目建設時可以根據業務需求靈活的組合部署,提供PaaS層存儲管理、SaaS層分析計算以及業務場景深度耦合支持,滿足不同場景下的大數據套用實施需求。
數據服務
大數據服務事業產品部致力於全通道大數據獲取、匯聚、處理、分析,及基於其上的多層次、一體化數據解決方案提供。
事業服務產品部立足於中國科學院計算技術研究所二十餘年自然語言處理、數據挖掘方向的深入研究及技術積累,並組建專業開發團隊將其產品化、實用化,形成集數據處理分析服務、大數據輿情分析挖掘系統、數據分析報告等於一體的多層次解決方案,相關產品多年來套用於政府多個部門及行業內多個企業,為用戶業務提供有力的保障和服務。
數據分析
大數據分析產品部致力於提供面向行業的數據融合萃取、知識圖譜構建、深度分析挖掘和互動式可視化展現的一體化解決方案。
大數據分析產品部,立足於中國科學院計算技術研究所多年在自然語言處理、機器學習、知識圖譜、大數據方向的技術積累,深入行業領域,緊密結合業務,覆蓋對傳統大規模結構化數據、非結構化文本以及圖數據等的存儲、處理和深度分析挖掘,提供面向行業分析套用的整體解決方案,幫助用戶深挖數據價值,提升業務智慧型化水平,相關產品已經套用在政務、公安、國防等多個領域部門,極大提高了工作效率。
大數據安全
大數據安全事業產品部致力於大數據/雲基礎設施的安全產品研發和一體化安全解決方案的構建。
事業安全產品部基於在安全方向上多年的項目及產品研發經驗,獨創了虛擬機帶外控制、機外審計等多種特色安全技術,填補了國內在雲平台的“虛擬主機”、“虛擬網路”、“虛擬邊界”上的安全產品空白,在平台、流式數據和運維管理三個維度上形成了全套的雲安全系列產品,解決了大數據/雲基礎設施的安全防護和可視化運維的難題。
產品
新型混合數倉+一體化數據探索平台
目前中科天璣專注於大數據解決方案的行業落地,首要就是金融行業。在金融銀行業,中科天璣正在大力推動“新型混合數倉+一體化數據探索平台”的整體打包方案,以業務驅動的模式助力大數據在金融領域切實落地。
傳統行業的信息化技術都以對結構化數據的高效處理為目標,相對封閉的,屬於重資產的投入,成本很高,無法做到自主可控。在擴展性層面,目前傳統架構已經很難應付全量數據近實時處理的要求。
中科天璣的數據倉庫技術著重解決兩個問題,一是性能及規模擴展性,二是接口、標準兼容性,同時解決這兩個問題就能夠很好地適應了目前大數據在銀行金融領域的轉型和升級。
中科天璣與數朗科創合作的銀聯數據大數據平台
銀聯數據託管了全國很多城市商業銀行的信用卡業務。信用卡託管涉及信用卡開戶和交易數據管理等方面,在反欺詐領域會碰到兩個問題:一是數據越來越多,包括對外部數據的整合,數據量很大;二是它的底層套用了多種複雜的文本分析技術,比如模糊匹配、地址比對、名稱比對等。以Oracle架構為例,它的擴展性能已無法支持大數據量的處理,而且無法在資料庫里計算業務邏輯,只能在應用程式、套用伺服器上跑。
中科天璣DSQL通過類似Hadoop的MPP架構(標準X86伺服器),採用非Oracle架構下的共享存儲模式,讓DSQL的每個worker都成為具備CPU和存儲的邏輯計算單元,將上層業務邏輯下推到底層的資料庫執行引擎做全並發處理,從而可以快速並行地在數據層把業務層的事情處理完。性能實測提升了幾十倍。
網際網路大數據分析系統
中科天璣網際網路大數據分析系統,採用的技術源於中科院計算所天璣團隊二十餘年自然語言處理、數據挖掘方向的深入研究及積累,可為用戶提供PaaS層存儲管理、SaaS層分析計算以及業務場景深耦合的解決方案。目前該系統在政府輿情、情報領域的表現非常出色。
該大數據分析系統提供大數據輿情監測和輿情分析兩種服務。
中科天璣輿情監測系統:
中科天璣輿情監測系統是一款專業的網際網路輿情信息監測分析系統,具備熱點發現、熱點分析、實時監測、微博傳播跟蹤、用戶畫像、話題追蹤、綜合搜尋等功能,可為政府、金融監管部門、企業、媒體輿情預警、輿情引導、輿情管理提供決策依據。
可以實時採集海量網際網路信息和移動APP數據,抽取關鍵信息,實現多通道跨平台的大數據內容匯聚、深度挖掘、分析,解讀當前網路熱點信息,並且對用戶關心的內容進行追蹤預警。同時為了方便其他系統進行集成,提供對外數據分析訪問接口。
中科天璣輿情監測系統面向全網開源異構數據持續積累數據,國內覆蓋境內千萬重點新聞、論壇、部落格信源版塊,以及微博、微信、電子報、移動APP客戶端信息。同時覆蓋境外入口網站和twitter系統,境外54個主要國家或者地區的敏感、重點關注網站,包含百萬領域信源入口,千萬級ID與自媒體源,億級微博關聯用戶、百萬級名博關注;積累了帶標籤的百億級網頁、十億級訊息文本信息、每天千萬級訊息更新。
同時,中科天璣還根據每個用戶個性化需求,為其定製專業的輿情監測服務平台,通過與中國科學院、北京大學等科研機構共同建立的專家庫,提供合理的、科學的、有效的輿情監測解決方案。
中科天璣大數據輿情分析系統具有全媒體24小時監測、數據挖掘與分析、全生命周期多維度分析等特點,目前已經實現了體系化、深入化、行業化。體系化就是提供了原始數據服務、加工數據服務和數據分析服務,除了常規輿情商情信息服務,還包括根據客戶需求定製推送;深入化就是中科天璣大數據服務構建了媒體影響力指標體系、事件輿情影響力指標體系、政府輿情應對能力指標體系和反腐輿情指數等,幫助用戶實現輿情的深刻把握;行業化就是通過行業報告,監測與解讀行業動態,洞悉行業景氣指數。
天璣大數據一體機
天璣大數據一體機是中科院天璣團隊自主研發的大數據處理平台,採用英特爾E5家族系列CPU及英特爾伺服器組件,內置天璣大數據引擎套件,具有超高性價比、超高處理性能、超高可靠性等特性,提供千億紀錄級別的海量數據實時入庫、實時檢索等功能。天璣大數據一體機是一種處理海量數據的高效分散式軟硬體集合的雲處理平台,該平台可以從PB級的數據中挖掘出有用的信息,並對這些海量信息進行快捷、高效的處理。平台支持100GBps以上量級的數據流實時索引,秒級回響客戶請求,秒級完成數據處理、查詢和分析工作。平台可以對入口數據進行實時索引,對
數據進行分析、清理、分割,並將其存儲在雲存儲系統上,不僅在入庫和檢索時具有非常高的性能優勢,還可以支持數據深度挖掘和商業智慧型分析等業務。
信息安全與管理
目前公司的大數據安全產品有天璣TrustCloud可信雲平台、天璣Manito安全虛擬機、GolaxySimNet網路安全實驗系統等。
1.天璣TrustCloud可信雲平台
天璣TrustCloud可信雲平台是各類公有/私有IaaS雲平台的虛擬化產品組件。TrustCloud除了提供通用的雲平台集成功能外,還可提供全方位的安全保障功能,可對公有雲或私有雲內的業務系統、客戶數據和用戶操作進行全方位的防護和監控,無需安裝額外的安全產品,為客戶構建一個可信、安全的虛擬化運行環境。天璣TrustCloud可信雲平台的安全核心是安全虛擬機系統(GolaxyManito),GolaxyManito可與其他公司的公有雲和私有雲產品進行透明、無縫的集成。2.天璣Manito安全虛擬機
Manito安全虛擬機系統以獨有的方式保障公有雲、私有雲、桌面雲上所有用戶的系統和數據安全,可以上下兼容各種作業系統和雲計算框架,適應性極強,在全生命期管理、檔案訪問控制、網路訪問控制、進程訪問控制、惡意代碼檢測、用戶行為監控、審計日誌查詢和認證與系統策略等方面功能強大。
Manito安全虛擬機系統具有國內領先、自主可控的獨有技術,用戶可以全透明操作,不依賴用戶協定,無需安裝專門的防毒和監控軟體,形成超然於作業系統許可權之外的安全訪問控制體系。
3.GolaxySimNet網路安全實驗系統
GolaxySimNet網路安全實驗系統採用雲計算技術,用戶可以開展信息安全和網路攻防實驗學習,系統提供了信息安全、網路攻防、網路協定、計算機編程、計算機取證等900多個實驗項目,可滿足信息安全及網路攻防實驗教學。GolaxySimNet網路安全實驗系統具有三重安全隔離、自帶仿真功能,如定製仿真腳本蠕蟲、SQL注入等,支持用戶二次開發,擁有透明完備的數據採集、虛實結合的技術優勢。
客戶案例
淘寶數據魔方
2011年,淘寶網在其“數據魔方”和“量子統計”產品中,採用天璣BDE中的CCIndex等技術,解決了其實際運行中的關鍵問題。結合數據魔方線上系統的實際需求,作為數據魔方全屬性實時計算系統的核心,天璣BDE產品中的CCIndex技術經適配和最佳化後,已在淘寶公司上線投入實際運行。CCIndex使淘寶網原有的業務邏輯能夠直接遷移到經改進的HBase上,同時增強了全屬性實時計算系統的擴展性能。目前,實時計算系統處理的數據條目超過108億。採用CCIndex技術後,在硬體規模保持不變的前提下,系統處理的數據時效範圍從原來的7天增大到3個月,處理的數據規模增大了一個數量級,系統吞吐率增大了7倍,對原來延遲大於1s的查詢請求平均降低了57.4%。
天璣BDE產品的CCIndex技術解決了諸如HBase等當前主流的列簇式NoSQL資料庫系統在多列查詢上的功能缺失和性能低下的問題。通過融合各種索引技術及Join最佳化,CCIndex可以對NoSQL中數據非主鍵列進行定位和查詢,彌合了NoSQL與傳統關係型資料庫相比查詢功能力的欠缺。同時利用服務端統計計算技術,HBase可以對海量數據進行本地聚合統計而不涉及到大量的數據拷貝與傳輸。如此經過強化的查詢統計能力配合NoSQL的高擴展性及大吞吐量的數據處理能力,使眾多關係型資料庫面對的數據處理瓶頸得以解決。
智慧型電網
用電信息採集系統是國家電網公司構建智慧型電錶系統的重要組成部分,是當今物聯網的一個典型代表。該系統的主要功能是通過智慧型電錶,每隔一定時間(通常是幾分鐘)向數據中心傳輸一次採集的數據,該數據經過清洗和存儲,提供給上層套用系統進行分析。
在採用天璣BDE之前,該系統已經在國家電網浙江省分公司上線運行,接入電錶的數量7萬個,每採集一次數據要存入到20多個數據表中,每個表每天新增記錄700萬條,每天新增數據量10G左右。他們採用多台Oracle資料庫、以數據分流的方式存儲數據。其遇到的問題是上層套用需要管理對多個資料庫的訪問,擴展非常困難。此外,對於一個中等規模的省份而言,全面推廣該系統需要接入大約3000萬個電錶,系統規模需要擴展300多倍,採用原來的存儲系統很難支撐如此巨大的數據規模。
2012年5月採用天璣BDE存儲用電數據以後,可以以省為單位在全國推廣。每個省接入電錶1千萬到3千萬個。對於每個省的數據中心,可以處理每天新增記錄10億條,每天新增數據量2TB到6TB,一年的數據量大小為700TB-2PB,可以提供5年歷史數據的持久存儲和線上查詢。
騰訊廣點通
廣點通是騰訊的廣告投放平台,其提供在多個廣告投放平台上的成本可控、效益可觀、精準定位的廣告投放功能。其可以幫助客戶精準聚焦某一目標用戶群體進行廣告投放,顯著的提高流量,訪問量,降低推廣成本。要完成對用戶數據的動態實時分析是一大挑戰,不僅需要專業的數據處理算法,還需要一個成熟穩定的能夠支持大
數據存儲和計算的平台。
其對平台的技術挑戰如下:
複雜性:用戶海量、多分類、多屬性;廣告分類;廣告位排序
實時性:請求回響時間小於40ms
準確性:提高用戶點擊率
2012年,受深圳騰訊總部之託,為了解決用戶海量、多分類、多屬性、廣告分類、廣告位排序等問題,中科天璣團隊主要採用了記憶體計算的計算模式並運用了GolaxyDTube分散式數據匯流排、GolaxyBase分散式列式資料庫、Golaxy分散式記憶體算框架和Top排序與推薦算法庫使騰訊廣點通系統實現了系統架構支持全網數據處理。伺服器台數減少為原來的1/16,處理數據規模為原來的3倍,硬體成本節省為原料的1/48,年節約成本以億計。並且用戶點擊率提高了15%,當時日營收從200萬直接提升到230萬。
科研成果
中科天璣技術團隊近年來先後承擔了多項國家重點863、973、科技攻關、中國科學院知識創新工程、自然科學基金重點等重大課題項目。科研成果多次獲得國家及省部級獎勵。
其中,獲得國家科技進步一等獎1項;國家科技進步二等獎3項;中國證券期貨業科學技術獎二等獎1項;中國電子學會信息技術一等獎1項;摘要、搜尋、過濾等
多項技術先後獲得了6個國際專業評測(TREC、TEC)第一名。
榮譽:
●網際網路智慧型搜尋挖掘系統獲得國家科技進步一等獎。
●多文檔摘要、網頁與部落格專家搜尋、信息過濾等多項技術先後獲得了國際文本檢索(TREC)大賽第一名。
●中文分詞系統國內外公開測評第一,話題發現與跟蹤全球第二名等多項榮譽
●Golaxy擁有國際上最強的漢語詞法分析器ICTCLAS,目前全球授權6萬餘份,是公認的漢語分析第一品牌;
●全文搜尋系統Firtex是中文社區最有影響力的開源搜尋引擎項目,天璣輿情監測服務平台已經廣泛地服務於中國證監會、中國銀監會、國家廣電總局等單位。