大數據平台

大數據平台

所有研究都表明,未來數年數據量會呈現指數增長。根據EMC研究院統計,全球2012年創建和複製的數據量達到了2.8ZB(1ZB等於10億PB),而到2020年,這個數據會上升到35ZB。對這些數據的管理和分析,給技術帶來了挑戰,但是對數據的透徹分析將會為我們帶來不可估量的價值。麥肯錫全球研究機構發布,認為大數據是創新,競爭和生產力的下一個前沿領域,數據將會給社會帶來更大的價值; 大數據將在政府公共服務、醫療服務、零售業、製造業、以及涉及個人位置服務等領域得到廣泛套用,並產生巨大的社會價值和產業空間; 預測2020年,大數據套用市場規模將達到近2600億美元。

基本信息

近年來,大數據處理與分析已經成為全球性問題,引起歐美各國政府和產業界高度重視,美國政府於2012年3月率先發布了《大數據研究與發展計畫》,Google,Amazon、Facebook、IBM、EMC、SAP等國際領先網際網路和仃公司都在相關技術領域和套用進行布局,力圖在大數據產業浪潮中搶得先機。
隨著我國經濟社會信息化和自動化水平不斷提高,在政府管理、公共服務、科學研究、商業套用等許多領域也而臨大數據問題,也需各種有針對性和經濟有效的解決方案,快速提升我國在大數據領域的整體實力和國際競爭力。
RichData大數據平台提出基於網際網路和數據中心、面向服務的大數據分析平台解決方案,以滿足日益增長的用戶需求,為我國開展大數據分析技術的研究和實踐提供借鑑和參考。

產品定位

RichData 從產品定位上,主要為行業大數據提供處理能力,是一個數據分析挖掘平台。因此,RichData的客戶目標定位為具備大數據場景的行業客戶。

RichData產品定位RichData產品定位

RichData作為一個大數據商業智慧型的基礎平台,以RichData作為支撐,與行業具體的解決方案結合,可以延伸出行業化的數據產品族。

產品架構

1、管理子系統:主要包括集群管控、元數據管理、調度管理、數據服務管理、系統管理五個功能模組。
2、ETL子系統:RichETL以元數據驅動的方式提供強大的抽取、轉換和載入(ETL)能力。
RichData產品架構RichData產品架構

3、計運算元系統:以HDFSFederation和YARN為核心,在YARN集成了各種計算組件,包括HBase、Hive、Tez、Storm、Kafka等。
4、服務配置工具:通過可配置式個性化開發,大大降低了平台實施和使用的技術門檻,對平台的大部分二次開發不再需要專業的開發人員,業務人員就可以實現對數據計算的定義、腳本實現並通過定義規則驅動數據計算。
5、報表和分析工具:包括自定義報表工具和自定義分析工具。
6、數據服務子系統:對外提供各種數據服務,開放多種數據接口,外部系統/用戶可通過服務認證、數據API等方式按許可權訪問相應的數據。

技術架構

通過採用當前業界先進的大數據處理技術和模式,構建與具體業務松耦合的中間性的大數據統計、分析和挖掘平台。
RichData技術架構RichData技術架構

利用大數據平台,通過資源的線性擴展,可以實現單條信息秒級的線上處理性能、TB級數據離線分散式處理、PB級數據的存儲。

產品特性

配置化的安裝部署

系統可實現跨平台、跨網路、跨區域分散式部署。
將大數據平台各組成部分封裝成統一的產品安裝工具,實現界面化的嚮導式安裝。
平台採用嚮導式過程安裝,自動檢測資源,自動化安裝。用戶只需指定機器資源,平台自動進行資源檢測、資源規劃、平台各模組的安裝,真正做到嚮導式安裝,無人值守式安裝。

元數據驅動的平台運行體系

平台採用分散式架構,彈性管控集群資源。
平台運行以元數據為基礎,元數據包括數據源元數據,數據倉庫元數據,結果元數據,數據服務元數據,任務元數據,平台信息元數據等。

全域的系統監控與管理

管理模組是大數據平台信息的匯聚點,通過管理子系統獲取的信息可以知道系統的總體運行情況。
實時查看平台運行的業務,對業務進行調度,優先權配置,多維度的業務報表。
通過管理平台的信息呈現,用戶可以清晰地知道當前系統運行的變化趨勢,從而把握系統的穩定性及健康狀況,可動態管理集群。
具備集群監控、集群管理(節點管理,異常管理,用戶管理,安全管理等)、元數據管理、調度管理、數據服務管理、系統管理等功能。

開放的數據服務

對外提供各種數據服務,開放多種數據接口,外部系統/用戶可通過服務認證、數據API等方式按許可權訪問相應的數據。
採用可視化的圖形,列表等頁面展示方式。
標準化的接口訪問協定,為各類數據服務提供統一入口,提供便利,全面的數據服務。
統一控制,對用戶訪問和數據訪問的統一管控,訪問日誌記錄,保證數據安全。
統一數據快取機制,接口訪問穩定性和速度的提升。可擴展,可定製,滿足未來的數據訪問需求。

完善的安全管理策略

多層面的用戶許可權管理機制,設定嚴格的數據管理機制。
內置了用戶操作記錄機制,全面監控用戶對平台的使用情況。

豐富的函式模型庫

對常用的統計函式,數值計算函式,字元函式進行封裝。
對常用的數據挖掘模型、算法進行封裝。
外掛程式式的函式模型庫,可動態增加新算法模型。
提供行業分析模型及類似BI的分析和展示工具。

多來源多格式適配的數據採集

以元數據驅動的方式提供強大的抽取、轉換盒載入(ETL)能力。適配多種數據源,支持從檔案、DB、數據流中導入數據。
靈活的數據轉換配置和任務配置,提供給了直觀的圖形界面設計器,大大縮短了數據抽取的開發周期,並且容易維護。設計界面友好,提供了工作流設計模式,滿足各種場景的實現。
服務以集群方式部署,支持多任務並發,自動負載均衡,支持大數據量的抽取轉換處理,執行效率高,提供了豐富的異常處理功能,能滿足各種異常處理需求。

可視化的自助分析工具

自定義報表工具,實現了基於XML的定義檔案來可程式性地生成報表的能力。
圍繞著報表引擎,開發用戶圖形界面,用戶可以使用嚮導,無需編程,通過工具配置一步接一步完成創建一個報表。
數據展示格式靈活,能更大程度上滿足用戶的數據需求。
多維分析工具,提供豐富的圖形化展現界面和接口。
用java語言開發支持MDX(多維表達式)的查詢語言、分析型XML和olap4j的接口技術規範,實現了從SQL和其他數據源讀取數據,在記憶體緩衝區中生成集合數據。

統一的分散式存儲

以HBase作為數據存儲的統一格式,MapReduce、Hive通過接口使用HBase數據。
做到一份存儲,多處使用。

配置式的服務配置工具

通過配置完成計算任務的配置,降低平台實施和使用的技術門檻。
通過統一的配置模板實現對數據計算的定義、腳本實現並通過定義規則驅動數據計算。

模組化的平台架構

平台採用分散式架構,彈性管控集群資源。
平台各功能組件之間通過數據進行互動,實現松耦合。平台各子系統既是一個獨立的功能模組,又能通過數據的互動構成一個整體。

行業解決方案

網際網路行業解決方案

近年來網際網路發生了巨大的變化,移動網際網路、社交網路、電子商務大大擴展了網際網路的疆界和套用領域。一方面,大數據會催生對IT產品與解決方案更多的需求,將涵蓋從硬體、軟體到信息服務等多個層面;另一方面,越來越多的網際網路公司正在通過雲交付的模式,將自身對於大數據集的存儲、計算與分析能力開放給第三方,使得數據即服務成為影響產業格局的新一代業務模式。

金融行業解決方案

基於金融很多業務系統都已經構建,包括BI、信息分析,這些仍然可以在大數據平台上繼續實施,而且比傳統方法更有效率。不僅可以降低數據整合工作量,把這些相對昂貴的工作放到更有效、更高效、性價比更高的大數據Hadoop上來進行,可以更大程度上降低原來對於基於主機昂貴的獨立系統要求,同樣使數據可以運行在基於英特爾X86平台上,提高效率降低成本。

電力行業解決方案

電力大數據是能源變革中電力工業技術革新的必然過程,而不是簡單的技術範疇。電力大數據不僅僅是技術進步,更是涉及整個電力系統在大數據時代下發展理念、管理體制和技術路線等方面的重大變革,是下一代智慧型化電力系統在大數據時代下價值形態的躍升。重塑電力核心價值和轉變電力發展方式是電力大數據的兩條核心主線。

電信行業解決方案

運營商實施數據管理和分析的一個重要平台是商業智慧型平台,隨著數據量的激增以及客戶行銷定位要求提升,具備集中化的、強大擴展性和高可用性的商業智慧型系統平台構建成為運營商基於大數據套用的關鍵一環。未來,隨著大數據的技術成熟和套用的推廣,運營商將圍繞流量經營、網路最佳化、數據服務、個性化服務等四個方面來強化電信大數據的套用。

醫療行業解決方案

如何把醫療大數據轉換為經濟價值,“關鍵是怎么能夠提取出與診療有關的數據。”醫療行業的大數據集量大且繁雜,如果能夠對其進行有效的存儲、處理、查詢和分析,那么就可對於小到輔助某個臨床醫生做出更為科學和準確的診斷和用藥決策,大到幫助相關研究機構突破醫療方法和藥物革新,提供前所未有的強力支持。

智慧城市解決方案

“數據驅動世界、軟體定義世界,自動化正在接管世界,建設智慧城市將是下一波浪潮和拉動IT世界的重要載體。”《大數據》一書作者塗子沛這樣描述。大數據遍布智慧城市的各個方面,從政府決策與服務,到人們衣食住行的生活方式,再到城市的產業布局和規劃等,都將實現智慧化、智慧型化,大數據為智慧城市提供智慧引擎。

相關詞條

相關搜尋

熱門詞條

聯絡我們