近年來,大數據處理與分析已經成為全球性問題,引起歐美各國政府和產業界高度重視,美國政府於2012年3月率先發布了《大數據研究與發展計畫》,Google,Amazon、Facebook、IBM、EMC、SAP等國際領先網際網路和仃公司都在相關技術領域和套用進行布局,力圖在大數據產業浪潮中搶得先機。
隨著我國經濟社會信息化和自動化水平不斷提高,在政府管理、公共服務、科學研究、商業套用等許多領域也而臨大數據問題,也需各種有針對性和經濟有效的解決方案,快速提升我國在大數據領域的整體實力和國際競爭力。
RichData大數據平台提出基於網際網路和數據中心、面向服務的大數據分析平台解決方案,以滿足日益增長的用戶需求,為我國開展大數據分析技術的研究和實踐提供借鑑和參考。
產品定位
RichData 從產品定位上,主要為行業大數據提供處理能力,是一個數據分析挖掘平台。因此,RichData的客戶目標定位為具備大數據場景的行業客戶。
RichData作為一個大數據商業智慧型的基礎平台,以RichData作為支撐,與行業具體的解決方案結合,可以延伸出行業化的數據產品族。
產品架構
1、管理子系統:主要包括集群管控、元數據管理、調度管理、數據服務管理、系統管理五個功能模組。2、ETL子系統:RichETL以元數據驅動的方式提供強大的抽取、轉換和載入(ETL)能力。
3、計運算元系統:以HDFSFederation和YARN為核心,在YARN集成了各種計算組件,包括HBase、Hive、Tez、Storm、Kafka等。
4、服務配置工具:通過可配置式個性化開發,大大降低了平台實施和使用的技術門檻,對平台的大部分二次開發不再需要專業的開發人員,業務人員就可以實現對數據計算的定義、腳本實現並通過定義規則驅動數據計算。
5、報表和分析工具:包括自定義報表工具和自定義分析工具。
6、數據服務子系統:對外提供各種數據服務,開放多種數據接口,外部系統/用戶可通過服務認證、數據API等方式按許可權訪問相應的數據。
技術架構
通過採用當前業界先進的大數據處理技術和模式,構建與具體業務松耦合的中間性的大數據統計、分析和挖掘平台。利用大數據平台,通過資源的線性擴展,可以實現單條信息秒級的線上處理性能、TB級數據離線分散式處理、PB級數據的存儲。
產品特性
配置化的安裝部署
系統可實現跨平台、跨網路、跨區域分散式部署。將大數據平台各組成部分封裝成統一的產品安裝工具,實現界面化的嚮導式安裝。
平台採用嚮導式過程安裝,自動檢測資源,自動化安裝。用戶只需指定機器資源,平台自動進行資源檢測、資源規劃、平台各模組的安裝,真正做到嚮導式安裝,無人值守式安裝。
元數據驅動的平台運行體系
平台採用分散式架構,彈性管控集群資源。平台運行以元數據為基礎,元數據包括數據源元數據,數據倉庫元數據,結果元數據,數據服務元數據,任務元數據,平台信息元數據等。
全域的系統監控與管理
管理模組是大數據平台信息的匯聚點,通過管理子系統獲取的信息可以知道系統的總體運行情況。實時查看平台運行的業務,對業務進行調度,優先權配置,多維度的業務報表。
通過管理平台的信息呈現,用戶可以清晰地知道當前系統運行的變化趨勢,從而把握系統的穩定性及健康狀況,可動態管理集群。
具備集群監控、集群管理(節點管理,異常管理,用戶管理,安全管理等)、元數據管理、調度管理、數據服務管理、系統管理等功能。
開放的數據服務
對外提供各種數據服務,開放多種數據接口,外部系統/用戶可通過服務認證、數據API等方式按許可權訪問相應的數據。採用可視化的圖形,列表等頁面展示方式。
標準化的接口訪問協定,為各類數據服務提供統一入口,提供便利,全面的數據服務。
統一控制,對用戶訪問和數據訪問的統一管控,訪問日誌記錄,保證數據安全。
統一數據快取機制,接口訪問穩定性和速度的提升。可擴展,可定製,滿足未來的數據訪問需求。
完善的安全管理策略
多層面的用戶許可權管理機制,設定嚴格的數據管理機制。內置了用戶操作記錄機制,全面監控用戶對平台的使用情況。
豐富的函式模型庫
對常用的統計函式,數值計算函式,字元函式進行封裝。對常用的數據挖掘模型、算法進行封裝。
外掛程式式的函式模型庫,可動態增加新算法模型。
提供行業分析模型及類似BI的分析和展示工具。
多來源多格式適配的數據採集
以元數據驅動的方式提供強大的抽取、轉換盒載入(ETL)能力。適配多種數據源,支持從檔案、DB、數據流中導入數據。靈活的數據轉換配置和任務配置,提供給了直觀的圖形界面設計器,大大縮短了數據抽取的開發周期,並且容易維護。設計界面友好,提供了工作流設計模式,滿足各種場景的實現。
服務以集群方式部署,支持多任務並發,自動負載均衡,支持大數據量的抽取轉換處理,執行效率高,提供了豐富的異常處理功能,能滿足各種異常處理需求。
可視化的自助分析工具
自定義報表工具,實現了基於XML的定義檔案來可程式性地生成報表的能力。圍繞著報表引擎,開發用戶圖形界面,用戶可以使用嚮導,無需編程,通過工具配置一步接一步完成創建一個報表。
數據展示格式靈活,能更大程度上滿足用戶的數據需求。
多維分析工具,提供豐富的圖形化展現界面和接口。
用java語言開發支持MDX(多維表達式)的查詢語言、分析型XML和olap4j的接口技術規範,實現了從SQL和其他數據源讀取數據,在記憶體緩衝區中生成集合數據。
統一的分散式存儲
以HBase作為數據存儲的統一格式,MapReduce、Hive通過接口使用HBase數據。做到一份存儲,多處使用。
配置式的服務配置工具
通過配置完成計算任務的配置,降低平台實施和使用的技術門檻。通過統一的配置模板實現對數據計算的定義、腳本實現並通過定義規則驅動數據計算。
模組化的平台架構
平台採用分散式架構,彈性管控集群資源。平台各功能組件之間通過數據進行互動,實現松耦合。平台各子系統既是一個獨立的功能模組,又能通過數據的互動構成一個整體。