高性能計算集群

高性能計算集群(英語:High-PerformanceComputingCluster,簡稱HPCC),也被稱為數據分析超級計算機,是一個由律商聯訊風險解決方案發展的開放原始碼數據密集型計算系統平台。

簡介

HPCC(高性能計算集群)也稱為 DAS(數據分析超級計算機),是由LexisNexis風險解決方案開發的開源,數據密集型計算系統平台。HPCC平台整合了在商品計算集群上實現的軟體架構,為使用大數據的應用程式提供高性能的數據並行處理。HPCC平台包括支持並行批處理數據處理(Thor)和使用索引數據檔案(Roxie)的高性能線上查詢應用程式的系統配置。HPCC平台還包含一個以數據為中心的並行數據處理聲明性程式語言ECL。

系統架構

圖1 圖1

HPCC系統體系結構包括兩個不同的集群處理環境,每個集群處理環境都可以獨立進行最佳化,以實現並行數據處理目的。這些平台中的第一個被稱為數據精煉廠,其總體目的是用於任何目的的大量的任何類型的原始數據的一般處理,但通常用於數據清理和衛生,提取,轉換,原始數據的載入處理,記錄連結和實體解析,大規模特設的複雜分析以及創建鍵控數據和索引以支持高性能結構化查詢和數據倉庫應用程式。數據精煉廠也被稱為Thor,這個大錘象徵著把大量的原始數據壓縮成有用的信息。Thor集群的功能,執行環境,檔案系統和功能與Google和Hadoop MapReduce平台類似。

圖1顯示了一個物理Thor處理集群的表示,該集群充當可伸縮的數據密集型計算應用程式的批處理作業執行引擎。除了Thor主節點和從節點之外,還需要額外的輔助和通用組件來實現完整的HPCC處理環境。

圖2 圖2

第二個並行數據處理平台被稱為Roxie,可用作快速數據傳輸引擎。該平台設計為線上高性能結構化查詢分析平台或數據倉庫,通過Web服務接口支持線上應用程式的並行數據訪問處理需求,支持數以千計的同步查詢和用戶分秒的回響時間。Roxie使用分散式索引檔案系統使用最佳化的執行環境和用於高性能線上處理的檔案系統來提供對查詢的並行處理。Roxie集群與Hadoop的功能和功能類似,增加了HBase和Hive功能,並提供近乎實時的可預測查詢延遲。Thor和Roxie集群都使用ECL程式語言來實現應用程式,從而提高了連續性和程式設計師的生產力。

圖2顯示了一個物理Roxie處理集群的表示,該集群充當高性能查詢和數據倉庫應用程式的線上查詢執行引擎。Roxie集群包含多個節點,其中包含用於處理查詢的伺服器和工作進程;一個稱為ESP伺服器的附加輔助組件,為外部客戶端訪問群集提供接口;以及在HPCC環境中與Thor群集共享的其他常用組件。雖然Thor處理集群可以在沒有Roxie集群的情況下實施和使用,但是包含Roxie集群的HPCC環境還應該包含Thor集群。Thor集群用於構建Roxie集群使用的分散式索引檔案,並開發將與索引檔案一起部署到Roxie集群的線上查詢。

軟體架構

高性能計算集群 高性能計算集群

HPCC軟體體系結構包含Thor和Roxie集群以及通用中間件組件,外部通信層,提供最終用戶服務和系統管理工具的客戶端接口,以及支持監視和輔助檔案系統載入和存儲的輔助組件來自外部的數據。HPCC環境只能包含Thor集群,或Thor和Roxie集群。整個HPCC軟體體系結構如圖3所示。

相關詞條

熱門詞條

聯絡我們