釋義一
中文名稱:紅移
英文名稱:Redshift
簡介:
收錄有約425張星體照片、8,000,000星體、70,000星雲、15,000小行星與超過1,500慧星資料,真是超棒的天文軟體.
軟體.視窗設計簡單易操作,只要點選任何圖上星體就會自動拉近並獲得其詳細資訊.特殊的每日星體主題讓你隨時掌握主要星體變化資料,此外,有天文字典可查詢各專門術語、星體照片精選與宇宙的故事等等單元,你也可記錄下你的個人使用資料,以隨時找尋資料,本軟體是現今歐美最暢銷的天文軟體.
在物理學(尤其是天文學)上,紅移是指自物體發出的光在傳播時波長比例增加,或者說該光向光譜的紅端移動的情況。
釋義二
Amazon Redshift 使用列存儲技術改善 I/O 效率並跨過多個節點平行放置查詢,從而提供快速的查詢性能。Redshift 使用標準的 PostgreSQL JDBC 和 ODBC 驅動程式,從而使您能夠使用各種常見 SQL 客戶端。數據載入速度與集群大小、與Amazon S3、Amazon DynamoDB、Amazon Elastic MapReduce、Amazon Kinesis或任何SSH 啟用主機的集成呈線性關係。
我們已自動化與預配置、配置和監控數據倉庫相關的大多數常見管理任務。連續、遞增且自動地備份到 Amazon S3。快速還原;您可以在幾分鐘內開始查詢,同時數據會在後台緩衝。只需單擊幾下就可以跨地區啟用災難恢復。
安全性是內置的。您可以使用硬體加速型 AES-256 和 SSL 加密靜態和中轉數據,使用Amazon VPC隔離您的集群,甚至使用硬體安全模組 (HSM)管理您的密鑰。所有的 API 調用、連線嘗試、查詢以及集群的變動都會被記錄,並可審計。
快速
專為數據倉庫而最佳化
Amazon Redshift 使用各種創新技術,對於大小在 100 GB 到 1 PB 或更高的數據集,擁有很強的查詢性能。它使用列式存儲、數據壓縮及區域映射,降低了執行查詢所需的 I/O 數量。Amazon Redshift 擁有大規模並行處理 (MPP) 架構,對 SQL 操作進行並行分布處理,以利用所有可用資源。基礎硬體為高性能數據處理而設計,使用本地附帶存儲空間以最大化處理器與驅動器之間的吞吐量,同時使用 10GigE 網狀網路以最大化節點之間的吞吐量。
可擴展
僅需在AWS 管理控制台中點擊幾次或通過一個簡單的 API 調用,您就能在性能或容量需要改變時,輕鬆改變數據倉庫中的節點數和節點類型,以提高性能或增加容量且不會發生停機。利用 Amazon Redshift,您只要用單個 160GB DW2.Large 節點就可開始,並能一路擴展到使用 16TB DW1.8XLarge 節點的 1 PB 或更多壓縮用戶數據。調整大小時,Amazon Redshift 可將您現有的集群置於唯讀模式,並預配置一個您選定大小的新集群,然後將數據從您的舊集群並行複製到您的新集群。在配置新集群的同時,您可繼續對您的舊集群進行查詢。一旦您的數據被複製到您的新集群,Amazon Redshift 將自動將查詢重新定向至您的新集群,並移除舊集群。
成本低
無需預付費用。
您僅需為實際調用的資源付費。您可選擇無預付費用的按需定價或長期契約,或者用預留實例定價來獲得大幅折扣。按需定價的起點僅為每 160GB DW2.Large 節點 0.25 USD 每小時,或每 2TB DW1.XLarge 節點 0.85 USD 每小時。利用預留實例,您可以將實際價格降低至每 DW2.Large 節點 0.10 USD 每小時(5 500 USD/TB/年)或每 DW1.XLarge 節點 0.228 USD 每小時(1 000 USD/TB/年)。請訪問Amazon Redshift 定價頁面參閱更多細節。
簡便
幾分鐘內即可入門
僅需在AWS 管理控制台中單擊幾下或通過簡單的 API 調用,您就可創建一個集群、指定它的大小、規定節點類型和安全性配置檔案。Amazon Redshift 將設定您的節點、配置節點之間的連線並保護集群的安全性。您的數據倉庫應該在幾分鐘之內就可正常運行。
完全託管
Amazon Redshift 處理數據倉庫的管理、監控及擴展所需的所有工作,從監控集群健康狀態、備份到進行修補和升級。當您的性能和容量需求變化時,您可輕鬆添加節點或從集群中移除節點。通過處理所有這些耗時耗力的任務,Amazon Redshift 使您得到了解脫並專注於您的數據和業務。
容錯能力
Amazon Redshift 擁有多種改善數據倉庫集群可靠性的功能。所有寫入集群內節點的數據自動複製到集群內的其他節點,且所有數據被連續備份至Amazon S3。Amazon Redshift 持續監控集群的健康狀態並自動從故障驅動器重新複製數據,並在必要時替換節點。
自動備份
Amazon Redshift 的自動快照功能連續地將集群上的數據備份至Amazon S3。備份是連續、遞增而自動的。Amazon Redshift 按用戶定義的期間存儲您的快照,此期間可以是 1 到 35 天。您可在任何時候拍攝您自己的快照,這些快照影響所有現有的系統快照,並可保留到您明確地刪除它們時為止。Redshift 還能將您的快照異步複製到另一個地區的 S3 中進行災難恢復。一旦您刪除了某個集群,您的系統快照也被移除,但您的用戶快照在您明確地刪除它們之前仍可使用。
快速恢復
您可通過AWS 管理控制台或Amazon Redshift API用任何系統快照或用戶快照來恢復您的集群。一旦恢復了系統元數據,您的集群就可供使用,而且您可在用戶數據在後台脫機的時候開始運行查詢。
安全
加密
僅需若干參數設定,您即可設定 Amazon Redshift,使其利用 SSL 來保護中轉數據,並利用硬體加速型 AES-256 加密來保護靜態數據。如果您選擇啟用靜態數據的加密,那么所有寫入硬碟的數據以及任何備份數據也將被加密。默認情況下,Amazon Redshift 會負責密鑰管理,但您也可以選擇使用您自己的硬體安全模組 (HSM)、AWS CloudHSM或AWS Key Management Service管理您的密鑰。
網路隔離
Amazon Redshift 使您能夠配置防火牆規則,以控制對數據倉庫集群的網路訪問。您也可在Amazon Virtual Private Cloud (Amazon VPC)中運行 Amazon Redshift,將您的數據倉庫集群隔離在您自己的虛擬網路中,並用行業標準加密 IPsec VPN 將其連線至您現有的 IT 基礎設施。
審計與合規
Amazon Redshift 與AWS CloudTrail相集成,可使您對所有的 Redshift API 調用進行審計。Amazon Redshift 還會紀錄所有的 SQL 操作,包括連線嘗試、查詢和資料庫的變動。您可以使用 SQL 查詢在系統表格中訪問這些記錄,或選擇將其下載到 Amazon S3 上的安全位置。Amazon Redshift 與 SOC1、SOC2、SOC3 和 PCI DSS 1 級要求兼容。關於更多詳細信息,請訪問AWS 合規中心。
兼容
SQL
Amazon Redshift 是一種 SQL 數據倉庫解決方案,它使用行業標準的 ODBC 和 JDBC 連線以及 PostgreSQL 驅動程式。許多流行的軟體供應商正在用他們的產品和服務對 Amazon Redshift 進行認證,這使您能夠繼續使用您現在使用的工具。有關詳細信息,請參閱Amazon Redshift 合作夥伴頁面。
集成化
Amazon Redshift 與其他 AWS 服務相兼容,並內建了指令將數據從Amazon S3、Amazon DynamoDB或EC2 以及使用 SSH 的本地伺服器中並行載入到每個節點中。AWS Data Pipeline和Amazon Kinesis都以數據目標的形式與 Amazon Redshift 相集成。
優勢
完全託管,快速上手
使用Redshift雲服務,您可以根據業務需要在幾分鐘內建立幾個到幾十個節點的數據倉庫集群,立刻開始您的數據分析的任務,也能根據需求隨時增加或減少集群資源。Redshift是完全託管平台,承擔了大量的集群管理、資料庫管理、監控、集群健康檢查、備份、升級等工作,讓您能專注業務分析,無需花大量時間在伺服器管理,安全及數據備份等工作上。
為數據倉庫而最佳化的架構
Amazon Redshift基於企業級PostgreSQL資料庫,有大規模並行處理 (MPP) 架構,MPP可以通過將數據分布到各個計算節點來解決海量數據的處理難題。在Redshift中,每個集群有1個管理節點和多個計算節點,集群內部使用私有、高速、 低延時的網路連線。每個計算節點都有單獨的CPU,記憶體和附加存儲,並且每個計算節點有多個分區,您的數據被分布保存在計算節點的多個分區內,因此每個分區的數據量大大減少,您的查詢會在多個分區並行執行,大大的增加了查詢的效率。
高性能
很多用戶使用Redshift獲得了幾十倍甚至上百倍的查詢加速,Redshift能為您提供非常高效的查詢性能,除了專為數據倉庫而最佳化的架構外,還有以下優勢:
列式存儲
很多資料庫使用行式存儲,此時如果要基於某個列求和,需要載入整張表的數據,而Redshift列式存儲只需要載入一列的數據,磁碟的IO及記憶體的消耗都顯著減少,增加了性能。由於數據倉庫中的大部分查詢只是掃描整張表中的部分欄位,因此Redshift列式存儲特別適合數據倉庫查詢,另外列式存儲索引比傳統索引能提供5倍以上的壓縮效果和10倍以上的性能提升。
數據壓縮
作為一個列式數據倉庫,Redshift還支持按列數據壓縮,數據壓縮減少了磁碟占用空間、減少了讀寫I/O、減少了記憶體占用空間,並提高了查詢的性能。由於Redshift同列的數據類型相同、有些值也相同,因此Redshift的壓縮效率很高。
查詢最佳化
Redshift提供了針對MPP架構的查詢最佳化引擎,被編譯後的SQL分布在多個計算節點的分區內並行執行,並且最大化的利用了列式存儲的優勢,因此在複雜的多表連線查詢的情況下,查詢最佳化器通常能有很大的性能提升。
成本低
使用Redshift無需昂貴的伺服器及管理人員成本,僅按使用量付費,並且可以通過購買預留實例來進一步減少成本,實際成本只有傳統數據倉庫分析的十分之一。
安全
創建Redshift集群的時候,可以選擇啟用加密來保護數據倉庫中的數據,啟用加密後,所有的資料庫、系統表及備份數據都會被加密,保障了數據的安全。連線Redshift的時候,您也可以使用SSL連線,保障網路傳輸安全。另外AWS也通過身份管理IAM,虛擬網路VPC,防火牆安全組等保護您數據的安全 。
對比
Redshift同Python的數據映射和安全許可權對比,Redshift的數據類型可以映射到Python中很明顯的對應類型。Redshift的幾個數據類型,包括“integer”,“smallint”,“bigint”,“short”和“long”映射到Python的“int”類型。Redshift的“decimal”和“numeric”數據類型映射到Python的“decimal”類型,而Redshift的“double”和“real”數據類型映射到Python的“float”數據類型。
Redshift的“boolean”數據類型映射到Python的“bool”,“char”和“varchar”則映射到“string”,而“timestamp”則相當於Python的“datetime”數據類型。“ANYELEMENT”這個多態的數據類型在利用Python動態類型系統的優勢時很有用。牢記這些映射很重要,因為你需要指定參數並返回Redshift的數據類型值,而不是Python的數據類型。
要使用用戶定義功能我們必須先設立一組所需的許可權。用戶必須擁有Python語言的USAGE許可權才能創建UDF。一旦創建完,只有所有者和超級用戶才可以執行它們。管理員必須明確授予許可權給其他的終端用戶才能運行那些不是他們創建的UDF。只有所有者或超級用戶可以更新或刪除一個UDF。
Redshift數據倉庫會基於合理的安全考慮而限制某些操作。例如,用戶定義功能不能保存檔案或訪問網路。除了安全相關的約束之外,還有更多操作方面的限制。用戶安裝的庫最大不能超過100MB。UDF還受制於工作負載管理規則,如果達到最大並發數的話,UDF就必須進入佇列等待之後運行。