簡介
儲存虛擬化,即存儲虛擬化是通過虛擬卷映射、流數據定位、數據快照、虛擬機等技術實現異構存儲設備的統一管理以及存儲位置無關性而提出的,目的在於禁止存儲管理中的一系列複雜問題而向用戶提供簡單透明統一的存儲訪問模式。目的是為了解決存儲需求不可預見的持續膨脹式增長、以適應網路存儲系統變得越來越龐大和複雜、眾多而異構的存儲設備如何有效的統一管理和高效的利用,禁止不同存儲設備的差異性而提供簡單而統一的訪問方式。在最基礎的層面,存儲虛擬化可以定義為在物理存儲設備和/或低級邏輯存儲設備之上,能夠提供簡化的邏輯存儲資源視圖的提取層。這種提取可以發生在主機或存儲陣列中,也可以發生在 SAN 內部。另外,它既可以在帶內執行(例如對稱),使控制和數據在同一條路徑上;又可以在帶外執行(例如非對稱),使控制和數據使用不同的路徑。帶內解決方案非常依賴作為主機網路和存儲池中間設備的硬體(虛擬化伺服器)。所有事務處理都將通過該設施,因而會產生對潛在性能的限制,並使可用性複雜化。帶內設施必須擁有“恢復”功能,否則,通過一組設施執行 I/O 就會產生單故障點。另外,由於不能總集中管理這些設施,因而會產生多個管理點。反之,雖然帶外解決方案可能會部署一些分散式硬體,以便處理元數據,但主要基於軟體。數據直接從伺服器傳輸至存儲子系統,因此,性能和可用性都不會受到影響。利用帶外或分散式體系結構,一般能夠提供集中管理。
發展
上世紀五十年代商用計算機出現,當時採用直接連線存儲 (DAS),這種連線方法將磁碟存儲直接通過電纜或匯流排附加到計算機中央處理器 (CPU) 以及 RAM 存儲器。以後的幾十年,出現了如小型計算機系統接口 (SCSI)標準協定,這種連線方法延伸了設備傳統磁存儲器的範圍,如 CD-ROM、磁帶驅動器及自動裝載機和 JBOD(簡單磁碟捆綁)。雖然不同類型的存儲大量湧現,容錯設計提高了存儲可靠性,但它們的連線方式仍然局限於單一伺服器或工作站,限制了介質的利用率。
存儲虛擬化技術首先在快取控制器陣列(RAID Redundant Array of Independent Disk)出現,該技術誕生於 1987 年,由美國加州大學伯克利分校提出。RAID 是將多塊硬碟通過硬體或軟體方式結合成虛擬的單塊大容量的磁碟來使用。首先,RAID通過多個磁碟上同時存儲和讀取數據來大幅提高存儲系統的數據吞吐量,使用 RAID 可以達到單個磁碟的幾十倍甚至上百倍的存儲速度。大量磁碟以容錯的方式池化到一起,利用一個公共快取記憶體池,應用程式不使用實際數據塊,而是使用數據塊的邏輯圖像。這樣,可以通過消除機械磁碟尋道和旋轉延遲改善性能。 同時,有助於主機使用低成本磁碟。其次,RAID 通過數據校驗來提供容錯性。
單個普通磁碟無法提供容錯功能,RAID 容錯建立在每個磁碟硬體容錯功能之上,很多RAID 模式都有較為完備的相互校驗、恢復措施,甚至是直接相互鏡像備份,大大提高了RAID 系統的容錯度,提高了系統的穩定性和冗餘性。
20 世紀 80 年代初期 ,一些廠商提出伺服器共享存儲的思想 ,出現了網路附加存儲 (NAS) ,它使伺服器集中存儲數據且不受地點限制,提供了前所未有的靈活性。多個用戶可以同時讀寫存儲,統一訪問相同數據集,提高用戶間的協作能力,簡化部署提高可擴展性。上世紀九十年代中後期, 隨著網路技術的發展與處理能力的大幅提高,傳統的單機數據處理方式不能滿足信息系統發展的要求,被以數據為中心的網路存儲所取代,存儲系統與網路系統結合起來,產生了網路存儲系統。 存儲區域網路 (SAN) 的出現進一步推動了存儲虛擬化的發展。 與此同時,提出了存儲資源整合的概念,SAN 通過有效共享存儲資源提高容量利用率。這樣,有助於企業整合存儲資產,便於利用通用軟體工具簡化管理,並可以遠距離複製關鍵信息,顯著提高避免數據損壞和災難事件的保護能力。21 世紀初,存儲廠商開始將先進的虛擬化功能引入到自己的產品中。這些功能不僅提高了利用率,而且支持異構存儲外部連線,實現不停機數據遷移和移動,提高業務連續性,可進行邏輯盤分區、多層存儲以及精簡預配置。 利用精簡預配置,可在應用程式寫入數據時,分配磁碟或檔案系統的物理容量,而不是在配置時進行預分配。
常見存儲結構
直接連線存儲
直接連線存儲是指將存儲設備通過 SCSI、線纜或光纖通道直接連線到伺服器上,存儲設備可以是陣列,也可以是磁碟。它的存儲模式是以檔案伺服器為核心的。主機與存儲設備之間通常是以塊為單位數據傳輸。存儲職能由主機和存儲設備共同分擔,存儲作為整個伺服器系統的一部分。DAS 本身是硬體的堆疊,不帶任何存儲管理系統。
網路附加存儲
網路附加存儲是一種檔案共享服務,NAS 擁有自己的檔案系統,通過NFS或CIFS協定對外提供檔案訪問服務,能實現不同作業系統的檔案共享。NAS將分散的存儲設備整合為數據存儲中心進行集中管理。NAS中,主機只用於處理數據,NAS設備獨立承擔數據存儲。從消除了存儲設備對主機的依賴,提高了系統性能。但NAS 的缺點也十分明顯,由於 NAS 與 LAN 處於同一物理網路中,NAS 需要很大的網路頻寬,和很高的 CPU 處理能力 。容易造成網路擁堵 ,性能降低。NAS在網路備份和數據恢複方面性能不足 。
存儲區域網路(SAN)
SAN 是一種以網路為中心的存儲結構,按照SNIA 定義,SAN 是一種利用 Fiber Channel等互聯協定連線起來的可以在伺服器和存儲系統之間直接傳送數據的存儲網路系統。SAN 是一種體系結構,它是採用獨特的技術(如FC)構建的、與原有 LAN 網路不同的專用存儲網路,存儲設備和 SAN 中的套用伺服器之間採用 block I/O 的方式進行數據交換。根據所使用交換機和數據訪問協定的不同,SAN 網路又可分為 IP 存儲區域網路(IP-SAN)和光纖存儲區域網路(FC-SAN) 。
面向對象存儲
面向對象存儲的基本存儲單元是對象而不是塊。每個對象是數據和數據屬性集的綜合體,他包含了檔案數據以及相關屬性信息,對象可以根據套用需求自我管理數據屬性。從而簡化了存儲系統的管理任務,增加了靈活性。對象存儲綜合了NAS和SAN 的優點,同時具有 SAN的高速直接訪問和 NAS 的數據共享優勢,提供了高性能、高可靠性、跨平台以及安全的數據共享存儲體系結構存儲。固定內容定址存儲(CAS Content Addressing storage)是面向對象存儲的一種形式,固定內容是指一旦生成就不再發生改變的信息,比如數字媒體(圖像、音視頻等)、法律和參考文檔、醫療影像、電子郵件、銀行票據等。SAN、NAS 存儲檔案是按照地址存放檔案,用戶找檔案的時候一定要知道它放在哪個磁碟分區的哪個目錄里,否則就要搜尋。而CAS 沒有分區、沒有目錄,用戶不需要記住檔案路徑,只需要把數據交給CASCAS 給用戶一個數字指紋,靠一串數字和字母組合的數字指紋來識別用戶存儲的數據。當用戶需要找這個數據的時候,要提交數字指紋來獲取數據。一方面減少了維護系統的人工成本開銷,另一方面,免維護性也增加了數據的安全性和可靠性。