簡介
數據容災系統,對於IT而言,就是為計算機信息系統提供的一個能應付各種災難的環境。當計算機系統在遭受如火災、水災、地震、戰爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網路/通信失敗、硬體/軟體錯誤和人為操作錯誤等人為災難時,容災系統將保證用戶數據的安全性(數據容災),甚至,一個更加完善的容災系統,還能提供不間斷的套用服務(套用容災)。可以說,容災系統是數據存儲備份的最高層次。
一般來說,為了保護數據安全和提高數據的持續可用性,企業要從RAID保護、冗餘結構、數據備份、故障預警等多方面考慮。一套完整的容災系統應該包括本地容災和異地容災。對於那些關鍵業務不能中斷的用戶和行業如電信、海關、金融行業來說更應如此。以下,本文將探討容災系統的一些關鍵技術,包括數據備份、數據複製、網路存儲,並以HP存儲設備舉例說明如何構造三級容災體系。
實現方式
一.數據備份 所謂備份,就是通過特定的辦法,將講資料庫的必要檔案複製到轉儲設備的過程。其中,轉儲設備是指用於放置資料庫拷貝的磁帶或磁碟。
選擇備份的依據是:丟失數據的代價與確保數據不丟失的代價之比.還有的時候,硬體的備份有時根本就滿足不了現實需要,比如誤刪了一個表,又想恢復該表的時候,資料庫備份就變得重要了。
Oracle提供了強大的備份與恢復策略,包括常規資料庫備份(邏輯備份,冷備份與熱備份)和高可用性資料庫(如備用資料庫與並行資料庫),以下的備份主要指資料庫的常規備份。
1.備份的重要性
備份是系統中需要考慮的最重要的事項,雖然他們在系統的整個規劃,開發和測試過程中甚至占不到1%,看似不太重要且默默無聞的工作只有到恢復的時候才能真正體現出其重要性,任何數據的丟失與嘗試見的數據down機,都是不可以被接收的。如果備份不能提供恢復的必要信息,使得恢復過程不能進行或長時間的進行(如一個沒有經過嚴格測試的備份方案),這樣的備份都不算或不是一個好的備份。
如果出現系統崩潰的災難,資料庫就必須進行恢復,恢復是否成功取決於兩個因素,精確性和及時性。能夠進行什麼樣的恢復依賴於有什麼樣的備份。作為DBA,有責任從以下三個方面維護資料庫的可恢復性:
(1)使資料庫的失效次數減到最少,從而使資料庫保持最大的可用性。
(2)當資料庫失效後,使恢復時間減到最少,從而使恢復的效益達到最高。
(3)當資料庫失效後,確保儘量少的數據丟失或根本不丟失,從而使數據具有最大的可恢復性。
數據備份是容災的基礎,是指為防止系統出現操作失誤或系統故障導致數據丟失,而將全部或部分數據集合從套用主機的硬碟或陣列複製到其它的存儲介質的過程。傳統的數據備份主要是採用內置或外置的磁帶機進行冷備份。但是這種方式只能防止操作失誤等人為故障,而且其恢復時間也很長。隨著技術的不斷發展,數據的海量增加,不少的企業開始採用網路備份。網路備份一般通過專業的數據存儲管理軟體結合相應的硬體和存儲設備來實現。
2.常見的備份方式
(1)定期磁帶備份數據。
(2)遠程磁帶庫、光碟庫備份。即將數據傳送到遠程備份中心製作完整的備份磁帶或光碟。
(3)遠程關鍵數據+磁帶備份。採用磁帶備份數據,生產機實時向備份機傳送關鍵數據。
遠程資料庫備份。就是在與主資料庫所在生產機相分離的備份機上建立主資料庫的一個拷貝。
(4)網路數據鏡像。這種方式是對生產系統的資料庫數據和所需跟蹤的重要目標檔案的更新進行監控與跟蹤,並將更新日誌實時通過網路傳送到備份系統,備份系統則根據日誌對磁碟進行更新。
(5)遠程鏡像磁碟。通過高速光纖通道線路和磁碟控制技術將鏡像磁碟延伸到遠離生產機的地方,鏡像磁碟數據與主磁碟數據完全一致,更新方式為同步或異步。
數據備份必須要考慮到數據恢復的問題,包括採用雙機熱備、磁碟鏡像或容錯、備份磁帶異地存放、關鍵部件冗餘等多種災難預防措施。這些措施能夠在系統發生故障後進行系統恢復。但是這些措施一般只能處理計算機單點故障,對區域性、毀滅性災難則束手無策,也不具備災難恢復能力。
二.數據複製
SAN專注於企業級存儲的特有問題,主要用於存儲量大的工作環境。當前企業存儲方案所遇到問題的兩個根源是:數據與套用系統緊密結合所產生的結構性限制,以及目前小型計算機系統接口(SCSI)標準的限制。大多數分析都認為SAN是未來企業級的存儲方案,這是因為SAN便於集成,能改善數據可用性及網路性能,而且還可以減輕存儲管理作業。
SAN是目前人們公認的最具有發展潛力的存儲技術方案,而未來SAN的發展趨勢將是開放、智慧型與集成。NAS是目前增長最快的一種存儲技術,然而就二者的發展趨勢而言,在套用層面上SAN和NAS將實現充分的融合。可以說,NAS和SAN技術已經成為當今數據容災備份的主流技術,關鍵在於如何在此基礎上開發完善全方位、多層次的數據容災備份系統,在分散式網路環境下,通過專業的數據存儲管理軟體,結合相應的硬體和存儲設備,來對全網路的數據備份進行集中管理,從而實現自動化的備份、檔案歸檔、數據分級存儲以及災難恢復等功能。
遠程容災
遠程容災作為一種新的概念,目前已經被國內大多數行業所接受,特別是在金融、電信等信息密集型企業,實施遠程數據保護的工作已經被提上了日程。然而目前對於中國的企業和機構來說,遠程容災的實現仍然面臨著多方面的難題。其中,除了投入過高這一普遍因素外,對容災如何確切地理解、在具體實施過程中存在的技術問題等,都成為企業建立遠程備份中心的屏障。
在談容災技術之前,要先了解一下什麼是災難。在日常的計算環境中, 系統管理人員有時候會遇到系統出現問題而中斷的情況,但是“中斷”並不完全等同於“災難”。廣義上說災難大致包括三種類型:不可預測的自然災害(地震、颱風、水災、雷電、火災等);基礎設施的損壞(CPU、硬碟損壞、建築物倒塌、電源中斷等); 操作失誤(誤操作、人為蓄意破壞等)。總之,對於一個計算機系統而言,一切引起系統非正常停機的事件都稱之為災難。
據統計,導致系統災難的原因一般為: 硬體故障占44%、人為錯誤占32%、軟體故障占14%、病毒影響占7%、自然災難占3%。因而,儘早制定和建立完備的災難恢復計畫,以增強系統的抗災能力,最大限度地減少損失是當務之急。
概念在演進:遠程容災就是異地存儲嗎?
如何使數據在遇到任何災難時都能夠被完整地保存下來,這一想法從計算機系統產生時就有了。一提到容災,大多數人會立刻討論如何將兩個距離足夠遠的存儲系統連線起來,但實際上容災的實現並非如此簡單。容災追求業務的連續性,要求實現網路上的查詢和商務活動,它包括對伺服器的長距離集群,以及兩地伺服器和套用系統的鏡像備份。
博科通訊公司中國區系統工程部經理馬司聰先生認為,真正的容災必須滿足三個要素: 首先是系統中的部件、數據都具有冗長性,即一個系統發生故障,另一個系統能夠保持數據傳送的順暢; 其次,具有長距離性,因為災害總是在一定範圍內發生,因而充分的長距離才能夠保證數據不會被一個災害全部破壞;第三,容災系統要追求快速的數據恢復,也稱為容災的“3R”(Redundance、Remote、Replication)。
從實時性上看,容災應分為三個級別:最低級為磁帶級容災,之上是帶鏡像功能和數據恢復的容災,最高級的容災應該是:鏡像+數據恢復+伺服器集群。