定義
備份設備中總是充斥著大量的冗餘數據。為了解決這個問題,節省更多空間,“重複刪除”技術便順理成章地成了人們關注的焦點。採用“重複刪除”技術可以將存儲的數據縮減為原來的1/20,從而讓出更多的備份空間,不僅可以使磁碟上的備份數據保存更長的時間,而且還可以節約離線存儲時所需的大量的頻寬。
就在幾年前,D2D備份似乎還好得令人難以置信。受價格低廉的 ATA(以及稍後的SATA)硬碟的影響,很多人會選擇用D2D取代虛擬磁帶庫或做備份到磁碟的工作,使備份速度變得更快,不必再擔心在磁帶驅動器和磁帶庫上產生的機械故障,並且使檔案恢復變得更加輕鬆。
但是今天,我們的磁碟備份設備的容量已經趨於飽和,在數據中心已經沒有足夠的空間來備份PT級的數據,在這種情況下,當我們希望將備份數據保存一個月時,卻只能保存兩到三天。問題是在我們的備份設備中有太多的重複數據。現在終於有了解決這個問題的辦法,善於抓住機會賺錢的廠商們聲稱他們的新一代“刪除重複數據”產品可以按20:1,甚至300:1的比例縮減我們需要存儲的數據量。果真如此嗎?讓我們仔細看看。
重複數據刪除技術支持在已有的磁碟設備上存儲更多的備份數據。因此採用“重複數據刪除”技術可以增加您保存備份數據的時間,減少數據中心的消耗,降低成本。如果您刪除重複數據後再通過WAN傳送,那么您就能夠節省大量的頻寬,並且可以取代磁帶實現網上離線備份。重複數據刪除技術唯一的缺點是備份速度變慢。
Inline 線上重複數據刪除的方式會使用備份伺服器的資源,導致備份速度變慢,備份視窗變大。
Post-processing 後處理的方式,備份數據流寫入到重刪設備後 重刪開始進行,不會影響到備份速度。
源起
當您的備份程式在網路中多次從同一目錄下備份相同的檔案,或者從多個地址處備份相同的檔案時,重複的數據在臨時區域進行備份。大部分網路上的重複數據量令人吃驚,這些數據從56個用戶保存在他們本地目錄下的假日聚會的PDF格式邀請函,到每個伺服器的系統驅動器上3GB Windows檔案,真是包羅萬象,應有盡有。
解決臨時區域內檔案重複的方案是增量備份。儘管我們很喜歡這樣做,尤其是喜歡選擇Tivoli Storage Manager 採用的永久增量備份的方法,但當我們考慮到RAID災難恢復時,我們想到的是重複數據刪除,而不是增量備份。增量備份主要是避免重複。
重複數據刪除最基本的形式是出現在CAS(內容定址存儲)設備中的單一實例存儲(single-instance store),例如,EMC的 Centera。當每個檔案存儲到CAS系統上時,CAS系統會為存儲的檔案內容生成一個散列(hash);如果系統中已經存在具有相同散列(hash)的檔案,系統就會再創建一個表示副本的指針指向已存在的檔案,而不是保存另一個副本。
微軟Windows Storage Server的最新版本,Windows伺服器的OEM NAS(網路附加存儲)版本,採用了與刪除重複檔案略微不同的方法。當寫入數據時,WSS不識別重複檔案,而是運行一個後台程式SIS (單一實例存儲) Groveler,該程式通過部分檔案散列函式(採用二進制比較法)識別重複檔案,將重複檔案移到公用存儲區,原始位置上的檔案用連線到公用存儲區檔案的連結代替。
儘管檔案級SIS能夠節省一些空間,但是如果我們不只消除重複檔案而且還消除了檔案記憶體儲的重複數據,那事情可就變得讓人有興趣了。想想Outlook的 .PST檔案。例如一個典型的Outlook用戶可以擁有300-MB或更大的.PST檔案,檔案上保存著他過去所有的電子郵件;每天他都會收到一個或更多新的郵件,就因為那天他的.PST檔案改變了,你的備份程式就把這個.PST檔案包括在增量備份里了,即使這個300MB的檔案只有25 KB 的改變。
重複數據刪除產品能夠識別這個25 KB的新數據,並且剔除其餘沒有改變的舊的數據,只保存25 KB的新數據,從而節省大量磁碟空間。再進一步構想一下,550KB的附屬檔案在20個用戶的 .PST檔案內,如果它們能夠被消除,您就可以縮減大量的數據。象下述這樣的一組解決方案是Data Domain倡導的採用“重複數據刪除”技術進行備份的目標。即這些採用“重複刪除”技術的設備管理 VTL (虛擬磁帶庫) 或 NAS等備份設備,它們從這些備份套用設備(VTL或NAS設備等)中獲取數據,透明地執行“重複刪除”處理。
方法
基本方法
廠商採納的執行重複數據刪除的基本方法有三種。第一種是基於散列(hash)的方法,Data Domain、飛康、昆騰的DXi系列設備都是採用SHA-1, MD-5 等類似的算法將這些進行備份的數據流斷成塊並且為每個數據塊生成一個散列(hash)。如果新數據塊的散列(hash)與備份設備上散列索引中的一個散列匹配,表明該數據已經被備份,設備只更新它的表,以說明在這個新位置上也存在該數據。
基於散列(hash)的方法存在內置的可擴展性問題。為了快速識別一個數據塊是否已經被備份,這種基於散列(hash)的方法會在記憶體中擁有散列(hash)索引。當被備份的數據塊數量增加時,該索引也隨之增長。一旦索引增長超過了設備在記憶體中保存它所支持的容量,性能會急速下降,同時磁碟搜尋會比記憶體搜尋更慢。因此,目前大部分基於散列(hash)的系統都是獨立的,可以保持存儲數據所需的記憶體量與磁碟空間量的平衡,這樣,散列(hash)表就永遠不會變得太大。
第二種方法是基於內容識別的重複刪除,這種方法主要是識別記錄的數據格式。它採用內嵌在備份數據中的檔案系統的元數據識別檔案;然後與其數據存儲庫中的其它版本進行逐位元組地比較,找到該版本與第一個已存儲的版本的不同之處並為這些不同的數據創建一個增量檔案。這種方法可以避免散列(hash)衝突(請參閱下面的“不要懼怕衝突”),但是需要使用支持的備份套用設備以便設備可以提取元數據。
ExaGrid Systems的InfiniteFiler就是一個基於內容識別的重複刪除設備,當備份數據時,它採用CommVault Galaxy 和Symantec Backup Exec等通用的備份套用技術從源系統中識別檔案。完成備份後,它找出已經被多次備份的檔案,生成增量檔案(deltas)。多個 InfiniteFilers合成一個格線,支持高達30 TB的備份數據。採用重複刪除方法的ExaGrid在存儲一個1GB的 .PST檔案類的新信息時表現優異,但它不能為多個不同的檔案消除重複的數據,例如在四個.PST檔案具有相同的附屬檔案的情況下。
Sepaton 的用於它的VTL 的DeltaStor也採用內容識別方法,但是它將新檔案既與相同位置上的以前的檔案版本進行比較,同時也與從其它位置上備份的檔案版本進行比較,因此它能夠消除所有位置上的重複數據。
第三種方法是Diligent Technologies用於其ProtecTier VTL的技術,它像基於散列(hash)的產品那樣將數據分成塊,並且採用自有的算法決定給定的數據塊是否與其它的相似。然後與相似塊中的數據進行逐位元組的比較,以判斷該數據塊是否已經被備份。
其他方法
重複數據刪除一般和其他的數據刪除技術一起使用,例如壓縮和差分delta。數據壓縮技術已經問世約三十年之久,它將數學算法套用到數據中,以簡化大容量或重複的檔案部分。
差分delta通過只存儲相對於原始備份檔案被修改的部分,來減小存儲總量。例如:一個大約包含200G數據的檔案組,與原始備份相比可能只有50M的數據是被修改過的,那么也只有這50M的數據會被存儲起來。差分Delta一般用於基於廣域網的備份系統,它可以最大程度地利用頻寬,從而減少備份視窗的工作時間。
硬體軟體
各大廠商除了採用的方法不同外,他們物理架構的備份目標也不同。Data Domain、ExaGrid 和昆騰是包含磁碟陣列的monolithic appliances(單塊積體電路設備)。 Data Domain和昆騰有NAS或VTL接口,而ExaGrid就是一個NAS設備。Diligent和FalconStor銷售的是軟體產品,運行在Intel 或 Opteron伺服器上。
儘管帶有VTL接口的備份設備看起來更高級並且更易於與現存的基於磁帶的備份環境集成,但是採用NAS 接口,會為您的備份套用提供更多的控制。當備份檔案過了保存期時,一些像賽門鐵克的NetBackup之類的備份產品能夠從它們的磁碟存儲庫中刪除這些過了保存期的備份檔案。當重複刪除的NAS設備發現這個刪除行為時,它可以重新分配它的自由空間和散列(hash)索引。而對於VTL接口的設備來說,因為您沒有刪除磁帶,所以無法在VTL上釋放出空間,直到虛擬磁帶被複寫,空間才能得以釋放。
當然,在1TB的空間內容納25TB的數據是要付出一些代價的,不只是在金錢方面。將數據切成塊並進行索引來消除重複數據的所有工作會使備份速度減慢。Overland REO 9000 等中級VTL的數據備份速度是300 MBps甚至更快些。Diligent在其ProtecTier上已經具有200-MBps的備份速度,但是需要一個四核Opteron伺服器來實現,該伺服器前端是裝有100多個磁碟驅動器的陣列。
其它廠商解決該問題的辦法是把重複數據刪除當做一個獨立的過程在備份後運行。在一個系統上運行FalconStor的 VTL 軟體,進行備份的數據被寫到一個壓縮的虛擬磁帶檔案而不是一個刪除重複的虛擬磁帶檔案上。然後在後台將數據流切成塊,消除重複數據並且創建虛擬磁帶,該虛擬磁帶是執行刪除重複數據塊在原虛擬磁帶上的索引。一旦虛擬磁帶的數據執行了刪除重複處理,它所占有的空間就返回到可用的空間池。Sepaton的DeltaStor和 ExaGrid也把它們的重複刪除當成一個後備份過程來執行。
儘管後處理能夠提高備份速度,但同樣也要消耗成本。執行後處理重複刪除的系統必須有足夠的磁碟空間,因為除了刪除重複的數據外,它還需要保存全部標準的備份。如果您希望繼續執行每周的全天增量備份的計畫,那么一個在後台進行重複刪除處理的系統上,你可能需要雙倍多的磁碟空間來保存全部的備份直到處理完成為止。
正因為重複刪除在後台運行,所以千萬不要忽視重複刪除的性能。例如,如果到星期一的晚上您開始再次備份您的伺服器時,您的VTL還沒有完成對周末備份的處理,這時您會遇到您不想看到的情況,如磁碟空間不可用或重複刪除處理使您的備份速度變慢等。
作用
子檔案重複刪除技術不僅用於在備份套用中節省磁碟空間。新一代的備份套用,包括Asigra的 Televaulting,EMC的 Avamar Axion和賽門鐵克的NetBackup PureDisk都採用基於散列(hash)的重複數據刪除技術來減少通過WAN傳送備份所需要的頻寬。
首先,像生成增量備份的傳統備份套用技術一樣,新一代的備份套用技術也採用常用的辦法如歸檔位,最後修改的日期,並且檔案系統更改從最後一次備份起已經發生改變的檔案ID日誌。然後它們將檔案切成更小的塊並且為每個塊生成散列(hash)。
然後,將這些散列(hash)與已經備份在本地的數據塊的散列(hash)對象進行比較。沒有出現在本地快取和檔案系統元數據中的散列(hash)被傳送到中央備份伺服器,再將數據與散列(hash)表進行比較。如果沒有發現相同的散列,備份伺服器發回一個散列表;然後被備份的伺服器傳送那些散列代表的數據塊到中央伺服器進行保存。
與對被備份到多個目標的伺服器數據(它們甚至被備份到整個企業的各個目標)進行“重複刪除”的備份方案相比,上述這些備份方案縮減數據的程度更高。例如,如果CEO傳送100 MB的PowerPoint檔案到500個分支機構,只有第一個會被備份,所有其它的只會傳送散列到總部並且告知“我們已經收到,謝謝。”
這種方法幾乎避免了影響基於散列的系統的可擴展性問題。因為每個遠程伺服器只保存其本地數據的散列(hash),散列表不會增長到超出可用的空間,中心位置的磁碟I/O系統比傳送備份的WAN 的速度快得多,在磁碟上搜尋一個巨大的散列索引也比傳送數據快得多。
儘管Televaulting, Avamar Axion 和 NetBackup PureDisk 共享一個相似的架構,並且都是根據重複數據刪除存儲的大小進行定價,但是還是存在一些不同的地方。NetBackup PureDisk採用固定的128KB的數據塊,而elevaulting 和 Avamar Axion採用可改變大小的數據塊,這會使重複刪除技術性能更好。PureDisk 支持NetBackup,賽門鐵克承諾未來進行更好的整合,即提供我們希望的可以將重複刪除與數據中心備份工作整合的設備。Asigra也向服務提供商銷售Televaulting產品,以便不想建立自己架構的小企業也可以利用重複刪除技術。
有幾個客戶的報告中都寫到,他們在不對備份流程做大改動的情況下,的確獲得了20:1的縮減比例。小企業可以採用 Asigra, EMC 和賽門鐵克的新一代備份軟體取代傳統的備份方案。中型企業可以採用面向數據中心的備份設備。需要很高備份性能的大型企業可能不得不等待下一代產品了。
分類
按照部署位置的不同,重複數據刪除可分為源端重複數據刪除和目標端重複數據刪除。源端重複數據刪除是先刪除重複數據,再將數據傳到備份設備。目標端重複數據刪除是先將數據傳到備份設備,存儲時再刪除重複數據。
按照檢查重複數據的算法不同,重複數據刪除可以分為對象/檔案級和塊級的重複數據刪除。對象級的重複數據刪除保證檔案不重複。塊級重複數據刪除則將檔案分成數據塊進行比較。
根據切分數據塊方法的不同,又可分為定長塊和變長塊的重複數據刪除技術。變長塊的重複數據刪除,數據塊的長度是變動的。定長塊的重複數據刪除,數據塊的長度是固定的。
根據套用場合的不同,可以分為通用型重複數據刪除系統和專用型重複數據刪除系統。通用型重複數據刪除系統是指廠商提供通用的重複數據刪除產品,而不是和特定虛擬磁帶庫或備份設備相聯繫。專用型重複數據刪除系統是和特定虛擬磁帶或備份設備相聯繫,一般採取目標端重複數刪除方式。
重複數據刪除能夠在硬體層面或軟體層面上來實現,或者兩者結合實現。同樣,重複數據刪除可以在數據源端進行,在備份目標端進行或者兩者兼而有之。
源端重複數據刪除在數據傳輸鏈路較慢的套用場景中會有幫助。在源端進行重複數據刪除的數據使得數據可以在傳輸之前被壓縮,從而能夠更快速地傳輸數據。
目標重複數據刪除是在備份目標或遠程存儲設備上進行操作的。它的主要目的是降低存儲成本。目標重複數據刪除通過刪除重複數據,使實際使用的存儲空間遠低於原本的使用情況。
恢復
恢復過程中,你所需的數據可能不是存儲在連續的磁碟塊中,甚至存儲在未經重複刪除的備份中。當備份數據過期、存儲空間釋放時,就會產生存儲碎片,延長恢復時間。由於數據及其指針可能是無序存儲,被刪除的重複數據也會產生碎片,從而降低恢復性能。
一些提供重複數據刪除功能的備份和存儲系統供應商預料到了恢復過程的性能問題,並將產品最佳化,解決磁碟碎片問題。ExaGrid Systems、Sepaton等供應商的解決方案可以完整地保存最近一次的備份副本,因此,最近一次備份的數據能迅速恢復;而其它的解決方案則需要幾天、幾星期甚至幾個月才能重構數據。其它解決方案在備份期間分散重複數據刪除的負荷,而在恢復期就集中負荷,以加快恢復速度。這種情況同時使用了軟體和硬體方法。如果供應商能加快多個節點的重複數據刪除速度,並允許添加節點,那么其性能擴展能力就優於那些只有一個攝取點/處理點的產品。
性能由多方面的因素決定,包括備份軟體、網路頻寬、磁碟種類等。單個檔案的恢復時間與完全恢復截然不同。因此,你應該測試重複數據刪除技術在各種恢復場景下的運行情況,尤其是當數據恢復需要較長時間時更應如此,從而判斷重複數據刪除技術對你的環境有什麼影響,這一點非常重要。
注意事項
設備vs.軟體:需要了解將重複數據刪除解決方案作為專用設備來部署,以及使用運行在伺服器上的重複數據刪除軟體這兩種方法各自的利弊。一些軟體解決方案相對價格低廉,但是可能無法很好地擴展,以滿足日益增長的容量需求,其性能取決於它所在的伺服器。軟體方案似乎在靈活性方面差一些,但是對那些有資源來承擔集成、管理和監控重任的客戶來說可能是有效的。如果你選擇軟體方法,一定要了解運行上述“清理”任務所需的處理能力,及其對伺服器的影響。硬體設備有自己的空間和功耗要求,有時耗電量很大。它們通常是自我管理的,提供更大的靈活性和簡潔性,並得益於硬體最佳化。對於那些尋求快速部署並輕鬆集成到當前環境的客戶來說,硬體解決方案非常受歡迎。
可用容量vs.原始容量:可使用容量是終端用戶最直接、最適用的規格。它指的是進行任何重複數據刪除之前的容量,並不包含用於元數據、數據保護和系統管理的任何存儲。一些廠商規定“原始”容量,它比“可用”容量稍微高一點,但是這一規格會產生誤導,因為不同廠商和數據保護方案將會有不同程度的開銷。重複數據刪除將需要一些原始磁碟容量來存儲元數據,這些容量並不供終端用戶使用。在這兩種情況下,這些容量都被歸為“重複數據刪除前容量”——如果用戶擁有10:1的重複數據刪除率,那么他們可以存儲“可用容量”10倍的數據。如果他們擁有20:1的重複數據刪除率,那么他們可以存儲“可用容量”20倍的數據。
性能:確保不僅要了解“寫入”和“讀取”速度——通常被註明為TB/小時,而且還要詢問“讀取”或“恢復”速度,以了解這是否滿足貴公司的服務水平目標(SLO)。最後,要了解在必須進行一些後台“清理”任務的“穩定狀態”期間,系統性能會受到哪些影響。重複數據刪除方案的性能可決定IT部門如何能夠在任務分配的時間段很好地完成其備份。
硬碟密度:硬碟的密度繼續增加,而重複數據刪除設備可能適用1 TB到3 TB的硬碟。甚至4 TB的硬碟現在也可用於消費類設備,並開始用在一些主存儲陣列中。在一般情況下,密度更高的硬碟將轉化為“節省數據中心占地面積以及省電”的優勢。然而,隨著硬碟密度的增加,當硬碟出現故障時,數據重建的時間也會同比增加。這會給系統帶來新的不穩定因素。因此有無高效的硬碟(數據)重建技術,對於系統的穩定運行至關重要。
可擴展性:每家公司都有不斷增長的數據。對於任何重複數據刪除解決方案來說,這不再是“是否需要部署更多容量的問題”,而是“何時部署”的問題。無論是基於設備的方案還是基於軟體的方案,最重要的是要了解它如何隨著時間推移而擴展。如果一個解決方案能夠在未來3-5年隨著預期數據增長而擴展,它在目前可能就是更好的投資。如果它能隨著數據增長而細化擴展,那就更好了。
加密:一些系統提供磁碟存儲加密,以防止在磁碟丟失或被盜情況下數據泄露。通常這種加密會影響系統性能,因此重要的是要了解這種重複刪除數據加密解決方案,以及它對系統性能會產生哪些影響。
系統和數據可用性:不同廠商擁有不同的解決方案來應對其設備中的磁碟故障,以確保被刪除的重複數據能夠在需要時被找回並恢復。了解確保系統和數據隨時間推移一直可用的不同方法。
云:重複數據刪除能夠支持的關鍵一點就是:在廣域網上,可能是在站點之間,複製這些數據之前,有效大幅降低數據規模,以提供災難恢復,或作為將數據複製到雲中的一種手段。計畫利用雲存儲的IT部門必須了解重複數據刪除技術如何適應不同的雲選項。
影響
數據重複數據刪除技術降低了備份所需的存儲空間,而這實現了更快和更頻繁的備份,從而有利於數據保護。還實現了更快的修復,在符合監管合規要求和公司政策的限制範圍內儘可能延長數據保留時間。
重複數據刪除技術可以影響實際的備份應用程式。例如,由於重複數據刪除數據保存在目標存儲設備上,因此需要使用處理塊存儲的備份工具。相比之下,基於檔案存儲的備份工具通常可以“撤銷”所需的重複數據刪除——導致目標存儲設備上存放更多存儲——除非備份工具只支持Windows Server 2012 R2數據重複數據刪除。例如,像Windows伺服器備份這樣的工具完全支持重複數據刪除,IT管理員可以從備份恢復一個完整的卷或個人資料夾。
記住,重複數據刪除對系統、引導卷、遠程驅動器、加密的檔案或小於32KB的檔案不起作用。其目的是備份和恢復任何常規檔案。
重複數據刪除定期運行所謂的垃圾回收來恢復不再使用的存儲塊。運行垃圾回收之後最好進行備份,確保捕獲空閒存儲器在備份過程中的任何變化。
數據重複數據刪除技術改提高了存儲效率,降低了存儲成本並加快了數據保護的過程。但重複數據刪除技術的有效性和性能取決於工作負載和重複數據刪除的設定。IT管理員應該在套用重複數據刪除之前和之後基準每個存儲卷,以便衡量任何性能損失,因此應該調整調度和其他選項來最佳化伺服器和工作負載性能。備份和恢復過程也應提前進行測試以了解重複數據刪除的數據的存儲需求,並允許更新或補丁數據保護工具來提高用於數據備份的存儲使用。
何時使用
重複數據刪除首先開始於創建數據。接著是所有其他業務——備份、複製、歸檔以及任何網路傳輸——都可以受益於規模縮小後的數據。
但把重複數據刪除套用在主數據這一場景很難被用戶接收,因為這樣做是在篡改主數據集,做好備份,就算沒有重複數據刪除技術,也不會因為搞砸生產環境的數據而出大亂子,但是如果動到主存儲,問題就很大了,而且需要了解這項技術會如何影響性能、可靠性與數據完整性。
目前只有少數主存儲陣列提供重複數據刪除作為產品的附加功能。只有不到5%的磁碟陣列真正支持線上重複數據刪除與壓縮。
重複數據刪除的比例
通過重複數據刪除技術去重節約的空間十分可觀,這取決於數據類型以及所使用的數據去重引擎的組塊大小。以文檔案與虛擬桌面架構環境為例,受益於高刪除率,壓縮比可達到40:1。而視頻可以壓縮的,但沒法去重。存儲廠商認為6:1是重複數據刪除率的最佳平均值。加上相同的塊壓縮,數據中心可以通過這些技術輕鬆實現10:1的存儲空間節約。
重複數據刪除能夠節約空間,十分具有,但重複數據刪除屬於計算密集型技術。在相對不重要的二級存儲中,一般不會出現問題,但可能給主存儲環境出現短暫擁塞現象。
重複數據刪除不僅可以在實時刪除重複數據,還可以讓供應商通過算法最大化潛在的數據壓縮率。以Quantum的DXi系列備份設備為例,使用可改變塊大小的重複數據刪除算法,該算法是固定塊大小方法效率的三倍以上。
優勢和現狀
重複數據刪除的相關數據
•<5%:目前市面支持線上重複數據刪除的磁碟陣列份額
•75%:預測未來三年市面上將支持重複數據刪除和壓縮的磁碟陣列份額
•6:1:重複數據刪除的平均比例
•40:1:重複數據刪除在VDI和文本檔案環境下的刪除率
•10:1:重複數據刪除處理圖片去重是的刪除率
•$ 1:重複數據刪除普通硬碟的每GB成本
•$8~$9:重複數據刪除快閃記憶體驅動器的每GB成本
重複數據刪除技術不僅能夠更好地利用昂貴的快閃記憶體資源,而且重複數據刪除也比較容易實現。重複數據刪除與大多數存儲供應商相比。
重複數據刪除最後的前線
無法讓重複數據刪除技術去支持現有的存儲陣列。理論上,推廣重複數據刪除技術可以延長已經在用的存儲的服務周期。
重複數據刪除快閃記憶體產商正在從這些傳統存儲大戶手裡爭搶市場份額。要解決這個問題,只靠贈送重複數據刪除存儲是遠遠不夠的。
技術使用
何時使用
重複數據刪除首先開始於創建數據。重複數據刪除接著是所有其他業務——備份、複製、歸檔以及任何網路傳輸——都可以受益於規模縮小後的數據,重複數據刪除位於Hopkinton,。
但把重複數據刪除套用在主數據這一場景很難被用戶接收,因為這樣做是在篡改主數據集,做好備份,就算沒有重複數據刪除技術,重複數據刪除也不會因為搞砸生產環境的數據而出大亂子,但是重複數據刪除如果動到主存儲,問題就很大了,而且需要了解這項技術會如何影響性能、可靠性與數據完整性。
數據刪除比例
通過數據去重節約的空間十分可觀,這取決於數據類型以及所使用的數據去重引擎的組塊大小。重複數據刪除以文本檔案與虛擬桌面架構環境為例,受益於高刪除率,壓縮比可達到40:1。而視頻可以壓縮的,但沒法去重。重複數據刪除存儲廠商認為6:1是重複數據刪除率的最佳平均值。加上相同的塊壓縮,數據中心可以通過這些技術輕鬆實現10:1的存儲空間節約。
這些重複數據刪除技術能夠節約空間,十分具有,但重複數據刪除屬於計算密集型技術。重複數據刪除在相對不重要的二級存儲中,一般不會出現問題,但可能重複數據刪除給主存儲環境出現短暫擁塞現象。
重複數據刪除不僅可以在實時刪除重複數據,重複數據刪除還可以讓供應商通過算法最大化潛在的數據壓縮率。重複數據刪除使用可改變塊大小的重複數據刪除算法,重複數據刪除算法是固定塊大小方法效率的三倍以上。