簡介
Veritas發布《數據基因指數》之後,在近日又發布了《數據冰山報告》。《數據基因指數》報告發現了,40%以上的企業存儲數據在三年內未曾修改,屬於“過期”數據。而《數據冰山報告》顯示,對企業沒有價值的冗餘、過期或者不重要的陳舊數據以及價值尚未明確的暗數據占據了企業數據存儲的85%。企業IT領導層已經認識到數據囤積的問題。
這些數據意味著企業要對其進行存儲和管理。如果企業對於這些非關鍵業務數據置之不理,暗數據和陳舊數據就成為企業不必要的成本和資源浪費。比如企業每年存儲陳舊數據的成本高達450萬人民幣。(這裡指擁有1000TB數據的普通中型企業)。同時預測,到2020年,全球企業對陳舊數據管理的費用高達21.5萬億元人民幣。
個人數據不斷充斥在企業網路,包括雲存儲、社交、電子郵件,這些因素導致企業越來越快的數據創建和存儲數據,這些數據或為擁有價值的業務信息,或者是不合規的信息。《數據冰山報告》指出,企業IT領導者認為自身企業所存儲的數據中,只有15%的數據屬於關鍵業務信息。
Veritas針對數據冰山的對策:
第一全面監控,識別暗數據,發現風險,提取信息的真正價值。這裡更多指非結構數據,會發現暗數據中一些敏感、重要的數據;
第二採取行動,制定更佳的業務決策,對陳舊數據進行分類、保留或者防禦性刪除;
第三,掌握控制權,由高級管理層制定切實可行的信息治理戰略,鼓勵合規的用戶行為,降低風險。
中國企業的“數據冰山”
新的且被正被忽略的危險正在威脅著企業。大部分中國企業高層都忽視當今數據量激增對企業所帶來的影響。這種情況的出現情有可原。以前的企業高層並未預料到企業數據會增長得如此之快,當下企業數據洪流的出現更是前所未見。數據洪流不僅呈現出持續上漲的趨勢,其增長速度也越來越快。企業需要密切關注“數據冰山”的發展現狀。如果企業繼續忽視日益增長的“數據冰山”,後果將不堪構想。
“數據冰山”主要由三種數據類型組成:
(1)關鍵業務數據—該類數據是企業持續成功運營的關鍵。企業不但需要妥善保護該類數據,更需要主動對其進行管理。
(2)冗餘、過期 和不重要的數據 ( R O TData)—該類數據為冗餘、重複、過期、沒有商業價值的數據,以及僅有少量商業價值的非關鍵數據。企業應主動定期刪除陳舊數據,將該類數據控制在最低水平。
(3)暗數據 (Dark Data)—該類數據的價值尚不明確,可能包含重要的關鍵業務數據,也可能包含無用的陳舊數據。但無論是否具有價值,暗數據都會消耗一定的企業資源。企業需要儘早了解暗數據的構成,並對數據進行相應的劃分—關鍵業務數據或陳舊數據。
中國企業的暗數據量為55%。在中國企業中,平均24.5%的數據被標記關鍵業務數據或純淨數據,這些數據擁有一定的業務價值。相較於15%的全球平均水平,中國的關鍵業務數據比例為全球最高。中國企業的陳舊數據比例為21%,比全球平均水平低12%,全球平均水平為33%;但暗數據卻達到54. 5%,高出全球平均水平2. 5%,高居全球暗數據榜單前列。
中國以及全球其他地區的企業所存儲的大部分數據僅有少量或根本沒有業務價值。這意味著,無論是美洲、歐洲、中東和非洲以及亞太地區的企業,如果不改變自身針對信息管理的行為,到2020年,這些企業將消耗高達21.5萬億元人民幣的企業資源。
數據冰山並非全部無益。如果數據管理得當,企業的關鍵業務數據便能得到周全的保護,同時能夠將資源浪費控制在最低水平。雖然企業只能管理“可見的”數據,即使陳舊數據為劣質數據,但至少企業對它們有所了解。暗數據才是中國企業面臨的真正難題。
解決方法
1、目前,仍有5%的中國企業未部署任何IT策略。IT策略的部署,可以幫助企業定期刪除陳舊數據,從而釋放企業存儲空間。當企業提高釋放資源的頻率,現金流回收的速度也將得到提升。
2、企業不僅應基於敏感度、項目或類型,更應該根據企業的 數據保留策略,對數據進行分類。目前,中國僅有19%的企業基於企業數據保留策略進行數據分類。但更重要的是,企業急需實施切實可行的暗數據信息治理流程。
3、在越來越多中國企業將數據遷移至雲的同時,越來越多的員工將公司的網路用於個人用途,導致企業辦公資源中出現更多個人存儲數據。調查顯示,個人法律和ID文檔占企業存儲的68%、照片檔案占64%、未經批准的軟體占32%。面對這種增長現狀,25%的中國受訪者表示,IT專業人士對員工隨意處理企業數據的行為表示擔憂。IT專業人士應採取行動,通過設定流程,規範員工的行為。
暗數據
概念
對於“暗數據”這個嶄新的名字,學術界尚處於研究的萌芽狀態,因此,其概念和範圍等界定尚在熱議當中。國內普遍認可的是美國權威的IT研究與顧問諮詢公司Gartner公司對“暗數據”的定義:“企業在開展正常業務活動期間採集、處理和存儲,但通常無法用於其它目的( 如分析、商業關係和直接獲利) 的信息。可以將它看作是大數據的子集,凡是存儲( 無論是否感知其存在) 但目前尚未開發使用的數據,我們都把它歸類為“暗數據”。
研究現狀
近期,國內外的眾多學者紛紛探討大數據的利用率和揭示深度,為今後逐步掀開“暗數據”的神秘蓋頭拉開了序幕。在理論探討方面,我國著名學者吳建中先生2015年2月22日在他個人的新浪部落格中,論述了他對暗數據的理解並作出了簡要的前景分析,他明確指出: 國際知名的開放出版機構生物醫學中心(Bio Med Central,簡稱BMC) 與全球最大搜尋引擎谷歌(Google) ,分別於2008年或其後,各自致力於藥物開發或科技領域的暗數據研究; 從2012年開始,美國眾多企業都在信息發布或微信等媒體上透露將關注暗數據信息。
網路辭典“水滴學堂”,率先嘗試對“暗數據”的定義、特徵和套用場景給予了簡單的揭示,它認為:“‘暗數據’是深藏於海量數據之中、在商業套用上可能發揮重大作用的關鍵隱含數據。”它更強調“暗數據”的作用和影響力。並且,它與吳建中先生不謀而合,都不約而同地把“暗數據”比喻成宇宙中的暗物質,比起已知事物,它的存在數量更大,但是至今的潛在價值尚不明確,對其本身知之甚少,只能預測對未來產生一定推動或阻礙的可能性,也能為用戶提供更多、更廣泛的機遇。
而在實踐研究方面,務實的IT業界內,目前只有為數不多的企業,包括惠普公司(HP) ,美國慷孚系統公司(Comm Vault System,Inc) 等,正致力於研究和推廣點亮“暗數據”的信息治理策略研究和智慧型歸檔解決方案。