基本介紹
“大數據” 通常指的是那些數量巨大、難於收集、處理、分析的數據集,亦指那些在傳統基礎設施中長期保存的數據。這裡的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業中IT基礎設施的規模。業內對大數據套用寄予了無限的期望 – 商業信息積累的越多價值也越大 – 只不過我們需要一個方法把這些價值挖掘出來。
隨著大數據套用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據分析套用需求正在影響著數據存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據套用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和檔案的存儲系統的架構設計以適應這些新的要求。在這裡,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。
對比
大數據存儲和傳統的數據存儲的不同
大數據套用的一個主要特點是實時性或者近實時性。
類似的,一個金融類的套用,能為業務員從數量巨大種類繁多的數據里快速挖掘出相關信息,能幫助他們領先於競爭對手做出交易的決定。
數據通常以每年增長50%的速度快速激增,尤其是非結構化數據。隨著科技的進步,有越來越多的感測器採集數據、移動設備、社交多媒體等等,所以數據只可能繼續增長。
總而言之,大數據需要非常高性能、高吞吐率、大容量的基礎設備。