定義
數據湖是一種大型數據存儲庫和處理引擎。它能夠大量存儲各種類型的數據,擁有強大的信息處理能力和處理幾乎無限的並發任務或工作的能力。
數據湖一詞是由Pentaho首席技術官詹姆斯迪克森最初提出的,參照“數據集市”得來,數據集市是一個較小的數據存儲庫,可以從原始數據中提取所需屬性。迪克森曾說:“如果數據集市是一個商店的瓶裝水,經過過濾包裝結構化以供使用——數據湖則是在更自然狀態下的大量的水。數據湖中的數據來源於不同地方,其用戶可以進入數據湖中提取所需要的數據。迪克森認為,數據集市只是提供最低限度的解決方法,而數據湖則是可以向用戶提供最優解。
迪克森認為數據集市具有兩重缺陷:一是只可以回答預先設定的問題,二是數據已經被篩選包裝好,所以無法看見其最初的狀態。普華永道也持相同觀點,並認為數據湖完美解決了這些問題,一些大型企業和科研機構例如加州大學歐文分校醫學中心,谷歌,Facebook等都已經接受並開始使用數據湖的概念。
主要用途
第一,數據的集中存放管理;
數據湖是你可以存放所有所需數據的地方,這些數據包括來自傳統資料庫的結構化數據和非結構化的文本數據,包括企業內部生成的數據,外部數據以及服務,也包括媒體數據,感測器和很多企業正在學習使用的遙測數據。
第二,強大的交叉分析平台;
數據湖可以看做是一個大數據分析平台。他並不僅僅可以實現所有種類數據的存放,也可以用於數據分析,以及找到數據新的關聯性。許多商業分析中的突破並不是來源於數據的多少,和分析的熟練程度,而是來源於能顯示出商業表現的數據的新式組合。
第三,為商業個體提供所需數據的最優解。
數據湖也同樣協調了商業個體真正需要的數據和企業經常使用標準數據的緊張關係。
數據湖是一種共享資源,它不僅包含了精心管理的數據,也提供了一個商業個體搜尋真正需要的數據組合的平台。
這三點可以用一句話來形容:存儲一切,分析一切,創建所需。
套用的重要性
1.方便和促進企業多團隊多部門協作;
隨著整個企業轉向以數據為核心的架構,分析必然是多團隊多部門的協作過程。例如客服部門的分析流程會產生一個數據集:每月流失的客戶,那么這個數據集會成為銷售部門“客戶保有”分析流的一個輸入。數據湖通過集中的原始數據存儲,數據元的數據管理,以及協作的特性最大程度的解放分析。
2.增大企業運營效率;
從邏輯上說,數據只有集中存儲之後,才能夠利用這些完整的數據進行分析,從而使得業務部門能夠非常容易的找到所需的數據,進行快速配合,所以企業要增大運營效率,使各部門配合融洽,運轉更流暢,建立一個完整的數據湖無疑是非常必要的。
3.預判發展趨勢,加大企業競爭力。
通過利用數據湖分析的威力,企業可以發展“信息優勢,且可從使用數據了解過去經驗教訓的回響型組織轉變為使用大數據中包含的見解預測和把握將來機會的預測、主動型組織。在用於處理數據的底層技術、平台和分析功能不斷革新以及用戶行為變革的推動下,且隨著越來越多的人過上數字生活,數據湖的可能性將繼續快速演變。使用數據湖技術和分析將成為關鍵競爭指標,且可能會給行業帶來新的競爭對手或競爭方式。
套用的五大特性
1.創建套用
作為一個平台,幫助商業體快速獲取數據,建立直觀概念,獲取他們真正需要的數據信息;
2.靈活性和可訪問性
可以實現從數據倉庫搬運大量數據進行數據分析;
3.保證數據真實性
數據湖能夠實現以不同的格式存儲和分析數據,並且能夠保持不失真;
4.快速性
能夠快速過濾獲取所需數據;
5.探索和分析
能夠用於探索分析數據來判定商業模式的價值和利益
用戶類型
企業現在正處於大數據的“焦慮期”,數據量的激增以及數據分析需求的多樣化,傳統的大型套用會形成數據孤島,為了應對這次衝擊,一些IT領導人督促建立“數據湖”。Gartner副總裁及著名分析師AndrewWhite也表示:“對於提高數據分析靈活性和可訪問性的需求,是數據湖的主要推動力。數據湖可以為企業機構的不同組織提供價值,這一點是千真萬確的。對於一個大型企業來說,資料庫的用戶分為以下三種類型:
1.商業&數據分析師:利用機構中特定數據進行分析報告,從而進行商業決策
2.數據構建師:為機構設計,創建並管理數據模型
3.數據科學家&套用開發者:對大數據進行統計分析來判斷趨勢,解決商業問題
套用舉例
作為一種面向由傳統和下一代工作負載產生的關鍵數據,可無限可擴展的知識庫,數據湖正蓄勢待發。目前數據湖的成功實例則是ApacheHadoop,如果你想跟得上ApacheHadoop大數據的腳步,就不應該拒絕ApacheHadoop新技術的套用[3]。許多公司也使用雲存儲服務,例如AmazonS3作為數據湖來使用。另外一些數據湖概念也引起了學術興趣,例如個人數據湖。卡迪夫大學正在進行一個項目,試圖創建個人數據湖用於個人數據的蒐集和共享。國內大數據品牌“數據巫師”曾提出數據湖並擁有完整解決方案,提出的商業數據湖實踐方法論,可以為企業定製化合適的數據湖,幫助企業從大數據中獲得直接的商業價值。作為零售行業,數據湖的用途也必不可少,它能夠讓商業體抓取客戶的行為活動的數據,從而來影響其結果和決定。同時數據湖能夠橫向擴展,適合企業從小到大數據增長。
我們看到“數據湖”具有很廣闊的發展空間和價值定位,它代表了一種可擴展的基礎架構,非常經濟且超級靈活,圍繞數據湖的服務產品也會逐漸打開眾多企業數據管理的大門,為人們熟知。由於數據湖的建立和企業管理模式息息相關,二者需要同步。因此目前國內提供數據湖解決方案的大數據品牌“數據巫師”提出,在提供專業數據湖技術服務的同時,也應根據企業的商業模式和管理模式提出合理化建議和諮詢。
最終,整個企業的數據分析是通過數據集結為一體的,這樣的企業才是數據驅動型企業。過去大部分企業的信息投入都是套用驅動型的,但是在未來,隨著越來越多的數據信息在產生,CRM(客戶關係管理)/(ERP企業資源管理)/(HR人力資源管理),這些數據都會進入數據湖,企業新的銷售方式會被這些數據驅動,而不再簡單的是“上套用”。