數據集市的產生
當今信息社會,“數據”不等於“信息”,只有對數據進行恰當的處理,才會找到所需要的信息。為了把數據轉化為有價值的信息,必須拓展最終用戶的查詢能力,企業應能使用戶對其詳細的業務數據隨時進行查詢,於是出現了數據倉庫這一新的技術概念。數據倉庫(Data Warehouse)實際上是把傳統資料庫對數據的操作型處理升級到對多個數據源的數據進行統一的組織,形成一個一體化的存儲結構,為決策分析奠定基礎。
數據倉庫作為企業級套用,其涉及範圍和投入成本常常是巨大的,它的建設很容易形成高投入、慢進度的大項目。這一切都是設計者和使用者所不希望看到和不能接受的,使用者要求在部門內部獲得一種適合自身套用、容易使用且自行定向而方便高效的開放式數據接口工具。正是這種需求使數據集市應運而生。
數據集市的概念
數據集市(Data Market)是一種更小、更集中的數據倉庫。簡單地說,原始數據從數據倉庫流入不同的部門以支持這些部門的定製化使用。這些部門級的資料庫就稱為數據集市。一個數據集市就是一個部門的數據集合。數據集市是為特定部門的決策支持而組織起來的一批數據和業務規則,習慣上稱它們為“主題域”。不同部門有不同的“主題域”,因而也就有不同的數據集市。例如,財務部門有自己的數據集市,市場部門也有自己的數據集市,它們之間可能有關聯,但相互不同且在本質上互為獨立。
儘管數據集市與數據倉庫在很多方面有類似之處,但它們之間卻存在著區別。主要體現在:
(1)面向的對象不同。數據倉庫面向的是整個企業,為整個企業提供所需的數據;數據集市則面向各個部門。
(2)數據粒度不一樣。數據倉庫中的數據粒度非常小;數據集市中的數據主要是概括級的數據。
數據集市的數據源主要來自數據倉庫,它主要從數據倉庫中提取部門所需要的數據以滿足部門級的需要。數據集市的部分數據由其他數據源供給
數據集市技術的體系結構
數據集市的數據源主要來自數據倉庫和其他數據源。實際上,如果先建數據集市,後建數據倉庫,則數據集市的數據就不能來自數據倉庫,因此在實際套用中數據集市最主要的數據源來自業務資料庫。
實際套用中,考慮到業務資料庫的伺服器承擔著繁忙的業務活動,所以我們將數據集市伺服器與業務資料庫的伺服器分開。因此,有關係統以及WEB的開發,都是基於數據集市伺服器的。
數據集市技術的套用及其實現方法
數據集市主要是為有關的決策提供支持的,它能夠大大提高工作效率,降低建設風險,在較短的時間內取得較好的成果,因此得到廣泛的套用。數據集市可以分為兩類:獨立型和依賴型。在獨立型數據集市中,數據來自一個或多個作業系統或外部信息提供者,或者來自在一個特定的部門或地域局部產生的數據。依賴型數據集市中的數據直接來自企業數據倉庫。
目前,國內還是依賴型的數據集市居多。兩者的區別就在於是否從一個中央數據倉庫而來。因為國內的數據倉庫項目在開始階段多是國外廠商推進的,肯定有些不理智,大多直接從數據倉庫的概念入手,整合分散的、異構的數據。而獨立型數據集市是因為客戶有分析需求,需要一些用於分析的數據支撐,所以在部分或者自己的區域內建立這種小型數據倉庫。獨立型數據集市是服務具體分析套用的。
就套用而言,獨立型和依賴型數據集市應該是相似的,因為目前對於數據集市的建模方法基本一致:使用建立面向主題的星型模式,服務於某項分析套用。二者主要的差別還是在擴展性方面,獨立型數據集市還是會導致不一致的數據。因為它可能按照自己本地的方式來進行編碼,當存在多個獨立數據集市的時候,他們之間的數據很難共享。依賴型的數據集市則是按照中央數據倉庫統一的編碼方式,可以共享。
要建立數據集市伺服器,必須將業務資料庫中的數據提取到數據集市資料庫。但是從業務資料庫提取來的數據是被設計用於日常的事物處理的,這種按傳統方式組織的數據不適合支持因決策而經常進行的查詢,故查詢的效率比較低。為了提高查詢效率,克服傳統數據組織結構所帶來的弊端,多維資料庫是一種較好的解決方法。多維資料庫是以多維數據存儲形式來組織數據的數據管理系統,它不是關係型資料庫,在使用時需要將數據從關係資料庫中轉載到多維資料庫中方可訪問。多維資料庫在針對多維的分析套用時具有較好的效果
數據集市技術可以方便快捷地建立面向部門的或面向主題的統計查詢系統,在現代企業客戶管理系統中,通過數據集市技術可以全面分析您的客戶管理現狀和發展目標,幫助您設計、開發和維護客戶信息和行銷活動管理系統。從這一層面來看,“ecdms數據集市”所提供的資料庫產品更能體現出數據集市技術在現代商務行銷模式中的重要作用。綜合以上所述也可以預見,數據集市技術將會在各行業領域得到越來越廣泛的套用和更大的發展。