分類
技術 元數據是存儲關於數據倉庫系統技術細節的數據,是用於開發和管理數據倉庫使用的數據,它主要包括以下信息:數據倉庫結構的描述,包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和內容;業務系統、數據倉庫和數據集市的體系結構和模式;匯總用的算法,包括度量和維定義算法,數據粒度、主題領域、聚集、匯總、預定義的查詢與報告;;由操作環境到數據倉庫環境的映射,包括源數據和它們的內容、數據分割、數據提取、清理、轉換規則和數據刷新規則、安全(用戶授權和存取控制)。 業務 元數據從業務角度描述了數據倉庫中的數據,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠"讀懂"數據倉庫中的數據。業務 元數據主要包括以下信息:使用者的業務術語所表達的數據模型、對象名和屬性名;訪問數據的原則和數據的來源;系統所提供的分析方法以及公式和報表的信息;具體包括以下信息: ;企業概念模型:這是業務 元數據所應提供的重要的信息,它表示企業數據模型的高層信息、整個企業的業務概念和相互關係。以這個企業模型為基礎,不懂 資料庫技術和SQL 語句的業務人員對數據倉庫中的數據也能做到心中有數。 ;多維數據模型:這是企業概念模型的重要組成部分,它告訴業務分析人員在數據集市當中有哪些維、維的類別、數據立方體以及數據集市中的聚合規則。這裡的數據立方體表示某主題領域業務事實表和維表的多維組織形式。 ;業務概念模型和物理數據之間的依賴:以上提到的業務 元數據只是表示出了數據的業務視圖,這些業務視圖與實際的數據倉庫或 資料庫、多維 資料庫中的表、欄位、維、層次等之間的對應關係也應該在 元數據知識庫中有所體現。
作用
與其說數據倉庫是軟體開發項目,還不如說是系統集成項目,因為它的主要工作是把所需的數據倉庫工具集成在一起,完成數據的抽取、轉換和載入, OLAP 分析和數據挖掘等。如圖1 所示,它的典型結構由操作環境層、數據倉庫層和業務層等組成。 其中,第一層(操作環境層)是指整個企業內有關業務的OLTP 系統和一些外部數據源;第二層是通過把第一層的相關數據抽取到一個中心區而組成的數據倉庫層;第三層是為了完成對業務數據的分析而由各種工具組成的業務層。圖中左邊的部分是 元數據管理,它起到了承上啟下的作用,具體體現在以下幾個方面:
元數據是進行數據集成所必需的 數據倉庫最大的特點就是它的集成性。這一特點不僅體現在它所包含的數據上,還體現在實施數據倉庫項目的過程當中。一方面,從各個數據源中抽取的數據要按照一定的模式存入數據倉庫中,這些數據源與數據倉庫中數據的對應關係及轉換規則都要存儲在 元數據知識庫中;另一方面,在數據倉庫項目實施過程中,直接建立數據倉庫往往費時、費力,因此在實踐當中,人們可能會按照統一的數據模型,首先建設數據集市,然後在各個數據集市的基礎上再建設數據倉庫。不過,當數據集市數量增多時很容易形成"蜘蛛網"現象,而元數據管理是解決"蜘蛛網"的關鍵。如果在建立數據集市的過程中,注意了 元數據管理,在集成到數據倉庫中時就會比較順利;相反,如果在建設數據集市的過程中忽視了 元數據管理,那么最後的集成過程就會很困難,甚至不可能實現。
元數據定義的語義層可以幫助最終用戶理解數據倉庫中的數據 最終用戶不可能象數據倉庫系統管理員或開發人員那樣熟悉 資料庫技術,因此迫切需要有一個"翻譯",能夠使他們清晰地理解數據倉庫中數據的含意。 元數據可以實現業務模型與數據模型之間的映射,因而可以把數據以用戶需要的方式"翻譯"出來,從而幫助最終用戶理解和使用數據。
元數據是保證數據質量的關鍵 數據倉庫或數據集市建立好以後,使用者在使用的時候,常常會產生對數據的懷疑。這些懷疑往往是由於底層的數據對於用戶來說是不"透明"的,使用者很自然地對結果產生懷疑。而藉助 元數據管理系統,最終的使用者對各個數據的來龍去脈以及數據抽取和轉換的規則都會很方便地得到,這樣他們自然會對數據具有信心;當然也可便捷地發現數據所存在的質量問題。甚至國外有學者還在 元數據模型的基礎上引入質量維,從更高的角度上來解決這一問題。
元數據可以支持需求變化 隨著信息技術的發展和企業職能的變化,企業的需求也在不斷地改變。如何構造一個隨著需求改變而平滑變化的軟體系統,是軟體工程領域中的一個重要問題。傳統的信息系統往往是通過文檔來適應需求變化,但是僅僅依靠文檔還是遠遠不夠的。成功的 元數據管理系統可以把整個業務的工作流、數據流和信息流有效地管理起來,使得系統不依賴特定的開發人員,從而提高系統的可擴展性。