內容簡介
本書主要介紹數據倉庫和數據挖掘技術的基本原理和套用方法。全書共分為12章,主要內容包括數據倉庫的概念和體系結構、數據倉庫的數據存儲和處理、數據倉庫系統的設計與開發、關聯規則、數據分類、數據聚類、貝葉斯網路、粗糙集、神經網路、遺傳算法、統計分析、文本和Web挖掘。
圖書目錄
第1章數據倉庫的概念與體系結構
1.1數據倉庫的概念、特點與組成
1.1.1數據倉庫的特點
1.1.2數據倉庫的組成
1.2數據挖掘的概念與方法
1.2.1數據挖掘的分析方法
1.2.2數據倉庫與數據挖掘的關係
1.3數據倉庫的技術、方法與產品
1.3.1OLAP技術
1.3.2數據倉庫實施的關鍵環節和技術
1.3.3數據倉庫實施方法論
1.3.4常用的數據倉庫產品
1.4數據倉庫系統的體系結構
1.4.1獨立的數據倉庫體系結構
1.4.2基於獨立數據集市的數據倉庫體系結構
1.4.3基於依賴型數據集市和操作型數據存儲的數據倉庫
體系結構
1.4.4基於邏輯型數據集市和實時數據倉庫的體系結構
1.5數據倉庫的產生、發展與未來
1.5.1數據倉庫的產生
1.5.2數據倉庫的發展
1.5.3數據倉庫的未來
1.5.4新一代數據倉庫技術
1.6小結
1.7習題
第2章數據倉庫的數據存儲與處理
2.1數據倉庫的數據結構
2.2數據倉庫的數據特徵
2.2.1狀態數據與事件數據
2.2.2當前數據與周期數據
2.2.3元數據
2.3數據倉庫的數據ETL過程
2.3.1ETL的目標
2.3.2ETL過程描述
2.3.3數據抽取
2.3.4數據清洗
2.3.5數據轉換
2.3.6數據載入和索引
2.4多維數據模型
2.4.1多維數據模型及其相關概念
2.4.2多維數據模型的實現
2.4.3多維建模技術
2.4.4星型模式舉例
2.5小結
2.6習題
第3章數據倉庫系統的設計與開發
3.1數據倉庫系統的設計與開發概述
3.1.1建立數據倉庫系統的步驟
3.1.2數據倉庫系統的生命周期
3.1.3建立數據倉庫系統的思維模式
3.1.4數據倉庫資料庫的設計步驟
3.2基於SQLServer2005的數據倉庫資料庫設計
3.2.1分析組織的業務狀況及數據源結構
3.2.2組織需求調研,收集分析需求
3.2.3採用信息包圖法設計數據倉庫的概念模型
3.2.4利用星型圖設計數據倉庫的邏輯模型
3.2.5數據倉庫的物理模型設計
3.3使用SQLServer2005建立多維數據模型
3.3.1SQLServer2005示例數據倉庫環境的配置與使用
3.3.2基於SQLServer2005示例資料庫的多維數據模型
3.4小結
3.5習題
第4章關聯規則
4.1概述
4.2引例
4.3經典算法
4.3.1Apriori算法
4.3.2FPgrowth算法
4.4相關研究與套用
4.4.1分類
4.4.2SQLServer2005中的關聯規則套用
4.5小結
4.6習題
第5章數據分類
5.1引例
5.2分類問題概述
5.2.1分類的過程
5.2.2分類的評價準則
5.3決策樹
5.3.1決策樹的基本概念
5.3.2決策樹算法ID3
5.3.3ID3算法套用舉例
5.3.4決策樹算法C4.5
5.3.5SQLServer2005中的決策樹套用
5.3.6決策樹剪枝
5.4支持向量機
5.5近鄰分類方法
5.5.1最近鄰分類方法
5.5.2k近鄰分類方法
5.5.3近鄰分類方法套用舉例
5.6小結
5.7習題
第6章數據聚類
6.1引例
6.2聚類分析概述
6.3聚類分析中相似度的計算方法
6.3.1連續型屬性的相似度計算方法
6.3.2二值離散型屬性的相似度計算方法
6.3.3多值離散型屬性的相似度計算方法
6.3.4混合類型屬性的相似度計算方法
6.4Kmeans聚類算法
6.4.1Kmeans聚類算法的基本概念
6.4.2SQLserver2005中的Kmeans套用
6.5層次聚類方法
6.5.1層次聚類方法的基本概念
6.5.2層次聚類方法套用舉例
6.6小結
6.7習題
第7章貝葉斯網路
7.1引例
7.2貝葉斯機率基礎
7.2.1先驗機率、後驗機率和條件機率
7.2.2條件機率公式
7.2.3全機率公式
7.2.4貝葉斯公式
7.3貝葉斯網路概述
7.3.1貝葉斯網路的組成和結構
7.3.2貝葉斯網路的優越性
7.3.3貝葉斯網路的三個主要議題
7.4貝葉斯網路的預測、診斷和訓練算法
7.4.1機率和條件機率數據
7.4.2貝葉斯網路的預測算法
7.4.3貝葉斯網路的診斷算法
7.4.4貝葉斯網路預測和診斷的綜合算法
7.4.5貝葉斯網路的建立和訓練算法
7.5SQLServer2005中的貝葉斯網路套用
7.6小結
7.7習題
第8章粗糙集
8.1引例
8.2分類與知識
8.2.1等價關係和等價類
8.2.2分類
8.3粗糙集
8.3.1分類的運算
8.3.2分類的表達能力
8.3.3上近似集和下近似集
8.3.4正域、負域和邊界
8.3.5粗糙集套用舉例
8.3.6粗糙集的性質
8.4辨識知識的簡化
8.4.1集合近似精度的度量
8.4.2分類近似的度量
8.4.3等價關係的可省略、獨立和核
8.4.4等價關係簡化舉例
8.4.5知識的相對簡化
8.4.6知識的相對簡化舉例
8.5決策規則簡化
8.5.1知識依賴性的度量
8.5.2簡化決策規則
8.5.3可辨識矩陣
8.6小結
8.7習題
第9章神經網路
9.1引例
9.2人工神經網路
9.2.1人工神經網路概述
9.2.2神經元模型
9.2.3網路結構
9.3BP算法
9.3.1網路結構和數據示例
9.3.2有序導數
9.3.3計算誤差信號對參數的有序導數
9.3.4梯度下降
9.3.5BP算法描述
9.4SQL Server 2005中的神經網路套用
9.5小結
9.6習題
第10章遺傳算法
10.1概述
10.2相關概念
10.3基本步驟
10.3.1概述
10.3.2引例
10.4算法設計
10.4.1編碼方式
10.4.2種群規模
10.4.3適應度函式
10.4.4遺傳運算元
10.4.5終止條件
10.5相關研究與套用
10.6小結
10.7習題
第11章統計分析
11.1線性回歸模型
11.1.1線性回歸模型的參數估計
11.1.2線性回歸方程的判定係數
11.1.3線性回歸方程的檢驗
11.1.4統計軟體中的線性回歸分析
11.1.5SQL Server 2005中的線性回歸套用
11.2Logistic回歸模型
11.2.1Logistic回歸模型的參數估計
11.2.2統計軟體中Logistic回歸的結果分析
11.2.3SQL Server 2005中的Logistic回歸套用
11.3時間序列模型
11.3.1ARIMA模型
11.3.2建立ARIMA模型的步驟
11.3.3使用統計軟體估計ARIMA模型
11.3.4SQL Server 2005中的時間序列分析
11.4小結
11.5習題
第12章文本和Web挖掘
12.1引例
12.2文本挖掘
12.2.1文本信息檢索概述
12.2.2基於關鍵字的關聯分析
12.2.3文檔自動聚類
12.2.4自動文檔分類
12.2.5自動摘要
12.3Web挖掘
12.3.1Web內容挖掘
12.3.2Web結構挖掘
12.3.3Web使用挖掘
12.4小結
12.5習題
參考文獻