基本資料
·頁碼:488 頁
·出版日期:2007年
·ISBN:9787111205388
·條形碼:9787111205388
·包裝版本:2007年3月第1版
·裝幀:平裝
·開本:16開
內容簡介
本書全面地講述數據挖掘領域的重要知識和技術創新。在第1版內容相當全面的基礎上,第2版展示了該領域的最新研究成果,例如挖掘流、時序和序列數據以及挖掘時間空間、多媒體、文本和Web數據。本書可作為數據挖掘和知識發現領域的教師、研究人員和開發人員的一本必讀書。
本書第1版曾是受讀者歡迎的數據挖掘專著,是一本可讀性極佳的教材。第2版充實了數據挖掘領域研究新進展的題材,增加了講述最新的數據挖掘方法的若干章節。本書適合作為高等院校計算機及相關專業高年級本科生的選修課教材,特別適合作為研究生的專業課教材。
作者簡介
Jiawei Han,伊利諾伊大學厄巴納-尚佩恩分校計算機科學系教授。由於在數據挖掘和資料庫系統領域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACM SIGKDD頒發的創新獎。同時,他還是ACM《Transactions on Knowledge Discovery from Data》的主編,以及IEEE《Transactions on Knowledge and Data Engineering》和《Data Mining and Knowledge Discovery》的編委會成員。
目錄
出版者的話
專家指導委員會
中文版序
譯者序
序
前言
第1章 引言 1
1.1 什麼激發了數據挖掘,為什麼它是重要的 1
1.2 什麼是數據挖掘 3
1.3 對何種數據進行數據挖掘 6
1.3.1 關係資料庫 6
1.3.2 數據倉庫 8
1.3.3 事務資料庫 10
1.3.4 高級數據和信息系統與高級套用 10
1.4 數據挖掘功能—可以挖掘什麼類型的模式 14
1.4.1 概念/類描述:特徵化和區分 14
1.4.2 挖掘頻繁模式、關聯和相關 15
1.4.3 分類和預測 15
1.4.4 聚類分析 17
1.4.5 離群點分析 17
.1.4.6 演變分析 18
1.5 所有模式都是有趣的嗎 18
1.6 數據挖掘系統的分類 19
1.7 數據挖掘任務原語 20
1.8 數據挖掘系統與資料庫系統或數據倉庫系統的集成 22
1.9 數據挖掘的主要問題 23
1.10 小結 25
習題 26
文獻注釋 27
第2章 數據預處理 30
2.1 為什麼要預處理數據 30
2.2 描述性數據匯總 32
2.2.1 度量數據的中心趨勢 32
2.2.2 度量數據的離散程度 34
2.2.3 基本描述數據匯總的圖形顯示 36
2.3 數據清理 39
2.3.1 缺失值 39
2.3.2 噪聲數據 40
2.3.3 數據清理作為一個過程 41
2.4 數據集成和變換 43
2.4.1 數據集成 43
2.4.2 數據變換 45
2.5 數據歸約 47
2.5.1 數據立方體聚集 47
2.5.2 屬性子集選擇 48
2.5.3 維度歸約 49
2.5.4 數值歸約 51
2.6 數據離散化和概念分層產生 55
2.6.1 數值數據的離散化和概念分層產生 56
2.6.2 分類數據的概念分層產生 60
2.7 小結 62
習題 62
文獻注釋 65
第3章 數據倉庫與olap技術概述 67
3.1 什麼是數據倉庫 67
3.1.1 運算元據庫系統與數據倉庫的區別 68
3.1.2 為什麼需要分離的數據倉庫 69
3.2 多維數據模型 70
3.2.1 由表和電子數據表到數據立方體 70
3.2.2 星形、雪花形和事實星座形模式:多維資料庫模式 72
3.2.3 定義星形、雪花形和事實星座形模式的例子 75
3.2.4 度量的分類和計算 76
3.2.5 概念分層 77
3.2.6 多維數據模型中的olap操作 79
3.2.7 查詢多維資料庫的星形網查詢模型 81
3.3 數據倉庫的系統結構 82
3.3.1 數據倉庫的設計和構造步驟 82
3.3.2 三層數據倉庫的系統結構 83
3.3.3 數據倉庫後端工具和實用程式 85
3.3.4 元數據儲存庫 86
3.3.5 olap伺服器類型:rolap、
molap與holap 86
3.4 數據倉庫實現 88
3.4.1 數據立方體的有效計算 88
3.4.2 索引olap數據 90
3.4.3 olap查詢的有效處理 92
3.5 從數據倉庫到數據挖掘 93
3.5.1 數據倉庫的使用 93
3.5.2 由在線上分析處理到在線上分析挖掘 95
3.6 小結 96
習題 97
文獻注釋 99
第4章 數據立方體計算與數據泛化 101
4.1 數據立方體計算的有效方法 101
4.1.1 不同類型立方體物化的路線圖 101
4.1.2 完全立方體計算的多路數組聚集 105
4.1.3 buc:從頂點方體向下計算冰山立方體 108
4.1.4 star-cubing:使用動態星形樹結構計算冰山立方體 111
4.1.5 為快速高維olap預計算殼片段 116
4.1.6 計算具有複雜冰山條件的立方體 121
4.2 數據立方體和olap技術的進一步發展 122
4.2.1 數據立方體的發現驅動的探查 122
4.2.2 在多粒度的複雜聚集:多特徵立方體 124
4.2.3 數據立方體中被約束的梯度分析 126
4.3 面向屬性的歸納—另一種數據泛化和概念描述方法 128
4.3.1 數據特徵化的面向屬性的歸納 129
4.3.2 面向屬性歸納的有效實現 132
4.3.3 導出泛化的表示 133
4.3.4 挖掘類比較:區分不同的類 136
4.3.5 類描述:特徵化和比較的表示 139
4.4 小結 140
習題 141
文獻注釋 144
第5章 挖掘頻繁模式、關聯和相關 146
5.1 基本概念和路線圖 146
5.1.1 購物籃分析:引發性例子 146
5.1.2 頻繁項集、閉項集和關聯規則 147
5.1.3 頻繁模式挖掘:路線圖 149
5.2 有效的和可伸縮的頻繁項集挖掘方法 150
5.2.1 apriori算法:使用候選產生髮現頻繁項集 151
5.2.2 由頻繁項集產生關聯規則 154
5.2.3 提高apriori算法的效率 155
5.2.4 不候選產生挖掘頻繁項集 156
5.2.5 使用垂直數據格式挖掘頻繁項集 159
5.2.6 挖掘閉頻繁項集 160
5.3 挖掘各種類型的關聯規則 162
5.3.1 挖掘多層關聯規則 162
5.3.2 從關係資料庫和數據倉庫挖掘多維關聯規則 164
5.4 由關聯挖掘到相關分析 168
5.4.1 強關聯規則不一定有趣:一個例子 168
5.4.2 從關聯分析到相關分析 168
5.5 基於約束的關聯挖掘 172
5.5.1 關聯規則的元規則制導挖掘 172
5.5.2 約束推進:規則約束制導的挖掘 173
5.6 小結 176
習題 177
文獻注釋 181
第6章 分類和預測 184
6.1 什麼是分類,什麼是預測.. 184
6.2 關於分類和預測的問題 186
6.2.1 為分類和預測準備數據 186
6.2.2 比較分類和預測方法 187
6.3 用決策樹歸納分類 188
6.3.1 決策樹歸納 189
6.3.2 屬性選擇度量 191
6.3.3 樹剪枝 196
6.3.4 可伸縮性與決策樹歸納 198
6.4 貝葉斯分類 200
6.4.1 貝葉斯定理 201
6.4.2 樸素貝葉斯分類 201
6.4.3 貝葉斯信念網路 204
6.4.4 訓練貝葉斯信念網路 205
6.5 基於規則的分類 206
6.5.1 使用if-then規則分類 206
6.5.2 從決策樹提取規則 208
6.5.3 使用順序覆蓋算法的規則歸納 209
6.6 用後向傳播分類 212
6.6.1 多層前饋神經網路 213
6.6.2 定義網路拓撲 213
6.6.3 後向傳播 214
6.6.4 黑盒內部:後向傳播和可解釋性 218
6.7 支持向量機 219
6.7.1 數據線性可分的情況 219
6.7.2 數據非線性可分的情況 222
6.8 關聯分類:基於關聯規則分析的分類 224
6.9 惰性學習法(或從近鄰學習) 226
6.9.1 k最近鄰分類法 226
6.9.2 基於案例的推理 228
6.10 其他分類方法 228
6.10.1 遺傳算法 228
6.10.2 粗糙集方法 229
6.10.3 模糊集方法 229
6.11 預測 231
6.11.1 線性回歸 231
6.11.2 非線性回歸 233
6.11.3 其他基於回歸的方法 234
6.12 準確率和誤差的度量 234
6.12.1 分類器準確率度量 234
6.12.2 預測器誤差度量 236
6.13 評估分類器或預測器的準確率 237
6.13.1 保持方法和隨機子抽樣 237
6.13.2 交叉確認 238
6.13.3 自助法 238
6.14 系綜方法—提高準確率 238
6.14.1 裝袋 239
6.14.2 提升 240
6.15 模型選擇 241
6.15.1 估計置信區間 242
6.15.2 roc 曲線 243
6.16 小結 244
習題 245
文獻注釋 247
第7章 聚類分析 251
7.1 什麼是聚類分析 251
7.2 聚類分析中的數據類型 253
7.2.1 區間標度變數 253
7.2.2 二元變數 255
7.2.3 分類、序數和比例標度變數 256
7.2.4 混合類型的變數 259
7.2.5 向量對象 260
7.3 主要聚類方法的分類 261
7.4 劃分方法 263
7.4.1 典型的劃分方法:k均值和k中心點 263
7.4.2 大型資料庫的劃分方法:從k中心點到clarans 266
7.5 層次方法 267
7.5.1 凝聚和分裂層次聚類 267
7.5.2 birch:利用層次方法的平衡疊代歸約和聚類 269
7.5.3 rock:分類屬性的層次聚類算法 271
7.5.4 chameleon:利用動態建模的層次聚類算法 272
7.6 基於密度的方法 273
7.6.1 dbscan:一種基於高密度連通區域的基於密度的聚類方法 273
7.6.2 optics:通過點排序識別聚類結構 275
7.6.3 denclue:基於密度分布函式的聚類 276
7.7 基於格線的方法 278
7.7.1 sting:統計信息格線 278
7.7.2 wavecluster:利用小波變換聚類 279
7.8 基於模型的聚類方法 280
7.8.1 期望最大化方法 280
7.8.2 概念聚類 281
7.8.3 神經網路方法 283
7.9 聚類高維數據 284
7.9.1 clique:維增長子空間聚類方法 285
7.9.2 proclus:維歸約子空間聚類方法 287
7.9.3 基於頻繁模式的聚類方法 287
7.10 基於約束的聚類分析 290
7.10.1 含有障礙物的對象聚類 291
7.10.2 用戶約束的聚類分析 293
7.10.3 半監督聚類分析 293
7.11 離群點分析 295
7.11.1 基於統計分布的離群點檢測 295
7.11.2 基於距離的離群點檢測 296
7.11.3 基於密度的局部離群點檢測 298
7.11.4 基於偏差的離群點檢測 299
7.12 小結 300
習題 301
文獻注釋 303
第8章 挖掘流、時間序列和序列數據 306
8.1 挖掘數據流 306
8.1.1 流數據處理方法和流數據系統 307
8.1.2 流olap和流數據立方體 310
8.1.3 數據流中的頻繁模式挖掘 314
8.1.4 動態數據流的分類 315
8.1.5 聚類演變數據流 318
8.2 時間序列數據挖掘 320
8.2.1 趨勢分析 320
8.2.2 時間序列分析中的相似性搜尋 323
8.3 挖掘事務資料庫中的序列模式 325
8.3.1 序列模式挖掘:概念和原語 326
8.3.2 挖掘序列模式的可伸縮方法 327
8.3.3 基於約束的序列模式挖掘 333
8.3.4 時間相關序列數據的周期性分析 335
8.4 挖掘生物學數據中的序列模式 336
8.4.1 生物學序列比對 336
8.4.2 生物學序列分析的隱馬爾可夫模型 339
8.5 小結 345
習題 346
文獻注釋 348
第9章 圖挖掘、社會網路分析和多關係數據挖掘 351
9.1 圖挖掘 351
9.1.1 挖掘頻繁子圖的方法 351
9.1.2 挖掘變體和約束子結構的模式 357
9.1.3 套用:圖索引、相似性搜尋、分類和聚類 361
9.2 社會網路分析 363
9.2.1 什麼是社會網路 363
9.2.2 社會網路的特徵 365
9.2.3 連結挖掘:任務和挑戰 367
9.2.4 挖掘社會網路 369
9.3 多關係數據挖掘 373
9.3.1 什麼是多關係數據挖掘 373
9.3.2 多關係分類的ilp方法 375
9.3.3 元組id傳播 376
9.3.4 利用元組id傳播進行多關係分類 377
9.3.5 用戶指導的多關係聚類 379
9.4 小結 382
習題 383
文獻注釋 384
第10章 挖掘對象、空間、多媒體、文本和web數據 386
10.1 複雜數據對象的多維分析和描述性挖掘 386
10.1.1 結構化數據的泛化 386
10.1.2 空間和多媒體數據泛化中的聚集和近似 387
10.1.3 對象標識和類/子類層次的泛化 388
10.1.4 類複合層次泛化 388
10.1.5 對象立方體的構造與挖掘 389
10.1.6 用分治法對規劃資料庫進行基於泛化的挖掘 389
10.2 空間數據挖掘 391
10.2.1 空間數據立方體構造和空間olap 392
10.2.2 挖掘空間關聯和並置模式 395
10.2.3 空間聚類方法 396
10.2.4 空間分類和空間趨勢分析 396
10.2.5 挖掘光柵資料庫 396
10.3 多媒體數據挖掘 396
10.3.1 多媒體數據的相似性搜尋 396
10.3.2 多媒體數據的多維分析 397
10.3.3 多媒體數據的分類和預測分析 399
10.3.4 挖掘多媒體數據中的關聯 399
10.3.5 音頻和視頻數據挖掘 400
10.4 文本挖掘 401
10.4.1 文本數據分析和信息檢索 401
10.4.2 文本的維度歸約 405
10.4.3 文本挖掘方法 407
10.5 挖掘全球資訊網 410
10.5.1 挖掘web頁面布局結構 411
10.5.2 挖掘web連結結構識別權威web頁面 413
10.5.3 挖掘web上的多媒體數據 416
10.5.4 web文檔的自動分類 418
10.5.5 web使用挖掘 418
10.6 小結 419
習題 420
文獻注釋 421
第11章 數據挖掘的套用和發展趨勢 424
11.1 數據挖掘的套用 424
11.1.1 金融數據分析的數據挖掘 424
11.1.2 零售業的數據挖掘 425
11.1.3 電信業的數據挖掘 426
11.1.4 生物學數據分析的數據挖掘 427
11.1.5 其他科技套用的數據挖掘 428
11.1.6 入侵檢測的數據挖掘 429
11.2 數據挖掘系統產品和研究原型 430
11.2.1 如何選擇數據挖掘系統 431
11.2.2 商用數據挖掘系統的實例 432
11.3 數據挖掘的其他主題 433
11.3.1 數據挖掘的理論基礎 434
11.3.2 統計學數據挖掘 434
11.3.3 可視數據和音頻數據挖掘 435
11.3.4 數據挖掘和協同過濾 440
11.4 數據挖掘的社會影響 440
11.4.1 無處不在和無形的數據挖掘 441
11.4.2 數據挖掘、隱私和數據安全 443
11.5 數據挖掘的發展趨勢 445
11.6 小結 446
習題 447
文獻注釋 449
附錄 微軟用於數據挖掘的ole db簡介 452
a.1 模型創建 453
a.2 模型訓練 454
a.3 模型預測和瀏覽 456
索引 460