數據挖掘與預測分析(第2版)

《數據挖掘與預測分析(第2版)》是2017年清華大學出版社出版的圖書,作者是Daniel T. Larose、Chantal D. Larose 。

圖書簡介

《數據挖掘與預測分析(第2版)》提供了從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容。《數據挖掘與預測分析(第2版)》不僅提供了理解軟體底層算法的“白盒”方法,而且提供了能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的套用方法。

圖書目錄

第Ⅰ部分 數據準備

第1章 數據挖掘與預測分析概述 3

1.1 什麼是數據挖掘和預測分析 3

1.2 需求:數據挖掘技術人員 4

1.3 數據挖掘離不開人的參與 5

1.4 跨行業數據挖掘標準過程:

CRISP-DM 6

1.5 數據挖掘的謬誤 8

1.6 數據挖掘能夠完成的任務 9

1.6.1 描述 9

1.6.2 評估 10

1.6.3 預測 11

1.6.4 分類 11

1.6.5 聚類 13

1.6.6 關聯 14

R語言開發園地 15

R參考文獻 16

練習 16

第2章 數據預處理 17

2.1 需要預處理數據的原因 17

2.2 數據清理 18

2.3 處理缺失數據 19

2.4 識別錯誤分類 22

2.5 識別離群值的圖形方法 22

2.6 中心和散布度量 24

2.7 數據變換 26

2.8 min-max規範化 26

2.9 Z-score標準化 27

2.10 小數定標規範化 28

2.11 變換為正態數據 28

2.12 識別離群值的數值方法 34

2.13 標誌變數 35

2.14 將分類變數轉換為數值變數 35

2.15 數值變數分箱 36

2.16 對分類變數重新劃分類別 37

2.17 添加索引欄位 37

2.18 刪除無用變數 38

2.19 可能不應該刪除的變數 38

2.20 刪除重複記錄 39

2.21 ID欄位簡述 39

R語言開發園地 39

R參考文獻 45

練習 45

第3...

第3章探索性數據分析49

3.1假設檢驗與探索性數據分析49

3.2了解數據集49

3.3探索分類變數52

3.4探索數值變數58

3.5探索多元關係62

3.6選擇感興趣的數據子集作進一步研究64

3.7使用EDA發現異常欄位64

3.8基於預測值分級65

3.9派生新變數:標誌變數67

3.10派生新變數:數值變數69

3.11使用EDA探測相關聯的預測

變數70

3.12EDA概述73

R語言開發園地73

R參考文獻80

練習80

第4章降維方法83

4.1數據挖掘中降維的必要性83

4.2主成分分析84

4.3將主成分分析套用於房屋

數據集87

4.4應提取多少個主成分91

4.4.1特徵值標準91

4.4.2解釋變異的比例標準92

4.4.3最小共性標準92

4.4.4坡度圖示準92

4.5主成分描述94

4.6共性96

4.7主成分驗證97

4.8因子分析法98

4.9因子分析法在成年人數據集中的

套用99

4.10因子旋轉101

4.11用戶自定義合成104

4.12用戶自定義合成的示例105

R語言開發園地106

R參考文獻110

練習111

第Ⅱ部分統計分析

第5章單變數統計分析117

5.1數據知識發現中的數據挖掘

任務117

5.2用於估計和預測的統計方法117

5.3統計推理118

5.4我們對評估的確信程度如何119

5.5均值的置信區間估計120

5.6如何減少誤差範圍121

5.7比例的置信區間估計122

5.8均值的假設檢驗123

5.9拒絕零假設的證據力度的

評估125

5.10使用置信區間執行假設檢驗126

5.11比例的假設檢驗127

R語言開發園地128

R參考文獻129

練習129

第6章多元統計133

6.1描述均值差異的兩樣例t-檢驗

方法133

6.2判斷總體差異的兩樣例

Z-檢驗134

6.3比例均勻性的測試135

6.4多元數據擬合情況的

卡方檢驗137

6.5方差分析138

R語言開發園地141

R參考文獻143

練習143

第7章數據建模準備145

7.1有監督學習與無監督學習145

7.2統計方法與數據挖掘方法146

7.3交叉驗證146

7.4過度擬合147

7.5偏差-方差權衡148

7.6平衡訓練數據集150

7.7建立基線性能151

R語言開發園地152

R參考文獻153

練習153

第8章簡單線性回歸155

8.1簡單線性回歸示例155

8.2外推的危險161

8.3回歸有用嗎?係數的確定162

8.4估計標準誤差166

8.5相關係數r167

8.6簡單線性回歸的方差分析表169

8.7離群點、高槓桿率點與有影響

的觀察點170

8.8回歸方程概括178

8.9回歸假設驗證179

8.10回歸推理184

8.11x與y之間關係的t-檢驗185

8.12回歸直線斜率的置信區間187

8.13相關係數ρ的置信區間188

8.14給定均值的置信區間190

8.15給定隨機選擇值的預測區間191

8.16獲得線性特性的變換194

8.17博克斯-考克斯變換199

R語言開發園地199

R參考文獻205

練習205

第9章多元回歸與模型構建213

9.1多元回歸示例213

9.2總體多元回歸方程218

9.3多元回歸推理219

9.3.1y與xi之間關係的t-檢驗219

9.3.2營養等級與含糖量之間關係

的t-檢驗220

9.3.3營養等級與纖維含量之間

關係的t-檢驗220

9.3.4總體回歸模型顯著性的

F-檢驗221

9.3.5營養等級與含糖量和纖維

含量之間關係的F-檢驗222

9.3.6特定係數βi的置信區間223

9.3.7(在給定x1,x2,…,xm的情況下)y

的均值的置信區間223

9.3.8(在給定x1,x2,…,xm的情況下)

隨機選擇的y值的預測區間223

9.4利用指示變數的包含範疇型預測變數的回歸224

9.5調整R2:懲罰包含無用預測變數的模型230

9.6序列平方和231

9.7多重共線性233

9.8變數選擇方法239

9.8.1有偏F-檢驗239

9.8.2前向選擇過程240

9.8.3反向刪除過程241

9.8.4逐步選擇過程241

9.8.5最佳子集過程241

9.8.6“所有可能子集”過程242

9.9油耗數據集242

9.10變數選擇方法的套用243

9.10.1套用於油耗數據集的前向

選擇過程244

9.10.2套用於油耗數據集的後向

刪除過程245

9.10.3套用於油耗數據集的逐步選擇過程246

9.10.4套用於油耗數據集的最佳子集過程246

9.10.5Mallows’Cp統計量247

9.11將主成分作為預測變數進行

多元回歸251

R語言開發園地255

R參考文獻265

練習265

第Ⅲ部分分類

第10章K-最近鄰算法273

10.1分類任務273

10.2k-最近鄰算法274

10.3距離函式276

10.4組合函式279

10.4.1簡單權重投票方式279

10.4.2加權投票279

10.5量化屬性的相關性:軸伸縮280

10.6資料庫方面的考慮281

10.7將k-最近鄰算法用於評估和

預測281

10.8k值的選擇282

10.9利用IBM/SPSS建模工具套用

k-最近鄰算法283

R語言開發園地284

R參考文獻286

練習286

第11章決策樹289

11.1決策樹是什麼289

11.2使用決策樹的要求291

11.3分類與回歸樹291

11.4C4.5算法297

11.5決策規則302

11.6比較C5.0和CART算法套用

到實際的數據303

R語言開發園地306

R參考文獻307

練習308

第12章神經元網路311

12.1輸入和輸出編碼312

12.2神經元網路用於評估和預測313

12.3神經元網路的簡單示例314

12.4sigmoid激活函式316

12.5反向傳播317

12.6梯度下降法317

12.7反向傳播規則318

12.8反向傳播示例319

12.9終止條件320

12.10學習率321

12.11動量項322

12.12敏感性分析323

12.13神經元網路建模套用324

R語言開發園地326

R參考文獻328

練習328

第13章logistic回歸331

13.1logistic回歸簡單示例331

13.2最大似然估計333

13.3解釋logistic回歸的輸出334

13.4推理:這些預測有顯著性嗎335

13.5機率比比率與相對風險337

13.6對二分logistic回歸預測的

解釋339

13.7對套用於多元預測變數的

logistic回歸的解釋342

13.8對套用於連續型預測變數的

logistic回歸的解釋346

13.9線性假設351

13.10零單元問題353

13.11多元logistic回歸355

13.12引入高階項處理非線性359

13.13logistic回歸模型的驗證366

13.14WEKA:套用logistic回歸的

實踐分析370

R語言開發園地374

R參考文獻380

練習380

第14章樸素貝葉斯與貝葉斯網路385

14.1貝葉斯方法385

14.2最大後驗(MAP)分類387

14.3後驗機率比391

14.4數據平衡393

14.5樸素貝葉斯分類394

14.6解釋對數後驗機率比397

14.7零單元問題398

14.8樸素貝葉斯分類中的數值型

預測變數399

14.9WEKA:使用樸素貝葉斯開展

分析402

14.10貝葉斯信念網路406

14.11衣物購買示例407

14.12利用貝葉斯網路發現機率409

R語言開發園地413

R參考文獻417

練習417

第15章模型評估技術421

15.1用於描述任務的模型評估

15.2用於評估和預測任務的模型

評估技術422

15.3用於分類任務的模型評估

方法423

15.4準確率和總誤差率425

15.5靈敏性和特效性426

15.6假正類率和假負類率427

15.7真正類、真負類、假正類、

假負類的比例427

15.8通過誤分類成本調整來反映

現實關注點429

15.9決策成本/效益分析430

15.10提升圖表和增益圖表431

15.11整合模型評估與模型建立434

15.12結果融合:套用一系列

模型435

R語言開發園地436

R參考文獻436

練習437

第16章基於數據驅動成本的

成本-效益分析439

16.1在行調整條件下的決策

不變性439

16.2正分類標準440

16.3正分類標準的示範442

16.4構建成本矩陣444

16.5在縮放條件下的決策不變性445

16.6直接成本和機會成本446

16.7案例研究:基於數據驅動誤

分類成本的成本-效益分析446

16.8再平衡作為誤分類成本的

代理450

R語言開發園地452

R參考文獻455

練習455

第17章三元和k元分類模型的成本-

效益分析459

17.1三元目標的分類評估變數459

17.2三元分類評估度量在貸款審批問題中的套用462

17.3三元貸款分類問題的數據驅動成本-效益分析466

17.4比較使用/不使用數據驅動誤分類成本的CART模型467

17.5一般的k元目標的分類評估

度量470

17.6k元分類中評估度量和數據驅動誤分類成本的示例472

R語言開發園地474

R參考文獻475

練習475

第18章分類模型的圖形化評估477

18.1回顧提升圖表和增益圖表477

18.2使用誤分類成本的提升圖表

和增益圖表477

18.3回響圖表479

18.4利潤圖表479

18.5投資回報(ROI)圖表482

R語言開發園地482

R參考文獻484

練習484

第Ⅳ部分聚類

第19章層次聚類和k-均值聚類489

19.1聚類任務489

19.2層次聚類方法491

19.3單一鏈聚類492

19.4完全鏈聚類493

19.5k-均值聚類494

19.6k-均值聚類實操示例495

19.7k-均值算法執行中MSB、MSE和偽-F的行為498

19.8SASEnterpriseMiner中k-均值算法的套用499

19.9使用簇成員關係來預測客戶

流失501

R語言開發園地502

R參考文獻503

練習504

第20章Kohonen網路505

20.1自組織映射505

20.2Kohonen網路507

20.3Kohonen網路學習示例508

20.4簇有效性511

20.5使用Kohonen網路進行聚類

套用511

20.6解釋簇512

20.7將簇成員關係作為下游數據

挖掘模型的輸入517

R語言開發園地518

R參考文獻520

練習520

第21章BIRCH聚類521

21.1BIRCH聚類的理論基礎521

21.2簇特徵522

21.3簇特徵樹523

21.4階段1:構建CF樹523

21.5階段2:聚類子簇525

21.6BIRCH聚類示例之階段1:

構建CF樹525

21.7BIRCH聚類示例之階段2:

聚類子簇530

21.8候選聚類解決方案的評估530

21.9案例研究:在銀行貸款數據集

上套用BIRCH聚類531

21.9.1案例研究第1課:對於

任意聚類算法避免高度

相關的輸入532

21.9.2案例研究第2課:不同的

排序可能會導致不同的

簇數目535

R語言開發園地537

R參考文獻538

練習538

第22章度量簇的優劣541

22.1度量簇優劣的基本原理541

22.2輪廓方法541

22.3輪廓值示例542

22.4Iris數據集的輪廓值分析544

22.5偽-F統計方法547

22.6偽-F統計示例549

22.7將偽-F統計套用於Iris

數據集550

22.8簇驗證551

22.9將簇驗證方法套用於貸款

數據集551

R語言開發園地554

R參考文獻556

練習557

第Ⅴ部分關聯規則

第23章關聯規則561

23.1親和度分析與購物籃分析561

23.2支持度、可信度、頻繁項集和

先驗屬性564

23.3先驗算法工作原理(第1部

分)——建立頻繁項集565

23.4先驗算法工作原理(第2部

分)——建立關聯規則566

23.5從標誌數據擴展到分類數據569

23.6信息理論方法:廣義規則推理

方法570

23.7關聯規則不易做好571

23.8度量關聯規則可用性的方法573

23.9關聯規則是監督學習還是

無監督學習574

23.10局部模式與全局模型574

R語言開發園地575

R參考文獻575

練習576

第Ⅵ部分增強模型性能

第24章細分模型581

24.1細分建模過程581

24.2利用EDA識別分段的細分

建模583

24.3利用聚類方法識別分段的

細分建模585

R語言開發園地589

R參考文獻591

練習591

第25章集成方法:bagging和

boosting593

25.1使用集成分類模型的理由593

25.2偏差、方差與噪聲594

25.3適合採用bagging的場合595

25.4bagging596

25.5boosting599

25.6使用IBM/SPSS建模器套用

bagging和boosting602

參考文獻603

R語言開發園地604

R參考文獻605

練習606

第26章模型投票與趨向平均609

26.1簡單模型投票609

26.2其他投票方法610

26.3模型投票過程611

26.4模型投票的套用612

26.5什麼是趨向平均616

26.6趨向平均過程616

26.7趨向平均的套用618

R語言開發園地619

R參考文獻621

練習622

第Ⅶ部分更多主題

第27章遺傳算法627

27.1遺傳算法簡介627

27.2基因算法的基本框架628

27.3遺傳算法的簡單示例629

27.3.1第1次疊代629

27.3.2第2次疊代631

27.4改進及增強:選擇631

27.5改進及增強:交叉633

27.5.1多點交叉633

27.5.2通用交叉634

27.6實值變數的遺傳算法634

27.6.1單一算術交叉635

27.6.2簡單算術交叉635

27.6.3完全算術交叉635

27.6.4離散交叉635

27.6.5常態分配突變635

27.7利用遺傳算法訓練神經元

網路636

27.8WEKA:使用遺傳算法進行

分析640

R語言開發園地646

R參考文獻647

練習647

第28章缺失數據的填充649

28.1缺失數據填充的必要性649

28.2缺失數據填充:連續型變數650

28.3填充的標準誤差653

28.4缺失值填充:範疇型變數653

28.5缺失的處理模式654

參考文獻655

R語言開發園地655

R參考文獻657

練習658

第Ⅷ部分案例研究:對直郵營

銷的回響預測

第29章案例研究,第1部分:業務

理解、數據預處理和探索性

數據分析661

29.1數據挖掘的跨行業標準661

29.2業務理解階段662

29.3數據理解階段,第一部分:

熟悉數據集663

29.4數據準備階段667

29.4.1消費金額為負值的情況667

29.4.2實現正態性或對稱性的

轉換669

作者介紹

Daniel T. Larose博士,美國中康乃狄克州立大學數學科學教授,數據挖掘項目負責人。出版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜誌以及《經濟學人》雜誌等數據挖掘與統計分析領域的顧問。

Chantal D. Larose是美國康乃狄克大學的在讀博士。其研究領域包括缺失數據填補以及基於模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。

相關詞條

熱門詞條

聯絡我們