大數據、數據挖掘與智慧運營

《大數據、數據挖掘與智慧運營》是2017年清華大學出版社出版的圖書,圖書作者是梁棟 張兆靜 彭木根。

內容簡介

本書系統地介紹了大數據挖掘的基本概念、經典挖掘算法、挖掘工具和企業智慧運營套用案例。全書分為9章,內容包括:大數據挖掘與智慧運營的概念,數據預處理,數據挖掘中的四種主流算法:聚類分析、分類分析、回歸分析、關聯分析,增強型數據挖掘算法,數據挖掘在運營商智慧運營中的套用案例,未來大數據挖掘的發展趨勢等。全書以運用大數據挖掘方法提升企業運營業績與效率為主線,從運營商實際工作中選取了大量運營和銷售案例,詳細講述了數據採集、挖掘建模、模型落地與精準行銷的全部過程。書中大部分案例的代碼、軟體操作流程和微課視頻可以通過掃描本書封底的二維碼下載。本書主要面向運營商及其他高科技企業員工、高等院校相關專業本科生和研究生,以及其他對數據挖掘與精準行銷感興趣的讀者。

目錄結構

第1章 大數據、數據挖掘與智慧運營綜述 1

1.1 數據挖掘的發展史 2

1.1.1 數據挖掘的定義與起源 2

1.1.2 數據挖掘的早期發展 3

1.1.3 數據挖掘的算法前傳 4

1.1.4 數據挖掘的第一個里程碑 8

1.1.5 最近十年的發展與套用 11

1.2 數據挖掘的主要流程與金字塔模型 13

1.2.1 數據挖掘的任務 14

1.2.2 數據挖掘的基本步驟 16

1.2.3 數據挖掘的架構——雲計算 17

1.2.4 “金字塔”模型 20

1.3 數據挖掘對智慧運營的意義 22

1.3.1 “網際網路+”時代的來臨及其對運營商的衝擊和挑戰 22

1.3.2 大數據時代的來臨及其對運營商的挑戰和機遇 24

1.3.3 電信運營商運營發展面臨的主要瓶頸 26

1.3.4 電信運營商發展的“三條曲線” 27

1.3.5 智慧運營與大數據變現 29

1.3.6 數據挖掘對於提升智慧運營效率的意義 30

1.4 大數據時代已經來臨 31

1.4.1 大數據的定義 31

1.4.2 大數據的“4V”特徵32

1.4.3 結構化數據與非結構化數據33

1.5 非結構化數據挖掘的研究進展 34

1.5.1 文本挖掘34

1.5.2 模式識別36

1.5.3 語音識別40

1.5.4 視頻識別44

1.5.5 其他非結構化數據挖掘48

1.6 數據挖掘與機器學習、深度學習、人工智慧及雲計算 50

1.6.1 機器學習51

1.6.2 深度學習53

1.6.3 人工智慧55

1.6.4 雲計算56

1.7 現有數據挖掘的主要分析軟體與系統 61

1.7.1 Hadoop61

1.7.2 Storm 63

1.7.3 Spark 65

1.7.4 SPASS(SPSS) 66

1.7.5 SAS 68

參考文獻 70

第2章數據統計與數據預處理73

2.1 數據屬性類型 74

2.1.1 數據屬性定義74

2.1.2 離散屬性74

2.1.3 連續屬性75

2.2 數據的統計特性 77

2.2.1 中心趨勢度量77

2.2.2 數據散布度量78

2.2.3 數據相關性82

2.3 數據預處理 87

2.3.1 數據預處理概述87

3.6 基於格線的聚類:CLIQUE 140

3.6.1 基於格線的聚類算法概述140

3.6.2 CLIQUE算法的基本原理141

3.6.3 CLIQUE算法的優勢與劣勢142

參考文獻 143

第4章分類分析 145

4.1 分類分析概述 146

4.2 分類分析的評估 148

4.3 決策樹分析 152

4.3.1 決策樹算法的基本原理152

4.3.2 CHAID決策樹160

4.3.3 ID3決策樹 167

4.3.4 C4.5決策樹171

4.3.5 CART 決策樹175

4.3.6 決策樹中的剪枝問題179

4.3.7 決策樹在SPSS中的套用180

4.4 最近鄰分析(KNN) 185

4.4.1 KNN算法的基本原理185

4.4.2 KNN算法流程186

4.4.3 KNN算法的若干問題187

4.4.4 KNN分類器的特徵188

4.4.5 KNN算法在SPSS中的套用 188

4.5 貝葉斯分析 191

4.5.1 貝葉斯定理191

4.5.2 樸素貝葉斯分類192

4.5.3 貝葉斯網路195

4.6 神經網路 199

4.6.1 感知器200

4.6.2 多重人工神經網路201

4.6.3 人工神經網路的特點203

4.7 支持向量機 204

第6章關聯分析 245

6.1 關聯分析概述 246

6.2 關聯分析的評估指標 247

6.2.1 支持度247

6.2.2 置信度248

6.2.3 算法複雜度248

6.3 Apriori 算法 249

6.3.1 頻繁項集的定義與產生249

6.3.2 先驗原理251

6.3.3 基於支持度的計數與剪枝252

6.3.4 候選項集生成253

6.3.5 基於置信度的剪枝259

6.3.6 Apriori算法規則生成 259

6.4 FP-tree 算法 261

6.4.1 頻繁模式樹261

6.4.2 FP-tree算法頻繁項集的產生263

6.4.3 FP-tree算法規則生成263

6.4.4 算法性能對比與評估264

6.5 SPSS Modeler 關聯分析實例 265

參考文獻 269

第7章增強型數據挖掘算法 271

7.1 增強型數據挖掘算法概述 272

7.1.1 組合方法的優勢272

7.1.2 構建組合分類器的方法272

7.2 隨機森林 273

7.2.1 隨機森林的原理273

7.2.2 隨機森林的優缺點276

7.2.3 隨機森林的泛化誤差276

7.2.4 輸入特徵的選擇方法277

7.3 Bagging 算法 277

8.4.4 多元線性回歸建模350

8.4.5 制定層次化、個性化精準行銷方案351

8.4.6 落地效果評估與模型調優352

8.5 客戶保有 353

8.5.1 總結客戶流失的歷史規律354

8.5.2 細分潛在流失客戶群體357

8.5.3 客戶保有效益建模與最優決策359

8.5.4 落地效果評估361

8.6 投訴預警 363

8.6.1 客戶投訴現象分析363

8.6.2 挖掘潛在客戶群體366

8.6.3 制定個性化關懷方案368

8.7 網路質量柵格化呈現 368

8.7.1 柵格化呈現的基本原理369

8.7.2 覆蓋柵格化370

8.7.3 基於流量聚簇的網路最佳化策略372

8.8 無線室內定位 376

8.8.1 傳統室內定位方法376

8.8.2 基於Wi-Fi 信號的指紋定位算法 378

8.8.3 基於數據挖掘算法的改進定位方法379

參考文獻 383

第9章面向未來大數據的數據挖掘與機器學習發展趨勢 385

9.1 大數據時代數據挖掘與機器學習面臨的新挑戰 386

9.2 IEEE ICDM 會議數據挖掘與機器學習的最新研究進展 395

9.3 “計算機奧運會”——Sort Benchmark 400

參考文獻 402

相關詞條

熱門詞條

聯絡我們