基本信息
作者:[美]Gordon S. Linoff 著 陶佰明 譯
定價:98元
印次:1-1
ISBN:9787302461395
出版日期:2017.03.01
印刷日期:2017.02.16圖書目錄
內容簡介
SQL是數據查詢的基本語言,Excel是數據分析和展示的最常見工具。兩者結合,可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要複雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
這是一本實用指南,作者GordonS.Linoff是數據挖掘領域的權威專家。書中介紹了如何使用SQL和Excel來設計並完成複雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋了對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹了業務經理和數據分析人員所需掌握的最新信息。
本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後,本書介紹了核心分析技術。本書內容逐步從基礎查詢擴展到複雜的套用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋了業務環境、技術方法以及在所熟悉工具中的具體實現。
隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖表中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(線性回歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含累積增量圖表和ROC圖表、使用SQL的最佳實踐、提高查詢性能的方法等。
圖書目錄
第1章 數據挖掘者眼中的SQL 1
1.1 資料庫、SQL和大數據 2
1.1.1 什麼是大數據? 2
1.1.2 關係型資料庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的資料庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型? 5
1.2.2 什麼是表? 5
1.2.3 什麼是實體-關係圖表? 8
1.2.4 郵政編碼表 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流? 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼,而不是怎么去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接表的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用表表達式 29
1.5.1 用於命名變數的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章 表中有什麼?開始數據探索 39
2.1 什麼是數據探索? 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖表:柱形圖 41
2.2.2 單元格中的條形圖...
2.2.3柱形圖的有用變化形式47
2.2.4其他類型的圖表50
2.3迷你圖53
2.4列中包含的值55
2.4.1直方圖55
2.4.2計數的直方圖58
2.4.3計數的累積直方圖60
2.4.4數字值的直方圖(頻率)60
2.5探索更多的值——最小值、最大
值和模式64
2.5.1最小值和最大值64
2.5.2最常見的值(模式)65
2.6探索字元串值66
2.6.1長度的直方圖66
2.6.2起始或結尾包含空白字元
的字元串66
2.6.3處理大小寫問題67
2.6.4字元串中存儲的字元是
什麼?67
2.7探索兩個列中的值69
2.7.1每個州的平均銷售額
是多少?70
2.7.2在一個單獨的訂單中,產品重複
出現的頻率是多少?70
2.7.3哪個州的AmericanExpress
用戶最多?73
2.8由一個列的數據擴展到所有列
的數據匯總73
2.8.1針對單列的匯總74
2.8.2返回表中所有列的查詢76
2.8.3使用SQL生成匯總編碼76
2.9小結78
第3章不同之處是如何不同?79
3.1基本的統計學概念80
3.1.1虛擬假設80
3.1.2可信度和機率81
3.1.3常態分配82
3.2平均值的區別有多大?85
3.2.1方法85
3.2.2子集平均值的標準差85
3.2.3三個方法87
3.3對表做抽樣89
3.3.1隨機抽樣89
3.3.2可重複的隨機樣本90
3.3.3分層比例抽樣91
3.3.4平衡的樣本92
3.4計數的可能性93
3.4.1有多少男性成員?96
3.4.2有多少加利福尼亞人?98
3.4.3虛擬假設和可信度99
3.4.4有多少客戶仍然是活躍
客戶?100
3.4.5比率或數字?103
3.5機率和它們的統計104
3.5.1機率的標準差104
3.5.2機率的置信區間105
3.5.3機率的不同106
3.5.4保守的下限值107
3.6卡方檢驗107
3.6.1期望值108
3.6.2卡方計算108
3.6.3卡方分布109
3.6.4SQL中的卡方檢驗111
3.6.5州和產品之間的特殊關係112
3.7月份和支付類型與不同產品
類型的特殊關係114
3.7.1多維卡方114
3.7.2使用SQL查詢115
3.7.3結果115
3.8小結116
第4章發生的地點在何處?119
4.1緯度和經度120
4.1.1緯度和經度的定義120
4.1.2度數、分鐘和秒121
4.1.3兩個位置之間的距離122
4.1.4包含郵政編碼的圖片128
4.2人口統計131
4.2.1極端情況:最富有的和最貧
窮的人132
4.2.2分別在使用訂單和不使用訂
單的情況下比較郵政編碼137
4.3地理等級142
4.3.1州中最富有的郵政編碼142
4.3.2州中擁有最多訂單的郵政
編碼143
4.3.3地理數據中有趣的層級
結構145
4.3.4計算郡的財富148
4.3.5財富值的分布150
4.3.6在郡中,哪個郵政編碼是相對
最富有的?151
4.3.7擁有最高的相對訂單占有
份額的郡152
4.4在Excel中繪製地圖155
4.4.1為什麼繪製地圖?155
4.4.2不能繪圖156
4.4.3網路地圖156
4.4.4郵政編碼散點圖之上的州
邊界157
4.5小結159
第5章關於時間161
5.1資料庫中的日期和時間162
5.2開始調研日期166
5.2.1確認日期中沒有時間166
5.2.2根據日期比較計數167
5.2.3訂單數和訂單大小172
5.2.4星期175
5.3兩個日期之間有多長?178
5.3.1以天為單位的持續時間178
5.3.2以星期為單位的持續時間180
5.3.3以月為單位的持續時間180
5.3.4有多少個星期一?181
5.3.5下一個周年紀念日(或生日)
是什麼時候?184
5.4跨年比較188
5.4.1以天為單位比較188
5.4.2以星期為單位比較189
5.4.3以月為單位比較190
5.5以天計算活躍客戶數量196
5.5.1某天的活躍客戶數量196
5.5.2每天的活躍客戶數量196
5.5.3有多少不同類型的客戶?198
5.5.4不同任期時段的客戶數量198
5.5.5隻使用SQL計算活躍客戶201
5.6Excel中的簡單圖表動畫203
5.6.1從訂單生成日期到運貨
日期203
5.6.2訂單延時在每年中的變化205
5.7小結208
第6章客戶的持續時間有多久?使用
生存分析理解客戶和他們的
價值209
6.1生存分析210
6.1.1平均壽命211
6.1.2醫學研究212
6.1.3關於風險率的示例212
6.2風險計算213
6.2.1數據調研214
6.2.2風險率216
6.2.3客戶可視化:時間與任期217
6.2.4截尾219
6.3生存率和保留率220
6.3.1生存率的點的估計220
6.3.2計算任意任期的生存率221
6.3.3在SQL中計算生存率222
6.3.4簡單的客戶保留率計算225
6.3.5保留率和生存率的區別226
6.3.6風險率和生存率的簡單
示例227
6.4對比不同的客戶分組230
6.4.1市場總結230
6.4.2市場分層231
6.4.3生存率比例234
6.4.4條件生存率234
6.5隨時間變化的生存率236
6.5.1特定風險率隨時間的變化236
6.5.2按照起始年份分類的客戶
生存率238
6.5.3之前的生存率什麼樣?239
6.6由生存率衍生出來的重要
指標241
6.6.1估算生存點241
6.6.2客戶任期的中間值242
6.6.3客戶生命周期的中間值242
6.6.4風險率的置信度243
6.7使用生存率計算客戶價值245
6.7.1估算收入246
6.7.2對個體的未來收入的估算247
6.7.3當前客戶分組的收入估算249
6.7.4所有客戶未來收入的估算251
6.8預測253
6.8.1對已有客戶的預測254
6.8.2對新開始者的預測258
6.9小結259
第7章影響生存率的因素:客戶
任期261
7.1哪些因素是重要的,何時
重要?262
7.1.1方法說明262
7.1.2使用平均值比較數字因素264
7.1.3風險比例268
7.2左截斷271
7.2.1認識左截斷271
7.2.2左截斷的影響273
7.2.3如何從理論上解決左截斷
問題274
7.2.4估算一個任期的風險率275
7.2.5估算所有任期的風險率276
7.2.6在SQL中計算277
7.3時間窗278
7.3.1一個商業問題278
7.3.2時間窗=左截斷+右截尾278
7.4競爭風險283
7.4.1競爭風險的示例283
7.4.2競爭風險的“風險率”284
7.4.3競爭風險的“生存率”286
7.4.4隨著時間的變化,客戶身上
發生了什麼?287
7.5事件前後291
7.5.1三種情況291
7.5.2使用生存率預測來理解一次
性事件293
7.5.3比較前後風險率294
7.5.4基於對列的方法294
7.5.5基於對列的方法:完全佇列295
7.5.6事件影響的直接估計297
7.6小結301
第8章多次購買以及其他重複事件303
8.1標識客戶304
8.1.1誰是那個客戶?304
8.1.2其他客戶信息313
8.1.3每一年出現多少新客戶?316
8.2RFM分析325
8.2.1維度325
8.2.2計算RFM單元格329
8.2.3RFM的有用程度330
8.3隨著時間的變化,哪些家庭的
購買金額在增長?334
8.3.1最早值和最晚值的比較334
8.3.2第一年和最後一年的值的
比較341
8.3.3最佳擬合線的趨勢343
8.4距離下一次事件的時間344
8.4.1計算背後的想法344
8.4.2使用SQL計算下一次購買
日期345
8.4.3從下一次購買日期到時間至
事件的分析346
8.4.4時間到事件分析的分層347
8.5小結347
第9章購物車裡有什麼?購物車
分析349
9.1探索產品349
9.1.1產品的散點圖350
9.1.2產品組的運輸年份351
9.1.3訂單中的重複產品353
9.1.4單位數量的直方圖358
9.1.5在一個訂單中,哪個產品可能
出現多次購買的情況?359
9.1.6改變價格361
9.2產品和客戶價值362
9.2.1訂單大小的一致性362
9.2.2與一次性客戶關聯的產品365
9.2.3與最好的客戶相關的產品368
9.2.4剩餘價值370
9.3產品的地理分布372
9.3.1每一個州中最常見的產品372
9.3.2哪些產品廣受歡迎,哪些產品
只在本地受歡迎?373
9.4哪些客戶購買了指定產品?375
9.4.1哪些客戶擁有最受歡迎的
產品?375
9.4.2客戶擁有哪個產品?376
9.4.3哪些客戶有3個特定的
產品?381
9.4.4普遍的嵌套集合的查詢384
9.5小結385
第10章關聯規則387
10.1項集388
10.1.1兩個產品的組合388
10.1.2更常見的項集391
10.1.3家庭,而不是訂單396
10.2最簡單的關聯規則399
10.2.1關聯和規則400
10.2.2零項關聯規則400
10.2.3機率的分布情況401
10.2.4零項關聯告訴了我們
什麼?402
10.3單項關聯規則402
10.3.1單項關聯規則的價值402
10.3.2生成所有的單項規則404
10.3.3包含評估信息的單項
規則405
10.3.4基於產品組的單項規則406
10.4雙項關聯407
10.4.1計算雙項關聯408
10.4.2使用卡方找到最佳規則409
10.4.3異質相關413
10.5擴展關聯規則416
10.5.1多項關聯416
10.5.2一個查詢中的多項關聯418
10.5.3使用產品屬性的規則418
10.5.4左右兩側項集內容不同
的規則419
10.5.5之前和之後:有序關聯
規則419
10.6小結422
第11章SQL數據挖掘模型423
11.1定向數據挖掘介紹424
11.1.1定向模型424
11.1.2建模中的數據425
11.1.3建模套用示例427
11.1.4模型評估429
11.2相似性模型429
11.2.1模型是什麼?430
11.2.2最好的郵政編碼是
哪個?430
11.2.3基礎的相似性模型431
11.2.4使用Z分數計算相似性
模型433
11.2.5鄰近模型示例434
11.3最受歡迎產品的查找模型435
11.3.1最受歡迎的產品435
11.3.2計算最受歡迎的產品組436
11.3.3評估查找模型437
11.3.4使用調試查找模型做
預測437
11.3.5使用二元分類439
11.4用於訂單大小的查找模型440
11.4.1最基本的模型:無維度
模型440
11.4.2添加一個維度441
11.4.3添加額外的維度443
11.4.4檢查不穩定性443
11.4.5使用平均值圖表評估
模型444
11.5用於回響率的查找模型445
11.5.1將整體機率作為一個
模型445
11.5.2探索不同的維度446
11.5.3模型的精準度447
11.5.4ROC圖表和AUC450
11.5.5加入更多的維度453
11.6樸素貝葉斯模型(證據模型)455
11.6.1機率的一些概念455
11.6.2計算樸素貝葉斯模型457
11.6.3樸素貝葉斯模型:評分和
提升度463
11.6.4樸素貝葉斯模型和查找
模型的比較465
11.7小結466
第12章最佳擬合線:線性回歸
模型467
12.1最佳擬合線468
12.1.1任期和支付金額468
12.1.2最佳擬合線的屬性469
12.1.3小心數據473
12.1.4圖表中的趨勢線474
12.1.5使用LINEST()函式的
最佳擬合479
12.2使用R2衡量擬合程度483
12.2.1R2值483
12.2.2R2的局限性484
12.2.3R2的含義484
12.3直接計算最佳擬合線係數485
12.3.1計算係數485
12.3.2在SQL中計算最佳
擬合線486
12.3.3價格彈性487
12.4加權的線性回歸492
12.4.1在第一年停止的客戶492
12.4.2加權的最佳擬合493
12.4.3圖表中的加權最佳
擬合線494
12.4.4SQL中的加權最佳
擬合線495
12.4.5使用Solver的加權最佳
擬合線496
12.5多個輸入498
12.5.1Excel中的多維回歸498
12.5.2建立包含三個變數的
模型500
12.5.3使用Solver處理多維
回歸501
12.5.4逐個選擇輸入變數501
12.5.5SQL中的多維回歸502
12.6小結503
第13章為進一步分析數據創建客戶
簽名505
13.1什麼是客戶簽名?506
13.1.1什麼是客戶?506
13.1.2客戶簽名的源數據507
13.1.3使用客戶簽名510
13.2設計客戶簽名511
13.2.1調試和預測511
13.2.2欄位的角色511
13.2.3時間段512
13.3建立客戶簽名的操作515
13.3.1驅動表515
13.3.2查找數據518
13.3.3最初的交易520
13.3.4旋轉521
13.3.5總結528
13.4抽取特徵530
13.4.1地理位置信息530
13.4.2日期時間列531
13.4.3字元串中的模式532
13.5總結客戶行為534
13.5.1計算時間序列的斜率534
13.5.2周末消費者537
13.5.3下降的使用行為540
13.6小結541
第14章性能問題:高效使用SQL543
14.1查詢引擎和性能544
14.1.1用於理解性能的時間
複雜度544
14.1.2一個簡單的示例545
14.1.3與性能相關的思考547
14.1.4性能的含義和測量549
14.1.5性能提升入門549
14.2高效使用索引553
14.2.1什麼是索引?553
14.2.2索引的簡單示例557
14.2.3索引的限制560
14.2.4高效使用複合索引562
14.3何時使用OR是低效的?566
14.3.1有時UNIONALL比OR
更好566
14.3.2有時LEFTOUTERJOIN比
OR更高效567
14.3.3有時多個條件表達式
更好568
14.4贊成和反對:表達一件事情的
不同方法569
14.4.1在Orders表中,哪些州
沒有被識別?569
14.4.2一個關於GROUPBY的
難題571
14.4.3小心COUNT(*)=0573
14.5視窗函式576
14.5.1視窗函式適用於什麼
地方?576
14.5.2視窗函式的靈活使用576
14.6小結582
附錄資料庫之間的等價結構583
作者介紹
Gordon S. Linoff從事資料庫工作數十年。在他的記憶中,他開始學習SQL時,還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司),編寫第一個側重於複雜查詢的高性能資料庫,用於支持決策分析。
此後,Gordon在1998年合作創建了Data Miners公司,這是一家致力於數據挖掘、分析和大數據的諮詢公司。在他的工作生涯中,數據仍然是永恆的主題——而且通常是存儲於關係型資料庫中的數據。他對SQL的理解和套用也變得越來越深刻和嫻熟。在2014年,他是Stack Overflow的最多貢獻者,Stack Overflow是行業內領先的技術問答網站。
Gordon編寫的另外幾本書也都是暢銷書:《數據挖掘技術(第3版)——套用於市場行銷、銷售與客戶關係管理》、Mastering Data Mining和Mining the Web——這些書籍都側重於數據挖掘和數據分析。