數據分析技術(第2版) 使用SQL和Excel工具

《數據分析技術(第2版) 使用SQL和Excel工具》是2017年清華大學出版社出版的圖書,作者是[美]Gordon S. Linoff。

基本信息

作者:[美]Gordon S. Linoff 著 陶佰明 譯
定價:98元
印次:1-1
ISBN:9787302461395
出版日期:2017.03.01
印刷日期:2017.02.16圖書目錄

內容簡介

SQL是數據查詢的基本語言,Excel是數據分析和展示的最常見工具。兩者結合,可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要複雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。

這是一本實用指南,作者GordonS.Linoff是數據挖掘領域的權威專家。書中介紹了如何使用SQL和Excel來設計並完成複雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋了對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹了業務經理和數據分析人員所需掌握的最新信息。

本書首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後,本書介紹了核心分析技術。本書內容逐步從基礎查詢擴展到複雜的套用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋了業務環境、技術方法以及在所熟悉工具中的具體實現。

隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖表中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(線性回歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含累積增量圖表和ROC圖表、使用SQL的最佳實踐、提高查詢性能的方法等。

圖書目錄

第1章 數據挖掘者眼中的SQL 1

1.1 資料庫、SQL和大數據 2

1.1.1 什麼是大數據? 2

1.1.2 關係型資料庫 3

1.1.3 Hadoop和Hive 3

1.1.4 NoSQL和其他類型的資料庫 3

1.1.5 SQL 4

1.2 繪製數據結構 4

1.2.1 什麼是數據模型? 5

1.2.2 什麼是表? 5

1.2.3 什麼是實體-關係圖表? 8

1.2.4 郵政編碼表 9

1.2.5 訂閱數據集 10

1.2.6 訂單數據集 11

1.2.7 關於命名的提示 12

1.3 使用數據流描述數據分析 12

1.3.1 什麼是數據流? 13

1.3.2 數據流、SQL和關係代數 16

1.4 SQL查詢 16

1.4.1 做什麼,而不是怎么去做 16

1.4.2 SELECT語句 17

1.4.3 一個基礎的SQL查詢 17

1.4.4 一個基本的SQL求和查詢 19

1.4.5 聯接表的意義 20

1.4.6 SQL的其他重要功能 26

1.5 子查詢和公用表表達式 29

1.5.1 用於命名變數的子查詢 29

1.5.2 處理統計信息的子查詢 32

1.5.3 子查詢和IN 33

1.5.4 用於UNION ALL的子查詢 37

1.6 小結 38

第2章 表中有什麼?開始數據探索 39

2.1 什麼是數據探索? 40

2.2 Excel中的繪圖 40

2.2.1 基礎圖表:柱形圖 41

2.2.2 單元格中的條形圖...

2.2.3柱形圖的有用變化形式47

2.2.4其他類型的圖表50

2.3迷你圖53

2.4列中包含的值55

2.4.1直方圖55

2.4.2計數的直方圖58

2.4.3計數的累積直方圖60

2.4.4數字值的直方圖(頻率)60

2.5探索更多的值——最小值、最大

值和模式64

2.5.1最小值和最大值64

2.5.2最常見的值(模式)65

2.6探索字元串值66

2.6.1長度的直方圖66

2.6.2起始或結尾包含空白字元

的字元串66

2.6.3處理大小寫問題67

2.6.4字元串中存儲的字元是

什麼?67

2.7探索兩個列中的值69

2.7.1每個州的平均銷售額

是多少?70

2.7.2在一個單獨的訂單中,產品重複

出現的頻率是多少?70

2.7.3哪個州的AmericanExpress

用戶最多?73

2.8由一個列的數據擴展到所有列

的數據匯總73

2.8.1針對單列的匯總74

2.8.2返回表中所有列的查詢76

2.8.3使用SQL生成匯總編碼76

2.9小結78

第3章不同之處是如何不同?79

3.1基本的統計學概念80

3.1.1虛擬假設80

3.1.2可信度和機率81

3.1.3常態分配82

3.2平均值的區別有多大?85

3.2.1方法85

3.2.2子集平均值的標準差85

3.2.3三個方法87

3.3對表做抽樣89

3.3.1隨機抽樣89

3.3.2可重複的隨機樣本90

3.3.3分層比例抽樣91

3.3.4平衡的樣本92

3.4計數的可能性93

3.4.1有多少男性成員?96

3.4.2有多少加利福尼亞人?98

3.4.3虛擬假設和可信度99

3.4.4有多少客戶仍然是活躍

客戶?100

3.4.5比率或數字?103

3.5機率和它們的統計104

3.5.1機率的標準差104

3.5.2機率的置信區間105

3.5.3機率的不同106

3.5.4保守的下限值107

3.6卡方檢驗107

3.6.1期望值108

3.6.2卡方計算108

3.6.3卡方分布109

3.6.4SQL中的卡方檢驗111

3.6.5州和產品之間的特殊關係112

3.7月份和支付類型與不同產品

類型的特殊關係114

3.7.1多維卡方114

3.7.2使用SQL查詢115

3.7.3結果115

3.8小結116

第4章發生的地點在何處?119

4.1緯度和經度120

4.1.1緯度和經度的定義120

4.1.2度數、分鐘和秒121

4.1.3兩個位置之間的距離122

4.1.4包含郵政編碼的圖片128

4.2人口統計131

4.2.1極端情況:最富有的和最貧

窮的人132

4.2.2分別在使用訂單和不使用訂

單的情況下比較郵政編碼137

4.3地理等級142

4.3.1州中最富有的郵政編碼142

4.3.2州中擁有最多訂單的郵政

編碼143

4.3.3地理數據中有趣的層級

結構145

4.3.4計算郡的財富148

4.3.5財富值的分布150

4.3.6在郡中,哪個郵政編碼是相對

最富有的?151

4.3.7擁有最高的相對訂單占有

份額的郡152

4.4在Excel中繪製地圖155

4.4.1為什麼繪製地圖?155

4.4.2不能繪圖156

4.4.3網路地圖156

4.4.4郵政編碼散點圖之上的州

邊界157

4.5小結159

第5章關於時間161

5.1資料庫中的日期和時間162

5.2開始調研日期166

5.2.1確認日期中沒有時間166

5.2.2根據日期比較計數167

5.2.3訂單數和訂單大小172

5.2.4星期175

5.3兩個日期之間有多長?178

5.3.1以天為單位的持續時間178

5.3.2以星期為單位的持續時間180

5.3.3以月為單位的持續時間180

5.3.4有多少個星期一?181

5.3.5下一個周年紀念日(或生日)

是什麼時候?184

5.4跨年比較188

5.4.1以天為單位比較188

5.4.2以星期為單位比較189

5.4.3以月為單位比較190

5.5以天計算活躍客戶數量196

5.5.1某天的活躍客戶數量196

5.5.2每天的活躍客戶數量196

5.5.3有多少不同類型的客戶?198

5.5.4不同任期時段的客戶數量198

5.5.5隻使用SQL計算活躍客戶201

5.6Excel中的簡單圖表動畫203

5.6.1從訂單生成日期到運貨

日期203

5.6.2訂單延時在每年中的變化205

5.7小結208

第6章客戶的持續時間有多久?使用

生存分析理解客戶和他們的

價值209

6.1生存分析210

6.1.1平均壽命211

6.1.2醫學研究212

6.1.3關於風險率的示例212

6.2風險計算213

6.2.1數據調研214

6.2.2風險率216

6.2.3客戶可視化:時間與任期217

6.2.4截尾219

6.3生存率和保留率220

6.3.1生存率的點的估計220

6.3.2計算任意任期的生存率221

6.3.3在SQL中計算生存率222

6.3.4簡單的客戶保留率計算225

6.3.5保留率和生存率的區別226

6.3.6風險率和生存率的簡單

示例227

6.4對比不同的客戶分組230

6.4.1市場總結230

6.4.2市場分層231

6.4.3生存率比例234

6.4.4條件生存率234

6.5隨時間變化的生存率236

6.5.1特定風險率隨時間的變化236

6.5.2按照起始年份分類的客戶

生存率238

6.5.3之前的生存率什麼樣?239

6.6由生存率衍生出來的重要

指標241

6.6.1估算生存點241

6.6.2客戶任期的中間值242

6.6.3客戶生命周期的中間值242

6.6.4風險率的置信度243

6.7使用生存率計算客戶價值245

6.7.1估算收入246

6.7.2對個體的未來收入的估算247

6.7.3當前客戶分組的收入估算249

6.7.4所有客戶未來收入的估算251

6.8預測253

6.8.1對已有客戶的預測254

6.8.2對新開始者的預測258

6.9小結259

第7章影響生存率的因素:客戶

任期261

7.1哪些因素是重要的,何時

重要?262

7.1.1方法說明262

7.1.2使用平均值比較數字因素264

7.1.3風險比例268

7.2左截斷271

7.2.1認識左截斷271

7.2.2左截斷的影響273

7.2.3如何從理論上解決左截斷

問題274

7.2.4估算一個任期的風險率275

7.2.5估算所有任期的風險率276

7.2.6在SQL中計算277

7.3時間窗278

7.3.1一個商業問題278

7.3.2時間窗=左截斷+右截尾278

7.4競爭風險283

7.4.1競爭風險的示例283

7.4.2競爭風險的“風險率”284

7.4.3競爭風險的“生存率”286

7.4.4隨著時間的變化,客戶身上

發生了什麼?287

7.5事件前後291

7.5.1三種情況291

7.5.2使用生存率預測來理解一次

性事件293

7.5.3比較前後風險率294

7.5.4基於對列的方法294

7.5.5基於對列的方法:完全佇列295

7.5.6事件影響的直接估計297

7.6小結301

第8章多次購買以及其他重複事件303

8.1標識客戶304

8.1.1誰是那個客戶?304

8.1.2其他客戶信息313

8.1.3每一年出現多少新客戶?316

8.2RFM分析325

8.2.1維度325

8.2.2計算RFM單元格329

8.2.3RFM的有用程度330

8.3隨著時間的變化,哪些家庭的

購買金額在增長?334

8.3.1最早值和最晚值的比較334

8.3.2第一年和最後一年的值的

比較341

8.3.3最佳擬合線的趨勢343

8.4距離下一次事件的時間344

8.4.1計算背後的想法344

8.4.2使用SQL計算下一次購買

日期345

8.4.3從下一次購買日期到時間至

事件的分析346

8.4.4時間到事件分析的分層347

8.5小結347

第9章購物車裡有什麼?購物車

分析349

9.1探索產品349

9.1.1產品的散點圖350

9.1.2產品組的運輸年份351

9.1.3訂單中的重複產品353

9.1.4單位數量的直方圖358

9.1.5在一個訂單中,哪個產品可能

出現多次購買的情況?359

9.1.6改變價格361

9.2產品和客戶價值362

9.2.1訂單大小的一致性362

9.2.2與一次性客戶關聯的產品365

9.2.3與最好的客戶相關的產品368

9.2.4剩餘價值370

9.3產品的地理分布372

9.3.1每一個州中最常見的產品372

9.3.2哪些產品廣受歡迎,哪些產品

只在本地受歡迎?373

9.4哪些客戶購買了指定產品?375

9.4.1哪些客戶擁有最受歡迎的

產品?375

9.4.2客戶擁有哪個產品?376

9.4.3哪些客戶有3個特定的

產品?381

9.4.4普遍的嵌套集合的查詢384

9.5小結385

第10章關聯規則387

10.1項集388

10.1.1兩個產品的組合388

10.1.2更常見的項集391

10.1.3家庭,而不是訂單396

10.2最簡單的關聯規則399

10.2.1關聯和規則400

10.2.2零項關聯規則400

10.2.3機率的分布情況401

10.2.4零項關聯告訴了我們

什麼?402

10.3單項關聯規則402

10.3.1單項關聯規則的價值402

10.3.2生成所有的單項規則404

10.3.3包含評估信息的單項

規則405

10.3.4基於產品組的單項規則406

10.4雙項關聯407

10.4.1計算雙項關聯408

10.4.2使用卡方找到最佳規則409

10.4.3異質相關413

10.5擴展關聯規則416

10.5.1多項關聯416

10.5.2一個查詢中的多項關聯418

10.5.3使用產品屬性的規則418

10.5.4左右兩側項集內容不同

的規則419

10.5.5之前和之後:有序關聯

規則419

10.6小結422

第11章SQL數據挖掘模型423

11.1定向數據挖掘介紹424

11.1.1定向模型424

11.1.2建模中的數據425

11.1.3建模套用示例427

11.1.4模型評估429

11.2相似性模型429

11.2.1模型是什麼?430

11.2.2最好的郵政編碼是

哪個?430

11.2.3基礎的相似性模型431

11.2.4使用Z分數計算相似性

模型433

11.2.5鄰近模型示例434

11.3最受歡迎產品的查找模型435

11.3.1最受歡迎的產品435

11.3.2計算最受歡迎的產品組436

11.3.3評估查找模型437

11.3.4使用調試查找模型做

預測437

11.3.5使用二元分類439

11.4用於訂單大小的查找模型440

11.4.1最基本的模型:無維度

模型440

11.4.2添加一個維度441

11.4.3添加額外的維度443

11.4.4檢查不穩定性443

11.4.5使用平均值圖表評估

模型444

11.5用於回響率的查找模型445

11.5.1將整體機率作為一個

模型445

11.5.2探索不同的維度446

11.5.3模型的精準度447

11.5.4ROC圖表和AUC450

11.5.5加入更多的維度453

11.6樸素貝葉斯模型(證據模型)455

11.6.1機率的一些概念455

11.6.2計算樸素貝葉斯模型457

11.6.3樸素貝葉斯模型:評分和

提升度463

11.6.4樸素貝葉斯模型和查找

模型的比較465

11.7小結466

第12章最佳擬合線:線性回歸

模型467

12.1最佳擬合線468

12.1.1任期和支付金額468

12.1.2最佳擬合線的屬性469

12.1.3小心數據473

12.1.4圖表中的趨勢線474

12.1.5使用LINEST()函式的

最佳擬合479

12.2使用R2衡量擬合程度483

12.2.1R2值483

12.2.2R2的局限性484

12.2.3R2的含義484

12.3直接計算最佳擬合線係數485

12.3.1計算係數485

12.3.2在SQL中計算最佳

擬合線486

12.3.3價格彈性487

12.4加權的線性回歸492

12.4.1在第一年停止的客戶492

12.4.2加權的最佳擬合493

12.4.3圖表中的加權最佳

擬合線494

12.4.4SQL中的加權最佳

擬合線495

12.4.5使用Solver的加權最佳

擬合線496

12.5多個輸入498

12.5.1Excel中的多維回歸498

12.5.2建立包含三個變數的

模型500

12.5.3使用Solver處理多維

回歸501

12.5.4逐個選擇輸入變數501

12.5.5SQL中的多維回歸502

12.6小結503

第13章為進一步分析數據創建客戶

簽名505

13.1什麼是客戶簽名?506

13.1.1什麼是客戶?506

13.1.2客戶簽名的源數據507

13.1.3使用客戶簽名510

13.2設計客戶簽名511

13.2.1調試和預測511

13.2.2欄位的角色511

13.2.3時間段512

13.3建立客戶簽名的操作515

13.3.1驅動表515

13.3.2查找數據518

13.3.3最初的交易520

13.3.4旋轉521

13.3.5總結528

13.4抽取特徵530

13.4.1地理位置信息530

13.4.2日期時間列531

13.4.3字元串中的模式532

13.5總結客戶行為534

13.5.1計算時間序列的斜率534

13.5.2周末消費者537

13.5.3下降的使用行為540

13.6小結541

第14章性能問題:高效使用SQL543

14.1查詢引擎和性能544

14.1.1用於理解性能的時間

複雜度544

14.1.2一個簡單的示例545

14.1.3與性能相關的思考547

14.1.4性能的含義和測量549

14.1.5性能提升入門549

14.2高效使用索引553

14.2.1什麼是索引?553

14.2.2索引的簡單示例557

14.2.3索引的限制560

14.2.4高效使用複合索引562

14.3何時使用OR是低效的?566

14.3.1有時UNIONALL比OR

更好566

14.3.2有時LEFTOUTERJOIN比

OR更高效567

14.3.3有時多個條件表達式

更好568

14.4贊成和反對:表達一件事情的

不同方法569

14.4.1在Orders表中,哪些州

沒有被識別?569

14.4.2一個關於GROUPBY的

難題571

14.4.3小心COUNT(*)=0573

14.5視窗函式576

14.5.1視窗函式適用於什麼

地方?576

14.5.2視窗函式的靈活使用576

14.6小結582

附錄資料庫之間的等價結構583

作者介紹

Gordon S. Linoff從事資料庫工作數十年。在他的記憶中,他開始學習SQL時,還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司),編寫第一個側重於複雜查詢的高性能資料庫,用於支持決策分析。

此後,Gordon在1998年合作創建了Data Miners公司,這是一家致力於數據挖掘、分析和大數據的諮詢公司。在他的工作生涯中,數據仍然是永恆的主題——而且通常是存儲於關係型資料庫中的數據。他對SQL的理解和套用也變得越來越深刻和嫻熟。在2014年,他是Stack Overflow的最多貢獻者,Stack Overflow是行業內領先的技術問答網站。

Gordon編寫的另外幾本書也都是暢銷書:《數據挖掘技術(第3版)——套用於市場行銷、銷售與客戶關係管理》、Mastering Data Mining和Mining the Web——這些書籍都側重於數據挖掘和數據分析。

相關詞條

熱門詞條

聯絡我們