SPSS統計分析與數據挖掘

《SPSS統計分析與數據挖掘》是由謝龍漢、尚濤編寫，電子工業出版社出版的一本書籍。

基本信息

叢書名：工程設計與分析系列

I S B N ： 9787121152191

頁數： 516

內容簡介

本書基於SPSS 19.0編寫,結合大量的實例對SPSS各模組的統計分析功能及圖形功能等進行了詳細講解。每章均給出大量分析案例，具體內容為SPSS簡介、SPSS數據挖掘系統介紹、SPSS數據檔案管理、SPSS數據預處理、SPSS基本統計分析、多重反應分析、均值比較與檢驗、統計圖製作、參數檢驗、回歸分析、方差分析、相關分析、聚數分析、判別分析、因子分析、對應分析與結合分析、信度分析、生存分析、對數線性模型、時間序列分析、缺失值分析，以及SPSS在財務智慧型、數據預測、股市分析、社會經濟分析、金融數據分析等方面的數據挖掘套用。本書最大特點是拋棄了其他同類書籍中只介紹理論用法、缺乏案例分析的弊病，全書給出許多數據挖掘分析案例，為讀者展示SPSS在數據分析、信用風險管理、直銷分析、社會經濟分析等實際項目中的套用技術。

圖書特點

（1）實例豐富，經典實用。本書作者為某跨國金融分析公司分析員，具有豐富的統計分析、數據挖掘方面研究經驗。

（2）本書實例全部配有操作視頻，詳細的講解，此乃比同類SPSS圖書一大優點，幫助讀者提高學習效率和工作效率。

目錄

第1章 SPSS軟體概述 1

1.1 SPSS簡介 1

1.2 SPSS操作入門 2

1.2.1 軟體安裝、啟動及退出 3

1.2.2 操作環境 4

1.2.3 系統參數的設定 7

1.3 SPSS的幫助系統 15

第2章 SPSS數據挖掘系統 17

2.1 數據挖掘概述 17

2.1.1 數據挖掘的含義 17

2.1.2 數據挖掘與OLAP 18

2.1.3 數據挖掘和統計學 18

2.1.4 數據挖掘的目的 19

2.1.5 數據挖掘套用 19

2.1.6 數據挖掘流程 19

2.2 成功的數據挖掘 20

2.2.1 CRISP-DM方法論 21

2.2.2 選擇數據挖掘工具 25

2.2.3 SPSS數據挖掘 26

2.3 SPSS數據挖掘的過程 29

2.3.1 商業理解 29

2.3.2 數據理解 29

2.3.3 數據準備 29

2.3.4 數據模型 30

2.3.5 評估 30

2.3.6 部署 31

第3章數據檔案、變數與函式 33

3.1 SPSS的變數類型 33

3.1.1 數據的輸入 34

3.1.2 變數的編輯 35

3.2 數據檔案的打開和保存 37

3.2.1 打開SPSS數據檔案 37

3.2.2 打開其他格式的數據檔案 38

3.2.3 數據檔案保存 38

3.3 SPSS函式 39

3.3.1 算術函式 39

3.3.2 統計函式 40

3.3.3 邏輯函式 41

3.3.4 日期和時間函式 41

3.3.5 隨機變數函式 42

3.3.6 反分布函式 44

3.3.7 累計分布函式 45

3.3.8 缺失值函式 47

3.3.9 字元串函式 48

第4章數據預處理 50

4.1 數據檔案的整理 50

4.1.1 排序個案（Sort Case）過程 51

4.1.2 轉置（Transpose）過程 52

4.1.3 合併檔案（Merge File）過程 52

4.1.4 分類匯總（Aggregate）過程 54

4.1.5 拆分檔案（Split File）過程 56

4.1.6 選擇個案（Select Cases）

過程 57

4.1.7 加權個案（Weight Cases）

過程 58

4.2 數據變數的變換和計算 58

4.2.1 計算變數（Compute Variables）

過程 59

4.2.2 計數（Count）過程 60

4.2.3 重新編碼（Recode）過程 62

4.2.4 個案排秩（Rank Cases）

過程 64

4.2.5 自動重新編碼（Automatic

Recode）過程 65

第5章基本統計分析 67

5.1 基本概念 67

5.1.1 基本的統計概念 67

5.1.2 描述性統計分析 69

5.2 頻數分析 70

5.2.1 Frequencies過程的操作界面 70

5.2.2 實例分析 72

5.3 描述性統計分析過程 74

5.3.1 Descriptive過程的參數設定 74

5.3.2 實例分析 74

5.4 數據探索性分析過程 76

5.4.1 Explore過程的參數設定 76

5.4.2 實例分析 77

5.5 列聯表分析過程 80

5.5.1 Crosstabs過程的參數設定 80

5.5.2 實例分析 83

第6章參數檢驗 86

6.1 參數估計和假設檢驗概述 86

6.1.1 參數估計 86

6.1.2 假設檢驗 89

6.2 均值（Means）過程 94

6.2.1 SPSS的Means過程參數

設定 94

6.2.2 Means過程實例 95

6.3 單樣本t檢驗 96

6.3.1 One-Sample t Test過程的

參數設定 96

6.3.2 實例分析 97

6.4 獨立兩樣本t檢驗 99

6.4.1 Independent-Sample t Test

過程的參數設定 99

6.4.2 實例分析 101

6.5 配對兩樣本t檢驗 102

6.5.1 Paired-Sample t Test過程的

參數設定 102

6.5.2 實例分析 103

第7章基本圖形的繪製 105

7.1 統計圖概述 105

7.2 條形圖 106

7.3 線圖 110

7.4 面積圖 112

7.5 餅圖 114

7.5.1 SPSS設定 114

7.5.2 實例分析 114

7.6 高低圖 115

7.7 質量控制圖 118

7.8 箱圖 123

7.8.1 SPSS參數設定 123

7.8.2 實例分析 124

7.9 散點圖 125

7.9.1 SPSS參數設定 126

7.9.2 實例分析 127

7.10 直方圖 128

7.10.1 P-P圖和Q-Q圖 129

7.11 時間序列圖 130

7.11.1 SPSS參數設定 131

7.11.2 實例分析 134

第8章非參數檢驗 137

8.1 非參數檢驗概述 137

8.2 檢驗 138

8.2.1 檢驗的參數設定 139

8.2.2 檢驗實例分析 141

8.3 二項分布檢驗 143

8.3.1 二項分布檢驗的參數設定 143

8.3.2 實例分析 143

8.4 遊程檢驗 145

8.4.1 遊程檢驗的參數設定 146

8.4.2 實例分析 146

8.5 單樣本K-S檢驗 148

8.5.1 單樣本K-S檢驗的參數

設定 149

8.5.2 實例分析 149

8.6 兩獨立樣本分布位置檢驗 152

8.6.1 兩獨立樣本分布位置檢驗的

參數設定 152

8.6.2 實例分析 153

8.7 多個獨立樣本分布位置檢驗 154

8.7.1 SPSS參數設定 155

8.7.2 實例分析 155

8.8 兩相關樣本分布位置檢驗 157

8.8.1 SPSS參數設定 158

8.8.2 實例分析 158

8.9 多個配對樣本分布位置檢驗 160

8.9.1 SPSS參數設定 160

8.9.2 實例分析 161

第9章方差分析 163

9.1 方差分析的基本原理 163

9.1.1 自由度與平方和分解 164

9.1.2 F檢驗 166

9.1.3 多重比較 167

9.2 單因素方差分析 168

9.2.1 單因素方差分析步驟 169

9.2.2 判斷與結論 170

9.2.3 One-Way ANOVA過程的

參數設定 170

9.2.4 實例分析 173

9.3 多因素方差分析 174

9.3.1 只考慮主效應的多因素方差

分析 174

9.3.2 存在互動效應的多因素方差

分析 176

9.3.3 Univariate過程參數設定 178

9.3.4 實例分析 183

9.4 協方差分析 188

9.4.1 協方差分析概述 188

9.4.2 實例分析 189

第10章回歸分析 192

10.1 線性回歸 192

10.1.1 線性回歸模型 193

10.1.2 最小二乘估計 193

10.1.3 回歸方程的顯著性檢驗 194

10.1.4 預測問題 196

10.1.5 SPSS線性回歸分析設定 197

10.1.6 回歸分析模型的實例分析 201

10.2 非線性回歸 204

10.2.1 非線性回歸分析的基本

原理 204

10.2.2 非線性回歸參數設定 205

10.2.3 案例——銷售數量和廣告

投入的非線性回歸分析 208

10.3 Logistic回歸 210

10.3.1 Logistic回歸模型概述 210

10.3.2 Binary Logistic回歸模型

參數設定 212

10.3.3 案例——銀行貸款的信用

風險分析 214

第11章相關分析 219

11.1 相關分析概述 219

11.1.1 相關關係 219

11.1.2 相關圖形和相關係數 220

11.1.3 SPSS的相關分析功能

簡介 222

11.2 Bivariate過程 222

11.2.1 兩變數相關分析簡介 222

11.2.2 Bivariate過程的參數設定 224

11.2.3 案例——汽車銷售中各變數

之間的相關分析 225

11.3 Partial過程 228

11.3.1 Partial過程的參數設定 228

11.3.2 案例——醫療門診病人的

流動情況分析 229

11.4 Distances（距離）過程 231

11.4.1 距離分析參數設定 231

11.4.2 案例——全國各個省市自

治區直轄市的農民家庭收支

的分布研究 234

第12章聚類分析 236

12.1 聚類分析的原理 236

12.1.1 一般原理 237

12.1.2 聚類分析步驟 240

12.1.3 系統聚類方法 241

12.2 快速樣本聚類過程 244

12.2.1 快速聚類簡介 244

12.2.2 SPSS快速聚類的設定 244

12.2.3 案例——2006年中國主要

城市空氣品質的比較分析 246

12.3 分層聚類過程 250

12.3.1 分層聚類簡介 250

12.3.2 SPSS分層聚類設定 250

12.3.3 案例——中國經濟地理區域

的聚類分析 253

12.4 兩階段聚類分析 256

12.4.1 兩階段聚類簡介 256

12.4.2 SPSS兩階段聚類的設定 257

12.4.3 案例——兩階段聚類分析

套用於農村居民人均收入

與生活消費支出研究 259

第13章判別分析 265

13.1 判別分析的基本原理 265

13.1.1 判別分析簡介 265

13.1.2 判別分析的數學模型與

判別方法 266

13.2 一般判別分析 272

13.2.1 一般判別分析的參數設定 272

13.2.2 案例——上市公司類型的

比較分析 275

13.3 逐步判別分析 280

13.3.1 逐步判別的參數設定 280

13.3.2 案例——全國各個省市地區

的農民家庭收支的分布規律

研究 281

第14章因子分析 287

14.1 因子分析簡介 287

14.1.1 因子分析的基本原理 288

14.1.2 因子分析的基本步驟和

過程 290

14.2 SPSS軟體進行因子分析 290

14.2.1 SPSS因子分析的參數

設定 290

14.2.2 案例——汽車銷售的數據中

各變數的因子分析 294

第15章對應分析 299

15.1 對應分析的基本原理 299

15.2 簡單對應分析 301

15.2.1 Correspondence Analysis

過程 301

15.2.2 案例——簡單對應分析

實例 304

15.3 Optimal Scaling過程 307

15.3.1 Optimal Scaling過程的

SPSS參數設定 307

15.3.2 案例——最優尺度分析

實例 313

第16章可靠性和多維尺度分析 318

16.1 可靠性分析 318

16.1.1 可靠性分析的基本原理 318

16.1.2 可靠性分析的參數設定 320

16.1.3 案例——電視節目調查數據

可靠性分析 322

16.2 多維尺度分析 324

16.2.1 多維尺度分析簡介 324

16.2.2 ALSCAL過程的參數

設定 325

16.2.3 案例——多維尺度實例

分析 328

第17章生存分析 331

17.1 生存分析簡介 331

17.1.1 生存分析的基本概念 331

17.1.2 生存資料的特點 333

17.1.3 生存分析方法 333

17.1.4 SPSS中的生存分析過程 334

17.2 Life Tables過程 335

17.2.1 Life Tables過程的參數

設定 335

17.2.2 案例——電信公司客戶流失

分析 336

17.3 Kaplan-Meier分析 340

17.3.1 Kaplan-Meier分析的步驟 340

17.3.2 案例——新藥開發的數據

分析 342

17.4 Cox模型回歸分析 345

17.4.1 Cox回歸模型 345

17.4.2 Cox模型參數設定 347

17.4.3 案例——電信公司的客戶流失

的Cox回歸模型分析 351

第18章對數線性模型 357

18.1 對數線性模型概述 357

18.2 General過程 358

18.2.1 General過程的參數設定 358

18.2.2 實例分析 361

18.3 Logit過程 363

18.3.1 Logit過程的參數設定 363

18.3.2 實例分析 366

18.4 模型（Model）Selection過程 369

18.4.1 模型（Model）Selection的

參數設定 369

18.4.2 實例分析 371

第19章時間序列分析 374

19.1 時間序列概述 374

19.1.1 時間序列的組成部分 374

19.1.2 時間序列的數學模型 375

19.1.3 時間序列的分析步驟 377

19.1.4 SPSS時間序列分析功能 377

19.2 時間序列數據的預處理 384

19.2.1 缺失值替換 384

19.2.2 定義時間變數 385

19.2.3 時間序列的平穩化 385

19.3 指數平滑模型過程 386

19.3.1 指數平滑的基本原理 386

19.3.2 指數平滑模型的參數設定 389

19.3.3 案例——銷售數據預測分析 390

19.4 ARIMA模型 395

19.4.1 ARIMA模型的基本原理 395

19.4.2 ARIMA模型的參數設定 398

19.4.3 案例——上海證券交易所

綜合指數收益率模擬預測

分析 399

19.5 季節分解模型過程 403

19.5.1 季節分解模型的參數設定 403

19.5.2 案例——具有季節因素的

服裝銷售數據的預測分析 404

第20章缺失值分析 409

20.1 缺失值理論概述 409

20.1.1 數據缺失方式 410

20.1.2 缺失值處理方法 410

20.2 SPSS缺失值分析操作 414

20.2.1 缺失值分析的參數設定 414

20.2.2 案例——數據集中缺失值的

實例分析 418

第21章決策樹模型 424

21.1 決策樹模型概述 424

21.1.1 CHAID算法 426

21.1.2 Exhaustive CHAID算法 427

21.1.3 CART算法 427

21.1.4 QUEST算法 428

21.2 決策樹的參數設定 428

21.2.1 變數設定 428

21.2.2 類別（Categories）設定 429

21.2.3 輸出（Output）設定 430

21.2.4 驗證（Validation）設定 432

21.2.5 保存（Save）設定 433

21.2.6 條件（Criteria）設定 434

21.2.7 CHAID算法設定 435

21.2.8 CART算法設定 435

21.2.9 QUEST算法設定 436

21.2.10 修剪（Pruning）設定 436

21.2.11 替代變數（Surrogates）

設定 437

21.2.12 選項（Options）設定 437

21.2.13 誤分類成本設定 438

21.2.14 利潤（Profits）設定 438

21.2.15 先驗機率（Prior

Probabilities）設定 439

21.2.16 實例分析 440

21.2.17 模型建立 440

21.2.18 模型評估 442

第22章神經網路 449

22.1 神經網路概述 449

22.1.1 歷史及現狀 450

22.1.2 神經網路特點 451

22.1.3 神經元模型 452

22.1.4 神經網路模型 453

22.1.5 神經網路的學習規則 453

22.1.6 SPSS神經網路模型 454

22.2 SPSS神經網路模型的設定 456

22.2.1 多層感知器（MLP）的

設定 456

22.2.2 徑向基函式（RBF）的

設定 464

22.3 實例分析 466

22.3.1 參數設定 467

22.3.2 結果分析 469

第23章信用風險分析 475

23.1 信用風險概述 475

23.1.1 信用風險基本概念 475

23.1.2 信用風險度量方法 476

23.2 案例分析 479

23.1.3 SPSS中信用風險分析

模組 479

23.2.1 二元Logistic過程 479

23.2.2 決策樹（Tree）過程 484

23.2.3 Discriminant過程 490

第24章 SPSS在社會經濟綜合評價中

的套用 495

24.1 沿海省市經濟綜合指標的主成分

分析 495

24.2 中國城鎮居民消費結構的聚類

分析 499

24.3 我國內地可支配收入和消費性支出

之間的回歸分析 503

相關詞條

相關搜尋

熱門詞條

聯絡我們