內容簡介
商業智慧型時代已經全面到來,分析型人才的崗位數量在就業市場中呈現井噴式增長。無論是從事產品研發的工程師,還是從事產品推廣的市場人員、人力資源和財務會計人員,都需要掌握數據分析技術,否則很有可能被人工智慧替代。 本書包括 18 章,涉及使用 R 語言做數據分析和數據挖掘的主要分析方法。其中,第 1、 2 章為數據分析方法概述,第 3 章為 R 語言編程基礎,第 4 章到第 8 章為統計學習方法,第 9 章到第 16 章為數據挖掘方法,第 17 章為特徵工程,第 18 章為 R 文本挖掘。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的練習題。 本書作為 CDA 數據分析師系列叢書中《如虎添翼!數據處理的 SPSS 和 SAS EG 實現(第 2 版)》和《胸有成竹!數據分析的 SPSS 和 SAS EG 進階(第 2 版)》的姊妹篇,將前兩本書的內容進行整合併做了重大拓展,而且秉承了該系列叢書的特點:內容精練、重點突出、示例豐富、語言通俗。可以作為廣大從業人員自學商業數據分析的讀物,適合大中專院校師生學習和閱讀,同時也可以作為高等院校商科、社會科學及相關培訓機構的教材。
編輯推薦
本書適合人群:
本書是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據挖掘的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及,而且都輔以圖形做形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件都與商業數據分析的主題匹配。在教學實踐中,我們發現業務經驗豐富和有較好商業模式理解的學員,在學習數據挖掘時有更好的效果,主要原因可能是這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單地模仿和套用數學公式。
作者簡介
常國珍,北京大學會計學博士,中國大數據產業生態聯盟專家委員會專家委員。主要從事金融、電信行業客戶畫像,信用與操作風險識別與防範,客戶終生價值預測與價值提升等工作。
曾珂,華中師範大學管理科學工程碩士,現為車貸金融產品部產品經理,精通Python與R語言數據挖掘。曾經就職於華為、國家電網等企業。以金融信用與欺詐風險建模、文本分析、數據可視化等為主要研究方向。
朱江,挪威科技大學工學碩士,現為CDA數據分析研究院課程開發副總監,CDA數據挖掘競賽的評審。精通R與SAS語言數據挖掘,從事電商與網際網路數據分析的教學工作。研究方向為電商推薦系統開發、數據可視化、客戶特徵提取和客戶行為模式發現。
圖書目錄
第1章商業數據分析基礎
1.1 商業數據分析的本質
1.2 商業數據分析中心的建設
第 2 章 數據分析的武器庫
2.1 數據挖掘簡介
2.2 R 語言簡介
2.3 R 與 RStudio 的下載和安裝
2.4 在 RStudio 中安裝包
2.5 練習題
第 3 章 R 語言編程
3.1 R 的基本數據類型
3.2 R 的基本數據結構
3.3 R 的程式控制
3.4 R 的函式
3.5 R 的日期與時間數據類型
3.6 在 R 中讀寫數據
3.7 練習題
第 4 章 R 描述性統計分析與繪圖
4.1 描述性統計分析
4.2 製圖的步驟
4.3 R 基礎繪圖包
4.4 ggplot2 繪圖
4.5 練習題
第 5 章 數據整合和數據清洗
5.1 數據整合
5.2 R 中的高級數據整合
5.3 R 中的抽樣
5.4 R 的數據清洗 .
5.5 數據整合
第 6 章 統計推斷基礎
6.1 基本的統計學概念
6.3 雙樣本 t 檢驗
6.4 方差分析(分類變數和連續變數關係檢驗)
6.5 相關分析(兩連續變數關係檢驗)
6.6 卡方檢驗(兩分類變數關係檢驗)
6.7 練習題.
第 7 章 客戶價值預測:線性回歸模型與診斷
7.1 相關性分析
7.2 線性回歸
7.3 線性回歸診斷
7.4 正則化方法
7.5 練習題
第 8 章 Logistic 回歸構建初始信用評級
8.1 Logistic 回歸的相關關係分析
8.2 Logistic 回歸模型及實現
8.3 最大熵模型與極大似然法估計
8.4 模型評估
8.5 練習題
第 9 章 使用決策樹進行信用評級
9.1 決策樹建模思路
9.2 決策樹算法
9.3 在 R 中實現決策樹
9.4 組合算法(Ensemble Learning)
9.5 練習題
第 10 章 神經網路
10.1 神經元模型
10.2 人工神經網路模型
10.3 單層感知器
10.4 BP 神經網路
10.5 RBF 神經網路
10.6 神經網路設計與 R 代碼實現
10.7 練習題
第 11 章 分類器入門:最近鄰域與貝葉斯網路.
11.1 分類器的概念
11.2 KNN 算法
11.3 樸素貝葉斯
11.4 貝葉斯網路
11.5 練習題
第 12 章 高級分類器:支持向量機
12.1 線性可分與線性不可分
12.2 線性可分支持向量機
12.3 線性支持向量機
12.4 非線性支持向量機
12.5 R 中的支持向量機
12.6 練習題
第 13 章 連續變數的維度歸約
13.1 維度歸約方法概述
13.2 主成分分析
13.3 因子分析
13.4 奇異值分解
13.5 對應分析和多維尺度分析
13.6 練習題
第 14 章 聚類
14.1 聚類分析概述
14.2 聚類算法邏輯.
14.3 層次聚類.
14.4 k-means 聚類
14.5 基於密度的聚類.
14.6 聚類模型的評估
14.7 高斯混合模型(Gaussian Mixture Model)
14.8 客戶分群
14.9 練習題
第 15 章 關聯規則與推薦算法
15.1 長尾理論
15.2 關聯規則
15.3 序貫模型
15.4 推薦算法與推薦系統.
15.5 練習題.
第 16 章 時間序列建模
16.1 認識時間序列
16.2 簡單時間序列分析.
16.3 平穩時間序列分析 ARMA 模型
16.4 非平穩時間序列分析 ARIMA 模型
第 17 章 特徵工程( Feature Engineering)(博文視點官方網站下載)
17.1 特徵工程概述.
17.2 數據預處理(Data Preprocessing)
17.3 特徵構造(Feature Construction)
17.4 特徵抽取(Feature Extraction)
17.5 特徵選擇(Feature Selection)
第 18 章 R 文本挖掘(博文視點官方網站下載)
18.1 文本挖掘
18.2 文本清洗
18.3 中文分詞與文檔模型.
18.4 文本的特徵選擇及相關性度量
18.5 文本分類
18.6 主題模型
18.7 綜合案例.
附錄 A 數據說明(博文視點官方網站下載)