用商業案例學R語言數據挖掘

用商業案例學R語言數據挖掘

《用商業案例學R語言數據挖掘》是2017年7月電子工業出版社出版的圖書,作者是常國珍、曾珂、朱江、經管之家。

內容簡介

商業智慧型時代已經全面到來,分析型人才的崗位數量在就業市場中呈現井噴式增長。無論是從事產品研發的工程師,還是從事產品推廣的市場人員、人力資源和財務會計人員,都需要掌握數據分析技術,否則很有可能被人工智慧替代。 本書包括 18 章,涉及使用 R 語言做數據分析和數據挖掘的主要分析方法。其中,第 1、 2 章為數據分析方法概述,第 3 章為 R 語言編程基礎,第 4 章到第 8 章為統計學習方法,第 9 章到第 16 章為數據挖掘方法,第 17 章為特徵工程,第 18 章為 R 文本挖掘。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的練習題。 本書作為 CDA 數據分析師系列叢書中《如虎添翼!數據處理的 SPSS 和 SAS EG 實現(第 2 版)》和《胸有成竹!數據分析的 SPSS 和 SAS EG 進階(第 2 版)》的姊妹篇,將前兩本書的內容進行整合併做了重大拓展,而且秉承了該系列叢書的特點:內容精練、重點突出、示例豐富、語言通俗。可以作為廣大從業人員自學商業數據分析的讀物,適合大中專院校師生學習和閱讀,同時也可以作為高等院校商科、社會科學及相關培訓機構的教材。

編輯推薦

本書適合人群:

本書是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據挖掘的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及,而且都輔以圖形做形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件都與商業數據分析的主題匹配。在教學實踐中,我們發現業務經驗豐富和有較好商業模式理解的學員,在學習數據挖掘時有更好的效果,主要原因可能是這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單地模仿和套用數學公式。

作者簡介

常國珍,北京大學會計學博士,中國大數據產業生態聯盟專家委員會專家委員。主要從事金融、電信行業客戶畫像,信用與操作風險識別與防範,客戶終生價值預測與價值提升等工作。

曾珂,華中師範大學管理科學工程碩士,現為車貸金融產品部產品經理,精通Python與R語言數據挖掘。曾經就職於華為、國家電網等企業。以金融信用與欺詐風險建模、文本分析、數據可視化等為主要研究方向。

朱江,挪威科技大學工學碩士,現為CDA數據分析研究院課程開發副總監,CDA數據挖掘競賽的評審。精通R與SAS語言數據挖掘,從事電商與網際網路數據分析的教學工作。研究方向為電商推薦系統開發、數據可視化、客戶特徵提取和客戶行為模式發現。

圖書目錄

第1章商業數據分析基礎

1.1 商業數據分析的本質

1.2 商業數據分析中心的建設

第 2 章 數據分析的武器庫

2.1 數據挖掘簡介

2.2 R 語言簡介

2.3 R 與 RStudio 的下載和安裝

2.4 在 RStudio 中安裝包

2.5 練習題

第 3 章 R 語言編程

3.1 R 的基本數據類型

3.2 R 的基本數據結構

3.3 R 的程式控制

3.4 R 的函式

3.5 R 的日期與時間數據類型

3.6 在 R 中讀寫數據

3.7 練習題

第 4 章 R 描述性統計分析與繪圖

4.1 描述性統計分析

4.2 製圖的步驟

4.3 R 基礎繪圖包

4.4 ggplot2 繪圖

4.5 練習題

第 5 章 數據整合和數據清洗

5.1 數據整合

5.2 R 中的高級數據整合

5.3 R 中的抽樣

5.4 R 的數據清洗 .

5.5 數據整合

第 6 章 統計推斷基礎

6.1 基本的統計學概念

6.3 雙樣本 t 檢驗

6.4 方差分析(分類變數和連續變數關係檢驗)

6.5 相關分析(兩連續變數關係檢驗)

6.6 卡方檢驗(兩分類變數關係檢驗)

6.7 練習題.

第 7 章 客戶價值預測:線性回歸模型與診斷

7.1 相關性分析

7.2 線性回歸

7.3 線性回歸診斷

7.4 正則化方法

7.5 練習題

第 8 章 Logistic 回歸構建初始信用評級

8.1 Logistic 回歸的相關關係分析

8.2 Logistic 回歸模型及實現

8.3 最大熵模型與極大似然法估計

8.4 模型評估

8.5 練習題

第 9 章 使用決策樹進行信用評級

9.1 決策樹建模思路

9.2 決策樹算法

9.3 在 R 中實現決策樹

9.4 組合算法(Ensemble Learning)

9.5 練習題

第 10 章 神經網路

10.1 神經元模型

10.2 人工神經網路模型

10.3 單層感知器

10.4 BP 神經網路

10.5 RBF 神經網路

10.6 神經網路設計與 R 代碼實現

10.7 練習題

第 11 章 分類器入門:最近鄰域與貝葉斯網路.

11.1 分類器的概念

11.2 KNN 算法

11.3 樸素貝葉斯

11.4 貝葉斯網路

11.5 練習題

第 12 章 高級分類器:支持向量機

12.1 線性可分與線性不可分

12.2 線性可分支持向量機

12.3 線性支持向量機

12.4 非線性支持向量機

12.5 R 中的支持向量機

12.6 練習題

第 13 章 連續變數的維度歸約

13.1 維度歸約方法概述

13.2 主成分分析

13.3 因子分析

13.4 奇異值分解

13.5 對應分析和多維尺度分析

13.6 練習題

第 14 章 聚類

14.1 聚類分析概述

14.2 聚類算法邏輯.

14.3 層次聚類.

14.4 k-means 聚類

14.5 基於密度的聚類.

14.6 聚類模型的評估

14.7 高斯混合模型(Gaussian Mixture Model)

14.8 客戶分群

14.9 練習題

第 15 章 關聯規則與推薦算法

15.1 長尾理論

15.2 關聯規則

15.3 序貫模型

15.4 推薦算法與推薦系統.

15.5 練習題.

第 16 章 時間序列建模

16.1 認識時間序列

16.2 簡單時間序列分析.

16.3 平穩時間序列分析 ARMA 模型

16.4 非平穩時間序列分析 ARIMA 模型

第 17 章 特徵工程( Feature Engineering)(博文視點官方網站下載)

17.1 特徵工程概述.

17.2 數據預處理(Data Preprocessing)

17.3 特徵構造(Feature Construction)

17.4 特徵抽取(Feature Extraction)

17.5 特徵選擇(Feature Selection)

第 18 章 R 文本挖掘(博文視點官方網站下載)

18.1 文本挖掘

18.2 文本清洗

18.3 中文分詞與文檔模型.

18.4 文本的特徵選擇及相關性度量

18.5 文本分類

18.6 主題模型

18.7 綜合案例.

附錄 A 數據說明(博文視點官方網站下載)

相關詞條

熱門詞條

聯絡我們