胸有成竹!數據分析的SAS EG進階

胸有成竹!數據分析的SAS EG進階

《胸有成竹!數據分析的SAS EG進階》是2015年電子工業出版社出版的圖書,作者是人大經濟論壇。

內容簡介

《胸有成竹!數據分析的SAS EG進階》共5章,涉及使用SAS EG做數據分析的主要分析方法。其中,第1章為數據分析方法概述,第2章至第4章為橫截面數據分析方法。第5章為時間序列分析方法。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的思考和練習題。

《胸有成竹!數據分析的SAS EG進階》是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。

CDA數據分析師系列叢書

胸有成竹!數據分析的SAS EG進階(CDA數據分析師系列叢書,首套寫給專業數據分析師的叢書)

人大經濟論壇 主編

ISBN 978-7-121-25243-3

2015年2月出版

定價:49.00元

176頁

16開

編輯推薦

CDA數據分析師叢書按照數據分析師規範化學習體系而定,對於一名初學者,應該先掌握必要的機率、統計理論基礎,包括描述性分析,推斷性分析,參數估計,假設檢驗,方差分析,回歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎》中進行了專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等系列數據處理技術,這在《如虎添翼!數據處理的SAS EG實現》中利用SAS EG和編程技術進行了操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得出結果,結果檢驗,繪製圖表並解讀數據,這在《胸有成竹!數據分析的SAS EG進階》中進行了詳細的講解和操作分析。

CDA數據分析師叢書整體風格是“理論>技術>套用”的一個學習過程,最終目的在於商業業務套用、職場數據分析,為欲從事於數據分析領域的各界人士提供了一個規範化數據分析師的學習體系。

內容提要

《胸有成竹!數據分析的SAS EG進階》共5章,涉及使用SAS EG做數據分析的主要分析方法。其中,第1章為數據分析方法概述,第2章至第4章為橫截面數據分析方法。第5章為時間序列分析方法。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的思考和練習題。

《胸有成竹!數據分析的SAS EG進階》是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。

目錄

第1章 數據分析方法概述 1

1.1 數據分析概述 2

1.1.1 數據分析過程 2

1.1.2 數據分析的商業驅動 3

1.2 數據分析與挖掘方法分類介紹 5

1.2.1 描述性——無監督的學習 7

1.2.2 預測性——有監督的學習 10

1.3 數據分析的方法論 12

1.3.1 數據挖掘的項目管理方法論:CRISP-DM 13

1.3.2 數據整理與建模的方法論:SEMMA 14

1.3.3 SAS EG任務選單編排與SEMMA之間的關係 16

第2章 描述數據特徵 18

2.1 認識數據類型 19

2.2 單變數描述統計方法 20

2.2.1 分類變數的描述 21

2.2.2 連續變數的描述 21

2.3 創建頻數報表 31

2.4 生成匯總統計量 33

2.5 用匯總表任務生成匯總報表 35

2.6 繪製條形圖 37

2.7 繪製地圖 41

第3章 描述性數據分析/挖掘方法 45

3.1 客戶細分方法介紹 46

3.1.1 客戶細分的意義 46

3.1.2 根據客戶利潤貢獻進行劃分 47

3.1.3 根據個人或公司的生命歷程進行劃分 48

3.1.4 根據客戶的產品偏好進行劃分 49

3.1.5 根據客戶交易/消費行為進行劃分 50

3.1.6 根據客戶的多維行為屬性細分 51

3.1.7 展現客戶/產品結構的戰略細分 51

3.1.8 客戶細分:綜合運用 52

3.2 連續變數間關係探索與變數約減 52

3.2.1 多元統計基礎 52

3.2.2 多元變數壓縮的思路 56

3.2.3 主成分分析 58

3.2.4 因子分析 66

3.3 聚類分析 72

3.3.1 基本邏輯 74

3.3.2 系統聚類 74

3.3.3 快速聚類 81

第4章 預測性數據分析方法 87

4.1 構造對連續變數的預測模型 88

4.1.1 方差分析(ANOVA) 88

4.1.2 線性回歸 99

4.1.3 線性回歸的模型診斷 111

4.2 構造對二分類變數的預測模型 119

4.2.1 分類變數之間的相關性檢驗 119

4.2.2 邏輯回歸 123

4.3 數據挖掘流程及示例 135

第5章 時間序列 143

5.1 認識時間序列和趨勢分解法 144

5.2 平穩時間序列(ARMA)模型設定與識別 147

5.2.1 平穩時間序列定義 147

5.2.2 平穩時間序列模型建模 148

5.2.3 ARMA的模型設定與識別 148

5.3 非平穩時間序列(ARIMA)模型 152

5.4 時間序列建模步驟 153

附錄A 數據說明 160

附錄B CDA(註冊數據分析師)致力於最好的數據分析人才建設 167

參考文獻

作者簡介

人大經濟論壇:於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內最大的經濟、管理、金融、統計類的線上教育和諮詢網站,也是國內最活躍和最具影響力的經管類網路社區。

人大經濟論壇從2006年起在國內最早開展數據分析培訓,累計培訓學員數萬人,在大數據的趨勢背景下,作為Certified Data Analyst Institute(註冊數據分析師協會,簡稱CDA協會)的中國唯一授權中心,根據CDA協會的數據分析師LevelⅠ(業務分析師)、Level Ⅱ(建模分析師)、Level Ⅲ(數據專家)的等級標準,致力於培養正規化、科學化、專業化的數據分析師隊伍,為企事業單位輸送更多優秀數據分析人才。(Certified Data Analyst Institute,亦稱“註冊數據分析師協會”,成立於美國德拉瓦州,主要宗旨為匯聚國際先進的數據分析技術,建設國際性規範化數據分析師職業標準,推進數據分析師的行業發展及認證工作,目前標準行業認證為CDA數據分析師)

常國珍,北京大學光華管理學院會計學在讀博士生,北京大學人口研究所社會學碩士,河北聯合大學土木工程專業學士。德勤管理諮詢公司兼職諮詢顧問,SAS資深培訓講師。曾以數據挖掘工程師身份就職於亞信科技(中國)有限公司市場部。具有八年的數據挖掘實戰經驗,主要從事電信和銀行業數據挖掘工作。項目涉及客戶精準行銷、信用評估、欺詐偵測和流失預警等,尤其熟悉銀行個人客戶精準行銷的建模工作。

前言

感謝您選擇“CDA數據分析師”LevelⅠ學習系列叢書”之《胸有成竹!數據分析的SAS EG進階》。

該叢書按照數據分析師規範化學習體系而定,對於一名初學者,應該先掌握必要的機率、統計理論基礎,包括描述性分析、推斷性分析、參數估計、假設檢驗、方差分析、回歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎》中進行了專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等系列數據處理技術,這在《如虎添翼!數據處理的SAS EG實現》中利用SAS EG和編程技術進行了操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得出結果,結果檢驗,繪製圖表並解讀數據,這在《胸有成竹!數據分析的SAS EG進階》中進行了詳細的講解和操作分析。

CDA數據分析師叢書整體風格是“理論>技術>套用”的一個學習過程,最終目的在於商業業務套用、職場數據分析,為欲從事於數據分析領域的各界人士提供了一個規範化數據分析師的學習體系。

讀者對象

本書是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件和與商業數據分析主題的匹配。實踐教學中,發現業務經驗豐富和有較好商業模式理解的學員,在學習數據分析有更好的效果,這主要原因可能是因為這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單的模仿和套用數學公式。

本書以SAS Enterprise Guide(以下簡稱SAS EG)為演示軟體,但是操作方法可以自由的轉換到SPSS Statistics這類圖形化統計軟體,同時也是學習SAS編程的捷徑。

工具介紹

SAS EG是一個以項目為導向的Windows套用軟體,它被用於實現對SAS系統大多數分析能力的快速訪問。它通常會被統計專家、業務分析員以及 SAS程式設計師使用。利用SAS多平台的強大能力,SAS EG能夠使用戶訪問本地或SAS伺服器上的數據、管理數據、編寫基本報表和匯總,做基本和複雜的數據分析,運用最高質量的SAS圖形能力,最後將結果輸出或傳送到SAS伺服器或其他基於伺服器或Windows的套用中。在SAS EG中進行的工作也可以容易地被其他的EG使用者分享。通過生成SAS代碼,大多數在SAS EG中進行的工作也可以被EG外部的SAS使用者共享。

SAS EG面向企業中數據輕度使用客戶,它的同類產品是SPSS。而與R、Stata和Eviews等科研教學類軟體有明顯不同。SAS EG基本繼承了SAS Base的所有功能,可以方便地調用其他模組的程式。可以說在商業數據分析領域,SAS EG是SAS Base的升級換代產品。SAS EG和SPSS類似,都是可以直接使用滑鼠點擊操作的,這降低了使用人員的入門難度,而且記錄腳本可以便於使用者學習SAS語言。它的文檔管理功能是目前統計軟體中最強大的。其中的流程圖使單次分析過程一目了然,這與SPSS等有明顯差別。SPSS較難記錄分析過程,而SAS EG可以將分析過程記錄下來,便於使用者反覆使用和組織內部共享分析文檔。在統計方法方面,SAS EG的選單中實現的統計方法少而精煉,滿足90%以上的商業分析需求,而且其拓展性強大,可以調用SAS其他模組的過程,可以實現SPSS無法很好實現的時間序列和面板數據分析。在和其他軟體銜接方面,SAS EG以SAS Base為基礎,而SAS Base在某些公司作為ETL工具,可見SAS具有強大的數據管理功能,可以和企業內部資料庫做透明訪問。

目前各大金融機構、國有企業和著名外企,尤其是諮詢公司都在使用SAS產品。SAS Base是面向數據處理程式設計師的,入門難度較大,只在專門的數據分析部門使用。而SAS EG的用戶多為業務部門的工作人員,入門難度較低。在公司內部培訓的過程中,發現公司數據分析人員和業務人員對學習SAS EG有較大興趣,部門領導也傾向於讓員工多學習SAS EG的課程。而且SAS公司也逐步將其部分產品免費化,其中University-Edition就是一個有益的嘗試,其操作方式和SAS EG類似。相信在統計技能大眾化的今天,SAS EG有著巨大的發展潛力。

當前R和Python等開源軟體方興未艾,但是這類軟體學習曲線緩慢,使很多初學者的熱情在進入數據分析的核心領域之前就已經消逝殆盡。真正商業數據分析的目的是為了業務的分析需求,構造穩健的數據挖掘模型。數據挖掘產品的質量是通過對分析流程的嚴格掌控而得以保障的。SAS EG產品正是針對分析流程設計的,這對於數據分析初學者大有裨益。而開源軟體在這方面基本上沒有支持,而要求其使用者具有豐富的實戰經驗。因此使用SAS EG這個產品作為演示工具,無論將來讀者使用何種分析工具,都可以通過本書的學習獲得分析流程的經驗。

閱讀指南

本書包括5章,涉及使用SAS EG做數據分析的主要分析方法。其中,第1章為數據分析方法概述,第2章至第4章為橫截面數據分析方法。第5章為時間序列分析方法。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的思考和練習題。

詳細的章節內容如下。

第1章 數據分析方法概述

數據分析的目的是使工作更有效率、資源分配更合理、對事物的發展脈絡更為清晰或是提高對未來預測的準確性。閱讀本章可以使讀者在具體接觸數據分析之前,了解整個數據分析的脈絡,明確將要學習的內容。

第2章 描述數據特徵

數據統計指標描述是數據分析的重點,對數據的直覺也是通過對數據的探索建立起來的。數據可視化則是將統計指標轉換成圖形和圖表。通過本章的學習,讀者可以掌握完成一份市場分析報告的基本技能。

第3章 描述性數據分析方法

該部分是上一章的自然延伸,是大數據背景之下描述類數據分析方法的主要手段。分別針對變數過多和觀測樣本過多這兩個問題,進行變數和觀測這兩個維度的信息壓縮。通過本章的學習,可以完成客戶畫像、因素分析等較高質量的分析報告。

第4章 預測性數據分析方法

傳統意義上的數據分析建模特指預測性數據分析。在完整本章的學習之後,對於橫截面數據分析方法就算結束了。通過本章的學習,可以構造精細的精準行銷、流失預警和信用評級等分類模型。

第5章 時間序列

本章主要介紹兩種單變數時間序列分析方法。分別是趨勢分解法和基於動態差分方程的ARIMA法。對於非統計學背景的讀者,只要學會分析軟體提供的圖表就可以掌握該分析方法,滿足一般的商業指標預測需要。

為方便讀者學習,本書提供了書中實例的源檔案下載,請讀者進入人大經濟論壇,註冊後搜尋“CDA教材源檔案”關鍵字下載相應的源檔案。

本書特點

本書作為市場上第一本以SAS EG為統計工具的面向商業數據分析的書籍,和其他統計軟體圖書有很大的不同,文體結構新穎,案例貼近實際,講解深入透徹。主要表現在以下幾方面:

場景式設定

本書從實際電信、銀行等商業案例中進行精心歸納、提煉出各類數據分析的運用場景,方便讀者搜尋與實際工作相似的問題。

開創式結構

本書案例中的“解決方案”環節是對問題的思路解說,結合“操作方法”環節中的步驟讓人更容易理解。“原理分析”環節則主要解釋所使用代碼的工作原理或者詳細解釋思路。“知識擴展”環節包括與案例相關的知識點的補充,可拓展讀者的視野,同時也有利於理解案例本身的解決思路。

啟發式描述

本書注重培養讀者解決問題的思路,以最樸實的思維方式結合啟發式的描述,幫助讀者發現規律、總結規律和運用規律,從而啟發讀者快速找出問題的解決方法。

學習方法

俗話說打把勢全憑架勢,像不像,三分樣。只有對分析的流程熟悉了,才能實現從模仿到靈活運用的提升。在產品質量管理方面,對流程的掌控是成功的關鍵,在數據分析當中,流程同樣是重中之重。數據分析是一個先後銜接的過程,一個步驟的失誤會帶來完全錯誤的結果。一個分析的流程大致包括抽樣、數據清洗、數據轉換、建模和模型評估這幾個步驟。如果抽樣中的取數邏輯不正確,就有可能使因果關係倒置,得到完全相反的結論。數據轉換方法如果選擇不正確,模型就難以得到預期的結果。而且,數據分析是一個反覆試錯的過程,每一步都要求有詳細的記錄和操作說明,否則分析人員很可能迷失方向。

學習數據分析最好的方法就是動手做一遍,本書語言通俗但高度凝鍊,很少有公式,這會讓讀者產生麻痹大意的思想,如果不動手做一遍,很難體會到書中表述的思想。本書按照相關商業數據分析主題提供了相應的演練用數據,也同時給出了相關方面的參考資料,供學員學習。

致謝

本書由人大經濟論壇策劃,常國珍負責編寫和完成統稿。

叢書從策劃到出版,傾注了電子工業出版社計算機圖書分社張慧敏、石倩、官楊、張童等多位編輯的心血,特在此表示衷心的感謝!

為保證叢書的質量,使其更貼近讀者,我們組織了人大經濟論壇的多位版主和高級會員參與了本書的預讀工作,他們是楊同梅、田佳、孫華楓、原瑜芬、葉陣雨、鄭贇、李劍宇、江翊雪、陳鵬、劉莎莎、丁亞軍。感謝各位預讀員的辛勤、耐心與細緻,使得本叢書能以更加完善的面目與各位讀者見面,特別感謝覃智勇圓滿地組織了本次預讀工作和審校工作。

儘管作者們對書中的案例精益求精,但疏漏仍然在所難免,如果您發現書中的錯誤或某個案例有更好的解決方案,敬請登錄社區網站向作者反饋,我們將儘快在社區中給出回復,且在本書再次印刷時修正。

再次感謝您的支持!

相關詞條

熱門詞條

聯絡我們