胸有成竹!數據分析的SPSS和SAS EG進階(第2版)

胸有成竹!數據分析的SPSS和SAS EG進階(第2版)

《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》是2016年5月電子工業出版社出版的圖書,作者是經管之家。

內容簡介

《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》共5 章,涉及使用SPSS Statistics 和SAS EG 做商業數據分析的主要分析方法。其中,第1章的主要內容為數據分析方法概述;第2 章至第4 章的主要內容為橫截面數據分析方法;第5 章的主要內容為時間序列分析方法。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的思考和練習題。

《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。

編輯推薦

“CDA數據分析師系列叢書”依照數據分析師規範化學習體系而定。滿足了CDA數據分析師等級認證學習的需要,也兼顧了大數據的熱點動態。

從策劃之初一直堅持以“讀者需求”為主線,結合企業實際案例和業務場景來談大數據思維和小數據分析。實現技術紮實,業務精通,策略接地氣!

內容提要

《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》共5 章,涉及使用SPSS Statistics 和SAS EG 做商業數據分析的主要分析方法。其中,第1章的主要內容為數據分析方法概述;第2 章至第4 章的主要內容為橫截面數據分析方法;第5 章的主要內容為時間序列分析方法。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的思考和練習題。

《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。

目錄

第1 章數據分析方法概述 1

1.1 數據分析概述.. 2

1.1.1 數據分析過程 2

1.1.2 數據分析的商業驅動 3

1.2 數據分析與挖掘方法分類介紹. 5

1.2.1 描述性——無監督的學習. 7

1.2.2 預測性——有監督的學習.. 10

1.3 數據分析的方法論. 12

1.3.1 數據挖掘的項目管理方法論:CRISP-DM 13

1.3.2 數據整理與建模的方法論:SEMMA .. 14

1.3.3 SAS EG 和SPSS 任務選單編排與SEMMA 之間的關係. 16

第2 章描述數據特徵.. 19

2.1 認識數據類型 20

2.2 單變數描述統計方法 21

2.2.1 分類變數的描述 21

2.2.2 連續變數的描述 22

2.3 創建頻數報表 35

2.4 生成匯總統計量.. 38

2.5 用匯總表任務生成匯總報表 41

2.6 繪製條形圖. 46

2.7 繪製地圖.. 53

2.8 使用SPSS 進行描述統計.. 55

2.8.1 頻率過程.. 56

2.8.2 描述過程.. 57

2.8.3 探索過程.. 58

2.8.4 P-P 圖與Q-Q 圖 58

2.9 使用SPSS 繪製統計圖形.. 60

2.9.1 作圖方法.. 60

2.9.2 餅圖、柱圖與條圖.. 64

2.9.3 線圖、高低圖和雙軸圖 70

2.9.4 散點圖 73

第3 章描述性數據分析/挖掘方法. 75

3.1 客戶細分方法介紹. 76

3.1.1 客戶細分的意義 76

3.1.2 根據客戶利潤貢獻進行劃分. 77

3.1.3 根據個人或公司的生命歷程進行劃分 78

3.1.4 根據客戶的產品偏好進行劃分 79

3.1.5 根據客戶交易/消費行為進行劃分. 80

3.1.6 根據客戶的多維行為屬性細分 81

3.1.7 展現客戶/產品結構的戰略細分.. 81

3.1.8 客戶細分:綜合運用. 82

3.2 連續變數間關係探索與變數約減. 82

3.2.1 多元統計基礎. 82

3.2.2 多元變數壓縮的思路. 87

3.2.3 主成分分析.. 89

3.2.4 因子分析. 103

3.2.5 對應分析. 112

3.2.6 最優尺度分析.. 119

3.2.7 多維尺度分析.. 124

3.3 聚類分析 133

3.3.1 基本邏輯. 134

3.3.2 系統聚類. 135

3.3.3 快速聚類. 146

3.3.4 兩步聚類. 155

第4 章預測性數據分析方法.. 161

4.1 假設檢驗概念. 162

4.1.1 統計推斷基本概念 164

4.1.2 變數分布的圖形探索.. 165

4.1.3 均值的置信區間. 167

4.1.4 假設檢驗基礎.. 168

4.1.5 T 檢驗. 169

4.2 構造對連續變數的預測模型. 174

4.2.1 方差分析(ANOVA) 174

4.2.2 線性回歸. 190

4.2.3 線性回歸的模型診斷.. 203

4.2.4 線性回歸的全流程 211

4.3 構造對二分類變數的預測模型 217

4.3.1 分類變數之間的相關性檢驗.. 217

4.3.2 邏輯回歸. 224

第5 章時間序列.. 240

5.1 時間序列的趨勢分解法 241

5.1.1 趨勢分解法簡介. 241

5.2.2 使用SAS EG 進行時間序列趨勢分解.. 242

5.2.3 使用SPSS 進行時間序列趨勢分解 244

5.2 平穩時間序列(ARMA)模型設定與識別. 245

5.2.1 平穩時間序列定義 245

5.2.2 平穩時間序列模型建模. 246

5.2.3 ARMA 的模型設定與識別.. 247

5.3 非平穩時間序列(ARIMA)模型設定與識別.. 250

5.4 SAS EG 時間序列建模步驟.. 252

5.5 SPSS 時間序列建模步驟. 258

5.5.1 SPSS 構造ARIMA 模型使用的任務選單.. 258

5.5.2 “定義日期”任務.. 260

5.5.3 “序列圖”任務 261

5.5.4 “自相關”任務 262

5.5.5 “創建模型”任務.. 263

5.5.6 “使用模型”任務.. 267

5.5.7 其他內容. 267

附錄A 數據說明.. 271

附錄B CDA 數據分析師致力於最好的數據分析人才建設.. 278

參考文獻 282

精彩節摘

數據分析過程

數據分析的目的是為業務發展答疑解惑。他描述了“過去發生了什麼”、“現在正在發生什麼”和“未來可能發生什麼”。根據分析的級別,分為常規報表、即席查詢、多維分析(又稱為鑽取或者OLAP)、警報、統計分析、預報(或者時間序列預測)、預測型建模(預測性(predictive)模型)和最佳化

(1)常規報表:常規報表廣為人知,它們通常按照一定的周期產生,對過去一段時間、一定範圍內所發生的事實進行記錄。它們對了解業務現狀非常有用,但是卻無法據此進行長期決策。標準報表主要用於回答“發生了什麼”和“什麼時候發生”這樣的問題。典型的標準報表包括月度或季度的財務報告。

(2)即席查詢:即席查詢往往通過對一系列數據(組合)的要求來“回答”一些常見的業務問題。即席報表主要用於解決類似“多少”、“頻次如何”和“在哪裡”這樣的問題。記錄每種產品每天銷量的定製報表就屬於即席報表。

(3)多維分析(又稱為鑽取或者OLAP 技術):OLAP 技術可以幫助了解更多細節信息,它可以幫助客戶自己操縱數據,找出諸如“多少”、“什麼”和“哪裡”之類問題的答案。OLAP 技術主要解決的是“問題出在哪裡”和“我如何找到問題的答案”這樣的問題。例如,對不同類型的客戶通話行為進行排序,找出他們的通話特徵就需要運用到OLAP 技術。

(4)警報:當問題發生時你可以通過告警及時獲知,並且可以在將來發生類似情況時引起注意。告警可以通過電子郵件、網路頻道、記分卡或者儀錶盤的形式給出。警報的過程需要確認的是引起注意的觸發點,以及一旦報警需要採取什麼行動。比如,銷售總監在銷售情況與銷售目標差距大時會收到告警信息。

(5)統計分析:我們可以運行一些更加複雜的分析。例如,方差分析和回歸分析等。我們可以

基於數據提出一些假設,然後再利用數據構建統計分析模型來“回答”這些假設是否成立。統計分析解決的問題主要是“行為/事件為什麼發生”和“我失去了怎樣的機會”。例如,銀行希望了解什麼樣的人,更可能對他們的房子進行轉按揭操作,那么他們就會用到統計分析的方法。

(6)預報(或者時間序列預測):它能夠幫助建立恰當的庫存,防止脫銷和積壓庫存帶來的機會流失或額外成本。時間序列預測主要解決的問題是“未來的趨勢會怎樣”和“如果這樣的趨勢繼續會怎樣”。例如,零售商可以根據銷售歷史,預測未來特定店鋪的特定產品的銷售量,而這樣的預測過程就是時間序列預測。

(7)預測型建模(預測性模型):如果你有1000 萬個客戶需要做一次直郵,誰最有可能回響?怎樣對現有客戶進行有效分群?哪些客戶最可能流失?預測性模型可以回答這類問題。預測性模型主要關心的是將來可能發生的情況,以及不同的預測情況對業務的影響。例如,商戶可以預測客戶可能會對哪種產品更有興趣,以及哪些客戶會對特定產品更有興趣。

(8)最佳化:最佳化往往帶來創新,它使企業可以在有限資源下實現利潤最大化。最佳化強調的是更好地利用各種資源的途徑。例如,在特定資源條件下,如何安排並使利潤最大化,就是最佳化需要解決的問題。

前4 類分析提供了關於以往和當前情況的描述,讓業務人員對歷史情況有一個深入的認識。但是這往往是不夠的,這就像在駕駛的時候只看兩邊和後視鏡,而擋住前面的玻璃,對前面發生的情況一無所知。第5 類到第7 類分析提供了向前看的途徑,可以預測未來發展的情況,及早發現問題,做到提前準備。而最後一類分析是在掌握了未來發展狀況之後,對業務進行最佳化,制訂最優的決策方案。

從上面介紹中可以看到,數據分析是和業務緊密聯繫在一起的,其目的就是滿足商業決策的需求。這種決策是以事實和數據分析的結果為基礎,結合經驗和行業的洞察作出決策。在解讀和判斷數據模型時,需要融入對業務的理解、融入基於經驗的靈感,很多時候是無法用單純的公式或規則來替代人的智慧和藝術靈感的。因此,數據分析是技術與藝術的結合。如果可以量化分析某些問題,那么就去分析,但別忘記加入你的經驗、知識和理性的推斷。

作者簡介

經管之家:原人大經濟論壇,於2003年成立,致力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內最大的經濟、管理、金融、統計類的線上教育和諮詢網站,也是國內最活躍和最具影響力的經管類網路社區。

經管之家從2006年起在國內最早開展數據分析培訓,累計培訓學員數萬人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,致力於為社會各界數據分析愛好者提供最優質、最科學、最系統的數據分析教育。截至2016年3月已成功舉辦40多期系統培訓,培訓學員達3千餘名;CDA認證考試已成功舉辦三屆,報考人數上千人;中國數據分析師俱樂部(CDA CLUB),每周線下免費沙龍活動,已舉力40多期,累積會員2千餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2千餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人才產業起到了巨大的推動作用。

常國珍,北京大學商學博士,法學碩士。曾就職於亞信科技BOC部門、方正國際金融事業部、德勤管理諮詢信息技術系統諮詢部。SAS公司資深講師,Oracle大數據講師,多家金融信息部門和金融高科技公司數據挖掘技術顧問。從事徵信數據集市與信用風險建模、客戶價值提升等數據挖掘項目。擅長基於個體行為分析的價值發現和信用建模。研究方向為宏微觀接合研究,興趣點在於巨觀環境變化對微觀主體行為的經濟後果分析及價值投資。

趙仁乾,北京郵電大學管理科學與工程碩士,現就職於北京電信規劃設計院,從事移動、聯通集團及各省分公司市場、業務、財務規劃,經濟評價及運營諮詢。重點研究方向包括離網用戶挖掘、市場區隔與精準行銷、行動網路價值區域分析、潛在價值客戶挖掘等。

曾珂,華中師範大學管理科學與工程碩士,現就職於經管之家CDA數據分析研究院,從事網際網路、電子商務方向數據分析與數據挖掘的研究,CDA數據分析師的教學工作,研究方向為網路文本挖掘、電商市場區隔與客戶細分、潛在價值客戶挖掘、網際網路大數據挖掘等。

前言

感謝您選擇“CDA 數據分析師”LevelⅠ學習系列叢書”之《胸有成竹!數據分析的SPSS 和SASEG 進階(第2 版)》。

該叢書按照數據分析師規範化學習體系而定,對於一名初學者,應該先掌握必要的機率、統計理論基礎,包括描述性分析、推斷性分析、參數估計、假設檢驗、方差分析、回歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎(第2 版)》中進行了專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等系列數據處理技術,這在《如虎添翼!數據處理的SPSS 和SAS EG 實現(第2 版)》中利用統計軟體和編程技術進行了操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得出結果,結果檢驗,繪製圖表並解讀數據,這在《胸有成竹!數據分析的SPSS 和SAS EG 進階(第2 版)》中進行了詳細的講解和操作分析。

CDA 數據分析師叢書整體風格是“理論>技術>套用”的一個學習過程,最終目的在於商業業務套用、職場數據分析,為欲從事於數據分析領域的各界人士提供了一個規範化數據分析師的學習體系。

讀者對象

本書是一本面向商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也儘量避免涉及過多的數學內容,和高等數學相關的內容只線上形回歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者只需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件和與商業數據分析主題的匹配。實踐教學中,發現業務經驗豐富和有較好商業模式理解的學員,在學習數據分析有更好的效果,這主要原因可能是因為這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單的模仿和套用數學公式。

本書以SPSS Statistics(以下簡稱SPSS) 和SAS Enterprise Guide(以下簡稱SAS EG)為演示軟體,但是操作方法可以方便的轉換為其他統計軟體,同時也是學習SAS 編程的捷徑。

工具介紹

SPSS 作為一個入門級數據分析軟體,是每個從業者必會的。其可視化界面可以很好的展現數據分析的流程。但是SPSS 的功能畢竟有限,尤其在數據清洗和整理方面更是捉襟見肘,因此需要和SAS EG 結合使用。SAS EG 是一個以項目為導向的Windows 套用軟體,它被用於實現對SAS 系統大多數分析能力的快速訪問。它通常會被統計專家、業務分析員以及 SAS 程式設計師使用。利用SAS多平台的強大能力,SAS EG 能夠使用戶訪問本地或SAS 伺服器上的數據、管理數據、編寫基本報表和匯總,做基本和複雜的數據分析,運用最高質量的SAS 圖形能力,最後將結果輸出或傳送到SAS伺服器或其他基於伺服器或Windows 的套用中。在SAS EG 中進行的工作也可以容易地被其他的EG使用者分享。通過生成SAS 代碼,大多數在SAS EG 中進行的工作也可以被EG 外部的SAS 使用者共享。

SAS EG 面向企業中數據輕度使用客戶,它的同類產品是SPSS。而與R、Stata 和Eviews 等科研教學類軟體有明顯不同。SAS EG 基本繼承了SAS Base 的所有功能,可以方便地調用其他模組的程式。可以說在商業數據分析領域,SAS EG 是SAS Base 的升級換代產品。SAS EG 和SPSS 類似,都是可以直接使用滑鼠點擊操作的,這降低了使用人員的入門難度,而且記錄腳本可以便於使用者學習SAS 語言。它的文檔管理功能是目前統計軟體中最強大的。其中的流程圖使單次分析過程一目了然,這與SPSS 等有明顯差別。SPSS 較難記錄分析過程,而SAS EG 可以將分析過程記錄下來,便於使用者反覆使用和組織內部共享分析文檔。在統計方法方面,SAS EG 選單中實現的統計方法少而精煉,滿足90%以上的商業分析需求,而且其拓展性強大,可以調用SAS 其他模組的過程,可以實現SPSS 無法很好實現的時間序列和面板數據分析。在和其他軟體銜接方面,SAS EG 以SAS Base為基礎,而SAS Base 在某些公司作為ETL 工具,可見SAS 具有強大的數據管理功能,可以和企業內部資料庫做透明訪問。

目前各大金融機構、國有企業和著名外企,尤其是諮詢公司都在使用SAS 產品。SAS Base 是面向數據處理程式設計師的,入門難度較大,只在專門的數據分析部門使用。而SAS EG 的用戶多為業務部門的工作人員,入門難度較低。在公司內部培訓的過程中,發現公司數據分析人員和業務人員對學習SAS EG 有較大興趣,部門領導也傾向於讓員工多學習SAS EG 的課程。而且SAS 公司也逐步將其部分產品免費化,其中University-Edition 就是一個有益的嘗試,其操作方式和SAS EG 類似。相信在統計技能大眾化的今天,SAS EG 有著巨大的發展潛力。

當前R 和Python 等開源軟體方興未艾,但是這類軟體學習曲線緩慢,使很多初學者的熱情在進入數據分析的核心領域之前就已經消逝殆盡。真正商業數據分析的目的是為了業務的分析需求,構造穩健的數據挖掘模型。數據挖掘產品的質量是通過對分析流程的嚴格掌控而得以保障的。SAS EG產品正是針對分析流程設計的,這對於數據分析初學者大有裨益。而開源軟體在這方面基本上沒有支持,而要求其使用者具有豐富的實戰經驗。因此使用SAS EG 這個產品作為演示工具,無論將來讀者使用何種分析工具,都可以通過本書的學習獲得分析流程的經驗。

閱讀指南

本書包括5 章,涉及使用SPSS 和SAS EG 做數據分析的主要分析方法。其中,第1 章為數據分析方法概述,第2 章至第4 章為橫截面數據分析方法。第5 章為時間序列分析方法。每章都根據所涉及的知識點的不同,選取了實用的案例,並為讀者準備了相應的思考和練習題。

詳細的章節內容如下。

第1 章數據分析方法概述

數據分析的目的是使工作更有效率、資源分配更合理、對事物的發展脈絡更為清晰或是提高對未來預測的準確性。閱讀本章可以使讀者在具體接觸數據分析之前,了解整個數據分析的脈絡,明確將要學習的內容。

第2 章描述數據特徵

數據統計指標描述是數據分析的重點,對數據的直覺也是通過對數據的探索建立起來的。數據可視化則是將統計指標轉換成圖形和圖表。通過本章的學習,讀者可以掌握完成一份市場分析報告的基本技能。

第3 章描述性數據分析方法

該部分是上一章的自然延伸,是大數據背景之下描述類數據分析方法的主要手段。分別針對變數過多和觀測樣本過多這兩個問題,進行變數和觀測這兩個維度的信息壓縮。通過本章的學習,可以完成客戶畫像、因素分析、客戶感知圖等較高質量的分析報告。

第4 章預測性數據分析方法

傳統意義上的數據分析建模特指預測性數據分析。在完成本章的學習之後,對於橫截面數據分析方法就算結束了。通過本章的學習,可以構造精細的精準行銷、流失預警和信用評級等分類模型。

第5 章時間序列

本章主要介紹兩種單變數時間序列分析方法。分別是趨勢分解法和基於動態差分方程的ARIMA法。對於非統計學背景的讀者,只要學會分析軟體提供的圖表就可以掌握該分析方法,滿足一般的商業指標預測需要。

本書特點

本書作為市場上第一本使用SPSS 和SAS EG 面向商業數據分析的書籍,和其他統計軟體圖書有

很大的不同,文體結構新穎,案例貼近實際,講解深入透徹。主要表現在以下幾方面:

場景式設定

本書從實際電信、銀行等商業案例中進行精心歸納、提煉出各類數據分析的運用場景,方便讀者搜尋與實際工作相似的問題。

開創式結構

本書案例中的“解決方案”環節是對問題的思路解說,結合“操作方法”環節中的步驟讓人更容易理解。“原理分析”環節則主要解釋所使用代碼的工作原理或者詳細解釋思路。“知識擴展”環節包括與案例相關的知識點的補充,可拓展讀者的視野,同時也有利於理解案例本身的解決思路。

啟發式描述

本書注重培養讀者解決問題的思路,以最樸實的思維方式結合啟發式的描述,幫助讀者發現規律、總結規律和運用規律,從而啟發讀者快速找出問題的解決方法。

學習方法

俗話說打把勢全憑架勢,像不像,三分樣。只有對分析的流程熟悉了,才能實現從模仿到靈活運用的提升。在產品質量管理方面,對流程的掌控是成功的關鍵,在數據分析當中,流程同樣是重中之重。數據分析是一個先後銜接的過程,一個步驟的失誤會帶來完全錯誤的結果。一個分析的流程大致包括抽樣、數據清洗、數據轉換、建模和模型評估這幾個步驟。如果抽樣中的取數邏輯不正確,就有可能使因果關係倒置,得到完全相反的結論。數據轉換方法如果選擇不正確,模型就難以得到預期的結果。而且,數據分析是一個反覆試錯的過程,每一步都要求有詳細的記錄和操作說明,否則分析人員很可能迷失方向。

學習數據分析最好的方法就是動手做一遍,本書語言通俗但高度凝鍊,很少有公式,這會讓讀者產生麻痹大意的思想,如果不動手做一遍,很難體會到書中表述的思想。本書按照相關商業數據分析主題提供了相應的演練用數據,也同時給出了相關方面的參考資料,供學員學習。

者反饋,我們將儘快在社區中給出回復,且在本書再次印刷時修正。

再次感謝您的支持!

相關詞條

熱門詞條

聯絡我們