深入淺出數據分析

深入淺出數據分析

《深入淺出數據分析》是由電子工業出版社於2010年9月1日出版的圖書,該書作者是米爾頓(MichaelMilton)。

基本信息

內容簡介

《深入淺出數據分析》以類似“章回小說”的活潑形式,生動地向讀者展現優秀的數據分析人員應知應會的技術:數據分析基本步驟、實驗方法、最最佳化方法、假設檢驗方法、貝葉斯統計方法、主觀機率法、啟發法、直方圖法、回歸法、誤差處理、相關資料庫、數據整理技巧;正文以後,意猶未盡地以三篇附錄介紹數據分析十大要務、R工具及ToolPak工具,在充分展現《深入淺出數據分析》目標知識以外,為讀者搭建了走向下一步深入研究的橋樑。

《深入淺出數據分析》構思跌宕起伏,行文妙趣橫生,無論讀者是職場老手,還是業界新人;無論是字斟句酌,還是信手翻閱,都能跟著文字在職場中走上幾回,體味數據分析領域的樂趣與挑戰。

編輯推薦

《深入淺出數據分析》:我們生活在數據的天地里,你的工作就是淋漓盡致地發揮數據的作用。從哪裡起步?《深入淺出數據分析》將為你提供幫助:利用Excel或Openomce應用程式組織數據,在R應用程式中進行進一步整理,通過散點圖和直方圖找出有意義的模式,藉助啟發式算法作出結論,通過實驗和假定測試預見未來,再以清楚直觀的圖形展示分析結果。

無論你是研究新產品可行性的開發人員,還是評估廣告效果的市場行銷經理;無論你是向客戶呈報數據的行銷員,還是管理所有這些數據密集型部門及種種其他事務的個人企業家,《深入淺出數據分析》都能為你帶來全面的學習體驗,讓你將數據轉變為事業中最有用的工具。

我們認為,您的時間極其寶貴,不該浪費在冥思苦想各種新名詞、新概念上。《深入淺出數據分析》根據最新認知科學和學習理論,以形成多感官學習體驗為目的,順應大腦的工作方式,設計豐富的圖形圖表,你將不再被密密麻麻的文字催得昏昏欲睡。

媒體推薦

“是時候寫一本通俗易懂、內容全面的數據分析知識指南了,好讓概念的學習變得既簡單又有趣。藉助各種成熟的技術和免費的工具,數據分析將改變你思考問題和解決問題的方式。概念對理論有用,對實踐更有用。”

“《深入淺出數據分析》寫得漂亮,讀者可以學到分析現實問題的系統性方法。從賣咖啡到開橡皮玩具廠,再到要求老闆漲工資,此書告訴我們如何發現和解密數據在日常生活中的強大作用。從圖形圖表到Excel和R電腦程式,《深入淺出數據分析》想盡辦法讓各個層次的讀者都體會到系統化的數據分析對於制定大大小小的決策的強大作用。”

“被堆積如山的數據壓得喘不過氣了?讓Michael Milton做你的老師吧,在辦公工具里添上數據分析工具,搶占技術先機。《深入淺出數據分析》將告訴你如何將原始數據轉變成真的知識。別再抽籤算卦了——幾套軟體,一本《深入淺出數據分析》,就能讓你做出正確的決策。”

“Kathy和Bert合著的《深入淺出Java》(Head First Java)讓白紙黑字搖身一變,成為讀者領略過的最接近GUI的作品。作者以幽默、新潮的風格,讓學習Java成為不斷追問‘他們接下來打算怎么辦呢?’的愉快體驗。”

“《深入淺出Java》(Head First Java)引人入勝的風格會把一無所知的你變成鬥志昂揚的Java戰士,不僅如此,書中還收入了大量實用事例,這樣的實用事例在其他文章中只會留給恐怖的‘讀者練習’。此書睿智、幽默、新潮而實用——能在講授對象序列化和網路載入協定知識的同時有這樣的主張並堅持做到的書籍並不多見。

“此書明快,風趣,玩世不恭,引人入勝。細心讀——你可能確實能學到東西!”

“正合我們這些喜歡研究技術、生活隨意的程式設計師的口味,實用開發策略的稱手參考書——讓我的大腦盡情運轉,無須硬著頭皮應付迂腐乏味的專家說教。”

“有的書是用來買的,有的書是用來藏的,還有的書是用來擺在案頭的。感謝O’Reilly和Head First的員工,他們出了最高等級的書——深入淺出(Head First)系列,讓人愛不手、百讀不厭。《深入淺出SQL》(Head First SQL)是我最心愛的書,都快翻爛了。”

“本書的透徹、幽默和睿智令人欽佩,連編程門外漢也能藉助這樣的書想出辦法解決問題。”

“昨天收到書就開始讀……一讀就停不下來了,真是酷斃了。書很有趣,內容紮實,切中肯綮。印象太好了。”

“我讀過的最有趣、最高明的軟體設計圖書之一。”

“過去要犯著錯誤摸索前進的漫長學習過程,現在乾淨利落地濃縮在一本迷人的平裝書中。”

“每一章都凝聚著優雅的設計,每一條原理無不飽含實用價值與閃光智慧。”

“我《深入淺出HTML + CSS & XHTML》(Head First HTML with CSS & XHTML)。它以‘有趣’的模式,將全部知識傾囊相授。”

“通常,閱讀設計模式方面的書或文章時,我都得頭懸樑錐刺股才能保證注意力集中。這本書卻是個例外,聽起來可能有點怪,這本書讓學習設計模式變得盎然有趣。“當其他設計模式方面的書籍還在教讀者呀呀學語時,這本書卻已在踏浪高歌‘加油,兄弟!’”

“我實實在在愛這本書。不瞞大家說,我當著老婆的面親了這本書。”

作品目錄

總目錄

序言 I

1 數據分析引言:分解數據 1

2 實驗:檢驗你的理論 37

3 最最佳化:尋找最大值 75

4 數據圖形化:圖形讓你更精明 111

5 假設檢驗:假設並非如此 139

6 貝葉斯統計:穿越第一關 169

7 主觀機率:信念數位化 191

8 啟發法:憑人類的天性作分析 225

9 直方圖:數字的形狀 251

10 回歸:預測 279

11 誤差:合理誤差 315

12 相關資料庫:你能關聯嗎? 359

13 整理數據:井然有序 385

附錄A 尾聲:正文未及的十大要訣 417

附錄B 安裝R:啟動R! 427

附錄C 安裝Excel分析工具:ToolPak 431

細分目錄及各章引子

序言

大腦對待數據分析的態度。一邊是你努力想學會一些知識,一邊是你

的大腦忙著開小差。你的大腦在想:“最好把位置留給更重要的事,

像該離哪些野生動物遠點啊,像光著身子滑雪是不是個壞點子啊。”

既然如此,你該如何引誘你的大腦意識到,懂得數據分析是你安身立

命的根本?

誰適合閱讀本書? II

我們了解你在想什麼 III

元認知 V

征服大腦 VII

自述 VIII

技術顧問組 X

致謝 XI

1.分解數據數據分析引言

Acme化妝品公司需要你出力 2

執行長希望數據分析師幫他提高銷量 3

數據分析就是仔細推敲證據 4

確定問題 5

客戶將幫助你確定問題 6

Acme公司執行長給了你一些反饋 8

把問題和數據分解為更小的組塊 9

現在再來看看了解到的情況 10

評估組塊 13

分析從你介入的那一刻開始 14

提出建議 15

報告寫好了 16

執行長欣賞你的工作 17

一則新聞 18

執行長確信的觀點讓你誤入歧途 20

你對外界的假設和你確信的觀點就是你的心智模型 21

統計模型取決於心智模型 22

心智模型應當包括你不了解的因素 25

執行長承認自己有所不知 26

Acme給你發來了一長串原始數據 28

深入挖掘數據 31

泛美批發公司確認了你的印象 32

回顧你的工作 35

你的分析讓客戶作出了英明的決策 36

2.實驗

檢驗你的理論

你能向別人揭示自己堅信的信念嗎?正在進行實證檢驗?做個好實驗吧,再

沒有什麼辦法能像一個好實驗那樣,既能解決問題又能揭示事物的真正運行

規律。一個好實驗往往能讓你擺脫對觀察數據的無限依賴,能幫助你理清因

果聯繫;可靠的實證數據將讓你的分析判斷更有說服力。

咖啡業的寒冬到了! 38

星巴仕董事會將在三個月內召開 39

星巴仕調查表 41

務必使用比較法 42

比較是破解觀察數據的法寶 43

價值感是導致銷售收入下滑的原因嗎? 44

一位典型客戶的想法 46

觀察分析法充滿混雜因素 47

店址可能對分析結果有哪些影響 48

拆分數據塊,管理混雜因素 50

情況比預料的更糟! 53

你需要做一個實驗,指出哪種策略最有效 54

星巴仕執行長已經急不可待 55

星巴仕降價了 56

一個月後…… 57

以控制組為基準 58

避免解僱123 61

讓我們重新做一次實驗 62

一個月後… 63

實驗照樣會毀於混雜因素 64

精心選擇分組,避免混雜因素 65

隨機選擇相似組 67

隨機訪談 68

準備就緒,開始實驗 71

結果在此 72

星巴仕找到了與經驗吻合的銷售策略 73

3.尋找最大值最最佳化

有些東西人人都想多多益善。為此我們上下求索。要是能用數字表示我

們不斷追求的東西——利潤、錢、效率、速度等,實現更高目標的機會

就在眼前。有一種數據分析工具能夠幫助我們調整決策變數,找出解決

方案和最佳化點,使我們最大限度地達到目標。本章將使用這樣一種工具,

並通過強大的電子表格軟體包Solver來實現這個工具。

現在是浴盆玩具遊戲時間 76

你能控制的變數受到約束條件的限制 79

決策變數是你能控制的因素 79

你碰到了一個最最佳化問題 80

藉助目標函式發現目標 81

你的目標函式 82

列出有其他約束條件的產品組合 83

在同一張圖形里繪製多種約束條件 84

合理的選擇都出現在可行區域裡 85

新約束條件改變了可行區域 87

用電子表格實現最最佳化 90

Solver一氣呵成解決最最佳化問題 94

利潤跌穿地板 97

你的模型只是描述了你規定的情況 98

按照分析目標校正假設 99

提防負相關變數 103

新方案立竿見影 108

你的假設立足於不斷變化的實際情況 109

4.數據圖形化

圖形讓你更精明

數據表遠非你所需。你的數據龐雜晦澀,各種變數讓你目不暇接,應付堆積

如山的電子表格不只令人厭倦不堪,而且確實浪費時間。相反,與僅僅使用

電子表格不同,一幅用紙不多、栩栩如生的清晰圖像,卻能讓你擺脫“一葉

障目,不見泰山”的煩惱。

新軍隊需要最佳化網站 112

結果面世,信息設計師出局 113

前一位信息設計師提交的三份信息圖 114

這些圖形隱含哪些數據? 115

體現數據! 116

這是前一位設計師主動提供的意見 117

數據太多絕不會成為你的問題 118

讓數據變美觀也不是你要解決的問題 119

數據圖形化的根本在於正確比較 120

你的圖形已經比打入冷宮的圖形更有用 123

使用散點圖探索原因 124

最優秀的圖形都是多元圖形 125

同時展示多張圖形,體現更多變數 126

圖形很棒,但網站掌門人仍不滿意 130

優秀的圖形設計有助於思考的原因 131

實驗設計師出聲了 132

實驗設計師們有自己的假設 135

客戶欣賞你的工作 136

訂單從四面八方滾滾而來! 137

5.假設並非如此假設檢驗

世事紛紜,真假難辨。人們需要用龐雜多變的數據預測未來,然而免不了

剪不斷,理還亂。正因如此,分析師不會簡單聽信浮於表面的解釋,也不

會想當然地認可這些解釋的真實性:通過數據分析的仔細推理,分析師能

夠異常細緻地評估大量備選答案,然後將手頭的一切信息整合到各種模

型中。接下來要學的證偽法即是一種切實有效的非直覺方法。

給我來塊“皮膚”…… 140

我們何時開始生產新手機皮膚? 141

PodPhone不希望別人看透他們的下一步行動 142

我們得知的全部信息 143

電膚的分析與數據相符嗎? 144

電膚得到了機密《戰略備忘錄》 145

變數之間可以正相關,也可以負相關 146

現實世界中的各種原因呈網路關係,而非線性關係 149

假設幾個PodPhone備選方案 150

用手頭的資料進行假設檢驗 151

假設檢驗的核心是證偽 152

藉助診斷性找出否定性最小的假設 160

無法一一剔除所有假設,但可以判定哪個假設最強 163

你剛剛收到一條圖片簡訊…… 164

即將上市! 167

6.貝葉斯統計

穿越第一關

數據收集工作永不停息。必須確保每一個分析過程都充分利用所蒐集到的與

問題有關的數據。雖說你已學會了證偽法,處理異質數據源不在話下,可要

是碰到直接機率問題該怎么辦?這就要講到一個極其方便的分析工具,叫做

貝葉斯規則,這個規則能幫助你利用基礎機率和波動數據做到明察秋毫。

醫生帶來惱人的訊息 170

讓我們逐條細讀正確性分析 173

蜥蜴流感到底有多普遍? 174

你計算的是假陽性 175

這些術語說的都是條件機率 176

你需要算算 177

1%的人患蜥蜴流感 178

你患蜥蜴流感的幾率仍然非常低 181

用簡單的整數思考複雜的機率 182

蒐集到新數據後,用貝葉斯規則處理基礎機率 182

貝葉斯規則可以反覆使用 183

第二次試驗結果:陰性 184

新試驗的正確性統計值有變化 185

新信息會改變你的基礎機率 186

放心多了! 189

7. 信念數位化

主觀機率

虛擬數據未嘗不可。真的。不過,這些數字必須描述你的心智狀態,表

明你的信念。主觀機率就是這樣一種將嚴謹融入直覺的簡便辦法,具體

做法馬上介紹。隨著講解的進行,你將學會如何利用標準偏差評估數據

分布,前面學過的一個更強大的分析工具也會再次登台亮相。

背水投資公司需要你效力 192

分析師們相互叫陣 193

主觀機率體現專家信念 198

主觀機率可能表明:根本不存在真正的分歧 199

分析師們答覆的主觀機率 201

執行長不明白你在忙些什麼 202

執行長欣賞你的工作 207

標準偏差量度分析點與平均值的偏差 208

這條新聞讓你措手不及 213

貝葉斯規則是修正主觀機率的好辦法 217

執行長完全知道該怎么處理這條新信息了 223

俄羅斯股民歡欣鼓舞! 224

8.啟發法

憑人類的天性做分析

現實世界的風雲變幻讓分析師難以料事如神。總有一些數據可望不可及,即

使有所能及,最最佳化方法也往往艱深耗時。所幸,生活中的大部分實際思維

活動並非以最理性的方式展開,而是利用既不齊全也不確定的信息,憑經驗

進行處理,迅速做出決策。奇就奇在這些經驗確實能夠奏效,因此也是進行

數據分析的重要而必要的工具。

邋遢集向市議會提交了報告 226

邋遢集確實把鎮上打掃得乾乾淨淨 227

邋遢集已經計量了自己的工作效果 228

他們的任務是減少散亂垃圾量 229

計量垃圾量不可行 230

問題刁鑽,回答簡單 231

數據邦市的散亂垃圾結構複雜 232

無法建立和運用統一的散亂垃圾計量模型 233

啟發法是從直覺走向最最佳化的橋樑 236

使用快省樹 239

是否有更簡單的方法評估邋遢集的成就? 240

固定模式都具有啟發性 244

分析完畢,準備提交 246

看來你的分析打動了市議會的議員們 249

9. 數字的形狀直方圖

直方圖能說明什麼?數據的圖形表示方法不計其數,直方圖是其中出類

拔萃的一種。直方圖與柱狀圖有些相似,能迅速而有效地匯總數據。接

下來你將用這種小巧而實用的圖形量度數據的分布、差異、集中趨勢等。

無論數據集多么龐大,只要畫一張直方圖,就能“看出”數據中的奧妙。

讓我們在本章中用一個新穎、免費、無所不能的軟體工具繪製直方圖。

員工年度考評即將到來 252

伸手要錢形式多樣 254

這是歷年加薪記錄 255

直方圖體現每組數據的發生頻數 262

直方圖不同區間之間的缺口即數據點之間的缺口 263

安裝並運行R 264

將數據載入到R程式 265

R創建了美觀的直方圖 266

用數據的子集繪製直方圖 271

加薪談判有回報 276

談判要求加薪對你意味著什麼? 277

10.回歸

預測

洞悉一切,未卜先知。回歸分析法力無邊,只要使用得法,就能幫助你預測

某些結果值。若與控制實驗同時使用,回歸分析還能預測未來。商家狂熱地

運用回歸分析幫助自己建立模型,預測客戶行為。本章即將讓你看到,明智

地使用回歸分析,確實能夠帶來巨大效益。

你打算怎么花這些錢? 280

以獲取大幅度加薪為目的進行分析 283

稍等片刻……加薪計算器! 284

這個算法的玄機在於預測加薪幅度 286

用散點圖比較兩種變數 292

直線能為客戶指明目標 294

使用平均值圖形預測每個區間內的數值 297

回歸線預測出人們的實際加薪幅度 298

回歸線對於具有線性相關特點的數據很有用 300

你需要用一個等式進行精確預測 304

讓R創建一個回歸對象 306

回歸方程與散點圖密切相關 309

加薪計算器的算法正是回歸方程 310

你的加薪計算器沒有照計畫行事…… 313

11. 合理誤差誤差

世界錯綜複雜。預測有失精準並不稀奇。不過,如果在進行預測的時候

指出誤差範圍,你和你的客戶就不僅能知道平均預測值,還能知道該誤

差造成的典型偏差,指出誤差可以讓預測和信念更全面。通過本章講授

的工具,你還會懂得如何控制誤差及如何儘量降低誤差,從而提高預測

可信度。

客戶大為惱火 316

你的加薪預測算法做了什麼? 317

客戶組成 318

要求加薪25%的傢伙不在模型範圍內 321

如何對待想對數據範圍以外的情況進行預測的客戶 322

由於使用外插法而慘遭解僱的傢伙冷靜下來了 327

你只解決了部分問題 328

扭曲的加薪結果數據看起來是什麼樣子? 329

機會誤差=實際結果與模型預測結果之間的偏差 330

誤差對你和客戶都有好處 334

機會誤差訪談 335

定量地指定誤差 336

用均方根誤差定量表示殘差分布 337

R模型知道存在均方根誤差 338

R的線性模型匯總展示了均方根誤差 340

分割的根本目的是管理誤差 346

優秀的回歸分析兼具解釋功能和預測功能 350

相比原來的模型,分區模型能更好地處理誤差 352

你的客戶紛紛回頭 357

12.你能關聯嗎? 關係資料庫

如何組織變化多端的多變數數據?一張電子數據表只有兩維數據:行和

列。如果你的數據包括許多方面,則表格格式很快就會過時。在本章,

你會看出電子表格很難管理多變數數據,還能看到關係資料庫管理系統

讓多變數數據的存儲和檢索變得極其簡單。

《數據邦新聞》希望分析銷量 360

這是他們保存的運營跟蹤數據 361

你需要知道數據表之間的相互關係 362

資料庫就是一系列相互有特定關係的數據 365

找到一條貫穿各種關係的路線,以便進行必要的比較 366

創建一份穿過這條路徑的電子表格 366

通過匯總將文章數目和銷量關聯起來 371

看來你的散點圖確實畫得很好 374

複製並貼上所有這些數據是件痛苦的事 375

用關係資料庫管理關係 376

《數據邦新聞》利用你的關係圖建立了一個RDBMS 377

《數據邦新聞》用SQL提取數據 379

RDBMS數據可以進行無窮無盡的比較 382

你上了封面 383

13.井然有序整理數據

亂糟糟的數據毫無用處。許多數據蒐集者需要花大量時間整理數據。不

整齊的數據無法進行分割、無法套用公式,甚至無法閱讀,被人們視而

不見也是常事,對不對?其實,你可以做得更好。只要眼前清楚地浮現

出希望看到的數據外觀,再用上一些文本處理工具,就能抽絲剝繭地整

理數據,化腐朽為神奇。

剛從停業的競爭對手那兒搞到一份客戶名單 386

數據分析不可告人的秘密 387

Head First獵頭公司想為自己的銷售團隊搞到這份名單 388

清理混亂數據的根本在於準備 392

一旦組織好數據,就能修複數據 393

將#號作為分隔設定 394

Excel通過分隔設定將數據分成多個列 395

用SUBSTITUTE替換“^”字元 399

所有的“姓”都整理好了 400

用SUBSTITUTE替換名字模式太麻煩了 402

用嵌套文本公式處理複雜的模式 403

R能用正則表達式處理複雜的數據模式 404

用sub指令整理“名” 406

現在可以向客戶交貨了 407

可能尚未大功告成…… 408

為數據排序,讓重複數值集中出現 409

這些數據有可能來源於某個關係資料庫 412

刪除重複名字 413

你創建了美觀、整潔、具有唯一性的記錄 414

Head First獵頭公司正在一網打盡各種人才! 415

再見…… 416

附錄A 尾聲

正文未及的十大要訣

你已頗有收穫。但數據分析這門技術不斷變遷,學之不盡。由於本書篇幅有

限,尚有一些密切相關的知識未予介紹,我們將在本附錄中瀏覽十大知識點。

其一:統計知識大全 418

其二:Excel技巧 419

其三:耶魯大學教授Edward Tufte(愛德華·塔夫特)的圖形原則 420

其四:數據透視表 421

其五:R社區 422

其六:非線性與多元回歸 423

其七:原假設-備擇假設檢驗 424

其八:隨機性 424

其九:Google Docs 425

其十:你的專業技能 426

啟動R! 附錄B 安裝R

強大的數據分析功能靠的是複雜的內部機制。好在只需幾分鐘就能安裝

和啟動R,本附錄將介紹如何不費吹灰之力安裝R。

附錄C 安裝Excel分析工具

ToolPak

Excel有一些最好的功能在默認情況下並不安裝。為了執行第3章的最佳化和第

9章的直方圖,需要激活Solver和Analysis ToolPak,Excel在默認情況下安

裝了這兩種擴展外掛程式,但若非用戶主動操作,這些外掛程式不會被激活。

其他圖書

Head First Java

Head First Object-Oriented Analysis and Design(OOA&D)

Head First HTML with CSS and XHTML

Head First Design Patterns

Head First Servlets and JSP

Head First EJB

Head First PMP

Head First SQL

Head First Software Development

Head First JavaScript

Head First Ajax

Head First Physics

Head First Statistics

Head First Rails

Head First PHP & MySQL

Head First Algebra

Head First Web Design

Head First Networking

相關詞條

相關搜尋

熱門詞條

聯絡我們