預測分析中的建模技術:商務問題與R語言解決方案

預測分析中的建模技術:商務問題與R語言解決方案

《預測分析中的建模技術:商務問題與R語言解決方案》是2016年7月電子工業出版社出版的圖書,作者是【美】Thomas W. Miller(托馬斯 W. 米勒)。

內容簡介

《預測分析中的建模技術:商務問題與R語言解決方案》著眼於真實的案例和真實的數據。每章通過對一個實際問題的描述和討論引出特定的預測分析模型,分析的結果通過可視化圖表進行展示,章節末尾還提供了R語言編寫的應用程式。通過對建模技術和編程工具的實際演示,把抽象化的概念轉化為具體的例子,讓這些可以成功運行的案例程式更易於理解。

編輯推薦

通過對歷史數據的分析創建模型,為可靠預測打下基礎

將戰略與管理、方法與模型、信息技術與代碼三者完美結合

內容提要

《預測分析中的建模技術:商務問題與R語言解決方案》是一本商務智慧型方面的著作,旨在幫助讀者解決真實工作中的商務問題,發現問題、定義數據、創建和最佳化模型,編寫高效的代碼,對結果進行分析,等等。

《預測分析中的建模技術:商務問題與R語言解決方案》著眼於真實的案例和真實的數據。每章通過對一個實際問題的描述和討論引出特定的預測分析模型,分析的結果通過可視化圖表進行展示,章節末尾還提供了R語言編寫的應用程式。通過對建模技術和編程工具的實際演示,把抽象化的概念轉化為具體的例子,讓這些可以成功運行的案例程式更易於理解。

附錄比較系統地介紹了數據分析常用的統計學方法和測量的方法,以及為商務分析在R語言環境下特別擴展開發的程式代碼。

《預測分析中的建模技術:商務問題與R語言解決方案》不但適合計算機、統計等相關專業選作教材,還適合進行公司決策分析、大數據分析等的相關人員參考閱讀。

目錄

第1章 分析和數據科學 1

第2章 廣告和促銷 11

第3章 偏好與選擇 25

第4章 購物籃分析 33

第5章 經濟數據分析 44

第6章 運營管理 56

第7章 文本分析 71

第8章 情緒分析 93

第9章 體育分析 129

第10章 空間數據分析 148

第11章 品牌和定價 167

第12章 大數據的小遊戲 200

附錄A 數據科學的方法 203

A.1 資料庫和數據準備 204

A.2 經典統計與貝葉斯統計 206

A.3 回歸與分類 208

A.4 機器學習 212

A.5 網際網路和社交網路分析 213

A.6 推薦系統 215

A.7 產品定位 216

A.8 市場區隔 218

A.9 選址 219

A.10 金融數據科學 220

附錄B 測量 222

附錄C 個案分析 232

C.1 回到我們的“搖頭娃娃”個案 232

C.2 DriveTime 公司的轎車銷售 233

C.3 鑽石價更高 237

C.4 威斯康星Dells 度假中心 240

C.5 個人電腦選擇研究 244

附錄D 代碼和實用程式 248

精彩節摘

譯者序

大數據與商務智慧型

大數據(Big Data)是 2012 年開始炒作起來的一個新“辭彙”。記得當時我有個在矽谷從事 IT 投資工作的朋友到紐約參加投資商會,她說,上一年度的會議,所有的話題都是社交網路(彼時Facebook 如日中天),現在呢,人人說的都是大數據。

任何行業大致都差不多,隔上一段時間,總會有個新東西出來炒作一下,無論是911 後的容災系統、dot com,還是社交網路、大數據,到今天的“雲”。這也是社會進步的一種方式吧。

在大數據這個概念出來之後,我曾經不止一次被問到大數據的問題。比方之前有一次被問到大數據的問題時,一開始我完全不知道對方問的是什麼,幾個回合下來,才了解到對方的問題完全是商務智慧型Business Intelligence方面的;還有一次和一些從業IT 技術十幾二十年的同行聊天,有人說,大數據把人忽悠得雲裡霧裡,弄不清楚到底是什麼東西。於是,許多人就很簡單地把所有數據相關的東西,統統都說成是大數據,因此,商務智慧型也是大數據。

我們知道,傳統的數據,多是指結構化的數據,如早期的dBase、FoxPro,到現在普遍使用的關係型資料庫 SQL Server、Oracle或者DB2,存儲的都是結構化的數據。這些數據都可以用兩維的行和列的表格形式表現出來。隨著網際網路技術的飛速發展,出現了很多非結構化的數據,比如音像數碼檔案、部落格文章、網站搜尋索引、社交網路的留言,對這些數據的收集和使用,是我所認知的“大數據”技術。人們對“大數據”有各種各樣的定義,其中有一個定義是“大數據是不能用傳統的資料庫工具管理的所有數據—— big data is any data that can’t be managed using conventional database tools”。我頗以為然。在當前的自然數據中,結構化的數據還不足兩成,絕大部分的數據,都是非結構化的數據。

商務智慧型(Business Intelligence,BI)和商務分析(Business Analytics)卻不是一個新興的概念。根據相關資料的記述,商務智慧型這個辭彙早在 1988 年就出現了,到了20世紀90年代,關係型數據開始被廣泛使用後,SQL查詢語言報表成為了常規,這便是最早的商務智慧型實例。商務智慧型在過去的這些年裡發展迅速,如我們後來熟知的數據倉庫(data warehouse)、數據集市(data mart)、建造數據倉庫的抽取-轉換-載入(ETL)技術、線上分析處理(OLTP)、數據可視化(data visualization)、信息中心化(dashboard)等,都可看作是商務智慧型的組成部分。

收集到了數據後,需要進行商務分析,回答商務問題,進行數據驅動的商務決策。按照商務問題的種類,數據分析劃分為三種類型:第一種是描述分析(descriptive analytics),從歷史數據中,總結過去的商務行為都發生了什麼事情,是什麼時候、什麼原因,怎樣發生的;第二種是預測分析(predictive analytics),是通過數據分析預測將來的商務行為中可能會發生什麼樣的事情;最後一種是規範分析(prescriptive analytics),是基於描述分析和預測分析的結果來推薦的未來的商務行為。有些數據科學家還提出,在描述分析和預測分析中間,應該加入一種新的分析類型—診斷分析(diagnostic analytics),通過對歷史數據的分析創建模型,為預測分析打下基礎。

對原始數據進行上述各種分析的過程,就是我們熟知的數據挖掘(data mining)。習慣上,我們把數據挖掘的過程分為四大類:分類(classes),類聚(clusters),關聯(associations),序列模式(sequential patterns)。在本書中,與這四種過程相關的技術,會使用經典統計(classical statistics)、貝葉斯方法(Bayesian Statistics)、回歸(regression)、分類(classification)、機器學習(machineleaning),等等。

那么大數據和商務智慧型之間是否有關聯呢?美國的一些數據科學家是這樣說的,商務智慧型是幫你找到你想要知道的問題的答案,大數據是幫你發現那些你不知道要問的問題。這個答案也是蠻可愛的。商務智慧型分析的數據是結構化數據,大數據技術則需要分析所有的結構化,連同非結構化的數據。商務智慧型和大數據對數據的存儲方式和對數據的分析手段的要求是不同的。但無論大數據也好,商務智慧型也好,數據存在的目的就是讓我們通過分析,得到儘可能好的分析且結果為相關的商務服務。從這點上看,大數據和商務智慧型都有一個共同的目標,這大概就是大數據和商務智慧型常常被合二為一的原因吧。現在,有諸多數據專家致力於開發商務智慧型套用於大數據的數據分析技術,希望這一技術能早日成熟。

有人問過我,如果沒有任何統計學基礎,數學的根底也很有限,可以學習商務分析嗎?誠如本書的作者米勒教授在前言中所說,在這本書里可以了解到,數據分析可以在哪些不同商務領域中解決什麼樣的問題。認識到哪些問題可以從現有的數據中找到答案,是利用商務智慧型的起點。如果你從事數據分析工作,或者是程式設計師,則可以通過本書的案例,認知到如何一步一步地分析問題、解決問題、找出問題的答案所在。

本書的所有案例都是在R語言環境下實現的。R語言最初是為生物統計開發的一個開源軟體。記得多年之前,我在紐約大學上生物統計的課程時,第一次接觸到R語言。當時我們的教授是這樣描述R語言的:R環境不依賴計算機作業系統,你可以在UNIX、Linux、Windows 或者 Macintosh 甚至OS X 系統下使用;R語言很容易學習,即使沒有任何編程基礎的人,也可以掌握;在R環境下可以很輕鬆地進行數據分析,並繪製出可供圖書出版級別的數據可視化圖表。因為R語言的這些優勢,R的用戶不斷開發出各種增強功能的軟體包,現在R語言已經被廣泛用於經濟計量、財經分析和商務智慧型等各個領域。

本書的作者米勒先生是美國西北大學的教授,他酷愛運動和電影。書中的案例包含了非常多的美國文化。例如在每個章節的開頭,都以一段美國電影對白開始,如果了解這些電影,或者了解這段對白出現的場景,便會知道這段對白跟這個章節所講述的內容之間的契合。在“文本分析”和“情緒分析”的章節,原始的數據都是非結構化的文本數據,需要先格式化處理,並使用“語料庫”的技術進行分析,因為英文這種語言的特性,會讓我們的讀者很難理解將文本數據格式化所採用的方式。

作為這本書的譯者,我盡力對書中的一些美國文化的背景做了一些注釋。能使讀者們最大程度地從這本譯著中獲益,是我的初衷。

陳宇紅

2016年1月於紐約

前言

“托托,我覺得我們已經不在堪薩斯城了喔。”

——陶樂思·高爾(茱蒂·格蘭特飾演),美國電影《綠野仙蹤》(The Wizard of Oz 1939)

數據和算法統治了當下。歡迎您來到這個嶄新的商務世界,一個必須通過強大的分析能力和信息的交流,才能取得稍縱即逝的競爭優勢的、快節奏的、數據密集的開源環境。

現有的許多論述預測分析或數據科學的書籍,談論的是戰略和管理;還有一部分著眼於方法和模型;其餘的著重於信息技術和代碼。本書少有的試圖將上述三者結合起來,深受建模人員、程式設計師和商務經理的喜愛。

我們已經意識到了通過分析的手段來獲得競爭優勢的重要性。我們為研究人員和分析師提供一個現成的資源和建模技術參考指南;我們為程式設計師展示如何編寫解決實際商務問題的基本代碼;我們將模型運行的結果轉化成管理人員可以理解的文字和圖片;我們解釋數據和模型的含義。

隨著數據採集和儲存數量的快速增長,隨著各種可用於分析的數據的增長,隨著每日數據的更新頻率及需要分析的數據的增長,相較往日,數據分析變得至為重要。要獲取競爭優勢,就意味著必須實施新的信息管理和分析系統。這也同樣意味著要改變經營的方式。

數據科學這個領域擁有巨大的文獻資料,來自於諸多的學科和應用程式。相關的開原始碼也在迅速增長。事實上,這是對我們撰寫一本全面的預測分析和數據科學指南書籍的挑戰。

我們著眼於真實的案例和真實的數據。我們提供一系列範例:在本書中的每一章,將針對一個特定的商務問題作出分析並附上應用程式。我們提供有意義的解決方案。通過對建模技術和編程工具的實際演示,把抽象化的概念轉化為具體的例子,讓完全可以成功運行的案例程式易於理解。

我們的目標是對預測分析和數據科學做一個概述,讓大多數的讀者能夠讀懂。本書沒有很多數學理論,統計人員和建模人員可以從參考文獻獲取詳細的推導方法。我們這裡僅僅使用簡單的文字和可視化的數據來顯示商務問題的解決方案。

看過了這本書的主題之後,可能會有人想知道我到底是經典統計的擁護者還是貝葉斯陣營的。在美國明尼蘇達大學統計學院時,我創立一個對經典統計及貝葉斯理論都予以尊重的觀點。無論是採用經驗貝葉斯方法,還是從經典統計學習的方法入手,都會存在一個結合機器學習和經典統計學的領域,這個觀點我深以為然。當涉及建模和推理這樣的問題時,我是一個實用主義者。我希望大家能夠理解我所做的工作,以及我所表達的不確定性。

在世界各地成千上萬的專家的幫助下,讓我們能夠出版這本書。他們對開源環境貢獻了時間和想法。開源環境的增長及易於發展的特點,確保了已開發出的解決方案將會成為未來許多年的中心所在。阿拉丁神燈裡面的精靈已經跳出油燈獲得自由,在帷幕的後面施展魔術——高深的科學不再神奇,秘密正在顯露。這本書正是這個進程中的一部分。

本書採用的大多數數據是從公共數據資源中取得的。美國職棒大聯盟的促銷和上座率數據來自埃里卡·科斯特洛(Erica Costello)先生。莎朗·張伯倫(Sharon Chamberlain)女士對計算機選擇研究數據方面的工作給予了有力的支持。阿維·曼德爾鮑姆(AviMandelbaum)和宜蘭·高迪(IlanGuedj)提供了“匿名銀行”呼叫中心的數據。每章開頭的電影對白,承蒙網際網路電影資料庫的許可使用。史丹福大學的安德魯·L·摩斯(Andrew L. Mass)和他的同事承擔了獲取網際網路電影資料庫(IMDb)電影評論數據許可的工作。本書的某些範例的靈感來自於同下面公司的合作項目:佛羅里達 ToutBay of Tampa 公司、NCR Comten、聯合惠普(HP)公司、紐約網站分析公司、威斯康星州麥迪遜市的 Sunseed Research LLC,以及麥迪遜市聯合計程車公司Union Cab Cooperative of Madison。

在過去的很多年,有許多人對我的人生髮展影響頗大,他們都是優秀的思想家和善良的人,是我的老師和導師,我永遠銘謝。難過的是,伍爾西斯學院(Ursinus College)哲學系的傑拉爾德·哈恩·欣克爾(Gerald Hahn Hinkle)、語言學系的艾倫·雷克·萊斯(Allan Lake Rice)、明尼蘇達大學哲學系的赫伯特·費格爾(Herbert Feigl)已經離開了我們。我亦非常感謝明尼蘇達大學心理測量學系的戴維·J·魏斯(David J. Weiss),以及經濟學系的凱利·埃金(Kelly Eakin),她之前就職於俄勒岡大學。好老師是這樣的偉大,使我受益終生。

感謝麥可·L·洛希爾(Michael L. Rothschild)、尼爾·M·福特(Meal M. Ford)、彼得·R·迪克森(Peter R. Dickson)和珍妮特·克里(Janet Christopher),在我們共同為威斯康星-麥迪遜大學,以及A. C. 尼爾森市場研究中心工作期間提供的寶貴支持。

我居住在美國加利福尼亞州,位於道奇體育場北面四英里處。我在伊利諾州埃文斯頓市的西北大學任教,並且兼任佛羅里達州坦帕市 ToutBay 公司的產品開發總監,ToutBay 是一家數據科學公司。這所有的一切都受益於高速的網際網路。

我很幸運地參與了美國西北大學進修學院的研究生遠程教育項目。感謝格倫·佛格提(Glen Fogerty)給了我在西北大學預測分析專業任教並擔任領導者的機會。感謝我的同事和職員們,和我一起承擔這個卓越的研究生專業的工作。感謝我的學生和資深教師,他們令我受教頗多。

ToutBay是一家數據科學領域的新興公司。我期許這家公司在其聯合創始人Greg Blence先生的領導下,在今後的幾年中大展宏圖。非常感謝Greg邀請我加入他們,一起為公司的發展而努力,這也令我能夠在實際的商務需求中進行演練,讓學術研究和數據科學模型得以深遠的發展。我們最終所期待的作為,就是要實施我們的理念和模型,讓所有需要的人彼此分享。

感謝德科納米公司(Texnology Inc.)的艾米·亨德里克森(Amy Hendrickson),她的美工使文字、表格、圖表印刷得十分精美,這是另一種開源的成功。感謝高德納(Donald Knuth)及TEX / LATEX社區貢獻的這個美妙排版和出版系統。

感謝讀者和審稿人提供的諸多幫助,他們是蘇珊娜·卡倫德(Suzanne Callender)、菲利普·M·戈德費德(Philip M. Goldfeder)、梅爾文·奧特(Melvin Ott)和托馬斯·P·瑞恩(Thomas P. Ryan)。在編寫這一修訂版時,洛雷娜·馬丁(Lorena Martin)為本書的改進提供了諸多的反饋和建議。康迪斯·布拉德利(Candice Bradley)承擔了審稿和文字編輯的雙重工作。羅伊·L·桑福德(Roy L. Sanford)給予了有關統計模型和方案的專業建議。我非常感謝他們的反饋和鼓勵。感謝我的編輯,珍妮·格拉瑟·萊文(Jeanne Glasser Levine),出版商培生教育出版社,使這本書能夠出版。當然了,本書的任何文字問題、任何錯誤,或尚未完成的商務方案,由我個人負責。

我的好朋友布蘭妮和她的女兒傑尼婭在時間允許時一直陪伴我。我的兒子丹尼爾不計我脾氣的好壞,容忍並照料我的生活。他們的信任是我最大的負疚。

托馬斯·米勒(Thomas W. Miller)

於加利福尼亞州的格倫代爾

相關詞條

熱門詞條

聯絡我們