New Internet:大數據挖掘

New Internet:大數據挖掘

《New Internet:大數據挖掘》是2013年3月電子工業出版社出版的圖書,作者是譚磊。

編輯推薦

New Internet:大數據挖掘 New Internet:大數據挖掘

“這可能是最通俗易懂的一本數據挖掘書籍”

——互動通鄧廣檮 PPTV陶闖聯合力薦

本書從網際網路從業者(如電商、搜尋、廣告、信息服務等)角度解讀大數據概念及挖掘原理,真實呈現大規模數據挖掘在當前環境下的典型套用,而非務虛的泛泛而談。

大量網際網路套用案例,來自作者所在企業及真實採集的實際項目。

讀了這本書,除了可以讓企業對大數據的了解不再停留在概念上,更可以明確企業在大數據方向上的發力目標。

本書並不會研究高深算法,旨在用通俗易懂的案例展示大數據全貌,理清基本概念,把握前沿技術,為專業人士進一步深入研究提供入口。

作者簡介

譚磊(Raymond):浙江省企業信息化促進會網際網路企業分會會長,英特爾公司特邀大數據顧問,復旦大學計算機學士、美國杜克大學計算機碩士。資深網際網路技術、數據分析挖掘專家,曾於美國微軟總部服務13年,在數據分析、數據挖掘、雲計算、產品研發及管理、網際網路廣告和網際網路行銷等方面有豐富的經驗。暢銷書《New Internet——大數據挖掘》《數據掘金——電子商務運營突圍》《盛宴背後——解密網際網路金融》作者。

內容提要

本書全面地介紹了如何使用數據挖掘技術從各種結構的(資料庫)或非結構(Web)的海量數據中提取和產生業務知識。作者梳理了各種數據挖掘常用算法和信息採集技術,系統地描述了實際套用時如何在網際網路日誌分析、電子郵件行銷、網際網路廣告和電子商務上進行數據挖掘,著重介紹了數據挖掘的原理和算法在網際網路海量數據挖掘中的套用。

本書主要特點:全面介紹了數據挖掘和大數據的基本概念和技術;大量採用了實際案例,實用性強;詳細介紹了大數據挖掘領域最新的商業套用。

本書是從事數據挖掘研究和開發,或者是網際網路相關行業從事數據運營的專業人員理想的參考書,同時也可作為了解數據挖掘套用的入門指南。

目錄

第1章緒論——從淘金客到礦山主 1

1.1 大數據時代的“四V” 2

1.2 什麼是大數據挖掘 5

1.2.1 從數據分析到數據挖掘 6

1.2.2 Web挖掘 9

1.2.3 大數據挖掘之“大” 10

1.3 大數據挖掘的國內外發展 12

1.3.1 數據挖掘的套用發展 12

1.3.2 數據挖掘研究發展 17

1.4 本書內容 19

第2章一小時了解數據挖掘 23

2.1 數據挖掘是如何解決問題的 23

2.1.1 尿不濕和啤酒 23

2.1.2 Target和懷孕預測指數 24

2.1.3 電子商務網站流量分析 25

2.2 分類:從人臉識別系統說起 27

2.2.1 分類算法的套用 29

2.2.2 數據挖掘分類技術 33

2.2.3 分類算法的評估 37

2.3 一切為了商業 40

2.3.1 什麼是商業智慧型(Business Intelligence) 40

2.3.2 數據挖掘的九大定律 43

2.4 數據挖掘很糾結 44

2.5 數據挖掘的基本流程 45

2.5.1 數據挖掘的一般步驟 45

2.5.2 幾個數據挖掘中常用的概念 47

2.5.3 CRISP-DM 51

2.5.4 數據挖掘的評估 53

2.5.5 數據挖掘結果的知識表示 55

2.6 本章相關資源 59

第3章數據倉庫——數據挖掘的基石 60

3.1 存放數據的倉庫 60

3.1.1 數據倉庫的定義 61

3.1.2 數據倉庫和資料庫 63

3.2 傳統的數據倉庫介紹 64

3.3 數據倉庫基本結構 67

3.4 OLAP在線上分析處理 69

3.5 雲存儲上的數據倉庫 71

3.5.1 Google公司的雲架構 71

3.5.2 開源的分散式系統Hadoop 77

3.5.3 Facebook的數據倉庫 85

3.5.4 NoSQL 86

3.6 本章相關資源 89

第4章數據挖掘算法及原理 91

4.1 數據挖掘中的算法 91

4.2 數據挖掘十大經典算法 92

4.3 分類算法(Classification) 96

4.4 聚類算法(Clustering) 99

4.5 關聯算法 102

4.5.1 關聯算法中的概念 103

4.5.2 關聯規則數據挖掘過程 105

4.5.3 關聯規則的分類 106

4.5.4 Apriori算法的執行實例 107

4.5.5 關聯規則挖掘算法的研究與最佳化 108

4.6 序列挖掘(Sequence Mining) 113

4.7 數據挖掘建模語言PMML 115

4.8 本章相關資源 117

第5章在進行數據挖掘之前 120

5.1 數據集成 121

5.2 為何要做數據預處理 122

5.3 數據預處理 124

5.3.1 數據清理 124

5.3.2 數據轉換 129

5.3.3 數據規約 132

5.4 本章相關資源 134

第6章 R語言和其他數據挖掘工具 136

6.1 R語言的歷史 136

6.1.1 R語言的特點 142

6.1.2 R語言和數據挖掘 149

6.2 其他數據挖掘工具 152

6.2.1 MATLAB 153

6.2.2 其他商用數據挖掘工具 155

6.2.3 開源數據挖掘工具Weka 159

6.3 數據挖掘和雲 160

6.4 本章相關資源 162

第7章網際網路上的日誌分析 164

7.1 網站日誌簡介 165

7.2 網站日誌處理 175

7.2.1 Web日誌預處理 175

7.2.2 Web日誌分析和數據挖掘 181

7.3 郵件日誌 183

7.4 本章相關資源 184

第8章數據挖掘和電子郵件 186

8.1 郵件行銷與垃圾郵件過濾 186

8.2 數據挖掘和郵件行銷 189

8.2.1 如何有效地進行郵件行銷 189

8.2.2 郵件行銷案例分享之一 195

8.2.3 郵件行銷案例分享之二 200

8.2.4 運用數據挖掘RFM模型提高郵件行銷

效果 203

8.3 數據挖掘和垃圾郵件過濾 208

8.3.1 垃圾郵件 209

8.3.2 垃圾郵件過濾技術 209

8.3.3 垃圾郵件過濾案例 215

8.4 本章相關資源 218

第9章數據挖掘和網際網路廣告 219

9.1 網際網路廣告 219

9.2 廣告作弊行為 223

9.3 網站聯盟廣告 225

9.4 網站聯盟廣告上的數據挖掘 226

9.4.1 數據助力網盟廣告 227

9.4.2 如何應對網盟廣告作弊 236

9.5 本章相關資源 241

第10章數據挖掘和電子商務 242

10.1 中國電子商務現狀 242

10.2 在網際網路上賣米 248

10.3 用數據來掌握客戶 250

10.3.1 客戶何時來,從哪來 253

10.3.2 客戶最喜歡哪種商品 257

10.3.3 競爭與反競爭分析 260

10.3.4 客戶還會買什麼 261

10.3.5 哪些客戶是我們需要的 264

10.4 電子商務案例 265

10.4.1 電子商務企業案例一 266

10.4.2 電子商務企業案例二 279

10.5 本章相關資源 286

第11章數據挖掘和Web挖掘 288

11.1 網際網路上的個性化–Like 289

11.1.1 Like=像 289

11.1.2 Like=喜歡 290

11.2 Web挖掘和SNS 295

11.2.1 SNS上的數據價值 295

11.2.2 SNS上的數據關聯關係 297

11.2.3 SNS上的用戶關係 299

11.3 數據挖掘和隱私 302

11.4 本章相關資源 307

第12章數據挖掘和移動網際網路 308

12.1 移動網際網路的特殊性 308

12.1.1 鎖定用戶的數據價值 309

12.1.2 移動網際網路上數據的形式 310

12.1.3 移動網際網路地理位置信息的價值 312

12.2 數據挖掘和LBS 314

12.2.1 用PU學習算法做文本挖掘 315

12.2.2 用相似匹配算法做地點挖掘 318

12.3 移動網際網路數據面臨的問題 320

12.4 本章相關資源 322

附錄A 技術辭彙表 323

附錄B 英語參考文獻表 335

附錄C 中文參考文獻表 347

附錄D 微博 350

附錄E 部落格和其他網址 351

精彩節摘

序一

讀畢譚磊(Raymond)賢弟的《New Internet:大數據挖掘》原稿後,意猶未盡,又繼續讀了一遍,皆因內容實在太充實,笨拙的吾一次閱覽未能完全消化。

自從懵懵懂懂進入廣告傳播這個行業後,便與數據這位“性感”魔鬼形影不離,每次執行項目如果沒有數據便如同得了愛情單思病,茶飯不思、坐立不安、輾轉難眠。

本書內容安排得井井有條,艱深的理論下筆深入淺出,令吾不知不覺墜入黃金屋,整個周末“狠狠”地消化完Raymond的傑作。

數據不單只是性感,數據更是神聖的,神聖的數據能夠提供充分的信息給各行各業,使這些企業能有所依據地及時最佳化其產品、服務、渠道、傳播、研發等。

數據不是深不可測的,可以這樣來簡單理解——如同我們日常使用信用卡的數據,當我們將一個時段的數據歸納後,便可以了解自己的消費規律。將各式不同規律的消費者數據歸納後,企業便能洞察自己的產品、服務,以及用戶的年齡、性別、國籍、地理位置等的規律。如何發現和運用這些性感數據的規律,便是各門各派的奪寶妙方。

這本書做了大量的資料研究,參考過豐富的素材,選納眾多案例並加以仔細分析,令吾讀來得心應手,實乃學習或研究大數據的優秀參考資料,感謝Raymond的貢獻!

鄧廣檮

互動通控股集團總裁

北京大學客座教授

序二

首悉數據之說,還是1997年在星傳時。領導說,要注意收集數據,包括消費者接觸的目的、習慣、聯想等。現在想來,顯示這些數據的採集來源更值得推敲,有些可能不符合數據來源的真實性。

1999 年在電通,為了數據,啟用市調公司,做調查,看報告。之後想來,當時設計的大多問題已經提供了供選擇的答案,而答案的指向又是我們的主觀認識,所以獲取的數據可能不符合客觀事實性要求。

之後在奧美,強調活動時的數據收集。於是用Word製作了大量的數據收集卡,現場填或發禮品換,在多個地方用了多種方法。現在想來,可能不符合數據的全面性。

再之後在寶潔,基礎數據自然很多,要用數個只有幾兆容量的隨身碟儲存。但有時多了也很苦惱。因為,有需要索引時,怎么分析呢?有時免不了一個個地查,搜尋關鍵字。現在想來,自己真的沒學到一個好的數據檢索方法。

2005年去了一家網遊公司。作為當時國內最大的幾個遊戲公司之一,數據已經多到要用幾個移動硬碟儲存了。網遊公司又歷來強調數據的挖錄,比如登錄、消費頻次、道具購買力、喜好度,等等。但總覺得挖掘得不夠深。現在想來是因為數據在收集開始時,就已經是被填寫後的才被收集,跟蹤也是滯後的,所以缺乏主動性。

以後,因為投資了家網際網路廣告公司,所以知道數據該如何收集,如何分析,如何跟蹤……但似乎還缺乏些什麼。問自己,到底是什麼,竊以為是缺乏對數據的甄選方法,白白浪費了很多與眼前無關,但實則有用的數據。這個算是缺乏數據收集的全面性吧。

此次有幸看了譚磊兄的《New Internet:大數據挖掘》一書,此書非純理論之書,且立意頗高,並有許多案例,更是見解獨到。

想真正了解何為數據,如何對其進行採集、分析、挖掘與套用,請看此書。

火山Volcano

天使投資人

序三

認識作者Raymond已經很多年了。與Raymond認識、熟悉,再深入的交流,他給我的印象是思維敏銳,執行力強。自在微軟工作開始,與Raymond便有很多交流。之後我們先後離開了微軟回國創業。

自在微軟時,我們就經常討論國內網際網路的發展方向,其實當初我們對於國內網際網路企業的核心競爭力的意見並不一致,但有一點我們是達成共識的,就是未來網際網路企業的競爭力不僅是“爭奪”用戶的能力,而且是“挖掘”用戶價值的能力。我們都認為,挖掘用戶價值的實質就是以大數據挖掘為核心的技術和運用。在這點上,中國網際網路公司需要更加注重手裡的數據資源,深挖出更大的信息價值,才能進一步提升用戶價值或者是單用戶的平均產出值(ARPU值)。

Big Data作為業界在2012年討論得最多的話題,受到的重視程度很高,也因而有了不少相關的文章和書籍。在此之前,講述大數據和數據挖掘的書雖然很多,但是大多比較偏理論,給實際套用者的幫助並不大。而Raymond的這本《New Internet:大數據挖掘》則從一個全新的角度講述了在數據挖掘領域的大數據,給予數據挖掘和運營人員很好的實戰指導。

大數據挖掘這個課題涉及的學科很多,要寫好關於數據挖掘的書既要有豐富的實踐經驗做基礎,還需要有紮實的理論知識。我很高興地看到,Raymond在這本新書中把他之前的實踐和理論知識有機地結合起來了。

陶闖Vincent Tao

PPTV CEO,Ph.D.

媒體評論

本書是一本可讀性極佳的教材。它從網際網路廣告的角度全面系統地介紹了數據挖掘的基本概念、方法和技術以及數據挖掘對網際網路廣告的實際意義,重點關注其可行性、有用性、有效性和可伸縮性問題。本書不僅適合作為數據挖掘和知識發現課程的教材,也非常適合作為電子商務、數據挖掘相關領域從業人員的參考資料。

——復旦大學計算機學院教授,博導 @黃萱菁

隨著大數據時代的到來,數據科學家這一專業職位變得炙手可熱。在2012年10月,《哈佛商業評論》甚至宣布“數據科學家是21世紀最性感的職業”。在本書中,作者基於大量實際項目開發和培訓經驗,藉助最新的網際網路套用案例,深入淺出地介紹了數據挖掘領域的基本技術和常用工具。本書是數據科學家完美的入門讀物。

——微軟亞洲研究院主管研究員,博導 @謝幸Xing

大家都知道自己現在身處在一個信息化的時代,我們每天從傳統的媒體(報紙、雜誌、電視,等等)以及新媒體(網際網路、網路論壇、微博,等等)獲取到大量信息。在每天面對撲面而來的海量信息的同時,常常又有很多人在感嘆對自己有用的或者能夠讓自己感興趣的東西似乎越來越少。本書也許會為你解開這種困惑。此書深入淺出的描述了時下炙手可熱的IT業界的幾個辭彙。

作為一般的讀者可以把此書作為茶餘飯後的讀物,當你在同事朋友面前侃侃而談“大數據”、“物聯網”、“數據挖掘”等辭彙時,相信定能吸引周圍人的目光。當你明白數據是如何變成信息,信息是如何變成有用的信息時,或許你的生活也會變得更加多姿多彩。此書也能幫助企業的經營人員更加深刻的理解如何運用IT(信息技術)提升企業的經營,讓IT更好的幫助企業決策千里。當然此書更能幫助我們這些IT從業人員深入的考慮如何運用大數據挖掘技術開發出更好的產品或者解決方案,服務於各個企業,服務於我們的社會。

——富士通(中國)公司戰略規劃部總經理黃邦瑜

隨著雲時代的來臨,大數據也吸引了越來越多的關注。之前我對大數據的了解還停留在概念上,讀譚磊的新書讓我有了豁然開朗的感覺,明確了自己企業在大數據方向上的目標,也了解了相關的理論和方法。我相信很多關心大數據的朋友都會從書中受益良多。

——鳳凰網CTO @吳華鵬

本書很認真實際的探討了一個說起來很容易,但是實現起來卻需要一個公司從上到下無縫配合才有可能完成的任務。能成功發揮大數據挖掘能力的公司/機構/政府,得到的優勢就等於在別人還在用指南針定位目標的時候,你已經裝備了衛星導航系統+雷達,做的決定變得更加快、狠、準。

這會是一個大家都努力嘗試做大數據挖掘的時代,關鍵在於,誰能夠更瘋狂的熱愛數據,更理性的尊重數據。

——小米科技聯合創始人,副總裁黃江吉 @小米KKWong

大數據時代的到來讓世界變得越來越透明,自由民主是信息社會的生態,無論是生活領域還是行政領域,大眾對透明的可視化數據呈現都有迫切的需求,在企業決策、行銷決策、醫療、教育等各個領域都需要大數據。大數據流行伊始,技術行業和學術界都非常需要優質的學習書籍,本書作者把自己的網際網路數據工作經驗與大數據行業發展結合,深入淺出,對行業發展有重大意義,是國內少見的網際網路前沿研究的精品之作。

——Web 2.0研究者,西瓜世界創始人 @柳華芳

有人甚至說,“數據是新的石油”,大數據將徹底改變人類文明的發展脈絡,重塑我們對於世界、對於生活的認知。譚磊這本書很及時,很深刻的闡述大數據挖掘的各種方法,對於從事數據挖掘的同行來說,是一本不可多得的好書。

——盛大遊戲技術保障中心高級總監 @陳桂新

認識Raymond很多年,知道他技術很強,這次倒是第一次知道他的文筆也是如此好。大數據的重要性早已不言而喻,我們對此的關注度也是非常高。Raymond的這本書深淺適中,既符合技術人員的需求,對於非技術的電商從業人員幫助也是很大的。

——阿里巴巴集團資深總監陳宜

本書是目前國內大數據挖掘類書籍中不可多得的,有理論有實戰,非常值得大數據時代的相關研究者閱讀。

——騰訊開發高級總監宋永柱

本書以一位有豐富實踐經驗的數據工程師的獨特視角,以詳實的數據和深入淺出的論述揭示了大數據概念下的實際問題,專注於大數據的實用價值和方法,使之不再是虛幻時髦的炒作概念。不同於很多注重解釋算法的數據挖掘方面的書籍,本書從“為什麼”入手,以通俗易懂的案例展示了大數據領域的全貌,並很好地同時把握了在大數據領域的基本概念和前沿技術。這本書不僅為初學者揭開了大數據這一日趨重要領域的神秘面紗,也為專業人士提供了進一步深入研究的入口。

——微軟研究院首席研究員周禮棟博士

譚磊在這本書中展示了數據挖掘的基本理念和套用場景,能讓你在幾個小時內讀懂數據挖掘,是進入大數據時代的一個敲門磚。

——前騰訊產品總監,現火花無線CEO吳國鴻

@火花無線吳國鴻

一場長跑競賽,並不是一開始沖在最前的人就可以獲得最後的冠軍,而是取決於戰術和耐力。對於網際網路產品而言也是如此。隨著海量數據的堆砌,其在商業上的價值已經成為企業對未來發展的巨大依託。未來的網際網路不再是速度的對決,而是深度的較量!如何正確且深度挖掘數據背後蘊藏的寶藏,這本書將會給出大家希望得到的答案。

——車鄰會、卡區域網路絡科技創始人兼CEO @呂筍

幾年來大數據的運用,給商業世界帶來巨大影響。《紐約時報》報導過一個案例,美國超市Target 通過分析購買數據居然比她父親還要預先猜測出女孩懷孕的訊息!而Target正是運用數據挖掘技術,有效提高了細分顧客群體的推廣行銷效果。本書涵蓋該領域相關的技術理論基礎概論,並且也提供以網際網路為主的各種商業大數據運用前沿的實例,具有很強的實際操作指導意義。對大數據趨勢感興趣的讀者,不管是技術人員,或者是管理人員,都能從這本書里獲益。

——前24劵團購網CTO,網際網路創業者 @Bruce黃海旻

數據就是一座巨大而未知的礦藏,是所有公司最值錢的財富之一,也是當下所有公司都想挖掘的秘密;數據是會說話的,關鍵是我們如何讀懂和理解他,本書能引導我們大家如何讀懂他,如何用他指導我們的產品運營和產品設計,如何做精準行銷,是非常值得推薦的一本數據分析類書籍。

——著名網際網路資料庫架構師金官丁 @mysqlops

本書循序漸進地剖析了大數據挖掘算法在搜尋和廣告等方面的套用,理論描述深入淺出,套用案例非常精彩,網際網路專業知識豐富。本書適合作為搜尋廣告等相關領域研發的參考手冊,也適合作為數據挖掘及Web套用的學習教材。

——阿里巴巴資深技術專家林鋒博士 @Frank-林峰

資訊時代里,數據對人類生活的影響和社會的掌控力在不斷被放大,理解和運用龐大規模的數據成為了一項雄心勃勃的計畫。本書探討了大數據時代前沿的熱點問題,描繪了大規模數據挖掘在當前環境下的典型套用。有概念分析,也有操作實例,既是一本優秀的入門讀物,又適合業內人士隨時翻閱參考。

——優酷資深工程師章岑

前言

從接到俠少的約稿到現在已經四個月了,但對大數據挖掘的關注是遠不止四個月的。很感謝俠少給我這個機會,在寫書的過程中我對於大數據挖掘的理解也上升了一個台階,因為當你試圖給第二個人解釋你自以為很了解的概念時會發現自己了解的深度還遠遠不夠。第一次寫完之後自己再讀又發現新的需要修改的內容,如此反覆多次,終於大致成稿。現在的版本中一定還有用詞不恰當的地方,請各位讀者海涵。

數據對於人們到底意味著什麼?我在寫書的過程中一直在思考這個問題。數據挖掘並不是一門嶄新的學科,而是綜合了統計分析、機器學習、資料庫等多方面研究成果的套用學科。而近年來的大數據又使得數據挖掘有了革命性的發展。

諸行無常,諸法無我。在大數據的環境中唯一不變的是變化,我們在本書中講述的理論和概念很可能過了兩年甚至一年就會發生變化,這也是網際網路時代的本質特徵。

竊認為,寫一本書,即便是教科書,也不能停留在理論層面。如果一本書寫成陽春白雪那是非常失敗的。自有計算機這個專業以來,做計算機理論研究和做計算機套用之間就有一道鴻溝。比如筆者讀書時在Machine Learning期刊上發表的PAC Learning Axis-aligned Rectangles with Respect to Product Distributions from Multiple-Instance Examples一文,雖然提出了一個很美麗的PAC學習算法,但是這個算法的實現性僅僅停留在理論層面。本書的初衷就是把“大數據挖掘”寫成“最炫民族風”,所以書中所舉的實例基本都是切實可行的實際案例,限於商業原因,我們不能詳細描述全部的具體實施過程,如果讀者有疑問,歡迎隨時和我交流。

而一本書也一定不能只是信息資料和概念的堆砌。本書在陳述大數據的事實和概念的同時,也儘量揭示在這些事實和概念背後的原理和實際運用。

這本書不是一個人的戰鬥。在這本書的寫作過程中,我得到了很多人的幫助。首先要感謝的是互動通HdtMedia的Michael和Clarence兩位前輩對我的大力支持和鼓勵,讓我有力量可以寫完這本書。我要感謝Microsoft總部雲平台的首席開發經理陳眾同學、Microsoft亞洲研究院的周禮棟博士和微軟搜尋技術部首席開發經理劉欣同學給本書的結構提出的修改意見。感謝復旦大學的黃萱菁博導和微軟亞洲研究院的謝幸博導,他們除了在百忙之中給本書寫了書評之外,還提出了寶貴的修改建議。

還要感謝江峰、韓冬、曹曉波、王海、荷鐵勇、樓建強、李嘉驊、吳浩苗等同學幫我查找數據挖掘相關資料,鮑佳、劉曉鵬、俞舒、李悌開、戴霖和匙柟等同學幫我校驗一些章節。特別要感謝董雅楠同學多次通讀全書,挑出的錯別字和語法問題令我汗顏,讓我覺得全國國語考試還是有必要的。

思美傳媒的江山同學、淘寶開放平台的馮光同學、UTC的于振偉同學、車鄰網的呂筍同學、火花無線的吳國鴻同學、聚流電商的周為同學和首正信息的羅俊峰同學為本書提供了大量精彩的案例和數據,在此一併表示特別的謝意。

Raymond @CarelessWhisper

2013年1月28日

相關詞條

相關搜尋

熱門詞條

聯絡我們