內容簡介
隨著大數據分析方法的發展、分析工具的改進,大數據分析的門檻降低了。基於大數據算法平台,數據分析師們已經不再被數據的“大”所困擾,他們可以輕鬆地探索大數據,挖掘大數據的價值。
《大數據是這樣計算的:XLab實例入門》側重介紹大數據分析方法和算法的套用,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會更加了解各種方法和算法的長處和局限。《大數據是這樣計算的:XLab實例入門》的實例都運行在大數據算法平台XLab上。
《大數據是這樣計算的:XLab實例入門》適合對大數據分析感興趣的讀者閱讀,也可供數據分析師、算法工程師等專業人員參考使用。
內容提要
隨著大數據分析方法的發展、分析工具的改進,大數據分析的門檻降低了。基於大數據算法平台,數據分析師們已經不再被數據的“大”所困擾,他們可以輕鬆地探索大數據,挖掘大數據的價值。
《大數據是這樣計算的:XLab實例入門》側重介紹大數據分析方法和算法的套用,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會更加了解各種方法和算法的長處和局限。《大數據是這樣計算的:XLab實例入門》的實例都運行在大數據算法平台XLab上。
《大數據是這樣計算的:XLab實例入門》適合對大數據分析感興趣的讀者閱讀,也可供數據分析師、算法工程師等專業人員參考使用。
目錄
第1章 入門 1
1.1 打開大數據之門 1
1.2 接觸大數據 2
1.3 數據初探索 4
1.4 進一步分析 10
1.5 訓練和預測 17
第2章 簡介 23
2.1 主界面介紹 23
2.1.1 工具列 24
2.1.2 數據列表 26
2.1.3 視窗管理器 28
2.1.4 工作界面 28
2.2 數據查看、運行 29
2.2.1 文本顯示 31
2.2.2 複製部分數據 31
2.2.3 顯示/隱藏列 32
2.3 腳本編輯、運行 33
2.4 如何獲得幫助信息 37
2.4.1 查看幫助手冊 37
2.4.2 界面上的幫助信息 38
2.4.3 腳本函式的幫助信息 40
2.5 執行SQL語句 44
第3章 全球機場信息 46
3.1 數據可視化 47
3.2 統計分析 58
3.3 大中型機場的分析 62
3.4 海拔高度排行 64
3.5 數據的關聯關係 68
第4章 股票價格 73
4.1 數據處理 74
4.2 數據探索 78
4.3 數據展開 81
4.3.1 組合使用基本函式進行變換 83
4.3.2 利用專門函式一步到位 84
4.4 各股趨勢比較 85
4.5 總體趨勢 87
第5章 標準普爾500指數 91
5.1 數據類型轉換 92
5.2 各指標間的線性關係 93
5.3 按時間變化趨勢 96
5.4 數據對比 100
第6章 鳶尾花數據集 107
6.1 屬性間的關係 108
6.2 聚類 110
6.2.1 K-Means聚類 111
6.2.2 EM聚類 120
6.3 二分類數據子集 124
6.3.1 使用訓練、預測窗體 125
6.3.2 調用訓練、預測腳本 131
第7章 MovieLens數據集 136
7.1 數據變換 137
7.2 統計 138
7.3 排行榜 145
7.4 分類排行榜 147
7.5 影片關聯分析 149
7.6 屬性擴展 157
第8章 汽車評價數據集 161
8.1 數據圖示化 162
8.2 對比分析 165
8.3 決策樹 169
第9章 Twitter數據 174
9.1 用戶信息分析 175
9.2 用戶冬粉數量的情況 184
9.3 冬粉的情況 192
9.4 “粉”與“被粉” 197
9.5 信息傳播速度 204
9.6 哪些用戶更重要 208
9.6.1 冬粉最多的用戶 209
9.6.2 用戶排名 211
第10章 隨機數據 215
10.1 數據生成 215
10.2 計算π值 217
10.3 中心極限定理 222
第11章 新浪網頁數據 230
11.1 分詞 232
11.2 有區分度的單詞 234
11.3 選擇特徵 235
11.3.1 卡方檢驗 236
11.3.2 信息增益 238
11.4 主題模型 242
11.4.1 潛在語義分析 242
11.4.2 機率潛在語義分析 253
11.4.3 LDA模型 272
11.5 單詞映射為向量 289
第12章 2014年阿里巴巴大數據競賽 294
12.1 試題介紹 294
12.2 數據 296
12.3 思路 298
12.3.1 用戶和品牌的各種特徵 298
12.3.2 二分類模型訓練 300
12.3.3 比賽考核目標 301
12.4 計算訓練數據集 302
12.4.1 原始數據劃分 303
12.4.2 計算特徵 304
12.4.3 數據預處理標識 304
12.4.4 用戶-品牌聯合特徵 308
12.4.5 用戶特徵 313
12.4.6 品牌特徵 317
12.4.7 整合訓練數據的特徵 322
12.4.8 計算標籤 323
12.5 二分類模型訓練 324
12.5.1 正負樣本配比 324
12.5.2 樸素貝葉斯算法 325
12.5.3 邏輯回歸算法 326
12.5.4 隨機森林算法 327
12.6 提交預測結果 328
精彩節摘
推薦序一
阿里雲副總裁
周靖人
阿里巴巴的大數據算法平台作為支持天貓、淘寶和支付寶等各種業務的基石,每天有數千名的阿里工程師在平台上處理各式各樣的海量數據。作者多年來一直從事阿里巴巴的大數據算法平台的研發,致力於幫助工程師更快捷、更高效地挖掘大數據,進行複雜多樣的數據分析。作者根據自己在阿里大數據計算方面的所見所聞,結合多個具體的案例分析,將大數據分析計算的脈絡直觀、清晰地展現給讀者。
本書集中在大數據分析實戰上,精選了不同行業和領域的數據集,重點講解大數據的分析方法和算法。本書的每一個章節都圍繞一個實際數據集,從數據探索入手,根據數據自身的特點選取相應的分析方法,並對相關算法和方法進行簡要介紹,便於讀者理解掌握。同時,本書注重計算結果的分析,使讀者對算法的效果有具體的印象,加強對算法的理解。它是大數據領域一本難得的實用好書!
推薦序二
螞蟻金服副總裁、首席數據科學家
漆遠
本書立足於阿里巴巴成熟的大數據算法平台,讀者在分析實例時,可以直接關注思路和算法,省去了如何編寫複雜的分散式代碼實現一個常用算法的困擾。本書的學習門檻低,讀者如果用過MATLAB、SAS、R或Excel等任何一款數據分析軟體,就可以輕鬆讀懂本書。
作者是阿里巴巴一個核心MPI大數據算法平台的主要建設者和領頭人,其開發的算法平台在阿里巴巴和螞蟻金服集團都廣泛使用,很好地支持了數據分析師和工程師的工作。作者結合自身的豐富經驗,通過具體案例全面地解析數據探索過程,講解思路、具體算法的使用及技巧,實戰性強:面對具體的數據,引入適合的算法,有簡明的算法原理介紹;通過算法套用到數據後的效果展示,讀者能感性地了解該算法的作用。
本書可以幫助對大數據分析感興趣的初學者了解該領域,提高自己在該領域的知識積累。本書所討論的十多個數據集,涉及不同的場景,用到了各種統計分析和機器學習的算法,可以幫助正在從事該領域的專業人士擴寬知識面,增強大數據實戰能力。
看完這本書,也許你會揭下大數據神秘的“面紗”,然後發現它很有意思、很有用!
作者簡介
楊旭,吉林長春人,2004年獲南開大學數學博士學位;隨後在南開大學信息學院從事博士後研究工作;2006年加入微軟亞洲研究院,進行符號計算、大規模矩陣計算及機器學習算法研究;2010年加入阿里巴巴,從事大數據相關的統計和機器學習算法研發。著有《重構大數據統計》。
前言
隨著大數據分析方法的發展、分析工具的改進,大數據分析的門檻降低了。基於大數據算法平台,數據分析師們已經不再被數據的“大”所困擾,他們可以輕鬆地探索大數據,挖掘大數據的價值。
本書希望將最新的、常用的大數據分析方法和算法介紹給讀者。在內容的組織上,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,我們會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平台XLab上。
XLab是阿里巴巴集團內部最大的大數據算法平台,集統計、機器學習、數據分析、挖據和處理於一體,致力於幫助用戶享受最新的算法研究成果,使其無須關注算法的底層實現和性能調優,專注數據探索和算法嘗試,從而快速地進行業務調整,搭建線上業務。在阿里集團外,大家也有機會接觸到XLab,參加2014年阿里巴巴大數據競賽的幾百支高校學生隊伍,正是使用XLab來進行大數據分析預測的;面對淘寶商家的數據開發平台,“御膳房”便使用了XLab的分散式算法庫XLib。
本書每章一個實例,每個實例各有特點,每章所用的方法也各有側重,我簡單歸納如下,希望能幫助讀者把握本書脈絡,選擇閱讀重點。
第1章
圍繞著人口普查數據,演示了一些常用的方法,譬如:對數據進行可視化,計算常用統計量,進行多維對應分析,根據數據建立模型判斷年收入水平等,希望讀者能體會到:大數據分析還是很簡單、自然的。
第2章
概略介紹XLab的功能,希望大家能對大數據算法平台有個總體了解。
第3章
分析全球機場信息數據,亮點是地理位置信息(經度、緯度、海拔高度)可視化。
第4章
圍繞紐約證券交易所的25家上市公司的股票價格,進行數據預處理、趨勢顯示和主成分分析。
第5章
分析標準普爾500指數,展示如何通過散布圖矩陣,快速發現各數據列間的線性關係;如何將擴展直方圖與方差、變異係數等統計量相結合,探尋規律;本章還會將標準普爾500指數與前一章的主成分分析結果進行對比。
第6章
針對鳶尾花數據集,講解聚類分析中常用的兩種方法:K-Means聚類和EM聚類,通過在鳶尾花數據上的實驗效果,讀者能了解這兩種方法擅長處理的情況;在本章後半部分,實驗、對比了各種分類算法在該數據集上的效果。
第7章
MovieLens數據集記錄了電影信息和觀眾對電影的打分記錄。首先,計算得到各種排行榜,進一步對影片進行關聯分析,即如果知道某個觀眾看了影片A和B,我們可以推測該觀眾可能還看過哪部其他影片?
第8章
關於汽車評價數據集,重點關註:使用對應分析的方法,將各個屬性值間的關係圖示化;如何將數據所描述的規則,轉換為更為形象和易用的樹形決策過程。
第9章
關於Twitter數據,首先嘗試不同的統計方法,一起發現些有意思的現象;還可以針對Twitter的關注關係構成的網路,實驗信息傳播的速度;最後,使用PageRank等方法,我們可以排出這個網路中最重要的人物。
第10章
展示如何生成大規模的隨機數據,並演示了兩個神奇的例子。
第11章
為新浪網頁數據,本章的重點是處理自然語言數據,介紹常用的算法:歸一化、分詞、TF-IDF值、選擇特徵等;主題模型是本章的重點,發掘眾多文檔後面的主題,找出相似的文檔;最後介紹奇妙的Word2Vec算法。
第12章
針對2014年阿里巴巴大數據競賽的賽題數據,展示了完整的大數據問題分析、數據預處理、特徵構造、數據集劃分、模型訓練、預測評估過程。
另外,如果讀者對XLab底層算法的實現感興趣,建議參考我的另一本書《重構大數據統計》。面對海量數據,即使是基本的統計計算,考慮到計算時間和資源消耗,也不能簡單地將教科書上的算法並行化,而是要在計算理論和計算方法上進行創新。
因作者水平有限,書中難免有不妥或疏漏之處,敬請廣大專家和讀者批評、指正!
最後,感謝一起做XLab的各位阿里同事!感謝家人的理解和支持!
楊旭
2016年3月