大數據是這樣計算的：XLab實例入門:《大數據是這樣計算的：XLab實例 -百科知識中文網

內容簡介

隨著大數據分析方法的發展、分析工具的改進，大數據分析的門檻降低了。基於大數據算法平台，數據分析師們已經不再被數據的“大”所困擾，他們可以輕鬆地探索大數據，挖掘大數據的價值。

《大數據是這樣計算的：XLab實例入門》側重介紹大數據分析方法和算法的套用，選取了10個不同領域的真實數據集，針對每個數據的特點，選擇適合的方法和算法，和讀者一起體驗數據探索、數據分析、建模預測的過程；通過實例計算的結果，讀者會更加了解各種方法和算法的長處和局限。《大數據是這樣計算的：XLab實例入門》的實例都運行在大數據算法平台XLab上。

《大數據是這樣計算的：XLab實例入門》適合對大數據分析感興趣的讀者閱讀，也可供數據分析師、算法工程師等專業人員參考使用。

內容提要

《大數據是這樣計算的：XLab實例入門》適合對大數據分析感興趣的讀者閱讀，也可供數據分析師、算法工程師等專業人員參考使用。

精彩節摘

作者簡介

楊旭，吉林長春人，2004年獲南開大學數學博士學位；隨後在南開大學信息學院從事博士後研究工作；2006年加入微軟亞洲研究院，進行符號計算、大規模矩陣計算及機器學習算法研究；2010年加入阿里巴巴，從事大數據相關的統計和機器學習算法研發。著有《重構大數據統計》。

前言

本書希望將最新的、常用的大數據分析方法和算法介紹給讀者。在內容的組織上，選取了10個不同領域的真實數據集，針對每個數據的特點，選擇適合的方法和算法，和讀者一起體驗數據探索、數據分析、建模預測的過程；通過實例計算的結果，我們會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平台XLab上。

XLab是阿里巴巴集團內部最大的大數據算法平台，集統計、機器學習、數據分析、挖據和處理於一體，致力於幫助用戶享受最新的算法研究成果，使其無須關注算法的底層實現和性能調優，專注數據探索和算法嘗試，從而快速地進行業務調整，搭建線上業務。在阿里集團外，大家也有機會接觸到XLab，參加2014年阿里巴巴大數據競賽的幾百支高校學生隊伍，正是使用XLab來進行大數據分析預測的；面對淘寶商家的數據開發平台，“御膳房”便使用了XLab的分散式算法庫XLib。

本書每章一個實例，每個實例各有特點，每章所用的方法也各有側重，我簡單歸納如下，希望能幫助讀者把握本書脈絡，選擇閱讀重點。

第1章

圍繞著人口普查數據，演示了一些常用的方法，譬如：對數據進行可視化，計算常用統計量，進行多維對應分析，根據數據建立模型判斷年收入水平等，希望讀者能體會到：大數據分析還是很簡單、自然的。

第2章

概略介紹XLab的功能，希望大家能對大數據算法平台有個總體了解。

第3章

分析全球機場信息數據，亮點是地理位置信息（經度、緯度、海拔高度）可視化。

第4章

圍繞紐約證券交易所的25家上市公司的股票價格，進行數據預處理、趨勢顯示和主成分分析。

第5章

分析標準普爾500指數，展示如何通過散布圖矩陣，快速發現各數據列間的線性關係；如何將擴展直方圖與方差、變異係數等統計量相結合，探尋規律；本章還會將標準普爾500指數與前一章的主成分分析結果進行對比。

第6章

針對鳶尾花數據集，講解聚類分析中常用的兩種方法：K-Means聚類和EM聚類，通過在鳶尾花數據上的實驗效果，讀者能了解這兩種方法擅長處理的情況；在本章後半部分，實驗、對比了各種分類算法在該數據集上的效果。

第7章

MovieLens數據集記錄了電影信息和觀眾對電影的打分記錄。首先，計算得到各種排行榜，進一步對影片進行關聯分析，即如果知道某個觀眾看了影片A和B，我們可以推測該觀眾可能還看過哪部其他影片？

第8章

關於汽車評價數據集，重點關註：使用對應分析的方法，將各個屬性值間的關係圖示化；如何將數據所描述的規則，轉換為更為形象和易用的樹形決策過程。

第9章

關於Twitter數據，首先嘗試不同的統計方法，一起發現些有意思的現象；還可以針對Twitter的關注關係構成的網路，實驗信息傳播的速度；最後，使用PageRank等方法，我們可以排出這個網路中最重要的人物。

第10章

展示如何生成大規模的隨機數據，並演示了兩個神奇的例子。

第11章

為新浪網頁數據，本章的重點是處理自然語言數據，介紹常用的算法：歸一化、分詞、TF-IDF值、選擇特徵等；主題模型是本章的重點，發掘眾多文檔後面的主題，找出相似的文檔；最後介紹奇妙的Word2Vec算法。

第12章

針對2014年阿里巴巴大數據競賽的賽題數據，展示了完整的大數據問題分析、數據預處理、特徵構造、數據集劃分、模型訓練、預測評估過程。

另外，如果讀者對XLab底層算法的實現感興趣，建議參考我的另一本書《重構大數據統計》。面對海量數據，即使是基本的統計計算，考慮到計算時間和資源消耗，也不能簡單地將教科書上的算法並行化，而是要在計算理論和計算方法上進行創新。

因作者水平有限，書中難免有不妥或疏漏之處，敬請廣大專家和讀者批評、指正！

最後，感謝一起做XLab的各位阿里同事！感謝家人的理解和支持！

楊旭

2016年3月

大數據是這樣計算的：XLab實例入門

內容簡介

內容提要

目錄

精彩節摘

推薦序一

推薦序二

作者簡介

前言

相關詞條

大數據是這樣計算的：XLab實例入門

熱門詞條