海量數據分析前沿:《海量數據分析前沿》是2015年清華大學出版社出版的圖 -百科知識中文網

圖書介紹

近年來，大數據成為學術界和工業界的熱點，其本質就是海量數據分析。海量數據的來源包括網際網路、感測器、生產生活、科學觀測、科學實驗等。海量數據分析不僅可以幫助人們取得新的科學發現，也可以推動技術的適應性、個性化和健壯性方面的進步。海量數據分析是一個跨學科的研究領域，理解本書的內容需要具備計算機科學、統計學和最佳化理論的基礎知識。本書從計算和推理的角度分析了與海量數據分析相關的前沿問題，重點介紹海量數據挖掘分析以及流數據挖掘的進展，討論了並行和分散式系統架構方面的最新發展，具體內容包括數據建模、任務建模、計算複雜性問題分析、數據採樣以及人工參與的數據分析方法等。

譯者序

這是一本值得一讀的書，我第一次讀到它的時候就想把它介紹給大家。由於各種原因，這本書的中文譯本的出版比我們期望的晚了一年多，但我相信它仍不過時，還是值得認真拜讀。我是在2013年11月13日下午陪同國家自然科學基金委員會信息學部大數據考察團訪問加州大學伯克利分校時獲贈這本書的，伯克利AMP實驗室主任Michael J. Franklin在介紹美國大數據研究計畫以及他們實驗室的工作之後把這本他參與撰寫的剛剛出版的書送給了我們。我們考察團一行四人，包括基金委信息學部常務副主任秦玉文教授、計算機處處長劉克教授、華東師範大學何曉豐教授。考察的首站是矽谷，我們拜訪了位於Mountain View的微軟矽谷研究院搜尋實驗室的Rakesh Agrawal博士和位於Palo Alto的SAP美國總部的Dina Bitton博士和Ming\|Chien Shan博士。訪問伯克利是我們大數據考察的重要一站，2013年11月13日上午，我們一行受到勞倫斯伯克利國家實驗室（LBNL）常務副主任Horst Simon的熱情接待。LBNL不僅是世界上第一個加速器的誕生地，也是科學數據管理的發祥地。來自LNBL的科學家們向我們介紹了他們在科學計算、科學數據管理、可視化和可視分析等方面的工作，讓我們領略了他們在科學數據管理和分析方面源遠流長的歷史和做出的卓越貢獻。加州大學伯克利分校AMP實驗室是受美國大數據研究計畫資助成立的。AMP實驗室主任Michael J. Franklin教授2013年上半年受邀在華東師範大學進行學術休假訪問，訪問期間他兩次返回美國華盛頓就是為了討論本書的撰寫和定稿，他在學術報告和學術交流中，多次提到這本書，很令我們期待。

“大數據”無疑是近幾年最熱的一個科技術語。據2012年12月4日美國《時代》周刊網站報導，在美國的2012年十大流行詞評比中，“大數據”名列第二，排第一的是美國人當年最為關心的政治事件“財政懸崖”。在IT領域，“大數據”是繼高性能計算機、網際網路、格線計算、雲計算之後的又一被大眾所關注的技術術語。從某種意義上講，“大數據”已經遠遠超出了技術範疇，變成一個被賦予各種解讀的流行詞。“大數據”在我國的熱度還在持續上升，只是從今年兩會以後稍稍讓位於“網際網路+”。正是因為“大數據”這個詞的含義太過寬泛，各人可以有自己的一套解讀方式。在不少場合聽到過各種有關“大數據”的報告，一個普遍的情況是：報告的大數據套用大多不是報告人熟悉的領域。似乎印證了那句話“網際網路企業做大數據，做的不說，說的不做”。

實際上，雖然網際網路是推動大數據熱的始作俑者，但廣泛來說，大數據不僅僅局限於網際網路數據。要討論這林林總總的數據，從認識論的觀點來看，首先就是要對大數據進行分類，這非常必要，是確保大家在同一論域進行討論的前提。按照我的理解，大數據大致可以分為Web數據、決策數據、科學數據三大類。顧名思義，Web數據是與Web相關的數據，包括網頁、連結、日誌等具體類型，入口網站、搜尋引擎、社交網路、電子商務等以Web形式呈現或以Web為載體的新型信息服務系統產生的數據大多可以歸納為此類型。決策數據主要指以前由傳統的資料庫和數據倉庫管理的，在生產過程中產生的數據，是用於決策的，也可稱為商務智慧型（BI）數據。科學數據實際上是最早的一類大數據，包括科學實驗數據、科學觀測數據、科學文獻數據、設計數據等，這類數據與科學領域密切相關，品種最多，研究最難，沒有領域專家的參與IT專家難以勝任科學數據的管理和分析任務。

以上是大數據類型的一個劃分，關於大數據研究的認識，我也有一個分三個層次的觀點。大數據的研究全景可以看作是一個倒立的三角形。這個倒立三角形分為三層，最上面一層，也就是最寬的那一層，代表形形色色的各種套用，這些套用是數據的來源也是數據的套用場所；最底下的一層，也就是那個小三角形，就代表IT計算系統或平台，這是傳統信息技術行業關心和擅長的領域；中間那一層代表模型和算法，指的就是對套用進行理解、抽象、建模，然後在底層的計算平台上予以實現。我讀這本書，就是按照這三個層次來理解的。這也是我喜歡這本書的一個原因。這三個層次中，套用這一層，每一類套用有各自對應的學科去深入研究；計算平台那一層對應的學科就是我們計算機或IT學科。關於這兩層，本書的第二、第三章以及其他部分章節有所涉及。本書的主要章節討論的內容都是和第二層模型和算法相關的。

按照本書的觀點，大數據的本質就是海量數據分析。海量數據的來源包括網際網路、感測器、生產生活、科學觀測、科學實驗等。海量數據分析不僅可以幫助人們獲得新的科學發現，也可以推動技術在適應性、個性化和健壯性方面的進步。海量數據分析是個跨學科的研究領域，理解本書的內容需要具備計算機科學、統計學和最佳化理論的基礎知識。本書從計算和推理的角度分析了與海量數據分析相關的前沿問題，重點介紹海量數據挖掘分析以及流數據挖掘的進展，討論了並行和分散式系統架構方面最新發展，具體內容包括數據建模、任務建模、計算複雜性問題分析、數據採樣以及人工參與的數據分析方法等。

本書是由美國國家科學院、美國國家工程院和醫學科學研究院的運營機構——美國國家研究委員會下屬的海量數據分析委員會、套用和理論統計委員會、數學科學及其套用委員會、工程和物理科學部組織編寫的。項目得到了美國國家安全局的支持，全美多個領域七八十位國際頂級專家參與了本書的撰寫或評審工作。本書的中文翻譯得到了清華大學出版社的大力支持，華東師範大學數據科學與工程研究院的周傲英教授、何曉豐教授、周敏奇副教授、金澈清教授、王曉玲教授、王長波教授、錢衛寧教授、宮學慶教授、張蓉副教授、張召副教授、高明副教授，以及雲南大學的岳昆教授和復旦大學的沙朝鋒副教授參與了本書的翻譯和校對。由於本書涉及的學科領域廣泛，參與翻譯的人員較多，再加上譯者水平有限，如有翻譯不準確甚至錯誤之處，敬請讀者諒解並給予指正。

華東師範大學數據科學與工程研究院

周傲英

2015年4月13日

海量數據分析前沿

圖書介紹

譯者序

目錄

相關詞條

大數據技術前沿

數據工程——處理、分析與服務

數理統計與數據分析

大數據治理

大數據產業發展規劃（2016-2020年）

中國電信經營分析系統

中國移動經營分析系統

縱橫大數據：雲計算數據基礎設施

大數據時代[巨量資料（IT行業術語）]

熱門詞條

海量數據分析前沿

圖書介紹

譯者序

目錄

相關詞條

大數據技術前沿

數據工程——處理、分析與服務

數理統計與數據分析

大數據治理

大數據產業發展規劃 （2016-2020年）

中國電信經營分析系統

中國移動經營分析系統

縱橫大數據：雲計算數據基礎設施

大數據時代[巨量資料（IT行業術語）]

熱門詞條

大數據產業發展規劃（2016-2020年）