圖書介紹
近年來,大數據成為學術界和工業界的熱點,其本質就是海量數據分析。海量數據的來源包括網際網路、感測器、生產生活、科學觀測、科學實驗等。海量數據分析不僅可以幫助人們取得新的科學發現,也可以推動技術的適應性、個性化和健壯性方面的進步。海量數據分析是一個跨學科的研究領域,理解本書的內容需要具備計算機科學、統計學和最佳化理論的基礎知識。本書從計算和推理的角度分析了與海量數據分析相關的前沿問題,重點介紹海量數據挖掘分析以及流數據挖掘的進展,討論了並行和分散式系統架構方面的最新發展,具體內容包括數據建模、任務建模、計算複雜性問題分析、數據採樣以及人工參與的數據分析方法等。
譯者序
這是一本值得一讀的書,我第一次讀到它的時候就想把它介紹給大家。由於各種原因,這本書的中文譯本的出版比我們期望的晚了一年多,但我相信它仍不過時,還是值得認真拜讀。我是在2013年11月13日下午陪同國家自然科學基金委員會信息學部大數據考察團訪問加州大學伯克利分校時獲贈這本書的,伯克利AMP實驗室主任Michael J. Franklin在介紹美國大數據研究計畫以及他們實驗室的工作之後把這本他參與撰寫的剛剛出版的書送給了我們。我們考察團一行四人,包括基金委信息學部常務副主任秦玉文教授、計算機處處長劉克教授、華東師範大學何曉豐教授。考察的首站是矽谷,我們拜訪了位於Mountain View的微軟矽谷研究院搜尋實驗室的Rakesh Agrawal博士和位於Palo Alto的SAP美國總部的Dina Bitton博士和Ming\|Chien Shan博士。訪問伯克利是我們大數據考察的重要一站,2013年11月13日上午,我們一行受到勞倫斯伯克利國家實驗室(LBNL)常務副主任Horst Simon的熱情接待。LBNL不僅是世界上第一個加速器的誕生地,也是科學數據管理的發祥地。來自LNBL的科學家們向我們介紹了他們在科學計算、科學數據管理、可視化和可視分析等方面的工作,讓我們領略了他們在科學數據管理和分析方面源遠流長的歷史和做出的卓越貢獻。加州大學伯克利分校AMP實驗室是受美國大數據研究計畫資助成立的。AMP實驗室主任Michael J. Franklin教授2013年上半年受邀在華東師範大學進行學術休假訪問,訪問期間他兩次返回美國華盛頓就是為了討論本書的撰寫和定稿,他在學術報告和學術交流中,多次提到這本書,很令我們期待。
“大數據”無疑是近幾年最熱的一個科技術語。據2012年12月4日美國《時代》周刊網站報導,在美國的2012年十大流行詞評比中,“大數據”名列第二,排第一的是美國人當年最為關心的政治事件“財政懸崖”。在IT領域,“大數據”是繼高性能計算機、網際網路、格線計算、雲計算之後的又一被大眾所關注的技術術語。從某種意義上講,“大數據”已經遠遠超出了技術範疇,變成一個被賦予各種解讀的流行詞。“大數據”在我國的熱度還在持續上升,只是從今年兩會以後稍稍讓位於“網際網路+”。正是因為“大數據”這個詞的含義太過寬泛,各人可以有自己的一套解讀方式。在不少場合聽到過各種有關“大數據”的報告,一個普遍的情況是:報告的大數據套用大多不是報告人熟悉的領域。似乎印證了那句話“網際網路企業做大數據,做的不說,說的不做”。
實際上,雖然網際網路是推動大數據熱的始作俑者,但廣泛來說,大數據不僅僅局限於網際網路數據。要討論這林林總總的數據,從認識論的觀點來看,首先就是要對大數據進行分類,這非常必要,是確保大家在同一論域進行討論的前提。按照我的理解,大數據大致可以分為Web數據、決策數據、科學數據三大類。顧名思義,Web數據是與Web相關的數據,包括網頁、連結、日誌等具體類型,入口網站、搜尋引擎、社交網路、電子商務等以Web形式呈現或以Web為載體的新型信息服務系統產生的數據大多可以歸納為此類型。決策數據主要指以前由傳統的資料庫和數據倉庫管理的,在生產過程中產生的數據,是用於決策的,也可稱為商務智慧型(BI)數據。科學數據實際上是最早的一類大數據,包括科學實驗數據、科學觀測數據、科學文獻數據、設計數據等,這類數據與科學領域密切相關,品種最多,研究最難,沒有領域專家的參與IT專家難以勝任科學數據的管理和分析任務。
以上是大數據類型的一個劃分,關於大數據研究的認識,我也有一個分三個層次的觀點。大數據的研究全景可以看作是一個倒立的三角形。這個倒立三角形分為三層,最上面一層,也就是最寬的那一層,代表形形色色的各種套用,這些套用是數據的來源也是數據的套用場所;最底下的一層,也就是那個小三角形,就代表IT計算系統或平台,這是傳統信息技術行業關心和擅長的領域;中間那一層代表模型和算法,指的就是對套用進行理解、抽象、建模,然後在底層的計算平台上予以實現。我讀這本書,就是按照這三個層次來理解的。這也是我喜歡這本書的一個原因。這三個層次中,套用這一層,每一類套用有各自對應的學科去深入研究;計算平台那一層對應的學科就是我們計算機或IT學科。關於這兩層,本書的第二、第三章以及其他部分章節有所涉及。本書的主要章節討論的內容都是和第二層模型和算法相關的。
按照本書的觀點,大數據的本質就是海量數據分析。海量數據的來源包括網際網路、感測器、生產生活、科學觀測、科學實驗等。海量數據分析不僅可以幫助人們獲得新的科學發現,也可以推動技術在適應性、個性化和健壯性方面的進步。海量數據分析是個跨學科的研究領域,理解本書的內容需要具備計算機科學、統計學和最佳化理論的基礎知識。本書從計算和推理的角度分析了與海量數據分析相關的前沿問題,重點介紹海量數據挖掘分析以及流數據挖掘的進展,討論了並行和分散式系統架構方面最新發展,具體內容包括數據建模、任務建模、計算複雜性問題分析、數據採樣以及人工參與的數據分析方法等。
本書是由美國國家科學院、美國國家工程院和醫學科學研究院的運營機構——美國國家研究委員會下屬的海量數據分析委員會、套用和理論統計委員會、數學科學及其套用委員會、工程和物理科學部組織編寫的。項目得到了美國國家安全局的支持,全美多個領域七八十位國際頂級專家參與了本書的撰寫或評審工作。本書的中文翻譯得到了清華大學出版社的大力支持,華東師範大學數據科學與工程研究院的周傲英教授、何曉豐教授、周敏奇副教授、金澈清教授、王曉玲教授、王長波教授、錢衛寧教授、宮學慶教授、張蓉副教授、張召副教授、高明副教授,以及雲南大學的岳昆教授和復旦大學的沙朝鋒副教授參與了本書的翻譯和校對。由於本書涉及的學科領域廣泛,參與翻譯的人員較多,再加上譯者水平有限,如有翻譯不準確甚至錯誤之處,敬請讀者諒解並給予指正。
華東師範大學數據科學與工程研究院
周傲英
2015年4月13日
目錄
概要1
海量數據的機遇與挑戰1
結論5
第一章引言11
挑戰11
當前進展17
報告組成19
參考文獻21
第二章科學、技術、商業、國防、電信及其他領域的海量數據22
海量數據出現在哪裡22
海量數據分析的挑戰24
大數據分析趨勢26
樣例30
參考文獻42
第三章數據管理基礎設施的規模擴大44
擴大數據集的數量44
通過分散式和並行系統實現計算技術的擴展47
未來研究的趨勢61
參考文獻63第四章時態數據和實時算法65
概述65
數據採集66
數據處理、表示和推理68
針對時態數據集的系統和硬體71
挑戰71
參考文獻72
第五章大規模數據表示74
概述74
數據表示的目標76
挑戰和未來方向82
參考文獻89
第六章資源、權衡與局限性93
概述93
理論計算機科學的相關知識94
差異與機會98
參考文獻103
第七章由海量數據建立模型106
統計模型介紹106
數據清洗113
模型分類115
模型調整與評估121
挑戰127
參考文獻135
第八章採樣與海量數據137
統計採樣的常用技術137
海量數據採樣的挑戰145
參考文獻150
第九章人類與數據的互動153
概述153
最新進展154
人機協同的數據分析159
機遇、挑戰和方向161
參考文獻164
第十章海量數據分析的七個計算“巨人”167
基本統計170
廣義N\|體問題171
圖論計算172
線性代數計算174
最佳化175
積分176
對齊問題177
討論178
參考文獻179
第十一章結論185
附錄A縮略語191
附錄B委員會成員簡介193