內容提要
大數據系列叢書大數據導論周蘇王文編著清華大學出版社北京內容簡介這是一個大數據爆發的時代。面對信息的激流、多元化數據的湧現,大數據已經為個人生活、企業經營,甚至國家與社會的發展都帶來了機遇和挑戰,大數據已經成為IT信息產業中最具潛力的藍海。
“大數據導論”是一門理論性和實踐性都很強的課程。本教材針對信息管理、經濟管理和其他相關專業學生的發展需求,系統、全面地介紹了關於大數據技術與套用的基本知識和技能,詳細介紹了大數據與大數據時代、大數據的可視化、大數據的商業規則、大數據時代的思維變革、大數據促進醫療與健康、大數據激發創造力、大數據預測分析、大數據促進學習、大數據在雲端、支撐大數據的技術、數據科學與數據科學家和大數據的未來等內容,具有較強的系統性、可讀性和實用性。
本書是為高等院校相關專業“大數據基礎”“大數據導論”等課程全新設計編寫,具有豐富實踐特色的主教材,也可供有一定實踐經驗的軟體開發人員、管理人員參考和作為繼續教育的教材。
圖書目錄
數據與大數據時代1
1.1什麼是大數據2
1.1.1天文學——信息爆炸的起源3
1.1.2大數據的定義6
1.1.3用3V描述大數據特徵7
1.1.4廣義的大數據9
1.2大數據變革思維9
1.3大數據的結構類型10
1.4大數據的發展11
1.4.1硬體性價比提高與軟體技術進步11
1.4.2雲計算的普及12
1.4.3大數據作為BI的進化形式12
1.4.4從交易數據分析到互動數據分析13第2章大數據的可視化19
2.1數據與可視化21
2.1.1數據的可變性22
2.1.2數據的不確定性23
2.1.3數據所依存的背景信息24
2.1.4打造最好的可視化效果25
2.2數據與圖形25
2.2.1數據與走勢26
2.2.2視覺信息的科學解釋28
2.2.3圖片和分享的力量29
2.3公共數據集30
2.4實時可視化31
2.5挑戰圖像的多變性32
2.6數據可視化的運用332.6.1可視化對認知的幫助34
2.6.27個數據類型35
2.6.37個基本任務36
2.6.4數據可視化的挑戰38第3章大數據的商業規則45
3.1大數據的跨界年度46
3.2谷歌的大數據行動47
3.3亞馬遜的大數據行動49
3.4將信息變成一種競爭優勢50
3.4.1數據價格下降,數據需求上升51
3.4.2大數據應用程式的興起52
3.4.3實時回響,大數據用戶的新要求53
3.4.4企業構建大數據戰略53
3.5大數據行銷54
3.5.1像媒體公司一樣思考54
3.5.2行銷面對新的機遇與...
3.5.3自動化行銷56
3.5.4為行銷創建高容量和高價值的內容57
3.5.5內容行銷57
3.5.6內容創作與眾包58
3.5.7用投資回報率評價行銷效果59第4章大數據時代的思維變革65
4.1大數據時代的大挑戰67
4.2轉變之一:樣本=總體68
4.2.1小數據時代的隨機採樣68
4.2.2大數據與賈伯斯的癌症治療71
4.2.3全數據模式:樣本=總體72
4.3轉變之二:接受數據的混雜性74
4.3.1允許不精確74
4.3.2大數據的簡單算法與小數據的複雜算法76
4.3.3紛繁的數據越多越好77
4.3.4混雜性是標準途徑78
4.3.5新的資料庫設計79
4.3.65%的數字數據與95%的非結構化數據81
4.4轉變之三:數據的相關關係81
4.4.1關聯物,預測的關鍵81
4.4.2“是什麼”,而不是“為什麼”84
4.4.3通過因果關係了解世界84
4.4.4通過相關關係了解世界86第5章大數據促進醫療與健康93
5.1大數據與循證醫學95
5.2大數據帶來的醫療新突破96
5.2.1量化自我,關注個人健康97
5.2.2可穿戴的個人健康設備98
5.2.3大數據時代的醫療信息99
5.2.4CellMiner——對抗癌症的新工具100
5.3醫療信息數位化102
5.4搜尋:超級大數據的最佳夥伴104
5.5數據決策的成功崛起105
5.5.1數據輔助診斷106
5.5.2你考慮過……了嗎106
5.5.3大數據分析使數據決策崛起107第6章大數據激發創造力112
6.1大數據幫助改善設計114
6.1.1少而精是設計的核心115
6.1.2與玩家共同設計遊戲116
6.1.3以人為本的汽車設計理念116
6.1.4尋找最佳音響效果118
6.1.5建築,數據取代直覺119
6.2大數據操作迴路119
6.2.1信號與噪聲120
6.2.2大數據反饋迴路120
6.2.3最小數據規模121
6.2.4大數據應用程式的優勢與作用121
6.3大數據資產的崛起122
6.3.1大數據催生嶄新的應用程式122
6.3.2尋找大數據“空白”,提取最大價值122
第7章大數據預測分析126
7.1什麼是預測分析130
7.1.1預測分析的作用130
7.1.2行業套用舉例131
7.2數據情感和情感數據132
7.2.1從部落格觀察集體情感132
7.2.2預測分析部落格中的情緒133
7.2.3影響情緒的重要因素——金錢135
7.3數據具有內在預測性136
7.4情感的因果關係137
7.4.1焦慮指數與標普500指數137
7.4.2驗證情感和被驗證的情感138
7.4.3情緒指標影響金融市場139第8章大數據促進學習149
8.1打造網路教育體系152
8.1.1典型的網路教育形式152
8.1.2未來的教育:線上線下結合153
8.1.3跟蹤教學效果154
8.1.4形成學習能力155
8.2機器學習及其研究155
8.2.1什麼是人工智慧156
8.2.2什麼是機器學習157
8.2.3基本結構159
8.2.4研究領域160
8.3機器學習的分類160
8.3.1基於學習策略的分類160
8.3.2基於所獲取知識的表示形式分類161
8.3.3按套用領域分類162
8.3.4按學習形式分類162第9章大數據在雲端171
9.1雲端大數據173
9.1.1什麼是雲計算173
9.1.2雲計算的服務形式174
9.1.3雲計算與大數據175
9.1.4雲基礎設施176
9.2計算虛擬化176
9.3大數據存儲177
9.3.1傳統存儲系統時代178
9.3.2大數據時代的新挑戰178
9.3.3分散式存儲180
9.3.4雲存儲180
9.3.5大數據存儲的其他需求181
9.4網路虛擬化182
9.4.1網卡虛擬化182
9.4.2虛擬交換機183
9.4.3接入層的虛擬化184
9.4.4覆蓋網路虛擬化184
9.4.5軟體定義的網路184
9.4.6對大數據處理的意義185
9.5數據即服務185
9.5.1數據套用185
9.5.2數據清理185
9.5.3數據保密186
9.6雲的挑戰186
第10章支撐大數據的技術193
10.1開源技術的商業支援195
10.2大數據的技術架構196
10.3什麼是Hadoop197
10.3.1什麼是分散式系統197
10.3.2Hadoop的由來199
10.3.3Hadoop的優勢200
10.3.4Hadoop的發行版本200
10.4大數據的數據處理基礎202
10.4.1Hadoop與NoSQL203
10.4.2NoSQL與RDBMS的主要區別204
10.4.3NewSQL206
10.5相關的大數據技術207
10.5.1神經網路207
10.5.2自然語言處理208
10.5.3語義檢索209
10.5.4連結挖掘210
10.5.5A/B測試210第11章數據科學與數據科學家217
11.1什麼是數據科學218
11.2數據分析生命周期模型219
11.3數據科學家221
11.3.1大數據生態系統中的關鍵角色222
11.3.2數據科學家所需的技能223
11.3.3數據科學家所需的素質226
11.3.4數據科學家的學習內容227
11.4數據科學的重要技能229
11.4.1數據科學技能和熟練程度230
11.4.2重要數據科學技能230
11.4.3因職業角色而異的十大技能231
11.4.4職業角色的重要技能233第12章大數據的未來240
12.1消費者的隱私權242
12.2連線開放數據244
12.2.1LOD運動244
12.2.2對政府公開的影響245
12.2.3利用開放數據的創業型公司247
12.3數據市場的興起247
12.3.1Factual248
12.3.2Windows Azure Marketplace248
12.3.3Infochimps248
12.3.4Public Data Sets On AWS249
12.3.5不同的商業模式249
12.4將原創數據變為增值數據250
12.5大數據未來展望251
12.5.1大數據存儲和管理252
12.5.2傳統IT系統到大數據系統的過渡252
12.5.3大數據分析253
12.5.4大數據安全254
12.5.5數據科學254
參考文獻266