大數據架構詳解

大數據架構詳解

《大數據架構詳解》 全稱《大數據架構詳解:從數據獲取到深度學習》,由朱潔編著,電子工業出版社2016年10月出版。

內容提要

《大數據架構詳解:從數據獲取到深度學習》從架構、業務、技術三個維度深入淺出地介紹了大數據處理領域端到端的知識。主要內容包括三部分:第一部分從數據的產生、採集、計算、存儲、消費端到端的角度介紹大數據技術的起源、發展、關鍵技術點和未來趨勢,結合生動的業界最新產品,以及學術界最新的研究方向和成果,讓深奧的技術淺顯易懂;第二部分從業務和技術角度介紹實際案例,讓讀者理解大數據的用途及技術的本質;第三部分介紹大數據技術不是孤立的,講解如何與前沿的雲技術、深度學習、機器學習等相結合。

《大數據架構詳解:從數據獲取到深度學習》內容深入淺出,技術結合實踐,從實踐中理解架構和技術的本質,適合大數據技術領域的從業人員如架構師、工程師、產品經理等,以及準備學習相關領域知識的學生和老師閱讀。  

目錄

第一部分大數據的本質

第1章大數據是什麼 2

1.1 大數據導論 2

1.1.1 大數據簡史 2

1.1.2 大數據現狀 3

1.1.3 大數據與BI 3

1.2 企業數據資產 4

1.3 大數據挑戰 5

1.3.1 成本挑戰 6

1.3.2 實時性挑戰 6

1.3.3 安全挑戰 6

1.4 小結 6

第2章運營商大數據架構 7

2.1 架構驅動的因素 7

2.2 大數據平台架構 7

2.3 平台發展趨勢 8

2.4 小結 8

第3章運營商大數據業務 9

3.1 運營商常見的大數據業務 9

3.1.1 SQM(運維質量管理) 9

3.1.2 CSE(客戶體驗提升) 9

3.1.3 MSS(市場運維支撐) 10

3.1.4 DMP(數據管理平台) 10

3.2 小結 11

第二部分大數據技術

第4章數據獲取 14

4.1 數據分類 14

4.2 數據獲取組件 14

4.3 探針 15

4.3.1 探針原理 15

4.3.2 探針的關鍵能力 16

4.4 網頁採集 26

4.4.1 網路爬蟲 26

4.4.2 簡單爬蟲Python代碼示例 32

4.5 日誌收集 33

4.5.1 Flume 33

4.5.2 其他日誌收集組件 47

4.6 數據分發中間件 47

4.6.1 數據分發中間件的作用 47

4.6.2 Kafka架構和原理 47

4.7 小結 82

第5章流處理 83

5.1 運算元 83

5.2 流的概念 83

5.3 流的套用場景 84

5.3.1 金融領域 84

5.3.2 電信領域 85

5.4 業界兩種典型的流引擎 85

5.4.1 Storm 85

5.4.2 Spark Streaming 89

5.4.3 融合框架 102

5.5 CEP 108

5.5.1 CEP是什麼 108

5.5.2 CEP的架構 109

5.5.3 Esper 110

5.6 實時結合機器學習 110

5.6.1 Eagle的特點 111

5.6.2 Eagle概覽 111

5.7 小結 116

第6章互動式分析 117

6.1 互動式分析的概念 117

6.2 MPP DB技術 118

6.2.1 MPP的概念 118

6.2.2 典型的MPP資料庫 121

6.2.3 MPP DB調優實戰 131

6.2.4 MPP DB適用場景 162

6.3 SQL on Hadoop 163

6.3.1 Hive 163

6.3.2 Phoenix 165

6.3.3 Impala 166

6.4 大數據倉庫 167

6.4.1 數據倉庫的概念 167

6.4.2 OLTP/OLAP對比 168

6.4.3 大數據場景下的同與不同 168

6.4.4 查詢引擎 169

6.4.5 存儲引擎 170

6.5 小結 171

第7章批處理技術 172

7.1 批處理技術的概念 172

7.2 MPP DB技術 172

7.3 MapReduce編程框架 173

7.3.1 MapReduce起源 173

7.3.2 MapReduce原理 173

7.3.3 Shuffle 174

7.3.4 性能差的主要原因 177

7.4 Spark架構和原理 177

7.4.1 Spark的起源和特點 177

7.4.2 Spark的核心概念 178

7.5 BSP框架 217

7.5.1 什麼是BSP模型 217

7.5.2 並行模型介紹 218

7.5.3 BSP模型基本原理 220

7.5.4 BSP模型的特點 222

7.5.5 BSP模型的評價 222

7.5.6 BSP與MapReduce對比 222

7.5.7 BSP模型的實現 223

7.5.8 Apache Hama簡介 223

7.6 批處理關鍵技術 227

7.6.1 CodeGen 227

7.6.2 CPU親和技術 228

7.7 小結 229

第8章機器學習和數據挖掘 230

8.1 機器學習和數據挖掘的聯繫與區別 230

8.2 典型的數據挖掘和機器學習過程 231

8.3 機器學習概覽 232

8.3.1 學習方式 232

8.3.2 算法類似性 233

8.4 機器學習&數據挖掘套用案例 235

8.4.1 尿布和啤酒的故事 235

8.4.2 決策樹用於電信領域故障快速定位 236

8.4.3 圖像識別領域 236

8.4.4 自然語言識別 238

8.5 互動式分析 239

8.6 深度學習 240

8.6.1 深度學習概述 240

8.6.2 機器學習的背景 241

8.6.3 人腦視覺機理 242

8.6.4 關於特徵 244

8.6.5 需要有多少個特徵 245

8.6.6 深度學習的基本思想 246

8.6.7 淺層學習和深度學習 246

8.6.8 深度學習與神經網路 247

8.6.9 深度學習的訓練過程 248

8.6.10 深度學習的框架 248

8.6.11 深度學習與GPU 255

8.6.12 深度學習小結與展望 256

8.7 小結 257

第9章資源管理 258

9.1 資源管理的基本概念 258

9.1.1 資源調度的目標和價值 258

9.1.2 資源調度的使用限制及難點 258

9.2 Hadoop領域的資源調度框架 259

9.2.1 YARN 259

9.2.2 Borg 260

9.2.3 Omega 262

9.2.4 本節小結 263

9.3 資源分配算法 263

9.3.1 算法的作用 263

9.3.2 幾種調度算法分析 263

9.4 數據中心統一資源調度 271

9.4.1 Mesos+Marathon架構和原理 271

9.4.2 Mesos+Marathon小結 283

9.5 多租戶技術 284

9.5.1 多租戶概念 284

9.5.2 多租戶方案 284

9.6 基於套用描述的智慧型調度 287

9.7 Apache Mesos架構和原理 288

9.7.1 Apache Mesos背景 288

9.7.2 Apache Mesos總體架構 288

9.7.3 Apache Mesos工作原理 290

9.7.4 Apache Mesos關鍵技術 295

9.7.5 Mesos與YARN比較 304

9.8 小結 305

第10章存儲是基礎 306

10.1 分久必合,合久必分 306

10.2 存儲硬體的發展 306

10.2.1 機械硬碟的工作原理 306

10.2.2 SSD的原理 307

10.2.3 3DXPoint 309

10.2.4 硬體發展小結 309

10.3 存儲關鍵指標 309

10.4 RAID技術 309

10.5 存儲接口 310

10.5.1 檔案接口 311

10.5.2 裸設備 311

10.5.3 對象接口 312

10.5.4 塊接口 316

10.5.5 融合是趨勢 328

10.6 存儲加速技術 328

10.6.1 數據組織技術 328

10.6.2 快取技術 335

10.7 小結 336

第11章大數據云化 337

11.1 雲計算定義 337

11.2 套用上雲 337

11.2.1 Cloud Native概念 338

11.2.2 微服務架構 338

11.2.3 Docker配合微服務架構 342

11.2.4 套用上雲小結 348

11.3 大數據上雲 348

11.3.1 大數據云服務的兩種模式 348

11.3.2 集群模式AWSEMR 349

11.3.3 服務模式Azure Data Lake Analytics 352

11.4 小結 354

第三部分大數據文化

第12章大數據技術開發文化 356

12.1 開源文化 356

12.2 DevOps理念 356

12.2.1 Development和Operations的組合 357

12.2.2 對應用程式發布的影響 357

12.2.3 遇到的問題 358

12.2.4 協調人 358

12.2.5 成功的關鍵 359

12.3 速度遠比你想的重要 359

12.4 小結 361  

相關詞條

相關搜尋

熱門詞條

聯絡我們