內容簡介
本書圍繞大數據分析方法,闡述了大數據採集方法,大數據清洗方法,詳細介紹了大數據存儲方法,大數據分散式計算方法,大數據分析模型構建方法, 大數據分析模型最佳化方法。全書提供了大量的案例,對程式進行了詳細的分析和解讀。本書的實用價值較高,對從事大數據分析的科研人員、研發人員具有一定的借鑑參考作用。
圖書目錄
1大數據採集處理方法1
11爬蟲程式設計方案1
12爬蟲程式實現方法5
13數據清洗20
2大數據存儲方法27
21分散式檔案系統存儲大數據27
211HDFS體系結構27
212HDFS數據存儲方式28
213HDFS讀寫方式28
22分散式資料庫存儲大數據32
221Hbase體系結構32
222配置Hbase33
223Hbase表操作38
224訪問Hbase數據資源44
3大數據計算方法50
31分散式計算平台構建方法50
32分散式計算框架構建方法60
33分散式計算程式設計方法63
4大數據分析模型構建方法78
41準備訓練數據78
42機器學習路徑和算法設計方法82
43數據可視化輔助建模方法88
44構建大數據分析模型91
5大數據分析模型檢驗方法108
51回歸診斷108
52交叉驗證113
6大數據分析模型最佳化方法117
61Feature Scaling最佳化法117
62逐步回歸最佳化法118
63PCA主成分分析最佳化方法120
64神經網路最佳化大數據分析模型127
參考文獻151