數據清洗
作者:劉鵬 張燕 李法平 陳瀟瀟
定價:58元
印次:1-1
ISBN:9787302493273
出版日期:2018.06.01
印刷日期:2018.06.08
數據清洗是大數據領域不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,使“髒”數據變為“乾淨”數據。本書共分為8章:第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等;第2章主要介紹Windows和類UNIX作業系統下的數據常規格式、數據編碼及數據類型轉換等;第3章介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子系統等;
作者介紹
李法平- 副教授/系統分析師,碩士,重慶電子工程職業學院軟體學院移動套用開發教研室主任,主要從事高職軟體類專業教學研究、教育信息化系統和企業信息化系統等套用技術研究。
目錄
第1章數據清洗概述1
1.1數據清洗簡介1
1.1.1數據科學過程1
1.1.2數據清洗定義2
1.1.3數據清洗任務3
1.1.4數據清洗流程4
1.1.5數據清洗環境5
1.1.6數據清洗實例說明6
1.2數據標準化7
1.2.1數據標準化概念7
1.2.2數據標準化常用方法8
1.3數據倉庫簡介9
1.3.1數據倉庫定義9
1.3.2數據倉庫組成要素10
1.3.3數據倉庫分類11
1.3.4數據倉庫相關技術12
1.3.5常用工具簡介13
1.4習題14
第2章數據格式與編碼16
2.1檔案文本格式16
2.1.1常見文本格式17
2.1.2xls及xlsx檔案格式18
2.1.3JSON文本格式19
2.1.4HTML和XML文本格式19
2.2數據編碼20
2.2.1數據類型21
2.2.2數據類型間轉換25
2.2.3 字元編碼26
2.2.4空值和亂碼28
2.3數據轉換28
2.3.1電子表格轉換29
2.3.2RDBMS數據轉換30
2.4習題30
第3章基本技術方法31
3.1ETL入門31
3.1.1ETL解決方案31
3.1.2ETL基本構成33
3.1.3ETL技術選型35
3.2技術路線35
3.2.1文本清洗路線35
3.2.2RDBMS清洗路線36
3.2.3Web內容清洗路線36
3.3ETL工具37
3.3.1ETL功能37
3.3.2開源ETL工具38
3.4ETL子系統39
3.4.1抽取39
3.4.2清洗和更正數據39
3.4.3數據發布40
3.4.4管理ETL41
3.5習題41
第4章數據清洗常用工具及基本操作42
4.1MicrosoftExcel數據清洗基本操作42
4.1.1Excel數據清洗概述42
4.1.2Excel數據清洗53
4.2Kettle簡介及基本操作57
4.2.1Kettle軟體概述57
4.2.2Kettle基本操作60
4.2.3Kettle數據清洗實例操作64
4.3OpenRefine簡介及基本操作68
4.3.1OpenRefine軟體概述69
4.3.2OpenRefine基本操作70
4.3.3OpenRefine數據清洗實例操作73
4.4DataWrangler簡介及基本操作80
4.4.1DataWrangler軟體概述80
4.4.2DataWrangler基本操作81
4.4.3DataWrangler數據清洗實例操作82
4.5Hawk簡介及基本操作86
4.5.1Hawk軟體概述86
4.5.2Hawk基本操作88
4.5.3Hawk數據清洗實例操作91
4.6上機練習與實訓98
4.7習題103
第5章數據抽取104
5.1文本檔案抽取104
5.1.1制表符文本抽取107
5.1.2CSV檔案抽取111
5.2Web數據抽取114
5.2.1HTML檔案抽取114
5.2.2JSON數據抽取116
5.2.3XML數據抽取120
5.3資料庫數據抽取123
5.3.1數據導入導出123
5.3.2ETL工具抽取124
5.3.3SQL到NoSQL抽取127
5.4上機練習與實訓135
5.5習題143
第6章數據轉換與載入144
6.1數據清洗轉換144
6.1.1數據清洗145
6.1.2數據檢驗151
6.1.3錯誤處理156
6.2數據質量評估161
6.2.1數據評估指標161
6.2.2審計數據163
6.3數據載入164
6.3.1數據載入的概念164
6.3.2數據載入的方式164
6.3.3批量數據載入165
6.3.4數據載入異常處理165
6.4上機練習與實訓166
6.5習題173
第7章採集Web數據實例175
7.1網頁結構175
7.1.1DOM模型175
7.1.2正則表達式178
7.2網路爬蟲181
7.2.1網路爬蟲簡介181
7.2.2網路爬蟲異常處理189
7.3行為日誌採集190
7.3.1用戶實時行為數據採集190
7.3.2用戶實時行為數據分析193
7.4上機練習與實訓195
7.5習題198
第8章清洗RDBMS數據實例199
8.1準備工作199
8.1.1準備待清洗的數據集200
8.1.2搭建操作環境200
8.1.3數據導入MySQL201
8.2資料庫數據清洗205
8.2.1缺失值清洗205
8.2.2格式內容清洗209
8.2.3邏輯錯誤清洗214
8.2.4非需求數據清洗217
8.3數據脫敏處理218
8.4習題222
參考文獻223
附錄A大數據和人工智慧實驗環境224
附錄BHadoop環境要求234
附錄C名詞解釋236