基本信息
數據科學:理論、方法與R語言實踐
書號: 52926
ISBN: 978-7-111-52926-2
作者: [美]尼娜·朱梅爾(Nina Zumel)等
印次: 1-2
開本: 16開
字數: 400千字
定價: 69.0
所屬叢書: 數據科學與工程技術叢書
出版日期: 2016-11-29
內容簡介
本書從實用的角度較為全面地展現了數據科學的主要內容,並結合大量的實際項目案例,利用R語言詳細地講解了數據項目的開發過程和關鍵技術。本書包括三個部分共11章的內容,主要介紹了數據科學項目的處理過程、選擇合適的建模方法,也討論了bagging算法、隨機森林、廣義加性模型、核和支持向量機等高級建模方法。此外,還討論了文檔編制和結果部署,以及如何向組織內不同的客群展現項目結果。本書適合作為高等院校高年級本科生和研究生及從事數據管理與分析工程技術人員的主要參考書。
目錄信息
譯者序
序言
前言
第一部分 數據科學引論
第1章 數據科學處理過程2
1.1 數據科學項目中的角色2
1.2 數據科學項目的階段4
1.2.1 制定目標5
1.2.2 收集和管理數據5
1.2.3 建立模型7
1.2.4 模型評價和批判8
1.2.5 展現和編制文檔9
1.2.6 模型部署和維護10
1.3 設定預期11
1.4 小結12
第2章 向R載入數據14
2.1 運用檔案中的數據14
2.1.1 在源自檔案或URL的良結構數據上使用R15
2.1.2 在欠結構數據上使用R17
2.2 在關係資料庫上使用R19
2.2.1 一個生產規模的示例20
2.2.2 從資料庫向R系統載入數據23
2.2.3 處理PUMS數據25
2.3 小結28
第3章 探索數據29
3.1 使用概要統計方法發現問題30
3.2 用圖形和可視化方法發現問題34
3.2.1 可視化檢測單變數的分布35
3.2.2 可視化檢測兩個變數間的關係42
3.3 小結51
第4章 管理數據52
4.1 清洗數據52
4.1.1 處理缺失值52
4.1.2 數據轉換56
4.2 為建模和驗證採樣61
4.2.1 測試集和訓練集的劃分61
4.2.2 創建一個樣本組列62
4.2.3 記錄分組63
4.2.4 數據溯源63
4.3 小結63
第二部分 建模方法
第5章 選擇和評價模型66
5.1 將業務問題映射到機器學習任務67
5.1.1 解決分類問題67
5.1.2 解決打分問題68
5.1.3 目標未知情況下的處理69
5.1.4 問題到方法的映射71
5.2 模型評價71
5.2.1 分類模型的評價72
5.2.2 打分模型的評價76
5.2.3 機率模型的評價78
5.2.4 排名模型的評價82
5.2.5 聚類模型的評價82
5.3 模型驗證84
5.3.1 常見的模型問題的識別 84
5.3.2 模型可靠性的量化85
5.3.3 模型質量的保證86
5.4 小結88
第6章 記憶化方法89
6.1 KDD和KDD Cup 200989
6.2 構建單變數模型91
6.2.1 使用類別型特徵92
6.2.2 使用數值型特徵94
6.2.3 使用交叉驗證估計過擬合的影響96
6.3 構建多變數模型97
6.3.1 變數選擇97
6.3.2 使用決策樹99
6.3.3 使用最近鄰方法102
6.3.4 使用樸素貝葉斯105
6.4 小結108
第7章 線性回歸與邏輯斯諦回歸110
7.1 使用線性回歸110
7.1.1 理解線性回歸110
7.1.2 構建線性回歸模型113
7.1.3 預測114
7.1.4 發現關係並抽取建議117
7.1.5 解讀模型概要並刻畫係數質量118
7.1.6 線性回歸要點122
7.2 使用邏輯斯諦回歸123
7.2.1 理解邏輯斯諦回歸123
7.2.2 構建邏輯斯諦回歸模型124
7.2.3 預測125
7.2.4 從邏輯斯諦回歸模型中發現關係並抽取建議129
7.2.5 解讀模型概要並刻畫係數130
7.2.6 邏輯斯諦回歸要點136
7.3 小結137
第8章 無監督方法138
8.1 聚類分析138
8.1.1 距離139
8.1.2 準備數據 140
8.1.3 使用hclust()進行層次聚類142
8.1.4 k-均值算法150
8.1.5 分派新的點到簇154
8.1.6 聚類要點156
8.2 關聯規則156
8.2.1 關聯規則概述156
8.2.2 問題舉例157
8.2.3 使用arules程式包挖掘關聯規則158
8.2.4 關聯規則要點165
8.3 小結165
第9章 高級方法探索166
9.1 使用bagging和隨機森林方法減少訓練方差167
9.1.1 使用bagging方法改進預測167
9.1.2 使用隨機森林方法進一步改進預測170
9.1.3 bagging和隨機森林方法要點173
9.2 使用廣義加性模型學習非單調關係173
9.2.1 理解GAM174
9.2.2 一維回歸示例174
9.2.3 提取非線性關係178
9.2.4 在真實數據上使用GAM179
9.2.5 使用GAM實現邏輯斯諦回歸182
9.2.6 GAM要點183
9.3 使用核方法提高數據可分性183
9.3.1 理解核函式184
9.3.2 在問題中使用顯式核函式187
9.3.3 核方法要點190
9.4 使用SVM對複雜的決策邊界建模190
9.4.1 理解支持向量機190
9.4.2 在人工示例數據中使用SVM192
9.4.3 在真實數據中使用SVM195
9.4.4 支持向量機要點197
9.5 小結197
第三部分 結果交付
第10章 文檔編制和部署200
10.1 buzz數據集200
10.2 使用knitr產生里程碑文檔202
10.2.1 knitr是什麼202
10.2.2 knitr 技術詳解204
10.2.3 使用knitr編寫buzz數據文檔205
10.3 在運行時文檔編制中使用注釋和版本控制208
10.3.1 編寫有效注釋208
10.3.2 使用版本控制記錄歷史209
10.3.3 使用版本控制探索項目213
10.3.4 使用版本控制分享工作217
10.4 模型部署220
10.4.1 將模型部署為R HTTP服務220
10.4.2 按照輸出部署模型222
10.4.3 要點223
10.5 小結224
第11章 有效的結果展現226
11.1 將結果展現給項目出資方227
11.1.1 概述項目目標228
11.1.2 陳述項目結果229
11.1.3 補充細節230
11.1.4 提出建議並討論未來工作231
11.1.5 向項目出資方展現的要點232
11.2 向最終用戶展現模型232
11.2.1 概述項目目標232
11.2.2 展現模型如何融入用戶的工作流程233
11.2.3 展現如何使用模型235
11.2.4 向最終用戶展現的要點236
11.3 向其他數據科學家展現你的工作236
11.3.1 介紹問題236
11.3.2 討論相關工作237
11.3.3 討論你的方法238
11.3.4 討論結果和未來工作239
11.3.5 向其他數據科學家展現的要點240
11.4 小結240
附錄A 使用R和其他工具241
附錄B 重要的統計學概念263
附錄C 更多的工具和值得探索的思路292
參考文獻297
索引299