內容簡介
R提供了一個免費、開源的環境,這對於學習預測建模以及在真實環境下部署解決方案是很理想的。隨著不斷增長的社區和大量擴展包的出現,R提供了一個應對一系列問題的切實解決方案。
本書可以作為學習預測建模基礎知識的指南和參考讀物。本書的開篇是關於模型術語和預測建模過程的一個專門章節。後續的每個章節會講解具體的一類模型(例如神經網路),並把重點放在三個重要問題上:模型如何工作,如何利用R語言訓練模型,以及如何利用實際環境下的數據集來衡量和評估模型的性能。
作者簡介
魯伊·米格爾·福特(Rui Miguel Forte)是Workable公司的首席數據科學家。他是土生土長的希臘人,後留學於英國。他是一位經驗豐富的數據科學家,有超過10年的工作經驗,覆蓋了移動市場、健康信息學、教育科技和人力資源技術等多種行業。他負責的項目包括移動市場行銷中的用戶行為預測建模,智慧型教學系統中對發言者意圖的識別,用於工作申請簡歷的信息提取技術,以及針對工作詐欺的欺詐檢測等。目前,他在雅典經濟與商業大學(Athens University of Economics and Busi。
圖書目錄
第1章 準備預測建模1
1.1 模型1
1.1.1 從數據中學習2
1.1.2 模型的核心組成部分5
1.1.3 我們的第一個模型:k近鄰5
1.2 模型的類型7
1.2.1 有監督、無監督、半監督和強化學習模型7
1.2.2 參數化和非參數化模型8
1.2.3 回歸和分類模型8
1.2.4 實時和批處理機器學習模型9
1.3 預測建模的過程9
1.3.1 定義模型的目標9
1.3.2 收集數據10
1.3.3 選取模型11
1.3.4 數據的預處理12
1.3.5 特徵工程和降維19
1.3.6 訓練和評估模型22
1.3.7 重複嘗試不同模型及模型的最終選擇25
1.3.8 部署模型25
1.4 性能衡量指標25
1.4.1 評估回歸模型26
1.4.2 評估分類模型26
1.5 小結30
第2章 線性回歸31
2.1 線性回歸入門31
2.2 簡單線性回歸33
2.3 多元線性回歸36
2.3.1 預測CPU性能37
2.3.2 預測二手汽車的價格38
2.4 評估線性回歸模型40
2.4.1 殘差分析42
2.4.2 線性回歸的顯著性檢驗45
2.4.3 線性回歸的性能衡量指標47
2.4.4 比較不同的回歸模型49
2.4.5 在測試集上的性能50
2.5 線性回歸的問題51
2.5.1 多重共線性51
2.5.2 離群值52
2.6 特徵選擇53
2.7 正則化55
2.7.1 嶺回歸55
2.7.2 最小絕對值收縮和選擇運算元56
2.7.3 在R語言裡實現正則化57
2.8 小結59
第3章 邏輯回歸61
3.1 利用線性回歸進行分類61
3.2 邏輯回歸入門63
3.2.1 廣義線性模型63
3.2.2 解釋邏輯回歸中的係數64
3.2.3 邏輯回歸的假設65
3.2.4 最大似然估計65
3.3 預測心臟病66
3.4 評估邏輯回歸模型69
3.4.1 模型的偏差70
3.4.2 測試集的性能73
3.5 利用lasso進行正則化73
3.6 分類指標74
3.7 二元邏輯分類器的擴展76
3.7.1 多元邏輯回歸76
3.7.2 有序邏輯回歸80
3.8 小結83
第4章 神經網路84
4.1 生物神經元84
4.2 人工神經元85
4.3 隨機梯度下降86
4.3.1 梯度下降和局部極小值88
4.3.2 感知器算法88
4.3.3 線性分離91
4.3.4 邏輯神經元92
4.4 多層感知器網路92
4.5 預測建築物的能源效率95
4.6 重新進行玻璃類型預測99
4.7 預測手寫數字102
4.8 小結106
第5章 支持向量機108
5.1 最大邊緣分類108
5.2 支持向量分類111
5.3 核和支持向量機113
5.4 預測化學品的生物降解115
5.5 交叉驗證118
5.6 預測信用評分120
5.7 用支持向量機進行多類別分類123
5.8 小結123
第6章 樹形方法124
6.1 樹形模型的直觀印象124
6.2 訓練決策樹的算法126
6.2.1 分類和回歸樹126
6.2.2 回歸模型樹131
6.2.3 CART分類樹131
6.2.4 C5.0133
6.3 在合成的二維數據上預測類別歸屬關係134
6.4 預測紙幣的真實性136
6.5 預測複雜的技能學習138
6.5.1 在CART樹里對模型參數進行調優140
6.5.2 樹模型中的變數重要性141
6.5.3 回歸模型樹實用示例142
6.6 小結143
第7章 集成方法144
7.1 裝袋144
7.1.1 邊緣和袋外觀測數據145
7.1.2 用裝袋預測複雜技能學習146
7.1.3 用裝袋預測心臟病146
7.1.4 裝袋的局限性150
7.2 增強151
7.3 預測大氣中伽馬射線的輻射152
7.4 利用增強算法預測複雜技能學習156
7.5 隨機森林157
7.6 小結159
第8章 機率圖模型161
8.1 圖論入門161
8.2 貝葉斯定理163
8.3 條件性獨立163
8.4 貝葉斯網路164
8.5 樸素貝葉斯分類器165
8.6 隱馬爾可夫模型172
8.7 預測啟動子基因序列174
8.8 預測英語單詞里的字母特徵179
8.9 小結182
第9章 時間序列分析184
9.1 時間序列的基本概念184
9.2 一些基本的時間序列185
9.2.1 白噪聲185
9.2.2 隨機漫步187
9.3 平穩性188
9.4 平穩時間序列模型189
9.4.1 移動平均模型189
9.4.2 自回歸模型192
9.4.3 自回歸移動平均模型193
9.5 非平穩時間序列模型194
9.5.1 整合自回歸移動平均模型194
9.5.2 自回歸條件異方差模型195
9.5.3 廣義自回歸條件異方差模型195
9.6 預測強烈地震196
9.7 預測猞猁的誘捕199
9.8 預測外匯匯率200
9.9 其他時間序列模型202
9.10 小結203
第10章 主題建模204
10.1 主題建模概況204
10.2 隱含狄式分布205
10.2.1 狄式分布205
10.2.2 生成過程208
10.2.3 擬合LDA模型209
10.3 對線上新聞報導的主題進行建模210
10.3.1 模型穩定性215
10.3.2 找出主題數量216
10.3.3 主題分布217
10.3.4 單詞分布219
10.3.5 LDA擴展模型220
10.4 小結220
第11章 推薦系統222
11.1 評分矩陣222
11.2 協同過濾225
11.2.1 基於用戶的協同過濾225
11.2.2 基於商品的協同過濾228
11.3 奇異值分解228
11.4 R語言和大數據231
11.5 預測電影和笑話的推薦232
11.6 載入和預處理數據233
11.7 對數據進行探索234
11.7.1 評估二元的top-N推薦236
11.7.2 評估非二元的top -N推薦239
11.7.3 評估每種預測方法241
11.8 推薦系統的其他方法242
11.9 小結243