圖書簡介
《R語言與網站分析》從網際網路套用角度對R語言如何實現數據挖掘和指標分析等問題做了闡述。通過諸多真實套用案例的分析,作者試圖為讀者建立起一座溝通數學原理和網際網路實際業務套用的橋樑。同時本書給出了案例中的完整代碼以及分析過程,力圖幫助讀者充分理解R語言是如何實現算法的。《R語言與網站分析》是目前為止國內唯一一本闡述如何使用R語言來分析和挖掘網際網路數據的套用性書籍。書中使用大量的實際案例,把數學原理同R語言實現方案有機結合起來。力圖通過案例分析達到舉一反三的效果,進而指導讀者在日後的實際工作中進行套用。同時書中也闡述眾多常用的數據分析和挖掘的方法和原理,對於非網際網路的從業人員也很有指導意義。
編輯推薦
以數據分析和挖掘原理為基礎,結合作者多年的網際網路套用實踐經驗,將R語言和網站分析有機結合,包含大量R語言實施案例,力求做到“授之以漁”。
作者簡介
李明,曾就讀於錦州市錦州中學畢業於瀋陽理工大學信息工程學院電子科技與技術系,曾就職於凡客誠品、居然之家等大型電子商務公司。目前就職於優酷土豆網。研究方向是R語言同網際網路數據分析/挖掘的結合。撰寫過大量R語言的基礎和高級套用類文章,對網際網路數據統計系統的R語言實踐有較深研究。
目錄
前言
第1章 統計思維與網站分析 1
1.1 不確定與確定 1
1.2 統計分析方法 4
1.2.1 細分分析 4
1.2.2 對比分析 6
1.2.3 趨勢分析 7
1.3 網站分析概要 7
1.3.1 解決用戶需求 7
1.3.2 尋找新的用戶需求 10
第2章 R語言數據操作基礎 11
2.1 R簡介 11
2.2 了解R軟體 11
2.2.1 軟體安裝 11
2.2.2 R軟體界面 12
2.2.3 工作目錄 14
2.2.4 命令行互動 15
2.2.5 命令腳本檔案 16
2.2.6 工作空間數據 16
2.2.7 幫助 17
2.2.8 R語言入門 18
2.2.9 擴展算法包 19
2.3 R語言的數據類型 21
2.4 對象及其屬性 23
2.4.1 固有屬性:模式和長度 24
2.4.2 讀取和設定屬性值 24
2.4.3 對象的搜尋和刪除 25
2.5 向量 26
2.5.1 創建向量 26
2.5.2 向量索引 26
2.5.3 向量編輯 29
2.5.4 向量排序 29
2.5.5 向量去重 30
2.5.6 缺失值處理 30
2.5.7 向量間操作 31
2.6 矩陣和數組 31
2.6.1 創建矩陣 32
2.6.2 矩陣索引 33
2.6.3 矩陣編輯 34
2.6.4 矩陣的運算 35
2.6.5 數組 37
2.6.6 apply函式套用 38
2.7 列表和數據框 39
2.7.1 列表的創建和索引 39
2.7.2 列表編輯 40
2.7.3 數據框的創建和名稱 40
2.7.4 數據框索引 41
2.7.5 數據框編輯 43
2.7.6 缺失值處理 44
2.8 因子 44
2.8.1 無序和有序因子 45
2.8.2 連續數據的離散化 46
2.9 字元串操作 47
2.9.1 字元串長度nchar 48
2.9.2 字元串合併和分割 48
2.9.3 字元串內部字元的讀取和替換 49
2.9.4 正則表達式 52
2.10 常用數據的創建 53
2.10.1 因子序列的創建 53
2.10.2 等差序列的創建 54
2.10.3 隨機抽樣sample 54
2.10.4 重複序列rep 55
2.10.5 機率分布 55
2.11 控制流 58
2.11.1 分支語句 58
2.11.2 循環語句 59
2.12 運算符、函式和過程 61
2.12.1 常用運算符 61
2.12.2 函式 62
2.12.3 過程 63
2.13 數據的讀寫等操作 64
2.13.1 讀取數據 64
2.13.2 輸出數據 68
第3章 R語言的繪圖基礎 69
3.1 概述 69
3.2 顏色以及文字/點/線參數的設定 69
3.2.1 顏色 71
3.2.2 文字元素相關參數設定 76
3.2.3 點元素相關參數設定 77
3.2.4 線元素相關參數設定 79
3.3 低級繪圖函式 80
3.3.1 引例 80
3.3.2 標題 81
3.3.3 圖例 83
3.3.4 坐標軸 84
3.3.5 框線 88
3.3.6 格線線 89
3.3.7 點 90
3.3.8 線 91
3.3.9 文字 94
3.3.10 多邊形 96
3.4 高級繪圖函式以及常用繪圖套用 96
3.4.1 圖形類型的選擇 96
3.4.2 散點圖 98
3.4.3 氣泡圖 100
3.4.4 曲線圖 102
3.4.5 柱狀圖 105
3.4.6 條形圖 109
3.4.7 餅圖 111
3.4.8 面積堆積圖 115
3.4.9 直方圖和密度曲線圖 118
3.5 繪圖視窗操作函式 120
3.5.1 單一視窗中的子繪圖區域布局 120
3.5.2 繪圖視窗操作 120
第4章 單指標分析 121
4.1 指標描述 121
4.1.1 平均值和集中趨勢 121
4.1.2 常態分配 126
4.1.3 頻數分析 130
4.1.4 描述性分析指標 131
4.2 異常點監控 133
4.2.1 概述 133
4.2.2 P控制圖:監控轉化率型指標 135
4.2.3 單值–均值控制圖 142
4.2.4 單值–移動極差控制圖 147
4.3 連續型指標的對比 150
4.3.1 數據變換 150
4.3.2 假設檢驗 152
4.3.3 相同指標內的兩組數對比:T檢驗 153
4.3.4 相同指標內的多組數據對比:單因素方差分析 156
4.3.5 單因素協方差分析 163
4.4 分類型指標的對比 167
4.4.1 列聯表分析 167
4.4.2 卡方獨立性檢驗 172
第5章 時間序列分析 177
5.1 時間序列 177
5.2 增長率 180
5.2.1 環比增長率 180
5.2.2 同比增長率 181
5.3 移動平均 181
5.3.1 數學原理概述 181
5.3.2 filter函式 182
5.3.3 R語言實現 184
5.4 指數平滑 185
5.4.1 一次指數平滑 186
5.4.2 二次指數平滑 187
5.4.3 三次指數平滑 191
5.5 ARIMA模型 194
5.5.1 自相關性 194
5.5.2 平穩性和白噪聲 199
5.5.3 MA滑動平均過程 200
5.5.4 AR自回歸過程 202
5.5.5 ARMA自回歸滑動平均混合過程 203
5.5.6 檢驗模型質量 205
5.5.7 非平穩時間序列的ARIMA過程 208
第6章 連續指標建模:回歸分析 213
6.1 一元線性回歸分析 213
6.1.1 引例 213
6.1.2 一元線性回歸分析的原理及R語言實現 214
6.2 多元回歸分析 221
6.2.1 引例 222
6.2.2 多元線性回歸分析建模 222
6.2.3 模型修正函式update() 223
6.2.4 逐步回歸分析函式step() 226
6.2.5 自變數中包含分類型數據的回歸分析 228
6.3 Logic回歸分析 230
6.3.1 引例及數據 230
6.3.2 logic分析的原理 230
6.3.3 R語言實現 232
6.4 回歸樹CART 237
6.4.1 rpart函式 237
6.4.2 預測及模型性能衡量 240
6.4.3 過度擬合和剪枝 240
第7章 分類指標建模:分類分析 243
7.1 決策樹分類分析 243
7.1.1 概述 243
7.1.2 C4.5算法 247
7.1.3 CART算法 258
7.1.4 條件推理決策樹算法 265
7.1.5 隨機森林算法 267
7.2 貝葉斯分類 268
7.2.1 貝葉斯定理 268
7.2.2 樸素貝葉斯分類器 270
7.3 支持向量機SVM 271
7.3.1 原理 271
7.3.2 在R語言中實現非線性SVM分析 273
7.4 人工神經網路 274
7.4.1 神經元 274
7.4.2 兩層網路 275
7.4.3 反向傳播算法 276
7.4.4 R語言實現 282
7.4.5 隱藏層中神經單元數目的確定 283
7.5 分類器的性能評估 284
7.5.1 混淆矩陣 284
7.5.2 ROC曲線和AUC 287
7.5.3 提升度和提升曲線 291
7.5.4 洛倫茲曲線 292
第8章 樣本細分 293
8.1 數據降維 293
8.1.1 問題引入 293
8.1.2 因子分析概述 294
8.1.3 factanal函式 296
8.1.4 實例:問卷調查的因子分析 297
8.2 聚類分析 303
8.2.1 距離 303
8.2.2 層次聚類 313
8.2.3 kmeans聚類 318
8.3 樣本判別 321
8.3.1 knn(k最近鄰分類)算法 323
8.3.2 實例:基於knn算法的商品推薦系統 324
第9章 樣本間的關係 329
9.1 關聯分析 329
9.1.1 關聯分析的原理 329
9.1.2 Apriori算法的R語言實現 331
9.2 序列模式關聯分析 334
9.2.1 序列模式關聯分析的原理 334
9.2.2 序列模式關聯分析的R語言實現 336
9.2.3 實例:用戶點擊頁面的行為分析 338
9.3 關係網路分析 346
9.3.1 網路關係分析的基本概念 346
9.3.2 中心度 356
9.3.3 中心勢 362
9.3.4 社群發現 363
9.3.5 實例:分析微博的傳播特性 367
9.3.6 實例:購物車商品分類分析 370
第10章 文本分析 378
10.1 數據處理 378
10.1.1 數據引例 378
10.1.2 分詞和詞條 380
10.1.3 語料庫和文檔 381
10.1.4 詞條—文檔關係矩陣 384
10.2 實例:QQ群訊息歷史分析 387
10.2.1 數據集 387
10.2.2 數據集格式轉化 389
10.2.3 留言文本的分詞操作 390
10.2.4 分析常用話題辭彙 391
10.2.5 建立用戶–詞條間的網路關係圖 392
10.2.6 繪製重點詞條和用戶的網路圖 392
10.3 XML包爬取網頁數據 394
10.3.1 htmlParse函式 395
10.3.2 getNodeSet函式 395
10.3.3 xmlValue函式 396
10.3.4 xmlGetAttr函式 396
10.3.5 實例:爬取某電商網站襯衫類目商品的部分信息 397
第11章 網站指標監控系統的搭建 400
11.1 gWidgets包基礎 400
11.1.1 環境搭建 400
11.1.2 引例 401
11.1.3 常用控制項 406
11.2 實例:商品搜尋算法參數配置監控GUI系統 414
11.2.1 商品搜尋算法概述 414
11.2.2 原始商品信息 415
11.2.3 系統概述 417
11.2.4 模組布局 418
11.2.5 計算除關鍵字匹配以外的指標得分 420
11.2.6 模擬一次搜尋行為數據 421
11.2.7 模擬多次搜尋行為數據 423
11.2.8 繪圖 423
第12章 基於RFM模型的客戶價值系統 427
12.1 馬爾科夫鏈 427
12.1.1 引例 427
12.1.2 概念 428
12.1.3 預測實例 428
12.2 RFM模型 431
12.2.1 RFM的概念 431
12.2.2 數據集 431
12.2.3 購買行為隨機模型 432
12.3 結合馬爾科夫鏈的RFM模型 436
12.3.1 購買狀態轉移矩陣 437
12.3.2 預測用戶購買狀態 445