數據挖掘:R語言實戰

《數據挖掘:R語言實戰》數據挖掘技術是當下大數據時代最關鍵的技術,其套用領域及前景不可估量。R是一款極其優秀的統計分析和數據挖掘軟體,《數據挖掘:R語言實戰》側重使用R進行數據挖掘,重點講述了R的數據挖掘流程、算法包的使用及相關工具的套用,同時結合大量精選的數據挖掘實例對R軟體進行深入潛出和全面的介紹,以便讀者能深刻理解R的精髓並能快速、高效和靈活地掌握使用R進行數據挖掘的技巧。通過《數據挖掘:R語言實戰》,讀者不僅能掌握使用R及相關的算法包來快速解決實際問題的方法,而且能得到從實際問題分析入手,到利用R進行求解,以及對挖掘結果進行分析的全面訓練。

基本介紹

內容簡介

《數據挖掘:R語言實戰》讀者不僅能掌握使用R及相關的算法包來快速解決實際問題的方法,而且能得到從實際問題分析入手,到利用R進行求解,以及對挖掘結果進行分析的全面訓練。

作者簡介

王正林已出版過如下圖書:1、MATLAB/Simulink與控制系統仿真, 電子工業出版社2、精通MATLAB7(附光碟) 電子工業出版社3、精通MATLAB7科學計算(附光碟) 電子工業出版社

圖書目錄

第0章致敬,R!
致敬,肩膀!
致敬,時代!
致敬,人才!
致敬,R瑟!
上篇數據預處理
第1章數據挖掘導引
1.1數據挖掘概述
1.1.1 數據挖掘的過程
1.1.2數據挖掘的對象
1.1.3數據挖掘的方法
1.1.4數據挖掘的套用
1.2數據挖掘的算法
1.3數據挖掘的工具
1.3.1 工具的分類
1.3.2工具的選擇
1.3.3 商用的工具
1.3.4開源的工具
1.4 R在數據挖掘中的優勢
第2章數據概覽
2.1 n×m數據集
2.2數據的分類
2.2.1一般的數據分類
2.2.2 R的數據分類
2.2.3用R簡單處理數據
2.3數據抽樣及R實現
2.3.1 簡單隨機抽樣
2.3.2分層抽樣
2.3.3整群抽樣
2.4訓練集與測試集
2.5 本章匯總
第3章用R獲取數據
3.1獲取內置數據集
3.1.1 datasets數據集
3.1.2包的數據集
3.2獲取其他格式的數據
3.2.1 CSV與TXT格式
3.2.2從Excel直接獲取數據
3.2.3從其他統計軟體中獲取數據
3_3獲取資料庫數據
3.4獲取網頁數據
3.5 本章匯總
第4章探索性數據分析
4.1數據集
4.2數位化探索
4.2.1變數概況
4.2.2變數詳情
4.2.3分布指標
4.2.4稀疏性
4.2.5缺失值
4.2.6相關性
4_3可視化探索
4.3.1直方圖
4.3.2累積分布圖
4.3.3 箱形圖
4.3.4條形圖
4.3.5 點陣圖
4.3.6餅圖
4.5本章匯總
第5章數據預處理
5.1數據集載入
5.2數據清理
5.2.1缺失值處理
5.2.2噪聲數據處理
5.2.3數據不一致的處理
5.3數據集成
5.4數據變換
5.5數據歸約
5.6本章匯總
中篇基本算法及套用
第6章關聯分析
6.1概述
6.2 R中的實現
6.2.1相關軟體包
6.2.2核心函式
6.2.3 數據集
6.3套用案例
6.3.1 數據初探
6.3.2對生成規則進行強度控制
6.3.3一個實際套用
6.3.4改變輸出結果形式
6.3.5關聯規則的可視化
6.4本章匯總
第7章聚類分析
7.1概述
7.1.1 K.均值聚類
7.1.2 K—中心點聚類
7.1.3 系譜聚類
7.1.4密度聚類
7.1.5期望最大化聚類
7.2 R中的實現
7.2.1相關軟體包
7.2.2核心函式
7.2.3 數據集
7.3 套用案例
7.3.1 K.均值聚類
7.3.2 K—中心點聚類
7.3.3 系譜聚類
7.3.4密度聚類
7.3.5期望最大化聚類
7.4本章匯總
第8章判別分析
8.1概述
8.1.1 費希爾判別
8.1.2貝葉斯判別
8.1_3距離判別
8.2 R中的實現
8.2.1相關軟體包
8.2.2核心函式
8.2.3數據集
8.3套用案例
8.3.1線性判別分析
8_3.2樸素貝葉斯分類
8.3.3 K最近鄰
8.3.4有權重的K最近鄰算法
8.4推薦系統綜合實例
8.4.1 kNN與推薦
8.4.2 MovieLens數據集說明
8.4.3綜合運用
8.5本章匯總
第9章決策樹
9.1概述
9.1.1樹形結構
9.1.2樹的構建
9.1.3常用算法
9.2 R中的實現
9.2.1相關軟體包
9.2.2核心函式
9.2.3數據集
9.3套用案例
9.3.1 CART套用
9.3.2 C4.5套用
9.4本章匯總
下篇 高級算法及套用
第1 0章集成學習
10.1概述
10.1.1一個機率論小計算
10.1.2 Baggin9算法
10.1.3 AdaBoost算法
10.2 R中的實現
10.2.1相關軟體包
10.2.2核心函式
10.2.3數據集
10.3套用案例
10.3.1 Baggin9算法
10.3.2 Adaboost算法
10.4本章匯總
第1 1章隨機森林
11.1概述
11.1.1基本原理
11.1.2重要參數
11.2 R中的實現
11.2.1 相關軟體包
11.2.2核心函式
11.2_3 可視化分析
11.3套用案例
11.3.1 數據處理
11.3.2建立模型
11.3.3 結果分析
11.3.4 自變數的重要程度
11.3.5最佳化建模
11.4本章匯總
第12章支持向量機
第13章神經網路
第14章模型評估與選擇

序言

在大數據時代,數據挖掘無疑將是最炙手可熱的技術。數據挖掘的理論和方法正日新月異地發展,數據挖掘的技術及工具,已經滲透到網際網路、金融、電商、管理、生產、決策等各個領域,數據挖掘的軟體也是層出不窮,其中R 是最引人關注的軟體。
R 是一個免費的開源軟體,它提供了首屈一指的統計計算和繪圖功能,尤其是大量的數據挖掘方面的算法包,使得它成為一款優秀的、不可多得的數據挖掘工具軟體。
本書的主要目的是向讀者介紹如何用R 進行數據挖掘,通過大量的精選實例,循序漸進、全面系統地講述R 在數據挖掘領域的套用。
全書分為14 章,以數據預處理、基本算法及套用和高級算法及套用這三篇展開。
(1)上篇:數據預處理
由第1~5 章組成,首先簡要介紹數據挖掘流程、算法和工具,然後介紹R 中數據分類和數據集,以及R 獲取數據的多種靈活的方法。最後講述對數據進行探索性分析和預處理的方法。這些內容是使用R 進行數據挖掘的最基礎內容。
(2)中篇:基本算法及套用
由第6~9 章組成,主要講述數據挖掘的基本算法及套用,包括關聯分析、聚類分析、判別分析和決策樹,這些算法也是數據挖掘使用最多最普遍的算法。R 中提供了豐富的、功能強大的算法包和實現函式,數據挖掘的初級和中級用戶務必掌握。
(3)下篇:高級算法及套用
由第10~14 章組成,主要講述數據挖掘的高級算法及套用,包括集成學習、隨機森林、支持向量機和神經網路,以及使用R 中的工具對數據挖掘的模型進行評估與選擇。對於中高級的用戶,可以深入學習一下本篇的內容。
R 的特點是入門非常容易,使用也非常簡單,因此本書不需要讀者具備R 和數據挖掘的基礎知識。不管是R 初學者,還是熟練的R 用戶都能從書中找到對自己有用的內容,快速入門和提高。
讀者既可以把本書作為學習如何套用R 的一本優秀的教材,也可以作為數據挖掘的工具書。
全書以實際問題、解決方案和對解決方案的討論為主線來組織內容,脈絡清晰,並且各章自成體系。讀者可以從頭至尾逐章學習,也可以根據自己的需要進行學習,根據自己在實際中遇到的問題尋找解決方案。
本書所編寫的源程式,都通過了反覆調試,讀者可在網站下載,方便讀者使用。
本書主要由黃文、王正林編寫,其他參與編寫的人員有付東旭、王思琪、鐘太平、劉擁軍、陳菜枚、李燦輝、鍾事沅、王曉麗、王龍躍、夏路生、鍾頌飛、鍾杜清、王殿祜等。在此對所有參與編寫的人員表示感謝!對關心、支持我們的讀者表示感謝!
由於時間倉促,作者水平和經驗有限,書中錯漏之處在所難免,敬請讀者指正。
編 者
2014 年4 月18 日於北京

名人推薦

R的最美之處在於,能夠通過修改很多牛人預先編寫好的包的代碼,解決你想解決的各種問題,因此,事實上,使用R,你已經站在了巨人的肩膀上。
——哈爾·羅納德·范里安

相關詞條

熱門詞條

聯絡我們