內容簡介
機器學習是計算機科學和人工智慧中非常重要的一個研究領域,近年來,機器學
習不但在計算機科學的眾多領域中大顯身手,而且成為一些交叉學科的重要支撐技術。本書比較全面系統地介紹了機器學習的方法和技術,不僅詳細闡述了許多經典的學習方法,還討論了一些有生命力的新理論、新方法。
全書案例既有分類問題,也有回歸問題;既包含監督學習,也涵蓋無監督學習。本書討論的案例從分類講到回歸,然後討論了聚類、降維、最最佳化問題等。這些案例包括分類:垃圾郵件識別,排序:智慧型收件箱,回歸模型:預測網頁訪問量,正則化:文本回歸,最最佳化:密碼破解,無監督學習:構建股票市場指數,空間相似度:用投票記錄對美國參議員聚類,推薦系統:給用戶推薦R語言包,社交網路分析:在Twitter上感興趣的人,模型比較:給你的問題找到最佳算法。各章對原理的敘述力求概念清晰、表達準確,突出理論聯繫實際,富有啟發性,易於理解。在探索這些案例的過程中用到的基本工具就是R統計程式語言。R語言非常適合用於機器學習的案例研究,因為它是一種用於數據分析的高水平、功能性腳本語言。
部分知識點列表
- 開發一個樸素貝葉斯分類器,僅僅根據郵件的文本信息來判斷這封郵件是否是垃圾郵件;
- 使用線性回歸來預測網際網路排名前1000網站的PV;
- 利用文本回歸理解圖書中詞與詞之間的關係;
- 通過嘗試破譯一個簡單的密碼來學習最佳化技術;
- 利用無監督學習構建股票市場指數,用於衡量整體市場行情的好壞;
- 根據美國參議院的投票情況,從統計學的角度對美國參議員聚類;
- 通過K近鄰算法構建向用戶推薦R語言包;
- 利用Twitter數據來構建一個“你可能感興趣的人”的推薦系統;
- 模型比較:給你的問題找到最佳算法。
作者簡介
Drew Conway 機器學習專家,擁有豐富的數據分析與處理工作經驗。目前主要利用數學、統計學和計算機技術研究國際關係、衝突和恐怖主義等。他曾作為研究員在美國情報和國防部門供職數年。他擁有紐約大學政治系博士學位,曾為多種雜誌撰寫文章,是機器學習領域的著名學者。
John Myles White 機器學習專家,擁有豐富的數據分析與處理工作經驗。目前主要從理論和實驗的角度來研究人類如何做出決定,同時還是幾個流行的R語言程式包的主要維護者,包括ProjectTemplate和log4r。他擁有普林斯頓大學哲學系博士學位,曾為多家技術雜誌撰稿,發表過許多關於機器學習的論文,並在眾多國際會議上發表演講。
審校/譯者簡介
羅森林博士,教授,博導。現任北京理工大學信息系統及安全對抗實驗中心主任、專業責任教授。國防科技工業局科學技術委員會成員;《中國醫學影像技術雜誌》、《中國介入影像與治療學》編委會委員;全國大學生信息安全技術專題邀請賽專家組副組長;中國人工智慧學會智慧型信息安全專業委員會委員等。主要研究方向為信息安全、數據挖掘、媒體計算、中文信息處理等。負責或參加完成國家自然科學基金、國家科技支撐計畫、863計畫、國家242計畫等省部級以上項目40餘項。已發表學術論文90餘篇,出版著作8部,出版譯著1部,獲授權專利3項。
陳開江 新浪微博搜尋部研發工程師,曾獨立負責微博內容反垃圾系統、微博精選內容挖掘算法、自助客服系統(包括自動回復、主動挖掘、輿情監測)等項目,目前主要從事社交挖掘、推薦算法研究、機器學習、自然語言處理相關工作,研究興趣是社交網路的個性化推薦。
劉逸哲 阿里巴巴,CBU基礎平台部搜尋與推薦團隊核心技術與query分析方向負責人,機器學習技術領域及圈子負責人。曾任中國雅虎相關性團隊、自然語言處理團隊算法工程師;AvePoint.inc開發工程師,從事企業級搜尋引擎開發。研究興趣是機器學習、自然語言處理及個性化推薦等算法在大規模數據上的套用。
孟曉楠 一淘廣告技術,阿里非搜尋廣告算法負責人,負責用戶行為分析、建模與細分,RTB競價算法,展示廣告CTR預估與SEM最佳化。曾工作於網易杭州研究院,參與過分散式全文檢索系統和網易部落格產品的數據挖掘算法開發。研究興趣是計算廣告技術、機器學習、大數據技術、信息檢索等。
目錄
前言 1
第1章 使用R語言 9
R與機器學習 10
第2章 數據分析 36
分析與驗證 36
什麼是數據 37
推斷數據的類型 40
推斷數據的含義 42
數值摘要表 43
均值、中位數、眾數 44
分位數 46
標準差和方差 47
可視化分析數據 49
列相關的可視化 68
第3章 分類:垃圾過濾 77
非此即彼:二分類 77
漫談條件機率 81
試寫第一個貝葉斯垃圾分類器 82
第4章 排序:智慧型收件箱 97
次序未知時該如何排序 97
按優先權給郵件排序 98
實現一個智慧型收件箱 102
第5章 回歸模型:預測網頁訪問量 128
回歸模型簡介 128
預測網頁流量 142
定義相關性 152
第6章 正則化:文本回歸 155
數據列之間的非線性關係:超越直線 155
避免過擬合的方法 164
文本回歸 174
第7章 最佳化:密碼破譯 182
最佳化簡介 182
嶺回歸 188
密碼破譯最佳化問題 193
第8章 PCA:構建股票市場指數 203
無監督學習 203
主成分分析 204
第9章 MDS:可視化地研究參議員相似性 212
基於相似性聚類 212
如何對美國參議員做聚類 219
第10章 kNN:推薦系統 229
k近鄰算法 229
R語言程式包安裝數據 235
第11章 分析社交圖譜 239
社交網路分析 239
用黑客的方法研究Twitter的社交關係圖數據 244
分析Twitter社交網路 252
第12章 模型比較 270
SVM:支持向量機 270
算法比較 280
參考文獻 287