機器學習:實用案例解析

機器學習:實用案例解析

《機器學習:實用案例解析》是由機械工業出版社出版的圖書作品,出版時間為2013年4月。

基本信息

內容簡介

機器學習是計算機科學和人工智慧中非常重要的一個研究領域,近年來,機器學

機器學習:實用案例解析

習不但在計算機科學的眾多領域中大顯身手,而且成為一些交叉學科的重要支撐技術。本書比較全面系統地介紹了機器學習的方法和技術,不僅詳細闡述了許多經典的學習方法,還討論了一些有生命力的新理論、新方法。

全書案例既有分類問題,也有回歸問題;既包含監督學習,也涵蓋無監督學習。本書討論的案例從分類講到回歸,然後討論了聚類、降維、最最佳化問題等。這些案例包括分類:垃圾郵件識別,排序:智慧型收件箱,回歸模型:預測網頁訪問量,正則化:文本回歸,最最佳化:密碼破解,無監督學習:構建股票市場指數,空間相似度:用投票記錄對美國參議員聚類,推薦系統:給用戶推薦R語言包,社交網路分析:在Twitter上感興趣的人,模型比較:給你的問題找到最佳算法。各章對原理的敘述力求概念清晰、表達準確,突出理論聯繫實際,富有啟發性,易於理解。在探索這些案例的過程中用到的基本工具就是R統計程式語言。R語言非常適合用於機器學習的案例研究,因為它是一種用於數據分析的高水平、功能性腳本語言。

部分知識點列表

  • 開發一個樸素貝葉斯分類器,僅僅根據郵件的文本信息來判斷這封郵件是否是垃圾郵件;
  • 使用線性回歸來預測網際網路排名前1000網站的PV;
  • 利用文本回歸理解圖書中詞與詞之間的關係;
  • 通過嘗試破譯一個簡單的密碼來學習最佳化技術;
  • 利用無監督學習構建股票市場指數,用於衡量整體市場行情的好壞;
  • 根據美國參議院的投票情況,從統計學的角度對美國參議員聚類;
  • 通過K近鄰算法構建向用戶推薦R語言包;
  • 利用Twitter數據來構建一個“你可能感興趣的人”的推薦系統;
  • 模型比較:給你的問題找到最佳算法。

作者簡介

Drew Conway 機器學習專家,擁有豐富的數據分析與處理工作經驗。目前主要利用數學、統計學和計算機技術研究國際關係、衝突和恐怖主義等。他曾作為研究員在美國情報和國防部門供職數年。他擁有紐約大學政治系博士學位,曾為多種雜誌撰寫文章,是機器學習領域的著名學者。

John Myles White 機器學習專家,擁有豐富的數據分析與處理工作經驗。目前主要從理論和實驗的角度來研究人類如何做出決定,同時還是幾個流行的R語言程式包的主要維護者,包括ProjectTemplate和log4r。他擁有普林斯頓大學哲學系博士學位,曾為多家技術雜誌撰稿,發表過許多關於機器學習的論文,並在眾多國際會議上發表演講。

審校/譯者簡介

羅森林博士,教授,博導。現任北京理工大學信息系統及安全對抗實驗中心主任、專業責任教授。國防科技工業局科學技術委員會成員;《中國醫學影像技術雜誌》、《中國介入影像與治療學》編委會委員;全國大學生信息安全技術專題邀請賽專家組副組長;中國人工智慧學會智慧型信息安全專業委員會委員等。主要研究方向為信息安全、數據挖掘、媒體計算、中文信息處理等。負責或參加完成國家自然科學基金、國家科技支撐計畫、863計畫、國家242計畫等省部級以上項目40餘項。已發表學術論文90餘篇,出版著作8部,出版譯著1部,獲授權專利3項。

陳開江 新浪微博搜尋部研發工程師,曾獨立負責微博內容反垃圾系統、微博精選內容挖掘算法、自助客服系統(包括自動回復、主動挖掘、輿情監測)等項目,目前主要從事社交挖掘、推薦算法研究、機器學習、自然語言處理相關工作,研究興趣是社交網路的個性化推薦。

劉逸哲 阿里巴巴,CBU基礎平台部搜尋與推薦團隊核心技術與query分析方向負責人,機器學習技術領域及圈子負責人。曾任中國雅虎相關性團隊、自然語言處理團隊算法工程師;AvePoint.inc開發工程師,從事企業級搜尋引擎開發。研究興趣是機器學習、自然語言處理及個性化推薦等算法在大規模數據上的套用。

孟曉楠 一淘廣告技術,阿里非搜尋廣告算法負責人,負責用戶行為分析、建模與細分,RTB競價算法,展示廣告CTR預估與SEM最佳化。曾工作於網易杭州研究院,參與過分散式全文檢索系統和網易部落格產品的數據挖掘算法開發。研究興趣是計算廣告技術、機器學習、大數據技術、信息檢索等。

目錄

前言 1

第1章 使用R語言 9

R與機器學習 10

第2章 數據分析 36

分析與驗證 36

什麼是數據 37

推斷數據的類型 40

推斷數據的含義 42

數值摘要表 43

均值、中位數、眾數 44

分位數 46

標準差和方差 47

可視化分析數據 49

列相關的可視化 68

第3章 分類:垃圾過濾 77

非此即彼:二分類 77

漫談條件機率 81

試寫第一個貝葉斯垃圾分類器 82

第4章 排序:智慧型收件箱 97

次序未知時該如何排序 97

按優先權給郵件排序 98

實現一個智慧型收件箱 102

第5章 回歸模型:預測網頁訪問量 128

回歸模型簡介 128

預測網頁流量 142

定義相關性 152

第6章 正則化:文本回歸 155

數據列之間的非線性關係:超越直線 155

避免過擬合的方法 164

文本回歸 174

第7章 最佳化:密碼破譯 182

最佳化簡介 182

嶺回歸 188

密碼破譯最佳化問題 193

第8章 PCA:構建股票市場指數 203

無監督學習 203

主成分分析 204

第9章 MDS:可視化地研究參議員相似性 212

基於相似性聚類 212

如何對美國參議員做聚類 219

第10章 kNN:推薦系統 229

k近鄰算法 229

R語言程式包安裝數據 235

第11章 分析社交圖譜 239

社交網路分析 239

用黑客的方法研究Twitter的社交關係圖數據 244

分析Twitter社交網路 252

第12章 模型比較 270

SVM:支持向量機 270

算法比較 280

參考文獻 287

相關詞條

相關搜尋

熱門詞條

聯絡我們