內容簡介
書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場行銷、個人品味等諸多信息,並得出有用的結論,通過複雜的算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜尋引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜尋海量信息並進行分析統計得出結論的最佳化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網路的信息匹配技術、機器學習和人工智慧套用等。
本書是Web開發者、架構師、套用工程師等的絕佳選擇。
作者簡介
Toby Segaran是Genstruct公司的軟體開發主管,這家公司涉足計算生物領域,他本人的職責是設計算法,並利用數據挖掘技術來輔助了解藥品機理。Toby Segaran還為其他幾家公司和數個開源項目服務,幫助它們從收集到的數據當中分析並發掘價值。除此以外,TobySegaran還建立了幾個免費的網站套用,包括流行的tasktoy和Lazybase。他非常喜歡滑雪與品酒,其部落格地址是bl09.kiwitobes.corn,現居於舊金山。
目錄
第1章 集體智慧導言
什麼是集體智慧
什麼是機器學習
機器學習的局限
真實生活中的例子
學習型算法的其他用途
第2章 提供推薦
協作型過濾
蒐集偏好
尋找相近的用戶
推薦物品
匹配商品
構建一個基於delici0US的連結推薦系統
基於物品的過濾
使用MovieLens數據集
基於用戶進行過濾還是基於物品進行過濾
練習
第3章 發現群組
監督學習和無監督學習
單詞向量
分級聚類
繪製樹狀圖
列聚類
K-均值聚類
針對偏好的聚類
以二維形式展現數據
有關聚類的其他事宜
練習
第4章 搜尋與排名
搜尋引擎的組成
一個簡單的爬蟲程式
建立索引
查詢
基於內容的排名
利用外部回指連結
從點擊行為中學習
練習
第5章 最佳化
組團旅遊
描述題解
成本函式
隨機搜尋
爬山法
模擬退火算法
遺傳算法
真實的航班搜尋
涉及偏好的最佳化
網路可視化
其他可能的套用場合
練習
第6章 文檔過濾
過濾垃圾信息
文檔和單詞
對分類器進行訓練
計算機率
樸素分類器
費舍爾方法
將經過訓練的分類器持久化
過濾部落格訂閱源
對特徵檢測的改進
使用Akismet
替代方法
練習
第7章 決策樹建模
預測註冊用戶
引入決策樹
對樹進行訓練
選擇最合適的拆分方案
以遞歸方式構造樹
決策樹的顯示
對新的觀測數據進行分類
決策樹的剪枝
處理缺失數據
處理數值型結果
對住房價格進行建模
對“熱度”評價進行建模
什麼時候使用決策樹
練習
第8章 構建價格模型
第9章 高階分類:核方法與SVM
第10章 尋找獨立特徵
第11章 智慧型進化
第12章 算法總結
附錄A:第三方函式館
附錄B:數學公式
索引