內容提要
機器學習一直是人工智慧研究領域的重要方向,而在大數據時代,來自Web 的數據採集、挖掘、套用技術又越來越受到矚目,並創造著巨大的價值。本書是有關Web數據挖掘和機器學習技術的一本知名的著作,第2 版進一步加入了本領域最新的研究內容和套用案例,介紹了統計學、結構建模、推薦系統、數據分類、點擊預測、深度學習、效果評估、數據採集等眾多方面的內容。《智慧型Web算法(第2版)》內容翔實、案例生動,有很高的閱讀價值。
《智慧型Web算法(第2版)》適合對算法感興趣的工程師與學生閱讀,對希望從業務角度更好地理解機器學習技術的產品經理和管理層來說,亦有很好的參考價值。
目錄
第1章 為智慧型Web建立套用1
1.1 智慧型算法的實踐運用:Google Now 3
1.2 智慧型算法的生命周期5
1.3 智慧型算法的更多示例6
1.4 不屬於智慧型套用的內容 7
1.4.1 智慧型算法並不是萬能的思考機器 7
1.4.2 智慧型算法並不能成為完全代替人類的工具8
1.4.3 智慧型算法的發展並非一蹴而就 8
1.5 智慧型算法的類別體系9
1.5.1 人工智慧 9
1.5.2 機器學習10
1.5.3 預測分析 11
1.6 評估智慧型算法的效果 13
1.6.1 評估智慧型化的程度 13
1.6.2 評估預測14
1.7 智慧型算法的重點歸納 16
1.7.1 你的數據未必可靠 16
1.7.2 計算難以瞬間完成 17
1.7.3 數據規模非常重要 17
1.7.4 不同的算法具有不同的擴展能力 18
1.7.5 並不存在萬能的方法 18
1.7.6 數據並不是萬能的 18
1.7.7 模型訓練時間差異很大18
1.7.8 泛化能力是目標19
1.7.9 人類的直覺未必準確 19
1.7.10 要考慮融入更多新特徵 19
1.7.11 要學習各種不同的模型 19
1.7.12 相關關係不等同於因果關係 20
1.8 本章小結20
第2章 從數據中提取結構:聚類和數據變換21
2.1 數據、結構、偏見和噪聲 23
2.2 維度詛咒26
2.3 k-means算法27
2.3.1 實踐運用 k-means31
2.4 高斯混合模型 34
2.4.1 什麼是高斯分布34
2.4.2 期望最大與高斯分布 37
2.4.3 高斯混合模型 37
2.4.4 高斯混合模型的學習實例 38
2.5 k-means和GMM的關係41
2.6 數據坐標軸的變換 42
2.6.1 特徵向量和特徵值 43
2.6.2 主成分分析 43
2.6.3 主成分分析的示例 45
2.7 本章小結47
第3章 推薦系統的相關內容48
3.1 場景設定:線上電影商店 49
3.2 距離和相似度 50
3.2.1 距離和相似度的剖析 54
3.2.2 最好的相似度公式是什麼 56
3.3 推薦引擎是如何工作的57
3.4 基於用戶的協同過濾 59
3.5 奇異值分解用於基於模型的推薦 64
3.5.1 奇異值分解 64
3.5.2 使用奇異值分解進行推薦:為用戶挑選電影66
3.5.3 使用奇異值分解進行推薦:幫電影找到用戶71
3.6 Net.ix競賽74
3.7 評估推薦系統 76
3.8 本章小結78
第4章 分類:將物品歸類到所屬的地方79
4.1 對分類的需求 80
4.2 分類算法概覽 83
4.2.1 結構性分類算法84
4.2.2 統計性分類算法86
4.2.3 分類器的生命周期 87
4.3 基於邏輯回歸的欺詐檢測 88
4.3.1 線性回歸簡介 89
4.3.2 從線性回歸到邏輯回歸91
4.3.3 欺詐檢測的套用94
4.4 你的結果可信嗎 102
4.5 大型數據集的分類技術 106
4.6 本章小結 108
第5章 線上廣告點擊預測.109
5.1 歷史與背景 110
5.2 廣告交易平台 112
5.2.1 cookie 匹配 113
5.2.2 競價(bid) 113
5.2.3 競價成功(或失敗)的通知 114
5.2.4 廣告展示位 114
5.2.5 廣告監測 115
5.3 什麼是bidder 115
5.3.1 bidder的需求 116
5.4 何為決策引擎 117
5.4.1 用戶信息 117
5.4.2 廣告展示位信息 117
5.4.3 上下文信息 117
5.4.4 數據準備 118
5.4.5 決策引擎模型 118
5.4.6 將點擊率預測值映射為競價價格 118
5.4.7 特徵工程 119
5.4.8 模型訓練 119
5.5 使用Vowpal Wabbit進行點擊預測 120
5.5.1 Vowpal Wabbit的數據格式 120
5.5.2 準備數據集123
5.5.3 測試模型 128
5.5.4 模型修正 131
5.6 構建決策引擎的複雜問題132
5.7 實時預測系統的前景 133
5.8 本章小結 134
第6章 深度學習和神經網路.135
6.1 深度學習的直觀方法 136
6.2 神經網路 137
6.3 感知機 139
6.3.1 模型訓練 141
6.3.2 用 scikit-learn訓練感知機142
6.3.3 兩個輸入值的感知機的幾何解釋144
6.4 多層感知機146
6.4.1 用反向傳播訓練 150
6.4.2 激活函式 150
6.4.3 反向傳播背後的直觀理解152
6.4.4 反向傳播理論 153
6.4.5 scikit-learn中的多層神經網路 155
6.4.6 訓練出來的多層感知機 158
6.5 更深層:從多層神經網路到深度學習 159
6.5.1 受限玻耳茲曼機 160
6.5.2 伯努利受限玻耳茲曼機 160
6.5.3 受限玻耳茲曼機實戰 164
6.6 本章小結 167
第7章 做出正確的選擇168
7.1 A/B測試 170
7.1.1 相關的理論170
7.1.2 評估代碼 173
7.1.3 A/B測試的適用性174
7.2 多臂賭博機175
7.2.1 多臂賭博機策略 176
7.3 實踐中的貝葉斯賭博機策略 180
7.4 A/B測試與貝葉斯賭博機的對比 191
7.5 擴展到多臂賭博機192
7.5.1 上下文賭博機 193
7.5.2 對抗賭博機193
7.6 本章小結 194
第8章 智慧型Web的未來196
8.1 智慧型Web的未來套用197
8.1.1 物聯網 197
8.1.2 家庭健康護理 198
8.1.3 自動駕駛汽車 198
8.1.4 個性化的線下廣告199
8.1.5 語義網 199
8.2 智慧型Web的社會影響200
附錄A 抓取網路上的數據.201