詳細介紹
玩轉Python網路爬蟲
作者:黃永祥
定價:69元
印次:1-1
ISBN:9787302503286
出版日期:2018.08.01
印刷日期:2018.10.17
圖書簡介
本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發網路爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網路爬蟲所需的基礎知識,分別是網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網路做全面分析;數據抓取介紹了Python爬蟲模組Urllib和Requests的基礎知識;數據清洗主要介紹字元串操作、正則和Beautiful Soup的使用;數據入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現數據持久化,實現企業級開發。實戰篇深入講解了分散式爬蟲、爬蟲軟體開發與套用、12306搶票程式和微博爬取,所舉示例均來自於開發實踐,可幫助讀者快速提升技能,開發實際項目。
作者介紹
黃永祥,信息管理與信息系統專業學士,曾從事過系統開發和自動化開發,精通B/S和C/S自動化測試技術,多年網路爬蟲開發經驗,對反爬蟲機制有獨到的見解,精通Flask、Django等Web框架並有豐富的網站開發經驗。曾就職於廣州易點科技有限公司,擔任Python開發工程師,目前就職於廣東數據集成有限公司。熱愛分享和新技術的探索,在CSDN上發表多篇Python技術文章。
圖書目錄
第1章 理解網路爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜尋策略 5
1.5 反爬蟲技術及解決方案 6
1.6 本章小結 8
第2章 爬蟲開發基礎 9
2.1 HTTP與HTTPS 9
2.2 請求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 JavaScript 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結 20
第3章 Chrome分析網站 21
3.1 Chrome開發工具 21
3.2 Elements標籤 22
3.3 Network標籤 23
3.4 分析QQ音樂 27
3.5 本章小結 29
第4章 Fiddler抓包工具 30
4.1 Fiddler介紹 30
4.2 Fiddler安裝配置 31
4.3 Fiddler抓取手機套用 33
4.4 Toolbar工具列 36
4.5 Web Session列表 37
4.6 View選項視圖 40
4.7 Quickexec命令行 41
4.8 本章小結 42
第5章 Urllib數據抓取 43
5.1 Urllib簡介 43
5.2 傳送請求 44
5.3 複雜的請求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 證書驗證 50
5.7 數據處理 51
5.8 本章小結 52
第6章 Requests數據抓取54
6.1Requests簡介及安裝54
6.2請求方式55
6.3複雜的請求方式57
6.4下載與上傳60
6.5本章小結63
第7章 驗證碼識別64
7.1驗證碼類型64
7.2OCR技術66
7.3第三方平台69
7.4本章小結72
第8章 數據清洗74
8.1字元串操作74
8.2正則表達式78
8.3BeautifulSoup介紹及安裝84
8.4BeautifulSoup的使用86
8.5本章小結90
第9章 文檔數據存儲92
9.1CSV數據寫入和讀取92
9.2Excel數據寫入和讀取94
9.3Word數據寫入和讀取99
9.4本章小結101
第10章 ORM框架104
10.1SQLAlchemy介紹104
10.2安裝SQLAlchemy105
10.3連線資料庫106
10.4創建數據表108
10.5添加數據111
10.6更新數據112
10.7查詢數據114
10.8本章小結116
第11章 MongoDB資料庫操作118
11.1MongoDB介紹118
11.2安裝及使用120
11.2.1MongoDB120
11.2.2MongoDB可視化工具121
11.2.3PyMongo123
11.3連線資料庫123
11.4添加文檔125
11.5更新文檔126
11.6查詢文檔127
11.7本章小結130
第12章 項目實戰:爬取淘寶商品信息131
12.1分析說明131
12.2功能實現134
12.3數據存儲136
12.4本章小結138
第13章 項目實戰:分散式爬蟲——QQ音樂139
13.1分析說明139
13.2歌曲下載140
13.3歌手和歌曲信息145
13.4分類歌手列表148
13.5全站歌手列表150
13.6數據存儲152
13.7分散式概念154
13.7.1GIL是什麼154
13.7.2為什麼會有GIL154
13.8並發庫concurrent.futures155
13.9分散式爬蟲157
13.10本章小結159
第14章 項目實戰:爬蟲軟體——淘寶商品信息161
14.1分析說明161
14.2GUI庫介紹162
14.3PyQt5安裝及環境搭建162
14.4軟體界面開發165
14.5MVC——視圖169
14.6MVC——控制器171
14.7MVC——模型172
14.8擴展思路173
14.9本章小結174
第15章 項目實戰:12306搶票176
15.1分析說明176
15.2驗證碼驗證177
15.3用戶登錄與驗證181
15.4查詢車次187
15.5預訂車票193
15.6提交訂單196
15.7生成訂單204
15.8本章小結209
第16章 項目實戰:玩轉微博219
16.1分析說明219
16.2用戶登錄220
16.3用戶登錄(帶驗證碼)232
16.4關鍵字搜尋熱門微博240
16.5發布微博247
16.6關注用戶253
16.7點讚和轉發評論257
16.8本章小結263
第17章 Scrapy爬蟲框架265
17.1爬蟲框架265
17.2Scrapy的運行機制267
17.3安裝Scrapy268
17.4爬蟲開發快速入門270
17.5Spiders介紹277
17.6Spider的編寫278
17.7Items的編寫282
17.8ItemPipeline的編寫284
17.9Selectors的編寫288
17.10檔案下載291
17.11本章小結296
第18章 項目實戰:Scrapy爬取QQ音樂298
18.1分析說明298
18.2創建項目299
18.3編寫setting300
18.4編寫Items301
18.5編寫ItemPipelines302
18.6編寫Spider305
18.7本章小結310