玩轉Python網路爬蟲

玩轉Python網路爬蟲

本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發網路爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網路爬蟲所需的基礎知識,分別是網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網路做全面分析;數據抓取介紹了Python爬蟲模組Urllib和Requests的基礎知識;數據清洗主要介紹字元串操作、正則和Beautiful Soup的使用;數據入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現數據持久化,實現企業級開發。實戰篇深入講解了分散式爬蟲、爬蟲軟體開發與套用、12306搶票程式和微博爬取,所舉示例均來自於開發實踐,可幫助讀者快速提升技能,開發實際項目。

詳細介紹

玩轉Python網路爬蟲

作者:黃永祥
定價:69元
印次:1-1
ISBN:9787302503286
出版日期:2018.08.01
印刷日期:2018.10.17

圖書簡介

本書站在初學者的角度,從原理到實踐,循序漸進地講述了使用Python開發網路爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網路爬蟲所需的基礎知識,分別是網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網路做全面分析;數據抓取介紹了Python爬蟲模組Urllib和Requests的基礎知識;數據清洗主要介紹字元串操作、正則和Beautiful Soup的使用;數據入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現數據持久化,實現企業級開發。實戰篇深入講解了分散式爬蟲、爬蟲軟體開發與套用、12306搶票程式和微博爬取,所舉示例均來自於開發實踐,可幫助讀者快速提升技能,開發實際項目。

作者介紹

黃永祥,信息管理與信息系統專業學士,曾從事過系統開發和自動化開發,精通B/S和C/S自動化測試技術,多年網路爬蟲開發經驗,對反爬蟲機制有獨到的見解,精通Flask、Django等Web框架並有豐富的網站開發經驗。曾就職於廣州易點科技有限公司,擔任Python開發工程師,目前就職於廣東數據集成有限公司。熱愛分享和新技術的探索,在CSDN上發表多篇Python技術文章。

圖書目錄

第1章 理解網路爬蟲 1

1.1 爬蟲的定義 1

1.2 爬蟲的類型 2

1.3 爬蟲的原理 3

1.4 爬蟲的搜尋策略 5

1.5 反爬蟲技術及解決方案 6

1.6 本章小結 8

第2章 爬蟲開發基礎 9

2.1 HTTP與HTTPS 9

2.2 請求頭 11

2.3 Cookies 13

2.4 HTML 14

2.5 JavaScript 16

2.6 JSON 18

2.7 Ajax 19

2.8 本章小結 20

第3章 Chrome分析網站 21

3.1 Chrome開發工具 21

3.2 Elements標籤 22

3.3 Network標籤 23

3.4 分析QQ音樂 27

3.5 本章小結 29

第4章 Fiddler抓包工具 30

4.1 Fiddler介紹 30

4.2 Fiddler安裝配置 31

4.3 Fiddler抓取手機套用 33

4.4 Toolbar工具列 36

4.5 Web Session列表 37

4.6 View選項視圖 40

4.7 Quickexec命令行 41

4.8 本章小結 42

第5章 Urllib數據抓取 43

5.1 Urllib簡介 43

5.2 傳送請求 44

5.3 複雜的請求 46

5.4 代理IP 47

5.5 使用Cookies 48

5.6 證書驗證 50

5.7 數據處理 51

5.8 本章小結 52

第6章 Requests數據抓取54

6.1Requests簡介及安裝54

6.2請求方式55

6.3複雜的請求方式57

6.4下載與上傳60

6.5本章小結63

第7章 驗證碼識別64

7.1驗證碼類型64

7.2OCR技術66

7.3第三方平台69

7.4本章小結72

第8章 數據清洗74

8.1字元串操作74

8.2正則表達式78

8.3BeautifulSoup介紹及安裝84

8.4BeautifulSoup的使用86

8.5本章小結90

第9章 文檔數據存儲92

9.1CSV數據寫入和讀取92

9.2Excel數據寫入和讀取94

9.3Word數據寫入和讀取99

9.4本章小結101

第10章 ORM框架104

10.1SQLAlchemy介紹104

10.2安裝SQLAlchemy105

10.3連線資料庫106

10.4創建數據表108

10.5添加數據111

10.6更新數據112

10.7查詢數據114

10.8本章小結116

第11章 MongoDB資料庫操作118

11.1MongoDB介紹118

11.2安裝及使用120

11.2.1MongoDB120

11.2.2MongoDB可視化工具121

11.2.3PyMongo123

11.3連線資料庫123

11.4添加文檔125

11.5更新文檔126

11.6查詢文檔127

11.7本章小結130

第12章 項目實戰:爬取淘寶商品信息131

12.1分析說明131

12.2功能實現134

12.3數據存儲136

12.4本章小結138

第13章 項目實戰:分散式爬蟲——QQ音樂139

13.1分析說明139

13.2歌曲下載140

13.3歌手和歌曲信息145

13.4分類歌手列表148

13.5全站歌手列表150

13.6數據存儲152

13.7分散式概念154

13.7.1GIL是什麼154

13.7.2為什麼會有GIL154

13.8並發庫concurrent.futures155

13.9分散式爬蟲157

13.10本章小結159

第14章 項目實戰:爬蟲軟體——淘寶商品信息161

14.1分析說明161

14.2GUI庫介紹162

14.3PyQt5安裝及環境搭建162

14.4軟體界面開發165

14.5MVC——視圖169

14.6MVC——控制器171

14.7MVC——模型172

14.8擴展思路173

14.9本章小結174

第15章 項目實戰:12306搶票176

15.1分析說明176

15.2驗證碼驗證177

15.3用戶登錄與驗證181

15.4查詢車次187

15.5預訂車票193

15.6提交訂單196

15.7生成訂單204

15.8本章小結209

第16章 項目實戰:玩轉微博219

16.1分析說明219

16.2用戶登錄220

16.3用戶登錄(帶驗證碼)232

16.4關鍵字搜尋熱門微博240

16.5發布微博247

16.6關注用戶253

16.7點讚和轉發評論257

16.8本章小結263

第17章 Scrapy爬蟲框架265

17.1爬蟲框架265

17.2Scrapy的運行機制267

17.3安裝Scrapy268

17.4爬蟲開發快速入門270

17.5Spiders介紹277

17.6Spider的編寫278

17.7Items的編寫282

17.8ItemPipeline的編寫284

17.9Selectors的編寫288

17.10檔案下載291

17.11本章小結296

第18章 項目實戰:Scrapy爬取QQ音樂298

18.1分析說明298

18.2創建項目299

18.3編寫setting300

18.4編寫Items301

18.5編寫ItemPipelines302

18.6編寫Spider305

18.7本章小結310

相關詞條

熱門詞條

聯絡我們