Python網路數據採集

Python網路數據採集

《Python網路數據採集》是2016年人民郵電出版社出版的圖書,作者是【美】米切爾 ( RyanMitchell )。

內容簡介

本書採用簡潔強大的Python語言,介紹了網路數據採集,並為採集新式網路中的各種數據類型提供了全面的指導。第1部分重點介紹網路數據採集的基本原理:如何用Python從網路伺服器請求信息,如何對伺服器的回響進行基本處理,以及如何以自動化手段與網站進行互動。第二部分介紹如何用網路爬蟲測試網站,自動化處理,以及如何通過更多的方式接入網路。

目錄

譯者序 ix

前言 xi

第一部分 創建爬蟲

第1章 初見網路爬蟲 2

1.1 網路連線 2

1.2 BeautifulSoup簡介 4

1.2.1 安裝BeautifulSoup 5

1.2.2 運行BeautifulSoup 7

1.2.3 可靠的網路連線 8

第2章 複雜HTML解析 11

2.1 不是一直都要用錘子 11

2.2 再端一碗BeautifulSoup 12

2.2.1 BeautifulSoup的find()和findAll() 13

2.2.2 其他BeautifulSoup對象 15

2.2.3 導航樹 16

2.3 正則表達式 19

2.4 正則表達式和BeautifulSoup 23

2.5 獲取屬性 24

2.6 Lambda表達式 24

2.7 超越BeautifulSoup 25

第3 章 開始採集 26

3.1 遍歷單個域名 26

3.2 採集整個網站 30

3.3 通過網際網路採集 34

3.4 用Scrapy 採集 38

第4 章 使用API 42

4.1 API 概述 43

4.2 API 通用規則 43

4.2.1 方法 44

4.2.2 驗證 44

4.3 伺服器回響 45

4.4 Echo Nest 46

4.5 Twitter API 48

4.5.1 開始 48

4.5.2 幾個示例 50

4.6 Google API 52

4.6.1 開始 52

4.6.2 幾個示例 53

4.7 解析JSON 數據 55

4.8 回到主題 56

4.9 再說一點API 60

第5 章 存儲數據 61

5.1 媒體檔案 61

5.2 把數據存儲到CSV 64

5.3 MySQL 65

5.3.1 安裝MySQL 66

5.3.2 基本命令 68

5.3.3 與Python 整合 71

5.3.4 資料庫技術與最佳實踐 74

5.3.5 MySQL 里的“六度空間遊戲” 75

5.4 Email 77

第6 章 讀取文檔 80

6.1 文檔編碼 80

6.2 純文本 81

6.3 CSV 85

6.4 PDF 87

6.5 微軟Word 和.docx 88

第二部分 高級數據採集

第7 章 數據清洗 94

7.1 編寫代碼清洗數據 94

7.2 數據存儲後再清洗 98

第8 章 自然語言處理 103

8.1 概括數據 104

8.2 馬爾可夫模型 106

8.3 自然語言工具包 112

8.3.1 安裝與設定 112

8.3.2 用NLTK 做統計分析 113

8.3.3 用NLTK 做詞性分析 115

8.4 其他資源 119

第9 章 穿越網頁表單與登錄視窗進行採集 120

9.1 Python Requests 庫 120

9.2 提交一個基本表單 121

9.3 單選按鈕、複選框和其他輸入 123

9.4 提交檔案和圖像 124

9.5 處理登錄和cookie 125

9.6 其他表單問題 127

第10 章 採集JavaScript 128

10.1 JavaScript 簡介 128

10.2 Ajax 和動態HTML 131

10.3 處理重定向 137

第11 章 圖像識別與文字處理 139

11.1 OCR 庫概述 140

11.1.1 Pillow 140

11.1.2 Tesseract 140

11.1.3 NumPy 141

11.2 處理格式規範的文字 142

11.3 讀取驗證碼與訓練Tesseract 146

11.4 獲取驗證碼提交答案 151

第12 章 避開採集陷阱 154

12.1 道德規範 154

12.2 讓網路機器人看起來像人類用戶 155

12.2.1 修改請求頭 155

12.2.2 處理cookie 157

12.2.3 時間就是一切 159

12.3 常見表單安全措施 159

12.3.1 隱含輸入欄位值 159

12.3.2 避免蜜罐 160

12.4 問題檢查表 162

第13 章 用爬蟲測試網站 164

13.1 測試簡介 164

13.2 Python 單元測試 165

13.3 Selenium 單元測試 168

13.4 Python 單元測試與Selenium 單元測試的選擇 172

第14 章 遠程採集 174

14.1 為什麼要用遠程伺服器 174

14.1.1 避免IP 地址被封殺 174

14.1.2 移植性與擴展性 175

14.2 Tor 代理伺服器 176

14.3 遠程主機 177

14.3.1 從網站主機運行 178

14.3.2 從雲主機運行 178

14.4 其他資源 179

14.5 勇往直前 180

附錄A Python 簡介 181

附錄B 網際網路簡介 184

附錄C 網路數據採集的法律與道德約束 188

作者簡介 200

封面介紹 200

相關詞條

相關搜尋

熱門詞條

聯絡我們